發表文章

🕷️ Facebook 貼文爬蟲撰寫實務~邱允文

  🕷️ Facebook 貼文爬蟲撰寫實務 (Graph API 應用) 由於 Facebook 嚴格限制網頁爬蟲(Web Scraping),撰寫 Facebook 貼文爬蟲的主要實務是透過 Graph API 來存取資料。 1. ⚙️ 準備工作與權限設定 這是確保你的爬蟲能夠合法且有效地運作的基礎。 📌 步驟詳解 註冊 Meta 開發者帳號: 在 Meta 開發者平台 (Meta for Developers) 上建立帳號,並創建一個新的 應用程式 (App)。 設定應用程式類型與權限: 選擇符合你需求的應用程式類型(例如:商業或消費者)。對於貼文爬蟲,你通常需要存取 粉絲專頁 (Pages) 資料。 取得存取權杖 (Access Token): 使用者存取權杖: 透過 OAuth 流程取得,用於代表你個人或測試用戶來存取資料。這是獲取粉絲專頁資料的起點。 粉絲專頁存取權杖 (Page Access Token): 用戶存取權杖可以 交換 為長效期的粉絲專頁權杖。這是爬取特定粉絲專頁貼文所 必需 的。 所需權限 (Permissions): 至少需要 pages_read_engagement 和 pages_show_list 權限才能列出並讀取粉絲專頁的貼文。 2. 📡 呼叫 Graph API 獲取貼文資料 使用 Graph API 進行數據獲取的流程是基於 節點 (Node) 和 邊緣 (Edge) 的概念。 📌 步驟詳解 構造 API 請求 URL: API 請求是標準的 HTTP GET 請求,格式為: https://graph.facebook.com/vXX.0/{node_id}/{edge}?fields={fields}&access_token={token} 指定節點 (Node): 你希望爬取的目標,通常是粉絲專頁的 Page ID (例如: 20531316728 )。 指定邊緣 (Edge): 你想從該節點獲取的資料類型,例如 /posts (貼文) 或 /feed (貼文及其他動作)。 指定欄位 (Fields): 這是優化爬取效率的關鍵。使用 fields 參數來精確指定你需要的資料欄位,例如: message, created_time, likes.summa...

📘 Facebook API 應用與資料庫架構指南~邱允文

🔄 Python 迴圈語法實務解說~邱允文

🐍 Python 語法判斷實務指南