Robots.txt 與 Sitemaps 完全攻略:引導 Google 爬蟲看懂你的網站地圖

想像一下,Google 的爬蟲機器人 (Googlebot) 是一位勤奮的圖書館管理員,他的任務是閱讀並整理您網站這座「圖書館」裡的所有藏書(網頁),以便讀者(使用者)查詢時能快速找到。

在這個比喻中,robots.txt 檔案就是您貼在圖書館門口和各個區域的「訪客規則」,告訴管理員哪些是「員工專用區」請勿進入。而 Sitemaps(網站地圖) 則是您提供給管理員的「完整館藏目錄」,讓他能一目了然地知道圖書館裡有哪些書、放在哪裡,以及哪些是最新上架的。

同時掌握這兩項工具,是技術 SEO 的基礎,也是您與搜尋引擎進行高效溝通、確保網站內容被正確理解與收錄的關鍵第一步。本篇攻略將帶您深入了解這兩份核心檔案的用途、寫法與最佳實踐。


第一部分:Robots.txt — 網站的交通指揮官

robots.txt 是一個純文字檔案,必須放置在網站的根目錄下(例如 https://www.yourwebsite.com/robots.txt)。它的核心任務是向網路爬蟲(如 Googlebot)發出指令 (Directives),建議它們可以或不可以爬取網站上的哪些 URL 路徑。

Robots.txt 的基本語法

它的語法非常簡單,主要由兩部分組成:

  • User-agent: 指定這條規則適用於哪個爬蟲。* 代表適用於所有爬蟲,Googlebot 則只適用於 Google 的爬蟲。
  • Disallow: 禁止爬蟲訪問的目錄或檔案路徑。路徑必須以 / 開頭。

如何建立與上傳 Robots.txt 檔案(實戰教學)

這是一個簡單但極其重要的過程,任何一個小錯誤都可能導致指令失效。

方法1

第一步:使用純文字編輯器建立檔案

您必須使用一個不會加入任何格式化代碼的編輯器。

  • Windows 使用者: 使用內建的「記事本 (Notepad)」。
  • Mac 使用者: 使用內建的「文字編輯 (TextEdit)」。(重要:在儲存前,請點擊頂部菜單的「格式」>「製作純文字格式」)
  • 開發者: 可以使用 VS Code, Sublime Text, Notepad++ 等任何程式碼編輯器。

⚠️ 絕對不要使用 Microsoft Word 或 Google Docs,因為它們會嵌入肉眼看不見的格式化資訊,導致爬蟲無法讀取檔案。

第二步:編寫您的規則

根據您的需求,在空白的文字檔案中寫入指令。以下提供幾個最常見的範本:

範本 A:允許所有爬蟲爬取所有內容(最寬鬆)

User-agent: *
Disallow:

(Disallow 後面留空,代表沒有任何禁止事項)

範本 B:WordPress 網站的基礎建議(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap_index.xml’)

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.yourwebsite.com/sitemap_index.xml

(這個範例禁止爬蟲進入後台管理目錄,但允許爬取執行 AJAX 功能所需的重要檔案,並指明了 Sitemap 的位置)

範本 C:封鎖特定資料夾(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap.xml’)

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /private-files/

Sitemap: https://www.yourwebsite.com/sitemap.xml
第三步:正確儲存檔案
  1. 檔案名稱: 必須是 robots.txt (全部小寫)。
  2. 檔案編碼: 必須是 UTF-8。現代的文字編輯器通常預設就是這個格式。
第四步:上傳至網站根目錄

「根目錄」是您網站的最頂層目錄,通常被命名為 public_html, www, htdocshttpdocs

您可以使用以下任一方式上傳檔案:

  • 使用 cPanel 檔案管理器: 登入您的主機控制台 (cPanel),找到「檔案管理器」,進入網站的根目錄,並點擊「上傳」按鈕來上傳您的 robots.txt 檔案。
  • 使用 FTP 客戶端: 使用像 FileZilla 這類的 FTP 軟體,連線到您的主機,將檔案從您的電腦拖曳到遠端的網站根目錄中。
第五步:測試與驗證
  1. 瀏覽器檢查: 上傳後,立即在瀏覽器中訪問你網站的robot.txt檔案,如 https://www.yourwebsite.com/robots.txt。如果您能看到您剛才編寫的內容,代表上傳成功。
  2. 使用 Google Search Console 測試: 這是最權威的驗證方法。
    • 登入 Google Search Console。
    • 前往「設定」>「索引檢索」區塊下的「開啟報告」(針對 robots.txt)。
    • 您可以在這裡看到 Google 偵測到的 robots.txt 版本,並測試特定 URL 是否被您的規則所封鎖。

方法2(適合WordPress使用者)

第一步:使用Yoast SEO 插件

使用Yoast SEO 插件,可以直接在WordPress 後台編輯robots.txt 檔案。在WordPress 後台導覽至「Yoast SEO」下方的「工具」-> 檔案編輯器,即可找到並編輯robots.txt 檔案。如果沒有robot.txt,就按「建立 robot.txt」。

第二步:輸入以下程式碼(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap_index.xml’)

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.yourwebsite.com/sitemap_index.xml

第三步:儲存 robot.txt 的變更

儲存 robot.txt 的變更。


⚠️ 關鍵注意事項 (建立信任的重點)

  • Robots.txt 是君子協定,而非安全屏障: 它只是「建議」,主流爬蟲會遵守,但惡意爬蟲可以完全忽略。更重要的是,如果一個被 Disallow 的頁面從其他網站獲得了連結,Google 依然可能索引這個 URL(雖然無法爬取其內容),並在搜尋結果中顯示「因為此網站的 robots.txt,所以無法提供此結果的說明」。
  • 不要用 robots.txt 阻止索引: 如果您想讓一個頁面從 Google 搜尋結果中徹底消失,正確的方法是使用 noindex 中繼標籤,而不是 robots.txt。如果您用 robots.txt 封鎖了頁面,Googlebot 將無法看到頁面上的 noindex 標籤,反而可能導致問題。而 noindex 的做法是在需要禁止索引的頁面中,添加 <meta name=”robots” content=”noindex”> 標籤到 <head> 部分。
  • 不要封鎖 CSS 和 JavaScript 檔案: 現代網站需要 CSS 和 JS 才能正確渲染。如果封鎖了這些資源,Googlebot 將無法像真人使用者一樣「看見」您的網頁,這會嚴重影響它對您網站的評估。

第二部分:Sitemaps — 網站的清晰藍圖

網站地圖主要分為兩種,它們服務的對象和目的截然不同。

1. HTML 網站地圖

  • 服務對象: 真人使用者
  • 功能: 它是一個普通的網頁,以清晰的結構(通常是列表)列出網站上所有重要的頁面。它的目的是幫助使用者在網站上快速找到他們想要的內容,尤其是在網站結構複雜時,可以作為一個導航的輔助工具。
  • SEO 價值: 主要在於改善使用者體驗內部連結。一個好的 HTML 網站地圖能確保網站上所有重要頁面都至少有一個來自內部的連結,並幫助使用者和爬蟲發現深層的頁面。

2. XML 網站地圖

  • 服務對象: 搜尋引擎爬蟲
  • 功能: 這是一個專門為機器設計的 XML 格式檔案。它不僅僅是 URL 的列表,還可以包含關於每個 URL 的額外「元數據 (Metadata)」,例如:
    • <loc>: 頁面的完整 URL(必填)。
    • <lastmod>: 頁面最後修改的日期(高度建議,對 Google 很重要)。
    • <changefreq>: 頁面內容更新的頻率(如 daily, weekly)。
    • <priority>: 此 URL 相對於網站上其他 URL 的優先級(0.0 到 1.0)。
  • 為何至關重要? XML 網站地圖是您主動告知搜尋引擎「我網站上有這些重要頁面,請來索引」的最直接方式。它對於以下情況尤其重要:
    • 大型網站: 幫助爬蟲發現所有頁面,避免遺漏。
    • 新網站: 外部連結較少,Sitemap 可以幫助 Google 更快發現您的網站。
    • 內容孤島: 網站中存在一些內部連結做得不好的「孤兒頁面」,Sitemap 可以彌補這個缺陷。

【XML Sitemap 範例】

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.yourwebsite.com/</loc>
    <lastmod>2025-08-15</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.yourwebsite.com/about-us/</loc>
    <lastmod>2025-07-20</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

專家提示: 根據 Google 的官方文件和業界經驗,<lastmod> 是目前最重要的元數據標籤,而 <changefreq><priority> 的權重已經被 Google 大大降低,甚至基本忽略。因此,確保您的 <lastmod> 日期準確無誤,遠比設定其他兩個標籤重要。


第三部分:建立與提交 — 讓 Google 收到你的地圖

如何建立 XML 網站地圖?

  1. 使用 CMS 外掛: 如果您使用 WordPress,像 Yoast SEO, Rank Math 或 All in One SEO 這類外掛都能自動為您生成並即時更新 XML 網站地圖。這是最簡單、最推薦的方法。使用Yoast SEO 插件在WordPress 網站上生成XML Sitemap 非常簡單。 首先,確保已安裝並啟用Yoast SEO 插件。 接著,在WordPress 後台,進入「Yoast SEO」->「網站功能」,找到「XML Sitemap」選項並啟用功能。 這樣,Yoast SEO 就會自動為您的網站生成XML Sitemap,通常位於 yourdomain.com/sitemap_index.xml (把 ‘yourdomain.com’ 換成你的網站名,並保留 ‘/sitemap_index.xml’)。
  2. 使用線上生成器: 對於中小型靜態網站,可以使用 Screaming Frog SEO Spider(桌面軟體)或一些線上 Sitemap 生成器來爬取您的網站並生成 XML 檔案。
  3. 手動建立: 如果您的網站頁面極少,也可以手動編寫 XML 檔案,但這只適用於極端情況。

如何提交 XML 網站地圖?

  1. robots.txt 中宣告: 在您的 robots.txt 檔案中加入一行,告訴所有來訪的爬蟲您的地圖在哪裡。這是最佳實踐。 Sitemap: https://www.yourwebsite.com/sitemap_index.xml
  2. 透過 Google Search Console 提交:
    • 登入您的 Google Search Console 帳戶。
    • 在左側選單中選擇「索引」>「Sitemap」。
    • 在「新增 Sitemap」欄位中,輸入您 Sitemap 的 URL(例如 sitemap_index.xml)。
    • 點擊「提交」。

提交後,您可以在 Search Console 中看到 Google 是否成功讀取了您的地圖,以及地圖中有多少 URL 被發現和索引。

結論:協同作戰,溝通無礙

Robots.txtXML Sitemap 是技術 SEO 中相輔相成的兩個核心工具。

  • Robots.txt 負責「排除」與「規則」:它告訴爬蟲哪裡不要去,為您節省寶貴的爬取預算。
  • XML Sitemap 負責「包含」與「發現」:它為主動為爬蟲提供一份清晰的索引清單,確保您的重要內容不會被錯過。

正確配置這兩個檔案,就等於為您的網站和搜尋引擎之間建立了一條清晰、高效的溝通管道。這是打造一個技術上健全、易於被搜尋引擎理解的網站的堅實第一步,也是所有後續 SEO 策略能夠成功的根本保障。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *