Robots.txt 與 Sitemaps 完全攻略：引導 Google 爬蟲看懂你的網站地圖

想像一下，Google 的爬蟲機器人 (Googlebot) 是一位勤奮的圖書館管理員，他的任務是閱讀並整理您網站這座「圖書館」裡的所有藏書（網頁），以便讀者（使用者）查詢時能快速找到。

在這個比喻中，robots.txt 檔案就是您貼在圖書館門口和各個區域的「訪客規則」，告訴管理員哪些是「員工專用區」請勿進入。而 Sitemaps（網站地圖） 則是您提供給管理員的「完整館藏目錄」，讓他能一目了然地知道圖書館裡有哪些書、放在哪裡，以及哪些是最新上架的。

同時掌握這兩項工具，是技術 SEO 的基礎，也是您與搜尋引擎進行高效溝通、確保網站內容被正確理解與收錄的關鍵第一步。本篇攻略將帶您深入了解這兩份核心檔案的用途、寫法與最佳實踐。

第一部分：Robots.txt — 網站的交通指揮官

robots.txt 是一個純文字檔案，必須放置在網站的根目錄下（例如 https://www.yourwebsite.com/robots.txt）。它的核心任務是向網路爬蟲（如 Googlebot）發出指令 (Directives)，建議它們可以或不可以爬取網站上的哪些 URL 路徑。

Robots.txt 的基本語法

它的語法非常簡單，主要由兩部分組成：

User-agent: 指定這條規則適用於哪個爬蟲。* 代表適用於所有爬蟲，Googlebot 則只適用於 Google 的爬蟲。
Disallow: 禁止爬蟲訪問的目錄或檔案路徑。路徑必須以 / 開頭。

如何建立與上傳 Robots.txt 檔案（實戰教學）

這是一個簡單但極其重要的過程，任何一個小錯誤都可能導致指令失效。

方法1

第一步：使用純文字編輯器建立檔案

您必須使用一個不會加入任何格式化代碼的編輯器。

Windows 使用者： 使用內建的「記事本 (Notepad)」。
Mac 使用者： 使用內建的「文字編輯 (TextEdit)」。（重要：在儲存前，請點擊頂部菜單的「格式」>「製作純文字格式」）
開發者： 可以使用 VS Code, Sublime Text, Notepad++ 等任何程式碼編輯器。

⚠️ 絕對不要使用 Microsoft Word 或 Google Docs，因為它們會嵌入肉眼看不見的格式化資訊，導致爬蟲無法讀取檔案。

第二步：編寫您的規則

根據您的需求，在空白的文字檔案中寫入指令。以下提供幾個最常見的範本：

範本 A：允許所有爬蟲爬取所有內容（最寬鬆）

User-agent: *
Disallow:

(Disallow 後面留空，代表沒有任何禁止事項)

範本 B：WordPress 網站的基礎建議（**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名，並保留後方的 ‘/sitemap_index.xml’）

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.yourwebsite.com/sitemap_index.xml

(這個範例禁止爬蟲進入後台管理目錄，但允許爬取執行 AJAX 功能所需的重要檔案，並指明了 Sitemap 的位置)

範本 C：封鎖特定資料夾（**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名，並保留後方的 ‘/sitemap.xml’）

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /private-files/

Sitemap: https://www.yourwebsite.com/sitemap.xml

第三步：正確儲存檔案

檔案名稱： 必須是 robots.txt (全部小寫)。
檔案編碼： 必須是 UTF-8。現代的文字編輯器通常預設就是這個格式。

第四步：上傳至網站根目錄

「根目錄」是您網站的最頂層目錄，通常被命名為 public_html, www, htdocs 或 httpdocs。

您可以使用以下任一方式上傳檔案：

使用 cPanel 檔案管理器： 登入您的主機控制台 (cPanel)，找到「檔案管理器」，進入網站的根目錄，並點擊「上傳」按鈕來上傳您的 robots.txt 檔案。
使用 FTP 客戶端： 使用像 FileZilla 這類的 FTP 軟體，連線到您的主機，將檔案從您的電腦拖曳到遠端的網站根目錄中。

第五步：測試與驗證

瀏覽器檢查： 上傳後，立即在瀏覽器中訪問你網站的robot.txt檔案，如 https://www.yourwebsite.com/robots.txt。如果您能看到您剛才編寫的內容，代表上傳成功。
使用 Google Search Console 測試： 這是最權威的驗證方法。
- 登入 Google Search Console。
- 前往「設定」>「索引檢索」區塊下的「開啟報告」（針對 robots.txt）。
- 您可以在這裡看到 Google 偵測到的 robots.txt 版本，並測試特定 URL 是否被您的規則所封鎖。

方法2（適合WordPress使用者）

第一步：使用Yoast SEO 插件

使用Yoast SEO 插件，可以直接在WordPress 後台編輯robots.txt 檔案。在WordPress 後台導覽至「Yoast SEO」下方的「工具」-> 檔案編輯器，即可找到並編輯robots.txt 檔案。如果沒有robot.txt，就按「建立 robot.txt」。

第二步：輸入以下程式碼（**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名，並保留後方的 ‘/sitemap_index.xml’）

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.yourwebsite.com/sitemap_index.xml

第三步：儲存 robot.txt 的變更

儲存 robot.txt 的變更。

⚠️ 關鍵注意事項 (建立信任的重點)

Robots.txt 是君子協定，而非安全屏障： 它只是「建議」，主流爬蟲會遵守，但惡意爬蟲可以完全忽略。更重要的是，如果一個被 Disallow 的頁面從其他網站獲得了連結，Google 依然可能索引這個 URL（雖然無法爬取其內容），並在搜尋結果中顯示「因為此網站的 robots.txt，所以無法提供此結果的說明」。
不要用 robots.txt 阻止索引： 如果您想讓一個頁面從 Google 搜尋結果中徹底消失，正確的方法是使用 noindex 中繼標籤，而不是 robots.txt。如果您用 robots.txt 封鎖了頁面，Googlebot 將無法看到頁面上的 noindex 標籤，反而可能導致問題。而 noindex 的做法是在需要禁止索引的頁面中，添加 <meta name=”robots” content=”noindex”> 標籤到 <head> 部分。
不要封鎖 CSS 和 JavaScript 檔案： 現代網站需要 CSS 和 JS 才能正確渲染。如果封鎖了這些資源，Googlebot 將無法像真人使用者一樣「看見」您的網頁，這會嚴重影響它對您網站的評估。

第二部分：Sitemaps — 網站的清晰藍圖

網站地圖主要分為兩種，它們服務的對象和目的截然不同。

1. HTML 網站地圖

服務對象： 真人使用者。
功能： 它是一個普通的網頁，以清晰的結構（通常是列表）列出網站上所有重要的頁面。它的目的是幫助使用者在網站上快速找到他們想要的內容，尤其是在網站結構複雜時，可以作為一個導航的輔助工具。
SEO 價值： 主要在於改善使用者體驗和內部連結。一個好的 HTML 網站地圖能確保網站上所有重要頁面都至少有一個來自內部的連結，並幫助使用者和爬蟲發現深層的頁面。

2. XML 網站地圖

服務對象： 搜尋引擎爬蟲。
功能： 這是一個專門為機器設計的 XML 格式檔案。它不僅僅是 URL 的列表，還可以包含關於每個 URL 的額外「元數據 (Metadata)」，例如：
- <loc>: 頁面的完整 URL（必填）。
- <lastmod>: 頁面最後修改的日期（高度建議，對 Google 很重要）。
- <changefreq>: 頁面內容更新的頻率（如 daily, weekly）。
- <priority>: 此 URL 相對於網站上其他 URL 的優先級（0.0 到 1.0）。
為何至關重要？ XML 網站地圖是您主動告知搜尋引擎「我網站上有這些重要頁面，請來索引」的最直接方式。它對於以下情況尤其重要：
- 大型網站： 幫助爬蟲發現所有頁面，避免遺漏。
- 新網站： 外部連結較少，Sitemap 可以幫助 Google 更快發現您的網站。
- 內容孤島： 網站中存在一些內部連結做得不好的「孤兒頁面」，Sitemap 可以彌補這個缺陷。

【XML Sitemap 範例】

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.yourwebsite.com/</loc>
    <lastmod>2025-08-15</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.yourwebsite.com/about-us/</loc>
    <lastmod>2025-07-20</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

專家提示： 根據 Google 的官方文件和業界經驗，<lastmod> 是目前最重要的元數據標籤，而 <changefreq> 和 <priority> 的權重已經被 Google 大大降低，甚至基本忽略。因此，確保您的 <lastmod> 日期準確無誤，遠比設定其他兩個標籤重要。

第三部分：建立與提交 — 讓 Google 收到你的地圖

如何建立 XML 網站地圖？

使用 CMS 外掛： 如果您使用 WordPress，像 Yoast SEO, Rank Math 或 All in One SEO 這類外掛都能自動為您生成並即時更新 XML 網站地圖。這是最簡單、最推薦的方法。使用Yoast SEO 插件在WordPress 網站上生成XML Sitemap 非常簡單。首先，確保已安裝並啟用Yoast SEO 插件。接著，在WordPress 後台，進入「Yoast SEO」->「網站功能」，找到「XML Sitemap」選項並啟用功能。這樣，Yoast SEO 就會自動為您的網站生成XML Sitemap，通常位於 yourdomain.com/sitemap_index.xml （把 ‘yourdomain.com’ 換成你的網站名，並保留 ‘/sitemap_index.xml’）。
使用線上生成器： 對於中小型靜態網站，可以使用 Screaming Frog SEO Spider（桌面軟體）或一些線上 Sitemap 生成器來爬取您的網站並生成 XML 檔案。
手動建立： 如果您的網站頁面極少，也可以手動編寫 XML 檔案，但這只適用於極端情況。

如何提交 XML 網站地圖？

在 robots.txt 中宣告： 在您的 robots.txt 檔案中加入一行，告訴所有來訪的爬蟲您的地圖在哪裡。這是最佳實踐。 Sitemap: https://www.yourwebsite.com/sitemap_index.xml
透過 Google Search Console 提交：
- 登入您的 Google Search Console 帳戶。
- 在左側選單中選擇「索引」>「Sitemap」。
- 在「新增 Sitemap」欄位中，輸入您 Sitemap 的 URL（例如 sitemap_index.xml）。
- 點擊「提交」。

提交後，您可以在 Search Console 中看到 Google 是否成功讀取了您的地圖，以及地圖中有多少 URL 被發現和索引。

結論：協同作戰，溝通無礙

Robots.txt 和 XML Sitemap 是技術 SEO 中相輔相成的兩個核心工具。

Robots.txt 負責「排除」與「規則」：它告訴爬蟲哪裡不要去，為您節省寶貴的爬取預算。
XML Sitemap 負責「包含」與「發現」：它為主動為爬蟲提供一份清晰的索引清單，確保您的重要內容不會被錯過。

正確配置這兩個檔案，就等於為您的網站和搜尋引擎之間建立了一條清晰、高效的溝通管道。這是打造一個技術上健全、易於被搜尋引擎理解的網站的堅實第一步，也是所有後續 SEO 策略能夠成功的根本保障。