想像一下,Google 的爬蟲機器人 (Googlebot) 是一位勤奮的圖書館管理員,他的任務是閱讀並整理您網站這座「圖書館」裡的所有藏書(網頁),以便讀者(使用者)查詢時能快速找到。
在這個比喻中,robots.txt
檔案就是您貼在圖書館門口和各個區域的「訪客規則」,告訴管理員哪些是「員工專用區」請勿進入。而 Sitemaps(網站地圖) 則是您提供給管理員的「完整館藏目錄」,讓他能一目了然地知道圖書館裡有哪些書、放在哪裡,以及哪些是最新上架的。
同時掌握這兩項工具,是技術 SEO 的基礎,也是您與搜尋引擎進行高效溝通、確保網站內容被正確理解與收錄的關鍵第一步。本篇攻略將帶您深入了解這兩份核心檔案的用途、寫法與最佳實踐。
第一部分:Robots.txt — 網站的交通指揮官
robots.txt
是一個純文字檔案,必須放置在網站的根目錄下(例如 https://www.yourwebsite.com/robots.txt
)。它的核心任務是向網路爬蟲(如 Googlebot)發出指令 (Directives),建議它們可以或不可以爬取網站上的哪些 URL 路徑。
Robots.txt 的基本語法
它的語法非常簡單,主要由兩部分組成:
User-agent
: 指定這條規則適用於哪個爬蟲。*
代表適用於所有爬蟲,Googlebot
則只適用於 Google 的爬蟲。Disallow
: 禁止爬蟲訪問的目錄或檔案路徑。路徑必須以/
開頭。
如何建立與上傳 Robots.txt 檔案(實戰教學)
這是一個簡單但極其重要的過程,任何一個小錯誤都可能導致指令失效。
方法1
第一步:使用純文字編輯器建立檔案
您必須使用一個不會加入任何格式化代碼的編輯器。
- Windows 使用者: 使用內建的「記事本 (Notepad)」。
- Mac 使用者: 使用內建的「文字編輯 (TextEdit)」。(重要:在儲存前,請點擊頂部菜單的「格式」>「製作純文字格式」)
- 開發者: 可以使用 VS Code, Sublime Text, Notepad++ 等任何程式碼編輯器。
⚠️ 絕對不要使用 Microsoft Word 或 Google Docs,因為它們會嵌入肉眼看不見的格式化資訊,導致爬蟲無法讀取檔案。
第二步:編寫您的規則
根據您的需求,在空白的文字檔案中寫入指令。以下提供幾個最常見的範本:
範本 A:允許所有爬蟲爬取所有內容(最寬鬆)
User-agent: *
Disallow:
(Disallow 後面留空,代表沒有任何禁止事項)
範本 B:WordPress 網站的基礎建議(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap_index.xml’)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourwebsite.com/sitemap_index.xml
(這個範例禁止爬蟲進入後台管理目錄,但允許爬取執行 AJAX 功能所需的重要檔案,並指明了 Sitemap 的位置)
範本 C:封鎖特定資料夾(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap.xml’)
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /private-files/
Sitemap: https://www.yourwebsite.com/sitemap.xml
第三步:正確儲存檔案
- 檔案名稱: 必須是
robots.txt
(全部小寫)。 - 檔案編碼: 必須是 UTF-8。現代的文字編輯器通常預設就是這個格式。
第四步:上傳至網站根目錄
「根目錄」是您網站的最頂層目錄,通常被命名為 public_html
, www
, htdocs
或 httpdocs
。
您可以使用以下任一方式上傳檔案:
- 使用 cPanel 檔案管理器: 登入您的主機控制台 (cPanel),找到「檔案管理器」,進入網站的根目錄,並點擊「上傳」按鈕來上傳您的
robots.txt
檔案。 - 使用 FTP 客戶端: 使用像 FileZilla 這類的 FTP 軟體,連線到您的主機,將檔案從您的電腦拖曳到遠端的網站根目錄中。
第五步:測試與驗證
- 瀏覽器檢查: 上傳後,立即在瀏覽器中訪問你網站的robot.txt檔案,如
https://www.yourwebsite.com/robots.txt
。如果您能看到您剛才編寫的內容,代表上傳成功。 - 使用 Google Search Console 測試: 這是最權威的驗證方法。
- 登入 Google Search Console。
- 前往「設定」>「索引檢索」區塊下的「開啟報告」(針對 robots.txt)。
- 您可以在這裡看到 Google 偵測到的
robots.txt
版本,並測試特定 URL 是否被您的規則所封鎖。
方法2(適合WordPress使用者)
第一步:使用Yoast SEO 插件
使用Yoast SEO 插件,可以直接在WordPress 後台編輯robots.txt 檔案。在WordPress 後台導覽至「Yoast SEO」下方的「工具」-> 檔案編輯器,即可找到並編輯robots.txt 檔案。如果沒有robot.txt,就按「建立 robot.txt」。
第二步:輸入以下程式碼(**注意︰記得把 ‘https://www.yourwebsite.com’ 換成你的網站名,並保留後方的 ‘/sitemap_index.xml’)
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.yourwebsite.com/sitemap_index.xml
第三步:儲存 robot.txt 的變更
儲存 robot.txt 的變更。
⚠️ 關鍵注意事項 (建立信任的重點)
Robots.txt
是君子協定,而非安全屏障: 它只是「建議」,主流爬蟲會遵守,但惡意爬蟲可以完全忽略。更重要的是,如果一個被 Disallow 的頁面從其他網站獲得了連結,Google 依然可能索引這個 URL(雖然無法爬取其內容),並在搜尋結果中顯示「因為此網站的 robots.txt,所以無法提供此結果的說明」。- 不要用
robots.txt
阻止索引: 如果您想讓一個頁面從 Google 搜尋結果中徹底消失,正確的方法是使用noindex
中繼標籤,而不是robots.txt
。如果您用robots.txt
封鎖了頁面,Googlebot 將無法看到頁面上的noindex
標籤,反而可能導致問題。而 noindex 的做法是在需要禁止索引的頁面中,添加 <meta name=”robots” content=”noindex”> 標籤到 <head> 部分。 - 不要封鎖 CSS 和 JavaScript 檔案: 現代網站需要 CSS 和 JS 才能正確渲染。如果封鎖了這些資源,Googlebot 將無法像真人使用者一樣「看見」您的網頁,這會嚴重影響它對您網站的評估。
第二部分:Sitemaps — 網站的清晰藍圖
網站地圖主要分為兩種,它們服務的對象和目的截然不同。
1. HTML 網站地圖
- 服務對象: 真人使用者。
- 功能: 它是一個普通的網頁,以清晰的結構(通常是列表)列出網站上所有重要的頁面。它的目的是幫助使用者在網站上快速找到他們想要的內容,尤其是在網站結構複雜時,可以作為一個導航的輔助工具。
- SEO 價值: 主要在於改善使用者體驗和內部連結。一個好的 HTML 網站地圖能確保網站上所有重要頁面都至少有一個來自內部的連結,並幫助使用者和爬蟲發現深層的頁面。
2. XML 網站地圖
- 服務對象: 搜尋引擎爬蟲。
- 功能: 這是一個專門為機器設計的 XML 格式檔案。它不僅僅是 URL 的列表,還可以包含關於每個 URL 的額外「元數據 (Metadata)」,例如:
<loc>
: 頁面的完整 URL(必填)。<lastmod>
: 頁面最後修改的日期(高度建議,對 Google 很重要)。<changefreq>
: 頁面內容更新的頻率(如daily
,weekly
)。<priority>
: 此 URL 相對於網站上其他 URL 的優先級(0.0 到 1.0)。
- 為何至關重要? XML 網站地圖是您主動告知搜尋引擎「我網站上有這些重要頁面,請來索引」的最直接方式。它對於以下情況尤其重要:
- 大型網站: 幫助爬蟲發現所有頁面,避免遺漏。
- 新網站: 外部連結較少,Sitemap 可以幫助 Google 更快發現您的網站。
- 內容孤島: 網站中存在一些內部連結做得不好的「孤兒頁面」,Sitemap 可以彌補這個缺陷。
【XML Sitemap 範例】
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.yourwebsite.com/</loc>
<lastmod>2025-08-15</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.yourwebsite.com/about-us/</loc>
<lastmod>2025-07-20</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
專家提示: 根據 Google 的官方文件和業界經驗,
<lastmod>
是目前最重要的元數據標籤,而<changefreq>
和<priority>
的權重已經被 Google 大大降低,甚至基本忽略。因此,確保您的<lastmod>
日期準確無誤,遠比設定其他兩個標籤重要。
第三部分:建立與提交 — 讓 Google 收到你的地圖
如何建立 XML 網站地圖?
- 使用 CMS 外掛: 如果您使用 WordPress,像 Yoast SEO, Rank Math 或 All in One SEO 這類外掛都能自動為您生成並即時更新 XML 網站地圖。這是最簡單、最推薦的方法。使用Yoast SEO 插件在WordPress 網站上生成XML Sitemap 非常簡單。 首先,確保已安裝並啟用Yoast SEO 插件。 接著,在WordPress 後台,進入「Yoast SEO」->「網站功能」,找到「XML Sitemap」選項並啟用功能。 這樣,Yoast SEO 就會自動為您的網站生成XML Sitemap,通常位於 yourdomain.com/sitemap_index.xml (把 ‘yourdomain.com’ 換成你的網站名,並保留 ‘/sitemap_index.xml’)。
- 使用線上生成器: 對於中小型靜態網站,可以使用 Screaming Frog SEO Spider(桌面軟體)或一些線上 Sitemap 生成器來爬取您的網站並生成 XML 檔案。
- 手動建立: 如果您的網站頁面極少,也可以手動編寫 XML 檔案,但這只適用於極端情況。
如何提交 XML 網站地圖?
- 在
robots.txt
中宣告: 在您的robots.txt
檔案中加入一行,告訴所有來訪的爬蟲您的地圖在哪裡。這是最佳實踐。Sitemap: https://www.yourwebsite.com/sitemap_index.xml
- 透過 Google Search Console 提交:
- 登入您的 Google Search Console 帳戶。
- 在左側選單中選擇「索引」>「Sitemap」。
- 在「新增 Sitemap」欄位中,輸入您 Sitemap 的 URL(例如
sitemap_index.xml
)。 - 點擊「提交」。
提交後,您可以在 Search Console 中看到 Google 是否成功讀取了您的地圖,以及地圖中有多少 URL 被發現和索引。
結論:協同作戰,溝通無礙
Robots.txt
和 XML Sitemap
是技術 SEO 中相輔相成的兩個核心工具。
Robots.txt
負責「排除」與「規則」:它告訴爬蟲哪裡不要去,為您節省寶貴的爬取預算。XML Sitemap
負責「包含」與「發現」:它為主動為爬蟲提供一份清晰的索引清單,確保您的重要內容不會被錯過。
正確配置這兩個檔案,就等於為您的網站和搜尋引擎之間建立了一條清晰、高效的溝通管道。這是打造一個技術上健全、易於被搜尋引擎理解的網站的堅實第一步,也是所有後續 SEO 策略能夠成功的根本保障。