llms.txt 設定與該不該開放 GPTBot

ChatGPT、Claude、Perplexity 開始大量爬取網站內容後,站長社群冒出一個新檔案:llms.txt。有人說它是 AI 時代的 SEO 新武器,設定好就能讓 AI 優先引用你的內容;也有人翻出 Google 的公開回應,說這東西根本沒人理。兩種說法都在網路上流傳,把「llms.txt 設定」這件事講得忽冷忽熱,站長反而更不知道到底要不要做。

問題的根源在於,多數文章把兩件本質不同的事混在一起講:一個是「向 AI 推薦我的重點內容」(llms.txt 在做的事),另一個是「要不要讓 GPTBot 這類 AI 爬蟲進來抓我的網站」(robots.txt 在管的事)。前者目前沒有任何主流 AI 保證會遵守,後者才是你現在真正握得住的控制權。

這篇會把這兩條線分開講清楚:llms.txt 到底是什麼、Google 與各家 AI 對它的態度、在 WordPress 上怎麼設定;接著回到更實際的決策——你的 WordPress 或 WooCommerce 站,該不該開放 GPTBot、又該怎麼在 robots.txt 裡控管各家 AI 爬蟲。

llms.txt 是什麼,又不是什麼

llms.txt 是一個放在網站根目錄的純文字檔,用 Markdown 格式列出網站最值得 AI 參考的頁面與簡短說明,目的是讓大型語言模型不必爬完整站就能快速理解你是誰、提供什麼內容。它由 Answer.AI 的 Jeremy Howard 在 2024 年 9 月提出,規格文件公開在 llmstxt.org。

關鍵在於釐清它「不是」什麼。llms.txt 不是門禁,它管不了誰能進來抓你的網站;它比較像放在門口的一張名片或內容導覽,告訴願意看的 AI「這幾頁是我的重點」。要不要看、看了信不信,決定權完全在 AI 那一方。

這也是它和 robots.txt 最大的差別。robots.txt 是 1994 年就存在的標準,所有主流搜尋引擎都遵守,用來告訴爬蟲「哪些路徑不要抓」,是一道實際生效的關卡。llms.txt 則是 2024 年才出現的提案,性質是「推薦」而非「禁止」,而且目前還沒有變成被廣泛強制遵守的標準。

比較項目 robots.txt llms.txt
出現時間 1994 年既有標準 2024 年新提案
主要對象 搜尋與 AI 爬蟲(Googlebot、GPTBot 等) 大型語言模型
性質 控制存取,禁止或允許抓取 推薦重點內容,無強制力
遵守程度 主流爬蟲普遍遵守 尚未成為被普遍遵守的標準
放置位置 網站根目錄 網站根目錄

把這張表記住,後面所有判斷都從這裡延伸:想「管制」AI 抓不抓,得靠 robots.txt;想「推薦」AI 讀哪幾頁,才是 llms.txt 的範圍,而且後者目前效果存疑。

各家 AI 與 Google 對 llms.txt 的真實態度

先講最容易被誤導的一點:目前沒有任何一家主流 AI 公司公開保證「我們會讀取並遵循你的 llms.txt」。網路上有些教學宣稱「GPTBot 已確認會優先抓取 llms.txt 標記的頁面」,這類說法缺乏官方佐證,建議當成個別觀察而非定論看待。

Google 的立場最為明確。Google 的 Gary Illyes 在 2025 年公開表示,Google 不支援 llms.txt,未來也沒有支援的計畫;John Mueller 更早在 2025 年把 llms.txt 比喻成當年的關鍵字 meta 標籤(keywords meta tag)——那是一個「你說你是什麼,不代表你真的是什麼」、最後被搜尋引擎完全忽略的舊機制。Google 官方的說法是,加上 llms.txt 不會影響 Google 搜尋、Gemini 或 AI Overviews。

值得注意的是,Google 真正在意的訊號不是 llms.txt,而是 robots.txt 裡的 Google-Extended 這個 user-agent。它專門用來控制你的內容要不要被用於訓練 Gemini 等生成式模型,跟一般的 Googlebot 搜尋索引是分開的兩件事。換句話說,對 Google 生態系而言,控制權在 robots.txt,不在 llms.txt。

那為什麼還是有人在做 llms.txt?理由通常有三個:一是賭未來——如果哪天這個格式真的像 sitemap 一樣形成業界共識,現在做好就先卡位;二是文件型網站(技術文件、API 文件)本來就受惠於一份結構清楚的內容索引;三是製作成本低,做了沒明顯壞處。但要清楚一件事:以目前的證據,llms.txt 對搜尋排名、對 AI 是否引用你,都還沒有可驗證的直接幫助。把它當成低成本的長期實驗可以,當成立刻見效的 SEO 手段則會失望。

在 WordPress 上怎麼設定 llms.txt

WordPress 站要產生 llms.txt,有手動與外掛兩條路,後者對內容會持續更新的網站更實際。

手動做法適合內容頁面不多、結構穩定的小站。用純文字編輯器(記事本、VS Code 皆可)建立一個檔案,依 llmstxt.org 的格式撰寫,存檔時務必選 UTF-8 編碼,尤其內容含中文時用錯編碼會變亂碼。檔名固定為小寫 llms.txt。格式大致如下:

# 你的網站名稱

> 一句話定位,說明這個站在做什麼、給誰看。

網站的詳細介紹段落,補充服務範圍與目標讀者。

## 重點內容
- [頁面標題](https://你的網域/path):40 到 60 字的內容摘要。
- [另一個頁面](https://你的網域/another):摘要。

寫好後透過 FTP 或主機的檔案管理員,上傳到網站根目錄(也就是放 wp-config.php 的那一層),完成後在瀏覽器開 https://你的網域/llms.txt 確認讀得到。手動法的麻煩在於:每次發新文章、改頁面,這份清單都要自己同步維護,內容一多就難以為繼。

內容會持續成長的 WordPress 站,用外掛比較省事。以社群中常見的「Website LLMs.txt」外掛為例,它會依你已發布的內容自動產生並定期更新 llms.txt,可設定立即、每日或每週重建,也能在後台手動按「Generate Now」立刻重產。它會整合 Yoast SEO、Rank Math、SEOPress、AIOSEO 這些 SEO 外掛的設定,自動把標記為 noindex 或 nofollow 的內容排除在清單外,避免把不想公開的頁面餵給 AI。

這類外掛還有兩個對 WordPress 環境很實用的設計。一是當主機不允許寫入根目錄(例如部分託管型主機或唯讀環境)時,它會改用 WordPress 的 rewrite 規則「虛擬」提供這份檔案,讓 https://你的網域/llms.txt 仍然讀得到。二是它可以選擇性記錄 GPTBot、ClaudeBot、PerplexityBot 等 AI 爬蟲是否真的來讀過你的 llms.txt,這份日誌能讓你用自己的數據判斷各家 AI 到底理不理這個檔案,而不是聽信單方面的宣稱。

設定時還有兩個細節值得留意。早期版本若在檔案開頭放 --- 分隔線,部分驗證工具(如 Lighthouse、Semrush 的網站稽核)會誤判成 YAML front matter 而報「缺少 H1」的假錯誤,目前流通的版本已改用 ## 區塊標題並還原 UTF-8 BOM 來修正編碼問題。另外,若同時要產生內容更完整的 llms-full.txt,文件型與大型內容站較有需要,一般部落格或商店站用基本的 llms.txt 即可。

robots.txt 才是 AI 爬蟲管理的實際控制權

回到很多人真正想問的:要不要讓 GPTBot 進來?這件事不歸 llms.txt 管,要靠 robots.txt。robots.txt 是目前少數能實際對 AI 爬蟲生效的關卡,做法是針對特定 user-agent 寫 AllowDisallow 規則。

在動手之前要先搞懂一件常被忽略的事:同一家 AI 公司往往有「多個用途不同的爬蟲」,不能一刀切。以 OpenAI 為例,GPTBot 主要用於抓取網頁供模型訓練,OAI-SearchBot 則是處理 ChatGPT 搜尋時的即時查詢,兩者是獨立的、可以分開管理。也就是說,你可以擋掉拿你內容去訓練的爬蟲,卻保留讓 ChatGPT 在回答問題時能找到並引用你的那一隻。

下面整理目前較常見、且會表明身分的 AI 爬蟲,方便你決定各自要放行還是封鎖:

User-agent 所屬 主要用途
GPTBot OpenAI 抓取內容供模型訓練
OAI-SearchBot OpenAI ChatGPT 搜尋的即時查詢
ChatGPT-User OpenAI 使用者在 ChatGPT 中觸發的即時抓取
ClaudeBot Anthropic 抓取內容供 Claude 相關用途
PerplexityBot Perplexity Perplexity 問答引擎的抓取
Google-Extended Google 控制內容是否用於 Gemini 等生成式模型訓練
CCBot Common Crawl 公開網路資料庫,常被多家 AI 取用

要在 WordPress 編輯 robots.txt,可以用主流 SEO 外掛(Yoast、Rank Math 都有 robots.txt 編輯介面),或直接在根目錄放一個實體 robots.txt 檔。語法本身很單純,例如想全面封鎖 OpenAI 的訓練爬蟲,但仍允許它的搜尋爬蟲:

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

一條規則的 Disallow: / 代表整站不准抓,Allow: / 代表整站放行;也可以只擋特定路徑,例如 Disallow: /members/ 只保護會員區。要拒絕 Google 把你的內容拿去訓練生成式模型,就針對 Google-ExtendedDisallow: /,這不會影響一般 Googlebot 對你的搜尋索引。

最後要誠實提醒:robots.txt 是「君子協定」,它靠爬蟲自願遵守。主流且具名的爬蟲(GPTBot、ClaudeBot、PerplexityBot、Googlebot 等)普遍會遵守,但業界也觀察到有些爬蟲會無視 robots.txt 直接抓取。真正需要鎖死的內容(會員專屬、付費牆後的資料),應該放在登入驗證或伺服器層級的存取控制後面,而不是只靠一行 Disallow 防君子也防小人。

WordPress 與 WooCommerce 站該不該開放 GPTBot

沒有一體適用的答案,取捨的核心是:開放,等於用「內容被拿去訓練 / 被當素材」換「在 AI 問答裡被看見、被引用的機會」;封鎖,則是反過來。判斷要分內容性質來看。

以內容為主、靠流量與品牌曝光的網站(部落格、媒體、教學站),通常更傾向「放行搜尋與引用類爬蟲、視情況封鎖純訓練類爬蟲」。理由是:當使用者在 ChatGPT、Perplexity 問到你的主題時,被引用、被點名是新的曝光來源;但你不一定願意整篇內容無償成為模型訓練素材。對應到設定,就是放行 OAI-SearchBot、ChatGPT-User、PerplexityBot,而對 GPTBot、Google-Extended、CCBot 這類偏訓練用途的爬蟲採取較保守的態度。

WooCommerce 商店站要多考慮幾層。商品頁、分類頁被 AI 讀取,有機會在 AI 問答中被推薦,對導購是加分;但商店裡有些頁面本來就不該被任何爬蟲抓取,例如購物車、結帳、會員帳號、訂單查詢這些含個人化或交易流程的路徑。這類頁面要在 robots.txt 明確 Disallow,產生 llms.txt 時也要排除(前述外掛會依 WooCommerce 的商品可見度規則,自動略過設為隱藏或僅限搜尋的商品,並尊重 noindex 設定,這點可省去手動篩選的工夫)。要說明的是,這裡談的純粹是「爬蟲能不能讀到頁面」,不涉及金流或付款設定,收款流程本身有其獨立的安全與設定考量,不在本文範圍。

實務上可以照這個順序決定:先用 robots.txt 把不該被任何爬蟲碰的私密 / 交易頁面鎖好(這是基本盤,跟 AI 無關也該做);再決定各家 AI 爬蟲的放行政策,分清「搜尋引用類」與「訓練類」分別處理;最後若行有餘力,再把 llms.txt 當成低成本的內容導覽加上去,但別期待它立刻帶來排名或引用。

先把控制權握在 robots.txt,再用 llms.txt 卡位未來

llms.txt 設定本身不難,難的是看清它的定位:它是一張遞給 AI 的名片,不是一道門;目前沒有主流 AI 保證遵循,Google 也明說不支援、不影響搜尋。真正能管「要不要讓 GPTBot 進來」的,是 robots.txt,而且要按 user-agent 細分——分清訓練用的 GPTBot、Google-Extended 和搜尋引用用的 OAI-SearchBot、PerplexityBot,才不會把曝光機會跟訓練授權一起關掉。

落地到你的 WordPress 或 WooCommerce 站,動手順序很清楚:先在 robots.txt 鎖好私密與交易頁面、訂好各家 AI 爬蟲的放行政策,再評估要不要用外掛自動產生 llms.txt 當作面向未來的低成本投資。真正需要保護的內容,記得擺在登入或伺服器層級的存取控制後面,不要把安全寄望在一行 Disallow 上。把這幾步做對,AI 怎麼演進,你的網站都有主導權。

相關文章
標籤: WordPress, robots.txt, llms.txt, GPTBot, AI 爬蟲