ChatGPT、Claude、Perplexity 開始大量爬取網站內容後,站長社群冒出一個新檔案:llms.txt。有人說它是 AI 時代的 SEO 新武器,設定好就能讓 AI 優先引用你的內容;也有人翻出 Google 的公開回應,說這東西根本沒人理。兩種說法都在網路上流傳,把「llms.txt 設定」這件事講得忽冷忽熱,站長反而更不知道到底要不要做。
問題的根源在於,多數文章把兩件本質不同的事混在一起講:一個是「向 AI 推薦我的重點內容」(llms.txt 在做的事),另一個是「要不要讓 GPTBot 這類 AI 爬蟲進來抓我的網站」(robots.txt 在管的事)。前者目前沒有任何主流 AI 保證會遵守,後者才是你現在真正握得住的控制權。
這篇會把這兩條線分開講清楚:llms.txt 到底是什麼、Google 與各家 AI 對它的態度、在 WordPress 上怎麼設定;接著回到更實際的決策——你的 WordPress 或 WooCommerce 站,該不該開放 GPTBot、又該怎麼在 robots.txt 裡控管各家 AI 爬蟲。
llms.txt 是什麼,又不是什麼
llms.txt 是一個放在網站根目錄的純文字檔,用 Markdown 格式列出網站最值得 AI 參考的頁面與簡短說明,目的是讓大型語言模型不必爬完整站就能快速理解你是誰、提供什麼內容。它由 Answer.AI 的 Jeremy Howard 在 2024 年 9 月提出,規格文件公開在 llmstxt.org。
關鍵在於釐清它「不是」什麼。llms.txt 不是門禁,它管不了誰能進來抓你的網站;它比較像放在門口的一張名片或內容導覽,告訴願意看的 AI「這幾頁是我的重點」。要不要看、看了信不信,決定權完全在 AI 那一方。
這也是它和 robots.txt 最大的差別。robots.txt 是 1994 年就存在的標準,所有主流搜尋引擎都遵守,用來告訴爬蟲「哪些路徑不要抓」,是一道實際生效的關卡。llms.txt 則是 2024 年才出現的提案,性質是「推薦」而非「禁止」,而且目前還沒有變成被廣泛強制遵守的標準。
| 比較項目 | robots.txt | llms.txt |
|---|---|---|
| 出現時間 | 1994 年既有標準 | 2024 年新提案 |
| 主要對象 | 搜尋與 AI 爬蟲(Googlebot、GPTBot 等) | 大型語言模型 |
| 性質 | 控制存取,禁止或允許抓取 | 推薦重點內容,無強制力 |
| 遵守程度 | 主流爬蟲普遍遵守 | 尚未成為被普遍遵守的標準 |
| 放置位置 | 網站根目錄 | 網站根目錄 |
把這張表記住,後面所有判斷都從這裡延伸:想「管制」AI 抓不抓,得靠 robots.txt;想「推薦」AI 讀哪幾頁,才是 llms.txt 的範圍,而且後者目前效果存疑。
各家 AI 與 Google 對 llms.txt 的真實態度
先講最容易被誤導的一點:目前沒有任何一家主流 AI 公司公開保證「我們會讀取並遵循你的 llms.txt」。網路上有些教學宣稱「GPTBot 已確認會優先抓取 llms.txt 標記的頁面」,這類說法缺乏官方佐證,建議當成個別觀察而非定論看待。
Google 的立場最為明確。Google 的 Gary Illyes 在 2025 年公開表示,Google 不支援 llms.txt,未來也沒有支援的計畫;John Mueller 更早在 2025 年把 llms.txt 比喻成當年的關鍵字 meta 標籤(keywords meta tag)——那是一個「你說你是什麼,不代表你真的是什麼」、最後被搜尋引擎完全忽略的舊機制。Google 官方的說法是,加上 llms.txt 不會影響 Google 搜尋、Gemini 或 AI Overviews。
值得注意的是,Google 真正在意的訊號不是 llms.txt,而是 robots.txt 裡的 Google-Extended 這個 user-agent。它專門用來控制你的內容要不要被用於訓練 Gemini 等生成式模型,跟一般的 Googlebot 搜尋索引是分開的兩件事。換句話說,對 Google 生態系而言,控制權在 robots.txt,不在 llms.txt。
那為什麼還是有人在做 llms.txt?理由通常有三個:一是賭未來——如果哪天這個格式真的像 sitemap 一樣形成業界共識,現在做好就先卡位;二是文件型網站(技術文件、API 文件)本來就受惠於一份結構清楚的內容索引;三是製作成本低,做了沒明顯壞處。但要清楚一件事:以目前的證據,llms.txt 對搜尋排名、對 AI 是否引用你,都還沒有可驗證的直接幫助。把它當成低成本的長期實驗可以,當成立刻見效的 SEO 手段則會失望。
在 WordPress 上怎麼設定 llms.txt
WordPress 站要產生 llms.txt,有手動與外掛兩條路,後者對內容會持續更新的網站更實際。
手動做法適合內容頁面不多、結構穩定的小站。用純文字編輯器(記事本、VS Code 皆可)建立一個檔案,依 llmstxt.org 的格式撰寫,存檔時務必選 UTF-8 編碼,尤其內容含中文時用錯編碼會變亂碼。檔名固定為小寫 llms.txt。格式大致如下:
# 你的網站名稱
> 一句話定位,說明這個站在做什麼、給誰看。
網站的詳細介紹段落,補充服務範圍與目標讀者。
## 重點內容
- [頁面標題](https://你的網域/path):40 到 60 字的內容摘要。
- [另一個頁面](https://你的網域/another):摘要。
寫好後透過 FTP 或主機的檔案管理員,上傳到網站根目錄(也就是放 wp-config.php 的那一層),完成後在瀏覽器開 https://你的網域/llms.txt 確認讀得到。手動法的麻煩在於:每次發新文章、改頁面,這份清單都要自己同步維護,內容一多就難以為繼。
內容會持續成長的 WordPress 站,用外掛比較省事。以社群中常見的「Website LLMs.txt」外掛為例,它會依你已發布的內容自動產生並定期更新 llms.txt,可設定立即、每日或每週重建,也能在後台手動按「Generate Now」立刻重產。它會整合 Yoast SEO、Rank Math、SEOPress、AIOSEO 這些 SEO 外掛的設定,自動把標記為 noindex 或 nofollow 的內容排除在清單外,避免把不想公開的頁面餵給 AI。
這類外掛還有兩個對 WordPress 環境很實用的設計。一是當主機不允許寫入根目錄(例如部分託管型主機或唯讀環境)時,它會改用 WordPress 的 rewrite 規則「虛擬」提供這份檔案,讓 https://你的網域/llms.txt 仍然讀得到。二是它可以選擇性記錄 GPTBot、ClaudeBot、PerplexityBot 等 AI 爬蟲是否真的來讀過你的 llms.txt,這份日誌能讓你用自己的數據判斷各家 AI 到底理不理這個檔案,而不是聽信單方面的宣稱。
設定時還有兩個細節值得留意。早期版本若在檔案開頭放 --- 分隔線,部分驗證工具(如 Lighthouse、Semrush 的網站稽核)會誤判成 YAML front matter 而報「缺少 H1」的假錯誤,目前流通的版本已改用 ## 區塊標題並還原 UTF-8 BOM 來修正編碼問題。另外,若同時要產生內容更完整的 llms-full.txt,文件型與大型內容站較有需要,一般部落格或商店站用基本的 llms.txt 即可。
robots.txt 才是 AI 爬蟲管理的實際控制權
回到很多人真正想問的:要不要讓 GPTBot 進來?這件事不歸 llms.txt 管,要靠 robots.txt。robots.txt 是目前少數能實際對 AI 爬蟲生效的關卡,做法是針對特定 user-agent 寫 Allow 或 Disallow 規則。
在動手之前要先搞懂一件常被忽略的事:同一家 AI 公司往往有「多個用途不同的爬蟲」,不能一刀切。以 OpenAI 為例,GPTBot 主要用於抓取網頁供模型訓練,OAI-SearchBot 則是處理 ChatGPT 搜尋時的即時查詢,兩者是獨立的、可以分開管理。也就是說,你可以擋掉拿你內容去訓練的爬蟲,卻保留讓 ChatGPT 在回答問題時能找到並引用你的那一隻。
下面整理目前較常見、且會表明身分的 AI 爬蟲,方便你決定各自要放行還是封鎖:
| User-agent | 所屬 | 主要用途 |
|---|---|---|
| GPTBot | OpenAI | 抓取內容供模型訓練 |
| OAI-SearchBot | OpenAI | ChatGPT 搜尋的即時查詢 |
| ChatGPT-User | OpenAI | 使用者在 ChatGPT 中觸發的即時抓取 |
| ClaudeBot | Anthropic | 抓取內容供 Claude 相關用途 |
| PerplexityBot | Perplexity | Perplexity 問答引擎的抓取 |
| Google-Extended | 控制內容是否用於 Gemini 等生成式模型訓練 | |
| CCBot | Common Crawl | 公開網路資料庫,常被多家 AI 取用 |
要在 WordPress 編輯 robots.txt,可以用主流 SEO 外掛(Yoast、Rank Math 都有 robots.txt 編輯介面),或直接在根目錄放一個實體 robots.txt 檔。語法本身很單純,例如想全面封鎖 OpenAI 的訓練爬蟲,但仍允許它的搜尋爬蟲:
User-agent: GPTBot
Disallow: /
User-agent: OAI-SearchBot
Allow: /
一條規則的 Disallow: / 代表整站不准抓,Allow: / 代表整站放行;也可以只擋特定路徑,例如 Disallow: /members/ 只保護會員區。要拒絕 Google 把你的內容拿去訓練生成式模型,就針對 Google-Extended 寫 Disallow: /,這不會影響一般 Googlebot 對你的搜尋索引。
最後要誠實提醒:robots.txt 是「君子協定」,它靠爬蟲自願遵守。主流且具名的爬蟲(GPTBot、ClaudeBot、PerplexityBot、Googlebot 等)普遍會遵守,但業界也觀察到有些爬蟲會無視 robots.txt 直接抓取。真正需要鎖死的內容(會員專屬、付費牆後的資料),應該放在登入驗證或伺服器層級的存取控制後面,而不是只靠一行 Disallow 防君子也防小人。
WordPress 與 WooCommerce 站該不該開放 GPTBot
沒有一體適用的答案,取捨的核心是:開放,等於用「內容被拿去訓練 / 被當素材」換「在 AI 問答裡被看見、被引用的機會」;封鎖,則是反過來。判斷要分內容性質來看。
以內容為主、靠流量與品牌曝光的網站(部落格、媒體、教學站),通常更傾向「放行搜尋與引用類爬蟲、視情況封鎖純訓練類爬蟲」。理由是:當使用者在 ChatGPT、Perplexity 問到你的主題時,被引用、被點名是新的曝光來源;但你不一定願意整篇內容無償成為模型訓練素材。對應到設定,就是放行 OAI-SearchBot、ChatGPT-User、PerplexityBot,而對 GPTBot、Google-Extended、CCBot 這類偏訓練用途的爬蟲採取較保守的態度。
WooCommerce 商店站要多考慮幾層。商品頁、分類頁被 AI 讀取,有機會在 AI 問答中被推薦,對導購是加分;但商店裡有些頁面本來就不該被任何爬蟲抓取,例如購物車、結帳、會員帳號、訂單查詢這些含個人化或交易流程的路徑。這類頁面要在 robots.txt 明確 Disallow,產生 llms.txt 時也要排除(前述外掛會依 WooCommerce 的商品可見度規則,自動略過設為隱藏或僅限搜尋的商品,並尊重 noindex 設定,這點可省去手動篩選的工夫)。要說明的是,這裡談的純粹是「爬蟲能不能讀到頁面」,不涉及金流或付款設定,收款流程本身有其獨立的安全與設定考量,不在本文範圍。
實務上可以照這個順序決定:先用 robots.txt 把不該被任何爬蟲碰的私密 / 交易頁面鎖好(這是基本盤,跟 AI 無關也該做);再決定各家 AI 爬蟲的放行政策,分清「搜尋引用類」與「訓練類」分別處理;最後若行有餘力,再把 llms.txt 當成低成本的內容導覽加上去,但別期待它立刻帶來排名或引用。
先把控制權握在 robots.txt,再用 llms.txt 卡位未來
llms.txt 設定本身不難,難的是看清它的定位:它是一張遞給 AI 的名片,不是一道門;目前沒有主流 AI 保證遵循,Google 也明說不支援、不影響搜尋。真正能管「要不要讓 GPTBot 進來」的,是 robots.txt,而且要按 user-agent 細分——分清訓練用的 GPTBot、Google-Extended 和搜尋引用用的 OAI-SearchBot、PerplexityBot,才不會把曝光機會跟訓練授權一起關掉。
落地到你的 WordPress 或 WooCommerce 站,動手順序很清楚:先在 robots.txt 鎖好私密與交易頁面、訂好各家 AI 爬蟲的放行政策,再評估要不要用外掛自動產生 llms.txt 當作面向未來的低成本投資。真正需要保護的內容,記得擺在登入或伺服器層級的存取控制後面,不要把安全寄望在一行 Disallow 上。把這幾步做對,AI 怎麼演進,你的網站都有主導權。