llms.txt 設定與該不該開放 GPTBot

ChatGPT、Claude、Perplexity 開始大量爬取網站內容後，站長社群冒出一個新檔案：llms.txt。有人說它是 AI 時代的 SEO 新武器，設定好就能讓 AI 優先引用你的內容；也有人翻出 Google 的公開回應，說這東西根本沒人理。兩種說法都在網路上流傳，把「llms.txt 設定」這件事講得忽冷忽熱，站長反而更不知道到底要不要做。

問題的根源在於，多數文章把兩件本質不同的事混在一起講：一個是「向 AI 推薦我的重點內容」（llms.txt 在做的事），另一個是「要不要讓 GPTBot 這類 AI 爬蟲進來抓我的網站」（robots.txt 在管的事）。前者目前沒有任何主流 AI 保證會遵守，後者才是你現在真正握得住的控制權。

這篇會把這兩條線分開講清楚：llms.txt 到底是什麼、Google 與各家 AI 對它的態度、在 WordPress 上怎麼設定；接著回到更實際的決策——你的 WordPress 或 WooCommerce 站，該不該開放 GPTBot、又該怎麼在 robots.txt 裡控管各家 AI 爬蟲。

llms.txt 是什麼，又不是什麼

llms.txt 是一個放在網站根目錄的純文字檔，用 Markdown 格式列出網站最值得 AI 參考的頁面與簡短說明，目的是讓大型語言模型不必爬完整站就能快速理解你是誰、提供什麼內容。它由 Answer.AI 的 Jeremy Howard 在 2024 年 9 月提出，規格文件公開在 llmstxt.org。

關鍵在於釐清它「不是」什麼。llms.txt 不是門禁，它管不了誰能進來抓你的網站；它比較像放在門口的一張名片或內容導覽，告訴願意看的 AI「這幾頁是我的重點」。要不要看、看了信不信，決定權完全在 AI 那一方。

這也是它和 robots.txt 最大的差別。robots.txt 是 1994 年就存在的標準，所有主流搜尋引擎都遵守，用來告訴爬蟲「哪些路徑不要抓」，是一道實際生效的關卡。llms.txt 則是 2024 年才出現的提案，性質是「推薦」而非「禁止」，而且目前還沒有變成被廣泛強制遵守的標準。

比較項目	robots.txt	llms.txt
出現時間	1994 年既有標準	2024 年新提案
主要對象	搜尋與 AI 爬蟲（Googlebot、GPTBot 等）	大型語言模型
性質	控制存取，禁止或允許抓取	推薦重點內容，無強制力
遵守程度	主流爬蟲普遍遵守	尚未成為被普遍遵守的標準
放置位置	網站根目錄	網站根目錄

把這張表記住，後面所有判斷都從這裡延伸：想「管制」AI 抓不抓，得靠 robots.txt；想「推薦」AI 讀哪幾頁，才是 llms.txt 的範圍，而且後者目前效果存疑。

各家 AI 與 Google 對 llms.txt 的真實態度

先講最容易被誤導的一點：目前沒有任何一家主流 AI 公司公開保證「我們會讀取並遵循你的 llms.txt」。網路上有些教學宣稱「GPTBot 已確認會優先抓取 llms.txt 標記的頁面」，這類說法缺乏官方佐證，建議當成個別觀察而非定論看待。

Google 的立場最為明確。Google 的 Gary Illyes 在 2025 年公開表示，Google 不支援 llms.txt，未來也沒有支援的計畫；John Mueller 更早在 2025 年把 llms.txt 比喻成當年的關鍵字 meta 標籤（keywords meta tag）——那是一個「你說你是什麼，不代表你真的是什麼」、最後被搜尋引擎完全忽略的舊機制。Google 官方的說法是，加上 llms.txt 不會影響 Google 搜尋、Gemini 或 AI Overviews。

值得注意的是，Google 真正在意的訊號不是 llms.txt，而是 robots.txt 裡的 Google-Extended 這個 user-agent。它專門用來控制你的內容要不要被用於訓練 Gemini 等生成式模型，跟一般的 Googlebot 搜尋索引是分開的兩件事。換句話說，對 Google 生態系而言，控制權在 robots.txt，不在 llms.txt。

那為什麼還是有人在做 llms.txt？理由通常有三個：一是賭未來——如果哪天這個格式真的像 sitemap 一樣形成業界共識，現在做好就先卡位；二是文件型網站（技術文件、API 文件）本來就受惠於一份結構清楚的內容索引；三是製作成本低，做了沒明顯壞處。但要清楚一件事：以目前的證據，llms.txt 對搜尋排名、對 AI 是否引用你，都還沒有可驗證的直接幫助。把它當成低成本的長期實驗可以，當成立刻見效的 SEO 手段則會失望。

在 WordPress 上怎麼設定 llms.txt

WordPress 站要產生 llms.txt，有手動與外掛兩條路，後者對內容會持續更新的網站更實際。

手動做法適合內容頁面不多、結構穩定的小站。用純文字編輯器（記事本、VS Code 皆可）建立一個檔案，依 llmstxt.org 的格式撰寫，存檔時務必選 UTF-8 編碼，尤其內容含中文時用錯編碼會變亂碼。檔名固定為小寫 llms.txt。格式大致如下：

# 你的網站名稱

> 一句話定位，說明這個站在做什麼、給誰看。

網站的詳細介紹段落，補充服務範圍與目標讀者。

## 重點內容
- [頁面標題](https://你的網域/path)：40 到 60 字的內容摘要。
- [另一個頁面](https://你的網域/another)：摘要。

寫好後透過 FTP 或主機的檔案管理員，上傳到網站根目錄（也就是放 wp-config.php 的那一層），完成後在瀏覽器開 https://你的網域/llms.txt 確認讀得到。手動法的麻煩在於：每次發新文章、改頁面，這份清單都要自己同步維護，內容一多就難以為繼。

內容會持續成長的 WordPress 站，用外掛比較省事。以社群中常見的「Website LLMs.txt」外掛為例，它會依你已發布的內容自動產生並定期更新 llms.txt，可設定立即、每日或每週重建，也能在後台手動按「Generate Now」立刻重產。它會整合 Yoast SEO、Rank Math、SEOPress、AIOSEO 這些 SEO 外掛的設定，自動把標記為 noindex 或 nofollow 的內容排除在清單外，避免把不想公開的頁面餵給 AI。

這類外掛還有兩個對 WordPress 環境很實用的設計。一是當主機不允許寫入根目錄（例如部分託管型主機或唯讀環境）時，它會改用 WordPress 的 rewrite 規則「虛擬」提供這份檔案，讓 https://你的網域/llms.txt 仍然讀得到。二是它可以選擇性記錄 GPTBot、ClaudeBot、PerplexityBot 等 AI 爬蟲是否真的來讀過你的 llms.txt，這份日誌能讓你用自己的數據判斷各家 AI 到底理不理這個檔案，而不是聽信單方面的宣稱。

設定時還有兩個細節值得留意。早期版本若在檔案開頭放 --- 分隔線，部分驗證工具（如 Lighthouse、Semrush 的網站稽核）會誤判成 YAML front matter 而報「缺少 H1」的假錯誤，目前流通的版本已改用 ## 區塊標題並還原 UTF-8 BOM 來修正編碼問題。另外，若同時要產生內容更完整的 llms-full.txt，文件型與大型內容站較有需要，一般部落格或商店站用基本的 llms.txt 即可。

robots.txt 才是 AI 爬蟲管理的實際控制權

回到很多人真正想問的：要不要讓 GPTBot 進來？這件事不歸 llms.txt 管，要靠 robots.txt。robots.txt 是目前少數能實際對 AI 爬蟲生效的關卡，做法是針對特定 user-agent 寫 Allow 或 Disallow 規則。

在動手之前要先搞懂一件常被忽略的事：同一家 AI 公司往往有「多個用途不同的爬蟲」，不能一刀切。以 OpenAI 為例，GPTBot 主要用於抓取網頁供模型訓練，OAI-SearchBot 則是處理 ChatGPT 搜尋時的即時查詢，兩者是獨立的、可以分開管理。也就是說，你可以擋掉拿你內容去訓練的爬蟲，卻保留讓 ChatGPT 在回答問題時能找到並引用你的那一隻。

下面整理目前較常見、且會表明身分的 AI 爬蟲，方便你決定各自要放行還是封鎖：

User-agent	所屬	主要用途
GPTBot	OpenAI	抓取內容供模型訓練
OAI-SearchBot	OpenAI	ChatGPT 搜尋的即時查詢
ChatGPT-User	OpenAI	使用者在 ChatGPT 中觸發的即時抓取
ClaudeBot	Anthropic	抓取內容供 Claude 相關用途
PerplexityBot	Perplexity	Perplexity 問答引擎的抓取
Google-Extended	Google	控制內容是否用於 Gemini 等生成式模型訓練
CCBot	Common Crawl	公開網路資料庫，常被多家 AI 取用

要在 WordPress 編輯 robots.txt，可以用主流 SEO 外掛（Yoast、Rank Math 都有 robots.txt 編輯介面），或直接在根目錄放一個實體 robots.txt 檔。語法本身很單純，例如想全面封鎖 OpenAI 的訓練爬蟲，但仍允許它的搜尋爬蟲：

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

一條規則的 Disallow: / 代表整站不准抓，Allow: / 代表整站放行；也可以只擋特定路徑，例如 Disallow: /members/ 只保護會員區。要拒絕 Google 把你的內容拿去訓練生成式模型，就針對 Google-Extended 寫 Disallow: /，這不會影響一般 Googlebot 對你的搜尋索引。

最後要誠實提醒：robots.txt 是「君子協定」，它靠爬蟲自願遵守。主流且具名的爬蟲（GPTBot、ClaudeBot、PerplexityBot、Googlebot 等）普遍會遵守，但業界也觀察到有些爬蟲會無視 robots.txt 直接抓取。真正需要鎖死的內容（會員專屬、付費牆後的資料），應該放在登入驗證或伺服器層級的存取控制後面，而不是只靠一行 Disallow 防君子也防小人。

WordPress 與 WooCommerce 站該不該開放 GPTBot

沒有一體適用的答案，取捨的核心是：開放，等於用「內容被拿去訓練 / 被當素材」換「在 AI 問答裡被看見、被引用的機會」；封鎖，則是反過來。判斷要分內容性質來看。

以內容為主、靠流量與品牌曝光的網站（部落格、媒體、教學站），通常更傾向「放行搜尋與引用類爬蟲、視情況封鎖純訓練類爬蟲」。理由是：當使用者在 ChatGPT、Perplexity 問到你的主題時，被引用、被點名是新的曝光來源；但你不一定願意整篇內容無償成為模型訓練素材。對應到設定，就是放行 OAI-SearchBot、ChatGPT-User、PerplexityBot，而對 GPTBot、Google-Extended、CCBot 這類偏訓練用途的爬蟲採取較保守的態度。

WooCommerce 商店站要多考慮幾層。商品頁、分類頁被 AI 讀取，有機會在 AI 問答中被推薦，對導購是加分；但商店裡有些頁面本來就不該被任何爬蟲抓取，例如購物車、結帳、會員帳號、訂單查詢這些含個人化或交易流程的路徑。這類頁面要在 robots.txt 明確 Disallow，產生 llms.txt 時也要排除（前述外掛會依 WooCommerce 的商品可見度規則，自動略過設為隱藏或僅限搜尋的商品，並尊重 noindex 設定，這點可省去手動篩選的工夫）。要說明的是，這裡談的純粹是「爬蟲能不能讀到頁面」，不涉及金流或付款設定，收款流程本身有其獨立的安全與設定考量，不在本文範圍。

實務上可以照這個順序決定：先用 robots.txt 把不該被任何爬蟲碰的私密 / 交易頁面鎖好（這是基本盤，跟 AI 無關也該做）；再決定各家 AI 爬蟲的放行政策，分清「搜尋引用類」與「訓練類」分別處理；最後若行有餘力，再把 llms.txt 當成低成本的內容導覽加上去，但別期待它立刻帶來排名或引用。

先把控制權握在 robots.txt，再用 llms.txt 卡位未來

llms.txt 設定本身不難，難的是看清它的定位：它是一張遞給 AI 的名片，不是一道門；目前沒有主流 AI 保證遵循，Google 也明說不支援、不影響搜尋。真正能管「要不要讓 GPTBot 進來」的，是 robots.txt，而且要按 user-agent 細分——分清訓練用的 GPTBot、Google-Extended 和搜尋引用用的 OAI-SearchBot、PerplexityBot，才不會把曝光機會跟訓練授權一起關掉。

落地到你的 WordPress 或 WooCommerce 站，動手順序很清楚：先在 robots.txt 鎖好私密與交易頁面、訂好各家 AI 爬蟲的放行政策，再評估要不要用外掛自動產生 llms.txt 當作面向未來的低成本投資。真正需要保護的內容，記得擺在登入或伺服器層級的存取控制後面，不要把安全寄望在一行 Disallow 上。把這幾步做對，AI 怎麼演進，你的網站都有主導權。

llms.txt 是什麼，又不是什麼

各家 AI 與 Google 對 llms.txt 的真實態度

在 WordPress 上怎麼設定 llms.txt

robots.txt 才是 AI 爬蟲管理的實際控制權

WordPress 與 WooCommerce 站該不該開放 GPTBot

先把控制權握在 robots.txt，再用 llms.txt 卡位未來

robots.txt 設定常見錯誤與修正方法

WordPress 多面向導覽 SEO 的爬取陷阱與封鎖策略

爬取預算優化——中小型 WordPress 站該不該在意

頁面取消索引怎麼救？deindex 排查與重新收錄流程

分類標籤頁索引怎麼取捨——哪些該 noindex

meta description 寫法 2026：AI Overview 時代描述標籤該怎麼寫