爬取預算優化——中小型 WordPress 站該不該在意

你辛苦寫好的新文章，發布好幾天還是搜不到；或是改了商品價格、更新了標題，Google 卻遲遲沒反映。第一個被點名的嫌疑犯，往往就是「爬取預算」（Crawl Budget）。網路上講爬取預算的文章一大堆，但幾乎都把焦點放在百萬頁級的電商與新聞站，對經營一個幾百頁部落格、或幾千件商品 WooCommerce 小店的人來說，看完還是不知道：我這種規模，到底要不要花時間做爬取預算優化？

答案沒有一句話那麼簡單。爬取預算的「天花板」確實只有大站會撞到，但「爬取效率」這件事，連小站都會因為做錯而拖慢新內容被收錄的速度。這篇會把規模門檻講清楚，教你用 Search Console 自己判斷有沒有問題，再針對 WordPress 與 WooCommerce 列出最常見的浪費來源與該做、不該做的處理方式。

爬取預算到底是什麼，跟收錄、排名差在哪

爬取預算指的是 Googlebot 在一段時間內，願意且能夠抓取你網站的頁面數量。它不是一個你能在後台設定的固定數字，而是由兩個動態因素相乘出來的結果。

第一個是爬取頻率上限（Crawl Rate Limit），代表你的伺服器撐得住多少抓取。主機回應快、很少出錯，Googlebot 就敢用更多並行連線、抓得更頻繁；一旦伺服器常常逾時或回傳 5xx 錯誤，它會自動放慢，避免拖垮你的站。第二個是爬取需求（Crawl Demand），代表 Google 有多想抓你的頁面。熱門、外部連結多、更新頻繁的頁面需求高；長期沒人看、內容單薄的頁面，就算伺服器再快，Google 也懶得常來。把這兩者放在一起，Google 官方對爬取預算的定義就是「Googlebot 能抓、且想抓的網址數量」。

很多人卡在一個誤解：以為頁面被爬到就等於會出現在搜尋結果。實際上爬取、收錄、排名是三段獨立的關卡。

環節	在做什麼	主要影響因素
爬取（Crawl）	Googlebot 造訪並讀取頁面	爬取預算、robots.txt、伺服器速度
收錄（Index）	判斷內容值不值得存入資料庫	內容品質、noindex、重複內容
排名（Rank）	收錄後與其他頁面競爭排序	數百項排名訊號

這個區分很重要，因為它決定你該不該怪罪爬取預算。如果新頁面根本沒被爬過，才可能跟爬取效率有關；如果已經被爬過卻沒被收錄，問題八成出在內容品質或技術設定，跟爬取預算無關。值得先講明的一點是，Google 已多次說明爬取頻率本身不是排名訊號，抓得多不會讓你排得更前面，它只是讓你的優化更快被看見。

中小型 WordPress 站需不需要在意爬取預算

先給結論：以「撞到爬取預算天花板」這個意義來說，中小型站幾乎不用擔心；但以「爬取效率」這個意義來說，你還是該花一點力氣，而且成本很低。

規模門檻其實有公開說法可以參考。Google 在官方說明裡講得很直白：如果新頁面通常在發布當天就被抓到，或網站的網址數量在數千個以下，多數情況下都會被有效率地爬完，爬取預算不是你該操心的事。換算到實務，一個幾百篇文章的部落格、或商品數千件以下的小型 WooCommerce 店，本身的「有效頁面」數量遠不到讓 Googlebot 抓不完的程度。真正會把爬取預算當成首要課題的，是頁面數上萬、且每天大量變動的網站，例如大型電商、新聞媒體、票務或人力銀行平台。

但這裡有個容易被忽略的轉折。中小型站撞不到天花板，不代表它的爬取一定有效率。WordPress 的預設行為會自動生出大量低價值網址（後面會細談），如果這些垃圾網址把 Googlebot 的注意力吃掉，結果就是：你的新文章排在抓取佇列後面，幾天後才被看到；那波想搶的時事流量、限時活動，等 Google 反應過來早就過了。所以對小站來說，做爬取效率優化的回報不是「能被抓的頁數變多」，而是「重要的新頁面被抓得更快、更穩」。這件事連幾百頁的站都吃得到好處。

換句話說，要不要做，取決於你的站有沒有在「無意義地產生網址」。乾淨、結構清楚的小站，幾乎不用動；外掛裝一堆、封存頁與參數網址滿天飛的小站，就值得花半天清一清。

怎麼用 Search Console 判斷自己站有沒有爬取問題

不用去翻伺服器記錄檔，Google Search Console（GSC）就能讓你判斷爬取有沒有出狀況。重點看三個地方。

網頁索引報表：路徑是左側選單「索引」底下的「網頁」。這裡會列出已收錄與未收錄的頁面，以及未收錄的原因。其中兩個狀態最值得盯：

已找到，目前尚未建立索引：Google 知道這些網址存在，但還沒去抓。這個數字如果很大，才比較像是爬取資源沒分配過來的訊號。
已檢索，目前尚未建立索引：已經抓過了，但讀完決定先不收。這通常指向內容單薄或重複，是內容問題，不是爬取預算問題。

把這兩者分清楚，你才不會把內容問題誤當成爬取問題去亂改技術設定。

檢索統計資料：路徑是「設定」底下的「檢索統計資料」，記錄最近 90 天 Googlebot 對你站的抓取行為。看幾個地方就好：總抓取要求的趨勢有沒有異常暴衝或驟降、平均回應時間是不是偏高、以及「依回應碼分類」裡是不是有一堆 404 或 5xx。如果你發現抓取要求很多、但都集中在參數網址或不存在的頁面，那就是預算被浪費的鐵證。

網址檢查工具：在 GSC 最上方搜尋列直接貼上單一網址，可以看這頁有沒有被收錄、最後一次被抓是什麼時候。新文章剛發布想催收錄，也能在這裡按「要求建立索引」，請 Google 優先排程。這招對小站特別實用，等於手動把重要頁面插隊到佇列前面。

判斷邏輯可以簡化成這樣：先看新文章是不是發布後一兩天內就被抓到，是的話基本沒問題；如果常常拖很久，再去檢索統計資料看 Googlebot 的時間到底花在哪。

WordPress 與 WooCommerce 最常浪費爬取預算的頁面

WordPress 之所以特別需要這一節，是因為它「開箱即用」就會自動生出一堆對搜尋沒價值、卻會被爬到的網址。這些是小站爬取效率被拖累的主因，比伺服器速度更值得先處理。

常見的浪費來源包括：

標籤與分類封存頁：很多站隨手就建幾十個標籤，每個標籤頁內容高度重疊，又彼此稀釋。一個標籤只掛兩三篇文章時，那個封存頁幾乎沒有獨立價值。
作者頁與日期封存頁：單一作者的部落格，作者封存頁等於首頁的翻版；按年、月、日切的日期封存頁更是大量重複。
附件頁（attachment page）：WordPress 預設會為每張上傳的圖片產生一個獨立網址，內容只有一張圖，是典型的薄內容頁。
內部搜尋結果頁：網址長得像 /?s=關鍵字，組合無上限，被連到就會被抓。
留言回覆連結：經典的 ?replytocom= 參數，一篇文章下面幾十則留言就生出幾十個近乎相同的網址。
Feed 網址：每個分類、每篇文章都可能各有一個 feed。

WooCommerce 還會再疊上一層。商品篩選與排序的參數網址是最大宗，像是 ?orderby=price、?filter_color=red、?min_price=，幾百件商品就能組合出上萬個幾乎一樣的網址。再加上加入購物車、願望清單之類的動作網址（例如 ?add-to-cart= 或 ?add_to_wishlist=），以及購物車、結帳這種本來就不該被收錄的頁面，數量很容易失控。

這裡要釐清一個常被搞混的觀念：上面這些頁面「被爬到」並不等於「被收錄」，Google 多半會自己判斷不收。問題在於，它得先花抓取資源去確認這頁該不該收，這段成本就是被浪費掉的爬取預算。對一個本來就沒幾頁的小站，這些雜訊網址甚至可能比你真正想被收錄的內容還多，比例一失衡，新文章被冷落就不奇怪了。

中小型站省爬取預算的實際做法

針對上面的浪費來源，中小型站可以用幾個低成本動作把爬取效率拉回來。重點不是把所有設定都做滿，而是先堵住自己站真正在漏的洞。

第一、用 noindex 處理沒價值的封存頁。 標籤、作者、日期封存頁如果對讀者沒有導覽價值，就讓它們不被收錄。多數 SEO 外掛（如 Yoast、Rank Math）都能在後台一鍵把這些封存類型設成 noindex。要注意一個 Google 的提醒：noindex 標籤本身得讓 Googlebot 先抓進來、讀到標籤才會生效，所以它能省的是「收錄」與後續的重複判斷成本，而不是當下那次抓取。真正想連抓都不要抓的低價值路徑，才用 robots.txt。

第二、用 robots.txt 擋掉動作網址與參數網址。 內部搜尋、加入購物車、篩選排序這類不提供獨特內容的網址，適合直接在 robots.txt 用 disallow 擋住，讓 Googlebot 把力氣留給真正的內容頁。例如針對內部搜尋與加購可以寫：

Disallow: /*?s=
Disallow: /*?*add-to-cart=
Disallow: /*?*orderby=

這裡有個關鍵且反直覺的事實，Google 已經確認：被 robots.txt disallow 的網址不會消耗你的爬取預算，也就是擋掉它們不會「扣分」，只會把抓取資源自然導向有用的頁面。所以放心擋。唯一要小心的是別用過於寬鬆的字元規則誤擋到正常網址，也絕對不要擋到頁面渲染需要用到的 CSS 或 JavaScript 檔，那會害 Google 看不懂你的版面。

第三、清乾淨 XML Sitemap。 Sitemap 應該只放你希望被收錄的標準網址，把 noindex、重複、低品質的頁面排除掉。WordPress 的 SEO 外掛通常會自動依你的 noindex 設定產生 sitemap，設定對了這步多半會跟著對。

第四、修掉轉址鏈與壞連結。 避免 A 轉 B、B 再轉 C 這種多層轉址，能直接把第一層指向最終網址就指過去；內部連結也統一用最終、含正確斜線與 www 與否的標準網址，少一次無謂的轉址就少抓一次。同時把站內的 404 壞連結補掉，Googlebot 反覆撞死路也是在燒預算。

第五、把主機與頁面速度顧好。 Googlebot 在你站停留的時間有限，伺服器回應越快，同樣時間內抓得越多。選穩定的主機、壓縮圖片、視情況導入 CDN，都是基本功。Google 也說過，伺服器持續回應快是「健康」的訊號，反而會讓它願意抓得更勤。

第六、靠內容品質把爬取需求養起來。 這是最根本、也最常被當成跟技術無關而略過的一點。Google 會主動降低抓取「沒人看、品質差」頁面的頻率；反過來，持續產出有深度、會被連結與分享的內容，爬取需求自然往上走，新文章也更容易被快速抓到。技術設定只能避免浪費，內容才是讓 Google 願意多來的理由。

哪些做法是大站才需要、小站別白費力氣

爬取預算的文章很多招數其實是為百萬頁級網站設計的，小站照單全收只是徒增複雜度，甚至可能弄巧成拙。幾個可以先放掉的方向：

把靜態資源拆到獨立主機名：Google 建議大站把圖片、CSS、JS 放到 CDN 或子網域，好把主站的爬取預算留給內容頁。對幾百頁的站，這點省下的預算微乎其微，不值得為它增加架構複雜度。
實作 304 Not Modified 回應：用「自上次抓取後未變動」的回應幫 Googlebot 省抓取，這在頁面數百萬時效益才明顯。小站手動去搞，風險（例如設定錯誤回傳空白頁導致停止重抓）大於收益。
逐條清理每一個轉址鏈：大站幾乎不可能做到全站零轉址鏈；小站則相對容易，但也不必執著到追外部反向連結帶來的轉址，那些你本來就管不到。
hreflang 多語系標記的細部調校：只有真的在做多語系版本時才需要，單一語言的台灣小站完全用不上。

判斷原則很單純：先回到 Search Console 看你的新內容是不是被及時抓取。是的話，上面這些進階手段一個都不用碰；把同樣的時間拿去寫一篇好文章，對排名的幫助大得多。

對中小型 WordPress 站來說，爬取預算優化不該被當成一場大工程，而是一次性的環境整理。先用 Search Console 確認自己到底有沒有問題，再針對 WordPress 與 WooCommerce 那幾類自動生出來的低價值網址，用 noindex 與 robots.txt 把雜訊堵住，順手清一下 sitemap 與轉址，這些半天內就能完成的動作，能換來新文章更快被收錄、優化更快見效。剩下的力氣，留給真正會把爬取需求養起來的事，把每一篇內容寫得值得 Google 一再回訪。

爬取預算到底是什麼，跟收錄、排名差在哪

中小型 WordPress 站需不需要在意爬取預算

怎麼用 Search Console 判斷自己站有沒有爬取問題

WordPress 與 WooCommerce 最常浪費爬取預算的頁面

中小型站省爬取預算的實際做法

哪些做法是大站才需要、小站別白費力氣

robots.txt 設定常見錯誤與修正方法

分類標籤頁索引怎麼取捨——哪些該 noindex

WordPress 多面向導覽 SEO 的爬取陷阱與封鎖策略

WordPress Sitemap 完整設定指南：外掛配置、GSC 提交與收錄率排查

內容稽核盤點怎麼做？決定文章保留改寫或合併

WordPress 新站第一個月 SEO 設定清單，六個步驟打好地基