你辛苦寫好的新文章,發布好幾天還是搜不到;或是改了商品價格、更新了標題,Google 卻遲遲沒反映。第一個被點名的嫌疑犯,往往就是「爬取預算」(Crawl Budget)。網路上講爬取預算的文章一大堆,但幾乎都把焦點放在百萬頁級的電商與新聞站,對經營一個幾百頁部落格、或幾千件商品 WooCommerce 小店的人來說,看完還是不知道:我這種規模,到底要不要花時間做爬取預算優化?
答案沒有一句話那麼簡單。爬取預算的「天花板」確實只有大站會撞到,但「爬取效率」這件事,連小站都會因為做錯而拖慢新內容被收錄的速度。這篇會把規模門檻講清楚,教你用 Search Console 自己判斷有沒有問題,再針對 WordPress 與 WooCommerce 列出最常見的浪費來源與該做、不該做的處理方式。
爬取預算到底是什麼,跟收錄、排名差在哪
爬取預算指的是 Googlebot 在一段時間內,願意且能夠抓取你網站的頁面數量。它不是一個你能在後台設定的固定數字,而是由兩個動態因素相乘出來的結果。
第一個是爬取頻率上限(Crawl Rate Limit),代表你的伺服器撐得住多少抓取。主機回應快、很少出錯,Googlebot 就敢用更多並行連線、抓得更頻繁;一旦伺服器常常逾時或回傳 5xx 錯誤,它會自動放慢,避免拖垮你的站。第二個是爬取需求(Crawl Demand),代表 Google 有多想抓你的頁面。熱門、外部連結多、更新頻繁的頁面需求高;長期沒人看、內容單薄的頁面,就算伺服器再快,Google 也懶得常來。把這兩者放在一起,Google 官方對爬取預算的定義就是「Googlebot 能抓、且想抓的網址數量」。
很多人卡在一個誤解:以為頁面被爬到就等於會出現在搜尋結果。實際上爬取、收錄、排名是三段獨立的關卡。
| 環節 | 在做什麼 | 主要影響因素 |
|---|---|---|
| 爬取(Crawl) | Googlebot 造訪並讀取頁面 | 爬取預算、robots.txt、伺服器速度 |
| 收錄(Index) | 判斷內容值不值得存入資料庫 | 內容品質、noindex、重複內容 |
| 排名(Rank) | 收錄後與其他頁面競爭排序 | 數百項排名訊號 |
這個區分很重要,因為它決定你該不該怪罪爬取預算。如果新頁面根本沒被爬過,才可能跟爬取效率有關;如果已經被爬過卻沒被收錄,問題八成出在內容品質或技術設定,跟爬取預算無關。值得先講明的一點是,Google 已多次說明爬取頻率本身不是排名訊號,抓得多不會讓你排得更前面,它只是讓你的優化更快被看見。
中小型 WordPress 站需不需要在意爬取預算
先給結論:以「撞到爬取預算天花板」這個意義來說,中小型站幾乎不用擔心;但以「爬取效率」這個意義來說,你還是該花一點力氣,而且成本很低。
規模門檻其實有公開說法可以參考。Google 在官方說明裡講得很直白:如果新頁面通常在發布當天就被抓到,或網站的網址數量在數千個以下,多數情況下都會被有效率地爬完,爬取預算不是你該操心的事。換算到實務,一個幾百篇文章的部落格、或商品數千件以下的小型 WooCommerce 店,本身的「有效頁面」數量遠不到讓 Googlebot 抓不完的程度。真正會把爬取預算當成首要課題的,是頁面數上萬、且每天大量變動的網站,例如大型電商、新聞媒體、票務或人力銀行平台。
但這裡有個容易被忽略的轉折。中小型站撞不到天花板,不代表它的爬取一定有效率。WordPress 的預設行為會自動生出大量低價值網址(後面會細談),如果這些垃圾網址把 Googlebot 的注意力吃掉,結果就是:你的新文章排在抓取佇列後面,幾天後才被看到;那波想搶的時事流量、限時活動,等 Google 反應過來早就過了。所以對小站來說,做爬取效率優化的回報不是「能被抓的頁數變多」,而是「重要的新頁面被抓得更快、更穩」。這件事連幾百頁的站都吃得到好處。
換句話說,要不要做,取決於你的站有沒有在「無意義地產生網址」。乾淨、結構清楚的小站,幾乎不用動;外掛裝一堆、封存頁與參數網址滿天飛的小站,就值得花半天清一清。
怎麼用 Search Console 判斷自己站有沒有爬取問題
不用去翻伺服器記錄檔,Google Search Console(GSC)就能讓你判斷爬取有沒有出狀況。重點看三個地方。
網頁索引報表:路徑是左側選單「索引」底下的「網頁」。這裡會列出已收錄與未收錄的頁面,以及未收錄的原因。其中兩個狀態最值得盯:
- 已找到,目前尚未建立索引:Google 知道這些網址存在,但還沒去抓。這個數字如果很大,才比較像是爬取資源沒分配過來的訊號。
- 已檢索,目前尚未建立索引:已經抓過了,但讀完決定先不收。這通常指向內容單薄或重複,是內容問題,不是爬取預算問題。
把這兩者分清楚,你才不會把內容問題誤當成爬取問題去亂改技術設定。
檢索統計資料:路徑是「設定」底下的「檢索統計資料」,記錄最近 90 天 Googlebot 對你站的抓取行為。看幾個地方就好:總抓取要求的趨勢有沒有異常暴衝或驟降、平均回應時間是不是偏高、以及「依回應碼分類」裡是不是有一堆 404 或 5xx。如果你發現抓取要求很多、但都集中在參數網址或不存在的頁面,那就是預算被浪費的鐵證。
網址檢查工具:在 GSC 最上方搜尋列直接貼上單一網址,可以看這頁有沒有被收錄、最後一次被抓是什麼時候。新文章剛發布想催收錄,也能在這裡按「要求建立索引」,請 Google 優先排程。這招對小站特別實用,等於手動把重要頁面插隊到佇列前面。
判斷邏輯可以簡化成這樣:先看新文章是不是發布後一兩天內就被抓到,是的話基本沒問題;如果常常拖很久,再去檢索統計資料看 Googlebot 的時間到底花在哪。
WordPress 與 WooCommerce 最常浪費爬取預算的頁面
WordPress 之所以特別需要這一節,是因為它「開箱即用」就會自動生出一堆對搜尋沒價值、卻會被爬到的網址。這些是小站爬取效率被拖累的主因,比伺服器速度更值得先處理。
常見的浪費來源包括:
- 標籤與分類封存頁:很多站隨手就建幾十個標籤,每個標籤頁內容高度重疊,又彼此稀釋。一個標籤只掛兩三篇文章時,那個封存頁幾乎沒有獨立價值。
- 作者頁與日期封存頁:單一作者的部落格,作者封存頁等於首頁的翻版;按年、月、日切的日期封存頁更是大量重複。
- 附件頁(attachment page):WordPress 預設會為每張上傳的圖片產生一個獨立網址,內容只有一張圖,是典型的薄內容頁。
- 內部搜尋結果頁:網址長得像
/?s=關鍵字,組合無上限,被連到就會被抓。 - 留言回覆連結:經典的
?replytocom=參數,一篇文章下面幾十則留言就生出幾十個近乎相同的網址。 - Feed 網址:每個分類、每篇文章都可能各有一個 feed。
WooCommerce 還會再疊上一層。商品篩選與排序的參數網址是最大宗,像是 ?orderby=price、?filter_color=red、?min_price=,幾百件商品就能組合出上萬個幾乎一樣的網址。再加上加入購物車、願望清單之類的動作網址(例如 ?add-to-cart= 或 ?add_to_wishlist=),以及購物車、結帳這種本來就不該被收錄的頁面,數量很容易失控。
這裡要釐清一個常被搞混的觀念:上面這些頁面「被爬到」並不等於「被收錄」,Google 多半會自己判斷不收。問題在於,它得先花抓取資源去確認這頁該不該收,這段成本就是被浪費掉的爬取預算。對一個本來就沒幾頁的小站,這些雜訊網址甚至可能比你真正想被收錄的內容還多,比例一失衡,新文章被冷落就不奇怪了。
中小型站省爬取預算的實際做法
針對上面的浪費來源,中小型站可以用幾個低成本動作把爬取效率拉回來。重點不是把所有設定都做滿,而是先堵住自己站真正在漏的洞。
第一、用 noindex 處理沒價值的封存頁。 標籤、作者、日期封存頁如果對讀者沒有導覽價值,就讓它們不被收錄。多數 SEO 外掛(如 Yoast、Rank Math)都能在後台一鍵把這些封存類型設成 noindex。要注意一個 Google 的提醒:noindex 標籤本身得讓 Googlebot 先抓進來、讀到標籤才會生效,所以它能省的是「收錄」與後續的重複判斷成本,而不是當下那次抓取。真正想連抓都不要抓的低價值路徑,才用 robots.txt。
第二、用 robots.txt 擋掉動作網址與參數網址。 內部搜尋、加入購物車、篩選排序這類不提供獨特內容的網址,適合直接在 robots.txt 用 disallow 擋住,讓 Googlebot 把力氣留給真正的內容頁。例如針對內部搜尋與加購可以寫:
Disallow: /*?s=
Disallow: /*?*add-to-cart=
Disallow: /*?*orderby=
這裡有個關鍵且反直覺的事實,Google 已經確認:被 robots.txt disallow 的網址不會消耗你的爬取預算,也就是擋掉它們不會「扣分」,只會把抓取資源自然導向有用的頁面。所以放心擋。唯一要小心的是別用過於寬鬆的字元規則誤擋到正常網址,也絕對不要擋到頁面渲染需要用到的 CSS 或 JavaScript 檔,那會害 Google 看不懂你的版面。
第三、清乾淨 XML Sitemap。 Sitemap 應該只放你希望被收錄的標準網址,把 noindex、重複、低品質的頁面排除掉。WordPress 的 SEO 外掛通常會自動依你的 noindex 設定產生 sitemap,設定對了這步多半會跟著對。
第四、修掉轉址鏈與壞連結。 避免 A 轉 B、B 再轉 C 這種多層轉址,能直接把第一層指向最終網址就指過去;內部連結也統一用最終、含正確斜線與 www 與否的標準網址,少一次無謂的轉址就少抓一次。同時把站內的 404 壞連結補掉,Googlebot 反覆撞死路也是在燒預算。
第五、把主機與頁面速度顧好。 Googlebot 在你站停留的時間有限,伺服器回應越快,同樣時間內抓得越多。選穩定的主機、壓縮圖片、視情況導入 CDN,都是基本功。Google 也說過,伺服器持續回應快是「健康」的訊號,反而會讓它願意抓得更勤。
第六、靠內容品質把爬取需求養起來。 這是最根本、也最常被當成跟技術無關而略過的一點。Google 會主動降低抓取「沒人看、品質差」頁面的頻率;反過來,持續產出有深度、會被連結與分享的內容,爬取需求自然往上走,新文章也更容易被快速抓到。技術設定只能避免浪費,內容才是讓 Google 願意多來的理由。
哪些做法是大站才需要、小站別白費力氣
爬取預算的文章很多招數其實是為百萬頁級網站設計的,小站照單全收只是徒增複雜度,甚至可能弄巧成拙。幾個可以先放掉的方向:
- 把靜態資源拆到獨立主機名:Google 建議大站把圖片、CSS、JS 放到 CDN 或子網域,好把主站的爬取預算留給內容頁。對幾百頁的站,這點省下的預算微乎其微,不值得為它增加架構複雜度。
- 實作 304 Not Modified 回應:用「自上次抓取後未變動」的回應幫 Googlebot 省抓取,這在頁面數百萬時效益才明顯。小站手動去搞,風險(例如設定錯誤回傳空白頁導致停止重抓)大於收益。
- 逐條清理每一個轉址鏈:大站幾乎不可能做到全站零轉址鏈;小站則相對容易,但也不必執著到追外部反向連結帶來的轉址,那些你本來就管不到。
- hreflang 多語系標記的細部調校:只有真的在做多語系版本時才需要,單一語言的台灣小站完全用不上。
判斷原則很單純:先回到 Search Console 看你的新內容是不是被及時抓取。是的話,上面這些進階手段一個都不用碰;把同樣的時間拿去寫一篇好文章,對排名的幫助大得多。
對中小型 WordPress 站來說,爬取預算優化不該被當成一場大工程,而是一次性的環境整理。先用 Search Console 確認自己到底有沒有問題,再針對 WordPress 與 WooCommerce 那幾類自動生出來的低價值網址,用 noindex 與 robots.txt 把雜訊堵住,順手清一下 sitemap 與轉址,這些半天內就能完成的動作,能換來新文章更快被收錄、優化更快見效。剩下的力氣,留給真正會把爬取需求養起來的事,把每一篇內容寫得值得 Google 一再回訪。