看懂索引涵蓋範圍報告——每種已排除狀態怎麼判讀

打開 Search Console 的索引涵蓋範圍報告,看到「未編入索引」底下一長串紅字與灰字,很多人第一反應是緊張:是不是網站壞了?是不是被 Google 處罰了?實際上,這份報表裡大部分的「已排除」狀態根本不是問題,有些甚至是健康網站該有的正常現象。真正會傷到流量的,往往只有其中兩三種,而它們又最常被淹沒在一堆無關緊要的通知裡。

這篇要做的事情很單純:把涵蓋範圍報告裡每一種「已排除」狀態拆開,講清楚它的真正含義,分辨哪些該動手、哪些放著就好,並針對 WordPress 與 WooCommerce 網站最常踩到的幾種狀況給出具體處置。讀完之後,你再打開這份報表,應該能在三十秒內判斷出「這條要不要管」。

索引涵蓋範圍報告到底在告訴你什麼

涵蓋範圍報告的本質,是 Google 把它對你每一個網址的「檢索與索引決定」攤開給你看。它的位置在 Search Console 左側選單的「產生索引」底下,點進「網頁」就會看到。新版介面把網址分成兩大塊:已編入索引的網頁,以及未編入索引的網頁。下方那張「網頁未編入索引的原因」清單,就是這篇的主角。

要看懂這份報表,先抓住一個前後關係:檢索(crawl)在前,索引(index)在後。Google 得先派爬蟲把網頁抓下來讀過,才談得上要不要把它收進索引。沒被檢索,就不可能被索引;被檢索了,也不保證會被索引。涵蓋範圍報告裡的每一種狀態,其實都對應到這條流程上的某個卡點。

所以判讀的第一個動作,是先問這個網址卡在哪一段。如果是檢索階段就被擋下來(伺服器錯誤、robots.txt 封鎖、401、403),那是技術問題;如果是檢索完成、Google 卻決定不收(已檢索尚未索引、重複網頁、替代頁面),那是內容或結構的判斷問題。兩類的處置方向完全不同,混在一起看只會越看越亂。

哪些「已排除」狀態其實不用處理

報表裡有一整類狀態,是 Google 在告訴你「我刻意沒收這個網址」,而且這個決定通常是對的。這些狀態出現大量網址是正常的,看到數字很大不必恐慌,重點是確認裡面沒有夾帶你真正想被收錄的重要頁面。

替代頁面(有適當的標準標記):這代表該網址是另一個網址的分身,而且你已經正確用 canonical 標籤指向了標準版本,Google 照辦了。最典型的例子就是帶 UTM 參數的網址,例如同一篇文章後面接了 ?utm_source=facebook,Google 認得出它跟乾淨網址是同一頁,於是把帶參數的版本標成替代頁面。這是 canonical 正常運作的結果,完全不用動。

頁面會重新導向:這個網址設了轉址(301 或 302),Google 不會收錄會跳走的網址,而是去看跳轉後的目的地。只要轉址是你刻意設的,這條就是正常的。要檢查的不是這條狀態本身,而是「目的地網址有沒有被好好索引」。

找不到(404):網址回傳 404,頁面確實不存在了,Google 不收錄一個不存在的頁面,天經地義。這裡要分兩種情況判斷:如果這個頁面本來就該刪、該下架,那 404 是正確的,放著就好;如果是不該消失的重要頁面變成 404,問題不在這條狀態,而在「它為什麼掉了」,那才要回頭追。

遭到 noindex 標記排除:你(或外掛、或主題)在這個頁面放了 noindex 指令,Google 尊重你的意思沒收它。WordPress 站很常見的是標籤頁、作者頁、搜尋結果頁被 SEO 外掛自動加上 noindex,這通常是刻意的設定,不是錯誤。只要被排除的是你本來就不想被收的頁面,這條不用理會。

判斷這一類的通用原則:點進該狀態,看裡面列出的網址樣本。如果都是參數網址、後台頁、明顯該排除的頁面,數字再大都不用管;只有當你發現裡面混進了該被收錄的正文頁,才需要往下追原因。

已檢索尚未索引與已發現尚未索引差在哪

這兩個狀態名字像、位置近,是整份報表最容易搞混、也最常被問的一組。它們的差別其實一句話就能講清楚:已發現是還沒爬,已檢索是爬了不收。卡在流程的不同階段,要做的事也不一樣。

已發現,目前尚未建立索引:Google 知道有這個網址(通常是從 sitemap 或內部連結找到的),但還沒派爬蟲去抓內容。最常見的原因是檢索預算不足,Google 排程上還沒輪到它,或是擔心一次抓太多會讓你的主機過載,所以延後。這偏向是「抓取資源」層面的訊號,特別容易出現在頁數很多、主機反應慢、或內部連結結構鬆散的網站。

處置方向是讓 Google 更願意、也更容易來抓:提升主機回應速度、把真正重要的頁面放進清晰的內部連結路徑、用 robots.txt 擋掉那些根本不需要被抓的低價值網址(例如後台、無意義的參數組合),把有限的檢索預算留給該被收錄的頁面。對小網站來說,這個狀態多半過一陣子會自己消化,不必過度反應。

已檢索,目前尚未建立索引:Google 已經把網頁抓下來讀過了,但看完決定暫時不收。這個狀態比上一個棘手,因為它通常是內容品質或重複性的訊號——Google 讀完覺得這頁「目前不值得佔一個索引位置」。常見的背後原因包括內容太單薄、與站內其他頁面高度相似、缺乏指向它的內部連結,或頁面太新還在觀察期。

處置方向也因此完全不同:與其催 Google 來抓(它已經抓過了),不如回頭改內容。把頁面寫得更完整、補上實質資訊、加強站內連向它的連結,讓 Google 重新評估時覺得「這頁有料」。改完之後可以用網址審查工具重新提交,但別期待立刻見效——這個狀態的解法是內容工程,不是按鈕工程。

把兩者放在一起對照會更清楚:

已發現尚未索引
還沒爬
=檢索資源問題

改主機與內部連結
已檢索尚未索引
爬了不收
=內容品質問題

改內容與重複性

三種「重複網頁」狀態各自代表什麼

報表裡有三個都跟「重複內容」與「標準網址(canonical)」有關的狀態,名字長得很像,但指向的問題層次不同。先建立一個背景:當 Google 發現多個網址內容雷同,它會把這幾個歸成一組,從中挑一個當「標準網址」收進索引,其餘標成重複、不單獨顯示在搜尋結果。差別就在「誰來挑、挑得對不對」。

替代頁面(有適當的標準標記):前面提過,這是你自己用 canonical 指定好了標準版本,Google 照你的意思辦。屬於正常狀態,不用處理。

這是重複網頁;使用者未選取標準網頁:Google 發現一組重複網址,但你沒有用 canonical 或 301 告訴它哪個是本尊,於是 Google 自己挑了一個,把目前這個標成重複。這在電商站特別常見——同一件商品因為顏色、尺寸、排序參數產生了多個網址。處置方式是主動宣告標準網址:用 canonical 標籤把所有變體指向主要網址,或用 301 把多餘網址導到主版本,別讓 Google 替你猜。

這是重複網頁;Google 選擇的標準網頁和使用者的選擇不同:你明明用 canonical 指定了某個網址當標準,但 Google 看完覺得你選錯了,自作主張選了另一個。這條值得認真看,因為它代表你的 canonical 設定與 Google 的判斷打架。常見原因是 canonical 標籤指錯目標、或被指為標準的那頁本身又被 301 轉走、或全站的內部連結幾乎都指向另一個版本,導致 Google 認為那個才是真正的主角。處置方式是用網址審查工具看 Google 到底選了哪個當標準,再回頭確認自己的 canonical 與內部連結是否一致。

還有一個變體叫「這是重複網頁;已提交的網址未獲選為標準網址」,本質跟上一條一樣,只是這個被判定為重複的網址,是你主動放進 sitemap 提交的。解法相同:解決重複問題、用 canonical 宣告正確標準,並把非標準網址從 sitemap 裡清掉,不要把分身網址當重要頁面提交。

WordPress 與 WooCommerce 常見的索引狀態與處置

用 WordPress 或 WooCommerce 架的站,涵蓋範圍報告裡會固定出現幾種「已排除」狀態,它們幾乎都跟 CMS 的預設行為有關,認得出來就不會白白緊張。

標籤頁、分類彙整頁、作者頁被 noindex 排除:WordPress 預設會為每個標籤、分類、作者、日期建立彙整頁,這些頁面內容多半是文章摘要的重複組合,價值低。多數 SEO 外掛(例如常見的那幾套)會自動幫標籤頁、作者頁加上 noindex,於是它們出現在「遭 noindex 標記排除」是正常的。要做的只是確認分類頁的處理符合你的策略——如果你的分類頁有經營、想被搜到,就別讓它被 noindex。

附件頁(attachment page)變成重複或 soft 404:WordPress 預設會為每張上傳的圖片產生一個獨立網址,這種頁面通常只有一張圖、幾乎沒有文字,很容易被判成內容單薄或重複。處置方式是在 SEO 外掛裡把附件網址重導向到附件本身或母文章,讓這些空殼網址不再單獨存在。

WooCommerce 的篩選與排序參數網址:商店頁的價格篩選、規格篩選、排序,往往會在網址後面接上一長串參數,例如帶有篩選條件或排序方式的查詢字串,產生大量內容雷同的網址。這些最常落在「這是重複網頁;使用者未選取標準網頁」或「替代頁面」。處置原則是讓乾淨的分類頁當標準網址、用 canonical 把參數版本指回去,並評估用 robots.txt 擋掉那些純粹由篩選組合產生、沒有獨立價值的網址,省下檢索預算。

購物車與結帳相關網址被排除:WooCommerce 的加入購物車動作、購物車頁、結帳頁這類網址,本來就不該被收進搜尋結果,它們被排除是正確的。看到 ?add-to-cart= 之類的網址出現在已排除清單,不用處理。這部分純粹是商店運作會產生的網址,與你的內容收錄無關,不需要當成金流設定去調整。

商品下架後留下的 404:商品賣完下架、網址回傳 404 是正常的;但如果是熱賣、有排名、有外部連結指向的商品頁要下架,建議用 301 把它導到相近商品或所屬分類,把累積的權重接住,而不是任由它變成 404 流失。

修正之後,怎麼讓 Google 重新確認

改完問題不是結束,你得讓 Google 知道「我改過了」,否則報表上的狀態可能繼續掛著。Search Console 在每個問題詳情頁提供一顆「驗證修正」的按鈕,按下去等於重新交卷,Google 會排程重新檢查這批網址,確認問題是否解決。

用這顆按鈕有兩個前提要守住。第一、真的改完再按。如果你只是想看看會怎樣、實際上問題還在,驗證一定會失敗,反覆按對網站沒有任何幫助,只是浪費彼此時間。第二、分清楚哪些狀態需要驗證。技術性的錯誤(伺服器錯誤、誤設的 noindex、該修的轉址)改好後值得驗證;至於「已檢索尚未索引」這種靠內容品質決定的狀態,並沒有一個明確的「修正完成」時點,與其反覆驗證,不如改好內容後耐心等 Google 自然重新評估。

針對單一重要頁面,更直接的做法是用網址審查工具:輸入網址、看 Google 眼中這頁目前的索引狀態與抓取結果,確認沒問題後點「要求建立索引」。這對剛發布、急著被收的重點頁面特別有用,但同樣別濫用——對同一個網址反覆要求索引不會加速,Google 該收的時候自然會收。

最後提醒一個容易被忽略的盲點:有些狀態的數字大不代表有問題,有些狀態數字小卻是真的在流血。判讀涵蓋範圍報告的價值,不在於把所有「未編入索引」清成零(那不可能、也沒必要),而在於每次打開報表時,能準確認出「哪幾條夾帶了我真正想被收錄的頁面」。把注意力放在那幾條上,其餘的正常排除就讓它們安靜待著。固定每隔一段時間掃一遍這份報表,比起出事才慌忙救火,更能讓有價值的頁面穩定留在 Google 的索引裡。

相關文章
標籤: WooCommerce, Search Console, 重複內容, 索引, 已排除狀態