分類標籤頁索引怎麼取捨——哪些該 noindex

打開 Google Search Console 的「網頁索引」報表,常見的場景是:實際寫的文章只有四十幾篇,索引狀態裡卻冒出兩三百個網址,多數還是 /category//tag/ 開頭的彙整頁。這些分類標籤頁索引膨脹的問題,正是稀釋網站權重、拖慢爬蟲效率的隱形漏洞。

WordPress 預設會把分類頁與標籤頁全部開放索引,多數人裝好佈景主題就直接上線,從沒動過這個設定。問題是,這些彙整頁大多只是文章摘要的列表,內容深度不足、彼此高度重複,全部丟進 Google 索引不但幫不上排名,還會跟你真正想衝排名的文章互搶位置。

這篇要回答的不是「要不要全部 noindex」這種一刀切的問題,而是給你一套可以照著判斷的取捨邏輯:哪些彙整頁值得留在索引裡當登陸頁、哪些該設 noindex 把權重收回主內容、設定時又該選 noindex,follow 還是 noindex,nofollow。看完你會知道自己網站該動哪幾個開關,而不是抄一條別人的通則。

分類頁與標籤頁在 WordPress 裡到底是什麼

分類頁與標籤頁都屬於 WordPress 的「分類法彙整頁」(taxonomy archive),是系統根據你掛在文章上的分類與標籤,自動生成的文章列表頁。你沒有手動寫過這些頁面,它們卻實實在在地存在於網站上、有自己的網址,而且 WordPress 預設讓它們全部可被搜尋引擎索引。

兩者的角色不一樣。分類(Category)是樹狀結構,負責網站的主導覽,一篇文章原則上只歸一個主分類,數量要少而精。標籤(Tag)是平面的網狀結構,負責橫向串聯跨分類的相關文章,一篇文章可以掛多個標籤。用書本來比喻,分類像書的章節,給人一個主題的整體輪廓;標籤像書末的索引,讓你從某個關鍵詞一次找出散落各章的相關段落。

除了這兩種,WordPress 還會自動生成幾類彙整頁,常被一起忽略:

  • 作者彙整頁/author/xxx):列出某位作者的所有文章,單一作者的部落格幾乎沒有存在意義。
  • 日期彙整頁/2024/03/):按年月歸檔,文章之間除了發布時間沒有主題關聯。
  • 格式彙整頁:依文章格式(圖片、引言等)歸檔,幾乎沒有搜尋價值。

這幾類頁面的內容彼此重疊度更高,盤點索引策略時要一起納入考量,不要只盯著分類跟標籤。

為什麼預設全索引會稀釋權重

把所有彙整頁丟進索引,主要會踩到三個雷,三個都直接傷排名。

第一、重複內容稀釋主內容。 分類頁與標籤頁顯示的是文章摘要,同一段摘要可能同時出現在它所屬的分類頁、好幾個標籤頁,以及首頁。Google 看到大量近乎相同的列表頁,會分散原本該集中到單篇文章的評價訊號,等於把權重攤薄在一堆沒有獨立價值的頁面上。

第二、彙整頁跟文章互搶排名(關鍵字自我蠶食)。 這是最容易被忽略卻最傷的一點。假設你有一篇主打「WordPress 教學」的長文,結果 Google 偏偏選了那個只有摘要列表的「WordPress」標籤頁回應這個查詢——使用者點進去看到的是一排標題,不是你精心寫的內容,跳出率拉高,而你真正想排的文章反而排在後面。彙整頁跟文章爭奪同一組查詢時,受傷的通常是內容更好的那一方。

第三、浪費爬蟲預算(crawl budget)。 這點要講清楚分寸:對大多數中小型網站,爬蟲預算其實不是瓶頸,Google 有的是資源來爬幾百個頁面。真正會被它拖累的是頁數上千、更新頻繁的大站。但即使是小站,一堆只掛一兩篇文章的「孤兒標籤頁」或空彙整頁,仍然會讓 Google 把抓取資源花在沒價值的列表上,而不是你新發的文章。索引膨脹本身就是網站結構不清的訊號。

要補充一個常見誤解:頁面「可被索引」不等於 Google 「一定會索引」。Google 經常爬了某個頁面卻選擇不收錄,理由可能是內容價值不足。所以你在 GSC 看到一堆彙整頁顯示「已檢索但未編入索引」,那其實是 Google 已經在替你做判斷了——但與其放著讓它每次都來爬一輪,不如主動用 noindex 把訊號講明白。

哪些彙整頁該留在索引裡

先講該保留的,因為一刀切全部 noindex 是另一種偷懶。彙整頁不是天生沒價值,判斷標準是這一頁本身能不能當成一個值得排名的登陸頁。符合以下條件的分類頁,值得留著索引:

  • 底下文章夠多、主題夠聚焦。 一個分類底下有十幾二十篇紮實文章,這一頁就是該主題的天然樞紐,對讀者跟 Google 都有導覽價值。業界常見的門檻是「少於 5 篇文章的分類就設 noindex」,你可以依自己內容量微調,但精神是一致的:頁面要有實質內容厚度才留。
  • 有客製化的頁面內容,不是純列表。 如果你在分類頁頂端加了一兩百字的主題介紹、客製化的標題與描述,把它當成一個獨立登陸頁經營,那它就具備了單篇頁面的價值,索引才有意義。
  • 本身就有搜尋流量。 到 GSC 看這個彙整頁過去有沒有在帶點擊與曝光。正在帶流量的頁面千萬別亂設 noindex,那是把已經到手的成果丟掉。

實務上的分工通常是:分類頁有條件地索引、標籤頁預設 noindex。 分類少而精、又對應主題集群,比較容易養成有價值的登陸頁;標籤通常多而雜、每個底下文章少,留著索引的效益遠低於風險。知名 SEO 外掛 Rank Math 的官方文件甚至直接建議,除非你有明確的策略理由,否則分類與標籤頁都不該索引,因為它們普遍被視為內容單薄或重複的頁面。這是個保守但安全的起點。

哪些該設 noindex 收回權重

反過來,符合下列任一條件的彙整頁,設 noindex 對整站較有利:

  • 標籤頁、作者頁、日期頁這類系統自動產生、內容單薄的彙整。 尤其是單一作者部落格的作者頁,以及純按時間歸檔、文章彼此沒有主題關聯的日期頁,留著只是增加重複頁。
  • 正在跟文章互搶排名的彙整頁。 如果你發現某個分類頁在 GSC 持續攔截到本該由某篇文章承接的查詢,這就是要處理的訊號。
  • 孤兒標籤與空分類。 底下只有一兩篇、甚至沒有文章的彙整頁,沒有導覽價值也沒有排名機會。

不過在動手把彙整頁設 noindex 之前,要先排除一個更根本的可能:如果是分類頁搶走了文章該排的查詢,第一個動作不該是把分類頁壓掉,而是回頭檢查那篇文章本身是不是寫得不夠好。Google 選擇用彙整頁回應查詢,有時反映的是這組查詢本身意圖混合(既有人想看清單、也有人想看深度內容)。先把目標文章的內容做到位,再決定要不要 deoptimize 彙整頁,順序不要顛倒。

noindex,follow 與 noindex,nofollow 怎麼選

設定 noindex 時,後面跟著的 follownofollow 決定了權重會不會繼續流動,這一個字的差別常被忽略,卻直接影響效果。

noindex,follow 的意思是:這一頁不要收進索引,但頁面上的連結照樣去爬、權重照樣傳遞下去。noindex,nofollow 則是連頁面上的連結都不追蹤、不傳權重。

彙整頁幾乎一律該用 noindex,follow 原因是分類頁與標籤頁本身就是通往一篇篇文章的內部連結樞紐,Google 透過爬這些彙整頁去發現、串聯你的內容,並把網站的權重經由這些連結導流到各篇文章。如果你設了 nofollow,等於把這條內部導流路徑切斷,文章少了一條被發現與被加權的途徑。用 noindex,follow,你達到了「不讓列表頁出現在搜尋結果」的目的,又保住了內部連結的權重傳遞,這是兩全的設定。

只有在你確定某類頁面連內部連結都不希望被追蹤時,才考慮 nofollow,而彙整頁不屬於這種情況。

各家 SEO 外掛的設定位置

主流 SEO 外掛都把分類法的索引設定做成開關,不需要寫程式。設定後外掛通常會一併把該類頁面從 XML sitemap 移除,這點很重要——索引設定跟 sitemap 要一致,不要一邊設 noindex、另一邊還把它列在 sitemap 裡給 Google 看。

  • Yoast SEO:到「SEO」→「Search Appearance(搜尋外觀)」→「Taxonomies(分類法)」,把分類或標籤的「在搜尋結果中顯示」切成關閉即可。Yoast 另外把作者彙整、日期彙整分開設定,單一作者的網站建議直接關掉作者與日期彙整。
  • Rank Math:到「Titles & Meta(標題與中介資料)」→ 選「Categories」或「Tags」→ 把「Robots Meta」的 Noindex 打開。Rank Math 還有一個「不索引空的分類與標籤彙整」選項,建議開啟,自動處理掉沒有文章的空彙整頁。要注意 Rank Math 的標籤如果設了 NoIndex,就不會出現在 sitemap,這跟前面講的一致性原則相符。
  • All in One SEO:到「Search Appearance」→「Taxonomies」分頁→ 找到目標分類法→ 進「Advanced」關掉「Use Default Settings」→ 勾選「No Index」。它套用 NoIndex 時會同時做三件事:在原始碼加上 noindex 標記、把內容排除出 sitemap、關閉該內容的 SEO 功能。

不想裝外掛、或想在佈景主題層級統一處理的,可以在子佈景主題的 functions.php 掛一段程式,針對 is_category()is_tag() 輸出 robots meta 標記。但對多數人來說,外掛的開關更安全也可逆,沒必要動程式。

noindex、canonical、robots.txt 別搞混

這三個工具常被混用,但解決的是不同問題,用錯會白費工。

noindex 用在「這頁不該出現在搜尋結果」。 標籤頁、作者頁、日期彙整這類根本不打算讓它排名的頁面,用 noindex。

canonical(標準網址)用在「有好幾個重複頁面,但其中一個版本該被索引」。 例如一篇文章同時掛在兩個分類底下,產生兩個列表網址指向同樣內容,這時用 canonical 指定唯一的標準路徑,告訴 Google 把評價集中到那一個。canonical 是「整併重複」,不是「排除收錄」,跟 noindex 的用途不同。

robots.txt 的 Disallow 用來「禁止爬蟲抓取」,但它不能用來移除已索引的頁面。 這是最常見的致命誤用。你在 robots.txt 把 /tag/ 擋掉,Google 反而連 noindex 標記都讀不到(因為它被禁止抓取那一頁了),結果該頁可能繼續留在索引裡。要把頁面從索引移除,必須讓 Google 能抓到那一頁、讀到頁面上的 noindex 標記。所以正確順序是:先用 noindex 把頁面退出索引、確認 GSC 顯示已移除後,才考慮要不要再用 robots.txt 省爬蟲資源——絕不能反過來先擋 robots.txt。

補充一個歷史背景:Google 在 2019 年 9 月正式停止支援 robots.txt 裡的 noindex 指令,現在要 noindex 只剩兩條路——頁面層級的 meta robots 標記,或 HTTP 回應的 X-Robots-Tag 標頭。後者適合處理 PDF、圖片這類非 HTML 資源。

設定後怎麼驗證效果

設完 noindex 不是按下去就結束,要回 Google Search Console 確認 Google 真的收到訊號,並追蹤後續變化。

第一步,用 GSC 的「網址檢查」工具,貼上一個你剛設 noindex 的彙整頁網址,看「索引涵蓋範圍」是否顯示已被 noindex 排除,以及最後檢索日期。要有心理準備:Google 重新爬到並反映出來通常要數天到數週,不是即時生效。

第二步,盤點全站可以借助專門的爬蟲工具(例如 Screaming Frog 這類網站審計軟體),它會列出每個網址的 Meta Robots 與 X-Robots-Tag 狀態,一次看出哪些頁面設定有沒有正確套用,比一頁一頁手動檢查可靠。

第三步,追蹤兩個指標的變化。一是被 noindex 的彙整頁,爬蟲頻率應該隨時間下降,代表 Google 把資源轉去爬你更有價值的內容;二是原本被彙整頁攔截的查詢,目標文章的點擊與曝光有沒有回升。這兩個訊號到位,才算真正收到效果。

要留意一個 Google 早在 2018 年就確認的行為:長期維持 noindex 的頁面,最後會被 Google 當成 soft 404 處理,GSC 報表裡會多出一些這類提示。這通常不影響實際排名,只是看報表會多幾條移不掉的訊息,知道是正常現象即可,不用緊張。

把索引取捨變成可重複的決策,而不是抄通則

回到最開始那個 GSC 報表:分類標籤頁索引膨脹的根源,不是 WordPress 預設不好,而是多數網站從沒替每一類彙整頁問過「這一頁值不值得被搜到」。與其抄一條「標籤全 noindex、分類全 index」的通則,不如建立自己的判斷流程——分類頁看文章厚度、客製內容與既有流量決定去留,標籤、作者、日期彙整預設 noindex,follow 把權重收回主內容,遇到彙整頁搶排名先回頭修文章而不是急著壓頁面。

下一步很具體:打開你的 GSC「網頁索引」報表,把 /category//tag/ 開頭的網址抓出來,對照上面的條件逐一判斷,再到你用的 SEO 外掛把該關的開關關掉、確認 sitemap 同步更新。花一個下午把這件事做完一次,往後每新增一個分類或標籤,順手套用同一套標準,網站的索引結構就會一直保持乾淨,權重也才會集中在真正能帶來搜尋流量的內容上。

相關文章
標籤: WordPress SEO, noindex, 分類頁, 標籤頁, crawl budget