同一篇文章,網站卻同時開出好幾個能進去的網址,這是經營 WordPress 最常被忽略的隱形漏洞。一篇貼文除了正式的永久連結,可能還散落在標籤頁、分類頁、作者頁、日期彙整頁,再加上分享連結帶的 UTM 參數、列印版頁面、www 與非 www 兩種主機名,光是一篇內容就可能對應到十幾個不同網址。對 Google 來說,網址只要不一樣就是不同頁面,於是重複內容處理就成了每個站長遲早要面對的功課。
重複內容處理的核心,不是怕被 Google 懲罰,而是怕同一份內容的權重被拆散到好幾個網址上,讓你真正想排名的那一頁變弱。這篇會把 WordPress 上最常見的幾個來源拆開講清楚:標籤與彙整頁、列印版、UTM 追蹤參數、www 與非 www,每一種各自該用 canonical、301 轉址還是 noindex 來收,並給出在 Yoast、Rank Math 或主機端的實際做法。
重複內容會被 Google 懲罰嗎
不會,但會稀釋你的排名實力。Google 官方說明講得很明白:除非重複內容是為了操控搜尋結果而刻意製造的欺騙行為,否則單純擁有重複內容並不會招致排名懲罰。一般的 WordPress 站因為架構或外掛產生的重複頁面,都屬於非惡意,不會被降權。
真正的代價藏在兩個地方。第一是權重分散。SEO 的權重會累積在「網址」上,而不是抽象的「文章」上,反向連結、社群分享、內部連結都是綁在某個具體網址。當同一篇文章有 A、B、C 三個網址都能進入,有人分享 A、有人連到 B,原本該集中的權重就被拆成三份,每一份都不夠力。canonical 標籤要解決的正是這件事,把分散的訊號合併回一個標準網址。
第二是檢索預算被吃掉。Google 爬蟲爬你的網站有額度(crawl budget),如果一篇文章衍生出十個網址,爬蟲就得花十倍力氣去爬重複的東西,真正重要的新內容反而排在後面才被發現。小站感受不深,但文章數上千、商品數破萬的站,檢索效率被重複頁面拖累的影響相當實際。
還有一個常被忽略的現象。Google 在 2019 年推出網站多樣性更新,同一個網域在單一搜尋結果頁通常最多只顯示兩個頁面。也就是說,你站內好幾個相似頁面互相競爭同一組關鍵字時,不只彼此分票,連能露出的名額都被限制住。與其讓它們互打,不如合併成一個夠完整的頁面。
標籤頁與彙整頁為什麼是 WordPress 最大的重複內容來源
WordPress 預設會替每一種分類方式自動生成彙整頁,這是內建架構,不是你手動建立的,也因此最容易被忽略。一篇貼文同時會出現在它所屬的分類頁、每一個標籤頁、作者頁,以及年、月、日的日期彙整頁。如果這些彙整頁是顯示文章全文而非摘要,那它們的內文就跟原文高度重疊。
標籤頁的問題又比分類頁嚴重。很多人習慣一篇文章掛七八個標籤,每個標籤各自生成一個彙整頁,但這些標籤頁往往只有一兩篇文章,內容單薄、彼此重疊,對讀者沒有實質價值,對 Google 來說就是大量低品質的相似頁面。日期彙整頁更是幾乎沒人會主動瀏覽,卻照樣被生成、被爬取。
處理原則要分兩層判斷。第一層先問這個彙整頁對讀者有沒有導覽價值。分類頁通常有,因為讀者會用分類來逛同主題的文章;作者頁與日期頁多半沒有,可以直接關掉索引。第二層再決定收的方式。
對沒有保留價值的彙整頁,直接設為 noindex,讓 Google 不要索引它,但仍允許爬蟲通過去抓底下的文章連結。在 Yoast SEO 裡,路徑是「搜尋外觀」底下的「彙整」分頁,把作者彙整、日期彙整切成不索引;Rank Math 則在「Titles & Meta」的對應區塊有同樣的開關。這比用 robots.txt 擋更穩,因為 robots.txt 只是擋爬取,頁面仍可能因外部連結而被收錄成沒有說明的搜尋結果,noindex 才是明確告訴 Google 不要收這頁。
對想保留的分類頁,做法不是 noindex,而是確保它本身就有獨特內容。給分類頁寫一段專屬的分類描述,讓它不只是文章列表的堆疊,而是有導讀價值的主題頁。同時讓彙整頁顯示摘要而非全文,從根本降低與原文的重疊比例。
分頁的彙整頁該怎麼處理才不會誤殺
分類頁文章一多就會分頁,出現第 2 頁、第 3 頁這種帶 page 參數或 /page/2/ 結構的網址,這裡有個常見的錯誤做法要先點破。早年流行把第 2 頁之後全部 canonical 指回第 1 頁,但這其實是錯的,因為第 2 頁的文章列表跟第 1 頁並不相同,它們不是重複內容,而是同一個序列的不同段落。把它們強行 canonical 回第 1 頁,等於告訴 Google 第 2 頁開始的那些文章連結不重要,反而妨礙爬蟲發現較舊的文章。
正確做法是讓每一個分頁都自我 canonical,也就是第 2 頁的 canonical 指向自己。Google 現在已能理解分頁序列,不需要靠 rel=prev/next 這組標籤(該標籤 Google 早已停止使用)。現代 SEO 外掛預設就會替分頁加上自我參照的 canonical,多數情況你不必額外動手,只要確認外掛沒有被改成「分頁 canonical 回第一頁」這種舊設定即可。
UTM 參數會不會造成重複內容
會,而且這是社群與廣告操作幾乎一定會碰到的來源。當你在 Facebook 貼文、電子報、Google Ads 帶上 utm_source、utm_medium、utm_campaign 這類追蹤參數時,同一篇文章就會多出無數個網址變體,每個分享連結都是一個新網址,內容卻和原文一模一樣。
UTM 參數和電商的篩選參數要分開看待,因為處理方向不同。篩選參數(例如顏色、尺寸、排序)有時會產生內容真的不同的頁面,得個別判斷;但 UTM 純粹是追蹤標記,不改變頁面任何內容,因此處理方式單純:讓帶 UTM 的網址 canonical 指回乾淨的原始網址即可。
好消息是 WordPress 搭配主流 SEO 外掛時,這件事多半已經自動處理好了。外掛產生的 canonical 標籤預設只輸出乾淨的永久連結,不會把 UTM 參數寫進去,所以帶參數的網址自然就 canonical 回原文。你要做的是驗證而不是另外設定,用瀏覽器開一個帶 UTM 的網址,檢視原始碼,確認 canonical 指向的是不含參數的版本。
這裡要特別提醒一個過時建議。許多舊文章會教你用 Google Search Console 的「網址參數工具」去告訴 Google 忽略某些參數,但這個工具已經在 2022 年正式停用,Search Console 介面裡已經找不到它。現在 Google 主張交給它自行判斷參數,站方該做的是把 canonical 設對,而不是去找那個已不存在的工具。
列印版與 Feed 頁面的重複內容怎麼收
列印版頁面是另一個容易被遺漏的來源。部分佈景主題或外掛會為每篇文章另外生成一個適合列印的版本,網址可能帶 print 參數或獨立路徑,內容是把正文去掉側欄後重新排版,本質上和原文重疊。Google 官方文件也把列印頁面列為典型的重複內容情境之一。
處理列印版有兩種方向。如果這個列印頁是透過參數產生(例如 ?print=1),最乾淨的做法是讓它 canonical 回正常的文章網址,把權重導回原文。如果你根本用不到列印版功能,直接停用產生它的外掛或主題選項,從源頭不要生出這個頁面,是更省事的選擇。
WordPress 的 RSS feed 也屬於同類問題。每篇文章、每個分類都有對應的 feed 網址,內容是文章的全文或摘要。實務上 Google 通常能正確辨識 feed 並以原文為主,不太需要刻意處理;真要保險,可以把 feed 設為輸出摘要而非全文,降低與原文的完整重疊。多數情況下,feed 的優先順序遠低於前面講的彙整頁與 www 問題,不必過度操心。
www 與非 www、http 與 https 的網址統一
這是最基礎也最該優先處理的一類重複內容,因為它影響的是全站每一頁。同一個網站如果 www.example.com 和 example.com 都能進得去,等於每一頁都有兩個網址;再加上 http 與 https 沒有強制統一,就變成 2 乘 2,每頁一口氣產生四個重複網址。若連結尾斜線(trailing slash)也沒規範,重複數還會再翻倍。
解決方式是用 301 永久轉址把非標準版本全部導向唯一的標準網址。301 和 canonical 的差別在於:canonical 是建議,兩個網址都還能進得去,只是告訴 Google 以哪個為主;301 是強制,使用者和爬蟲都會被實際帶到新網址,舊網址不再單獨存在。對 www 與 http 這種使用者根本不需要看到次要版本的情況,301 是更徹底的做法,也能完整傳遞權重。
在 WordPress 上,網址統一分兩步。先到「設定」的「一般」頁面,把「WordPress 位址」和「網站位址」兩欄都填成你要的標準格式,例如統一帶 https 與 www,這會讓 WordPress 本身產生的連結都用同一種格式。接著在主機端強制轉址:Apache 主機在 .htaccess 寫 301 規則,把 http 導向 https、把非 www 導向 www(或反過來,方向自選,重點是全站一致);很多主機商或 Cloudflare 也提供一鍵強制 HTTPS 的設定。
設定完一定要驗證。分別用四種版本的網址去開你的首頁與任一篇文章:帶 www 的 http、不帶 www 的 http、帶 www 的 https、不帶 www 的 https,看是不是都會被 301 導向到同一個標準網址。只要有一種版本能停留而不轉址,重複內容就還沒收乾淨。
怎麼選擇 canonical、301 與 noindex 三種工具
把工具選對,重複內容處理就成功一半。這三種手段對應的情境不同,用錯反而會誤傷。
301 轉址用在那個次要網址根本不需要讓任何人看到的時候。www 與非 www、http 與 https、被淘汰合併的舊文章,都屬於這類,使用者沒有理由停在舊網址,直接強制搬家最乾淨,權重也能完整轉移。
canonical 標籤用在兩個網址都需要存在、但你想集中權重的時候。帶 UTM 的分享連結要能正常開啟、電商不同規格的商品頁要讓使用者各自瀏覽、列印版要能用,這些頁面不能 301 掉,就用 canonical 指向標準版本,讓它們繼續存在又不分散權重。要注意一個原則:標準網址自己指向自己(自我參照),不要兩個頁面互相指來指去,也不要串成一長串接力指向,那會讓 Google 無法判斷誰才是標準。
noindex用在這個頁面要保留給使用者瀏覽、但不希望進入搜尋索引的時候。作者彙整頁、日期彙整頁、站內搜尋結果頁、薄弱的標籤頁,都適合 noindex,讓讀者在站內仍能點進去,但不去搶搜尋排名、也不製造低品質的索引頁。
三者可以並用但不要矛盾。最典型的錯誤是同一頁同時下 noindex 又 canonical 指向別頁,這兩個訊號互相打架,Google 會收到混亂指令。原則是:要合併權重就用 canonical 或 301、不要 noindex;要徹底排除索引就用 noindex、不要再標 canonical。
怎麼檢查自己的 WordPress 站有沒有重複內容
先用 Google Search Console。進入「索引」的「網頁」報表,看「已檢索但目前尚未建立索引」和「重複網頁,使用者未選取標準網頁」這兩類,前者常是被判定重疊而沒收錄的彙整頁,後者代表 Google 自己挑了和你不同的標準網址,是 canonical 沒設好的訊號。這份報表只涵蓋 Google 實際爬過的網址,所以是判斷現況最直接的依據。
接著用爬蟲工具補完整。Screaming Frog 免費版可爬 500 個網址,能列出標題、H1 重複的頁面,標題重複往往就是內文重複的線索;Ahrefs 的 Site Audit 也能標出重複頁面。工具的價值在於收斂方向,最後仍要人工逐頁判讀,因為「相似」和「真重複」之間需要人來判斷。
最後做一次手動抽驗。挑一篇文章,分別用帶 www 與不帶 www、帶 UTM 與不帶 UTM 的網址去開,再檢視每個版本的原始碼,確認 canonical 標籤是否都指回同一個乾淨的標準網址。這個動作不用工具、五分鐘就能做完,卻能抓出大部分 WordPress 站最常見的網址版本問題。
重複內容處理不必一次到位,但有清楚的優先順序。先用 301 把 www 與 https 這種全站性的網址版本統一,這是影響最廣、報酬最高的一步;再把作者頁、日期頁、薄弱標籤頁設成 noindex,清掉沒價值的索引;最後驗證 UTM、列印版、分頁的 canonical 都指向正確的標準網址。把這三件事做完,你的內容權重就會回到該集中的地方,Google 也能更有效率地爬到你真正想被看見的那一頁。