サイト内の重複コンテンツを見分ける方法

2024年6月23日

低品質なサイトと判断される重複コンテンツ

一般にコピーコンテンツと呼ばれる、重複するコンテンツの定義とは、ドメイン内または複数ドメインにまたがって存在する、他のコンテンツと完全に同じであるか非常によく似たコンテンツのブロックを指します。とGoogle Search consoleのヘルプの中に記載されています。他のサイトからコンテンツをコピーすると著作権に抵触する可能性もあり、最悪の場合訴訟に発展する恐れがありますので、注意が必要です。

本のような印刷物の場合は、同じ本が大量に印刷されて、重複したコンテンツが大量に市場に出回りますが、ネット上のコンテンツは同じウェブページが複数存在する意味は無く、重複コンテンツはオリジナルのみが検索結果に表示され、コピーコンテンツは検索結果から除外されます。重複コンテンツは検索エンジンにとっては邪魔な存在でしかありません。重複したコンテンツを検索結果の上位に表示するとユーザーの利便性が低下するだけです。サイト内で重複コンテンツがある場合は、リダイレクト設定やどちらかのページをnoindexにするか、canonicalタグでリンク要素をマークして、正規ページを1つになるように、Googleに伝えるようにしましょう。

重複コンテンツはGooglebotがクロールしても、インデックス除外の処理がされるので、重複しているどちらかのページはGoogle検索に表示されません。

同一サイト内全般に渡って大量に重複コンテンツがあると、Googleから低品質なサイトと判断され、検索順位を下げられたり、最悪の場合圏外に飛ばされる可能性があり、大きな影響があり上位表示の妨げになります。大量のコピーコンテンツを有するサイトはペナルティが課せられるよう、すでにアルゴリズムが調整されています。

Googleはサイトに重複するコンテンツが存在しても、偽装や検索エンジンの結果を操作する意図がうかがえない限り、そのサイトに対する処置の根拠とはなりません。と公開していますが、偽装では無くても、大量に重複コンテンツがあると、ランキングはかなり落ちます。定型の文を使いまわすような仕組みになっている、例えば、フッターに長文を記載していて、全てのページにその文章の記述が表示されるようなことも避けましょう。実質的な本文よりもフッター部分の分量が多いと、重複又は類似コンテンツと判断される可能性が高いです。

重複コンテンツが大量にあるとSEO(検索エンジン最適化)上も大きなマイナス要因となりますので、定期的にチェックし対策しましょう。

重複コンテンツが大量にあると、WEBマーケティングに重大な悪影響を及ぼすことになりますので、大量の重複を回避することはWEBマーケティングの基礎でもあります。

titleやdescriptionの重複はSearch consoleのHTMLの改善ページに表示される(現在は表示されなくなりました)ので、Googleから指摘されているページのtitleやdescriptionは修正しましょう。現在は、Sesrch consoleのカバレッジの除外の中に「重複しています」と表示されるので、表示されるURLをクリックするとどのURLと重複しているかが分かります。

こうした重複コンテンツはサイトを長期間運営していると、悪意がなくても作成される場合があります。特に複数の人が担当してブログを記載していると、意図しなくても、内容が重複することがあるので注意しましょう。

こうした重複コンテンツは主にフッターに文章で記載されるケースが多くあります。フッターに記載されたテキストは全ページに共通して表示され、本文のテキストが少ないと、かなり高い確率で重複コンテンツになります。

ユーザーに同じ内容のページを見せることは、価値のあることではありません。本来は出来る限りオリジナルで、それぞれ違いがあり、サイトテーマに沿った一貫性のある記事を掲載するように対処方法を考えるのはSEO上、重要なことです。

ホームページの情報はそれぞれ異なるオリジナルのコンテンツを求められます。著作権侵害になる、他のサイトからの無断コピー(盗用)や同じサイト内のコピーなどを行わないようにしましょう。

重複コンテンツの例

重複コンテンツが大量に発生していた事例をご紹介すると、会員限定ページがあるサイトで、非ログインページの表示(閲覧するには、会員登録が必要です)が全ての会員限定商品のページのURLで表示されたものや、多言語対応しているページで、多言語用のページを選択しても、正規化したURLで表示されて、重複となっていたものや、パラメータで自動で生成した大量の重複が発生していたサイトなどがありました。これらのどの重複もサイト内部の設定によるもので、WEB制作側の問題でした。ホームページ制作会社は何がランキングに悪影響が出るのかを知らずにサイトを作成していることが多く、納品されたホームページのアクセスが全く上がらないことは良くあります。このような重複は専門的な知識が無いと状況が理解できず、原因が見つけにくいかもしれませんが、運用を開始してから、アクセスが増えないことを問題にして、調査を開始して、複製されたページの問題を特定して、改善するのは成果を上げるまでの時間を大きく無駄にしてしまいます。出来れば、納品前の検収段階で発見して欲しいものです。

ECサイトなど、商品データをデータベースで管理している場合、パラメータで大量に重複が発生する場合があります。パラメータによる重複を避けるように設定が出来る場合は適切に設定するのが基本です。もしも無理な場合は、サーチ・コンソールでパラメータをクロールしないに設定するなど施策をしましょう。

Googleが重複コンテンツと判断しているか見極める方法

サイト内に大量に重複コンテンツがあるか見極める方法として、&filter=0のコマンドがあります。

トップページのtitleでまず検索します。

検索結果には、自分のドメインのページが数ページ表示されるはずです。これは、同じドメインのページを大量に検索結果に表示しないようにフィルターを掛けているからです。

このフィルターを外すのが以下のコマンド、&filter=0を使うことです。

検索結果のURLの最後に続けて&filter=0を末尾に記載して再度検索を行い、同じドメインのページが大量に出てくれば重複や類似コンテンツが大量にある可能性があります。

この検索でも表示されるページが数ページしか無い場合は、大量の重複ページや類似ページは無いと考えて良いと思います。

また、自分で重複かどうか疑わしいと思っているページがあれば、site:URL キーワード でそのページが検索結果に表示されず、次に、site:URL キーワード で検索した結果のURLの最後に&filter=0を追加して再度検索すると、そのページが表示されれば、重複ページとGoogleが判断していることになります。ただ、重複ページをインデックスしていない可能性もありますので、これだけで探し出すのは困難です。

重複とGoogleが判断しているページがある場合は、重複していると思われるテキストを削除し、オリジナルのコンテンツの追加をして、重複を回避するようにしましょう。

重複や類似コンテンツの判定をしてくれるhttp://sujiko.jp/と言うサービスもあります。sujiko.jpに類似していると思われる2つのURLを入れてチェックすれば類似度を判定してくれます。類似コンテンツはSearch consoleには表示されませんので、類似ページかどうか判断できない場合に利用してみるのが良いでしょう。

重複コンテンツはGoogleのランキングに良い影響は無いので、優先度の高い問題で、早く探し出すことが大切なので、Search consoleやsujiko.jpのような簡易ツールを利用してでも出来るだけ早く発見して対処するようにしましょう。

Saerch consoleで重複を表示してくれるようになりました

2019年に新しいSearch consoleの提供が開始され、Search consoleを使用していれば、重複コンテンツは簡単に見つけることが可能になりとても役立つ機能です。以前のSearch consoleでは、タイトルの重複を表示してくれましたが、新しいSearch consoleではページの重複を表示してくれるようになりましたので、Search consoleに登録しておけば、重複を調べる手間は無くなりました。Search consoleのカバレッジで除外をクリックすると、「重複しています」と記載されて、重複に該当している対象ページ数が確認出来ます。Search consoleの「重複しています」は完全に同じページが複数あることを指していて、一部が重複しているページは重複とは指摘されません。「重複しています」のメッセージをクリックすると、重複しているURLの一覧が表示されます。どれかURLをクリックして、右側に表示される「URLを検査」をクリックすると、どのページと重複しているのか表示されますので、チェックしましょう。Search consoleで「重複しています」と指摘されるのは完全なコピーコンテンツです。「重複しています」と認識されているページはGoogleのデータベースにはインデックスされず、アクセスを増やす効果も無いので修正が必要です。
システムの設定の問題で重複が発生していることが多いので、修正しましょう。

大量の重複コンテンツは著しく評価が落ちて、品質が低いサイトと判断され、ペナルティを受けるので、最優先で改善する必要があります。canonicalで正規化を指定することも有効です。

Search consoleでは、外部のサイトをコピーしたり、他のサイトをパクったような重複を表示してくれませんが、ページに記載されているセンテンスを検索窓に入れて検索した時に、自分のサイトが表示されない場合は、重複コンテンツとみなされていると考えて間違いありません。

Search consoleの内容をご覧いただければ分かると思いますが、Search consoleが新しくなってから、通常では分からないサイトの問題を探し出してウェブマスターに知らせてくれるとても便利なツールになりました。WEB集客を目指す場合は是非登録して有効活用しましょう。

Search consoleで重複が指摘された場合は、正規ページとして選ばれたページを正規ページとして、重複コンテンツは、削除するかリダイレクトとて正規化するか、リライトして違う内容に変更するなどしてサイト全体を健全に保つようにしましょう。

類似コンテンツは順位が下げられます

類似コンテンツはSearch consoleでは表示されませんので、sujiko.jpで確認しましょう。類似コンテンツはSearch consoleのヘルプで「重複コンテンツの作成を避ける」で「旅行サイトで 2 つの都市を別々のページで紹介しているが、ページ内の情報は同じである場合は、両方の都市を紹介する 1 つのページにまとめるか、各ページに内容を追加して、それぞれの都市に関する独自のコンテンツを含めます。」と記載しています。地域密着のサービスなどで、市町村名だけ変えて、中身が同じページを量産しているケースを公開しているのを見かけることがありますが、このようなページを公開しても、どれか1ページのみが上位に表示されて、類似ページは検索順位が下げられるので、量産する効果は全くありません。

サービスを展開している市町村名を列挙すると、キーワードの乱用になって、ガイドライン違反になってしまいます。

ドメイン移転する場合は301リダイレクトを設定しましょう

例えば、無料ブログから独自ドメインに移転する場合のように、ドメイン移転を行ってサイト移転をする際は、移転元のドメインに301リダイレクトを設定して、重複を避けて、リンクの評価も引き継ぐようにしましょう。移転元と移転先に同じコンテンツが存在すると、重複コンテンツになります。301リダイレクトを設定せずに、移転元から移転先にリンクを設置すると、不自然なリンクになって、移転先のサイトがペナルティを受けてしまいます。
301リダイレクトの記載は.htaccessファイルにより、サーバーから転送される仕組みです。.htaccessファイルに下記の記載をしてアップロードします。
Redirect permanent / http://newdomain.jp/
この記載をすれば、移転元へアクセスすると自動的に移転先へ転送されます。

スマホページをレスポンシブ対応していない場合も重複コンテンツになります

モバイル対応は今では必須ですが、例えばモバイル対応をレスポンシブにしていないと、PC向けのページとスマホ向けのWEBサイトが複数存在することになります。この場合も重複コンテンツになります。もしも、両方のページが存在しないといけない場合は、PC向けのページをnoindexにしましょう。デバイスごとにページを作っている場合はモバイル向けのページのみindexさせるようにしましょう。

重複ページは削除するか、canonicalを設置しましょう

重複ページが発見された場合は、可能な場合は極力削除しましょう。どうしても削除出来ないページはcanonicalを設置しましょう。複数のページが重複している場合は、正規化して残すページを選定して、それ以外のページから
<link rel="canonical" href="https://example.com/category/page" />
とheadタグ内に記載して、どのページが正規ページか指定します。

パラメータが重複する場合の対象法

パラメータはWordPressやECキューブなどのCMSで発生する?を含んだURLのページです。このページが重複している場合は、大量の重複がSearch consoleに表示されます。ECサイトなどで商品をデータベースで管理していて、検索結果によって商品を選び出して表示するような場合にパラメータの重複が起こりやすく、構造的に重複がよく発生します。

パラメータの重複が大量に発生していて、検索順位に悪影響が出ているようなので、対応して欲しいと言う依頼もあります。

パラメータが重複する場合は、Search consoleの「以前のツールとレポート」の中の「URLパラメータ」をクリックすると以下の内容が表示されます。

パラメータ

このリストの中から重複しているパラメータの編集をクリックします。

ページのコンテンツには影響しません

パラメータで表示されるページとパラメータ無の元のページが同一の場合(同一だから重複と指摘されている)は、「いいえ」を選択して保存します。

この設定を行うことで、パラメータの無いURLのみをクロールするようになり、パラメータによる重複は解消します。

robots.txtに以下の記載する場合は。
Disallow: /*?パラメータ
これでパラメータの無いURLに統一できます。

市町村別のページは類似コンテンツです

営業範囲の「市町村名 サービス名」で上位表示するために、市町村別のページを制作する場合がありますが、解説されている内容はどのページももちろん同じです。市町村名だけが違って、内容が同じページは類似コンテンツで、このような行為は、Googleからの評価が下げられます。このような手法はホームページ制作会社のSEOの知識の不足が引き起こす問題だと思いますが、意図して同じ内容のコンテンツを公開することは、SEO上有り得ないことを理解していただきたいです。

このように説明すると、次のような疑問が生じると思います。でも、「営業範囲の市町村名 サービス名」で上位表示したい。このような場合は、お客様の声のページを活用しましょう。お客様の声は良質なコンテンツです。お客様の声のページに〇〇市 △△様と記載して、お客様の声をそのまま記載すれば、それらのページは「市町村名 サービス名」でヒットするようになります。

まとめ

印刷物は、同じ物が大量に存在しますが、ホームページは一つのコンテンツを大量のユーザーに見せることが出来るので、重複ページは必要無い理由です。

重複コンテンツはどんなサイトでも多少は存在するものですが、不自然なほど大量に重複があると、サイトの評価が著しく低下することがあります。例えば/と/index.htmlが存在すると被リンクが分散してしまい、せっかく得られる被リンクの効果が半減してしまうデメリットもありwebマーケティング大きな悪影響を及ぼします。

Search consoleでは、重複を知らせてくれるので、どんなパターンで重複が出ているのか分析して、robots.txtなどで、重複コンテンツをブロックするなどの対応を行い最適化することをおすすめします。

また、重複ページをsitemap.xmlから削除して送信することによって、重複ページをGoogleがインデックスしなくなるので、重複は減少します。重複が解消されたら、sitemap.xmlを削除して、その後送信しないようにすれば、リンクが貼られていないページをGooglebotがクロールしなくなるので、重複は発生しなくなります。

重複しているコンテンツに情報を加えて、独自のページに出来る場合は、情報を追記して詳細な情報を記載し、質の高いページにしましょう。存在するページを全てをインデックスさせて、良質なコンテンツにするのが検索エンジン最適化の基本です。重複コンテンツが解消すると、サイト全体の評価を高めることが可能になり、WEBマーケティングが成り立つようになります。

The following two tabs change content below.

清水 康次

過去にインターネット受注で100%稼動する縫製工場を経営しており、平成17年度に経済産業省「IT経営百選」で優秀賞を受賞、翌18年には、最優秀賞を受賞するまでになりましたが、その後うつ病と自己破産により縫製工場の経営を止め、飲食店のインターネット担当として勤務いたしました。平成28年11月より独立してSEO対策とWEBコンサルタントとして多くのサイトの検索流入やコンバージョンの改善実績があります。 自己破産を経験していることから、売上げや利益が伸びない経営者の気持ちは痛い程分かりますので、出来る限り低価格で企業経営の改善のため最大限の貢献をさせて頂きます。

Posted by 清水 康次