Duplicate Content – Risiken & Lösungen

Was ist Duplicate Content und wie entsteht dieser?

Die Rede ist von doppeltem Inhalt, sofern sich größere, identische Textbausteine auf der gleichen oder unterschiedlichen Webseite wiederfinden. Folglich kann dieser sowohl intern als auch extern auftauchen.

Interner Duplicate Content

Interner Duplicate Content ist immer auf Ihre eigene Domain zurückzuführen, bezieht sich also ausschließlich auf Inhalte Ihrer eigenen Website.
Interner Duplicate Content kann entstehen, wenn derselbe Inhalt unter mehreren URLs auf der eigenen Seite verfügbar ist – beispielsweise aufgrund von Filterparametern in der URL oder die mehrfache Erreichbarkeit einer bestimmten URL. Besonders anfällig für diese Art von Duplicate Content sind meist E-Commerce-Präsenzen mit Shopsystemen. Auch mehrere Sprachversionen einer Website können beispielsweise zu Problemen mit Duplicate Content führen, wenn diese nicht mit der entsprechenden “hreflang-Kennzeichnung” versehen sind.

Externer Duplicate Content

Externer Duplicate Content ist domainübergreifend, d.h. er tritt zwischen mindestens zwei verschiedenen oder mehreren Domains auf. Ein externer doppelter Inhalt liegt also immer dann vor, wenn ein Inhaltsblock (meist größere Textbausteine) in derselben Sprache von mindestens einer anderen Domain mehrfach verwendet wird. Externer Duplicate Content kann beispielsweise durch Web-Projekte, auf welchen identische, oder zumindest sehr ähnliche Inhalte veröffentlicht werden, entstehen. Content Diebstahl und Content Scraping spielen hierbei meist ebenfalls eine große Rolle. Vor allem bei Web-Präsenzen mit vielen Produktdetailseiten und geringer Inhalts-Dichte (meist E-Commerce bzw. Online-Shops) kommt es durch das Duplizieren von Artikelbeschreibungen schon zu Problemen mit duplizierten externen Inhalten.

Wie geht Google nun damit um?

Google möchte dem User die bestmöglichen Suchergebnisse auf seine Suche hin ausliefern. Findet Google bei der Ausgabe dieser mehrere identische Suchergebnisse mit dem gleichen Content, so ist dies für die einzelnen Seiten mehr als negativ. Ein gegenseitiges Ranking steht nun an und die Gefahr, dass die „gute“ Seite abfällt, ist hier hoch. Es entstehen Indexierungsprobleme. Google kann an dieser Stelle nicht klar entscheiden, welche Seite die Benötigte ist, die auch den originalen Textinhalt beinhaltet.

Tritt der Ernstfall auf und Google stuft eine der Seiten mit Duplicate Content als Täuschung ein, so kann diese Seite womöglich aus den Suchergebnissen entfernt werden.

„Gelegentlich werden jedoch bewusst Dubletten in verschiedenen Domains platziert, um so das Suchmaschinen-Ranking zu beeinflussen oder mehr Zugriffe zu generieren. Solche betrügerischen Methoden können die Nutzerfreundlichkeit beeinträchtigen, z. B. weil Besuchern in den Suchergebnissen mehrere Male die gleichen Inhalte angezeigt werden.“
(Auszug aus den Google Vorgaben, Stand September 2022)

Ist eine weitere Verwendung des Contents, zum Beispiel aufgrund von Kooperationen, bewusst veröffentlicht, so sollte der Webseitenbetreiber mittels eines Canonical-Tags (Angabe der Quelle im Code) auf die Originalseite hinweisen. So wird Google klar vorgegeben, welche der Webseiten in den Suchergebnissen die bevorzugte URL ist und primär dargestellt werden soll.

Wie kann ich Duplicate Content auffinden?

Die wohl einfachste Art ist die Eingabe von längeren Texten in die Suchmaske bei Google. Hierzu genügt ein Textabschnitt aus der Webseite, der mit Anführungszeichen umrandet ist. Wird mehr als ein Treffer ausgegeben, so liegt ein Indiz vor: Es gibt wahrscheinlich Duplicate Content!

Google ergänzt das Ergebnis mit einer Meldung:

„Damit Sie nur die relevantesten Ergebnisse erhalten, wurden einige Einträge ausgelassen, die den 2 angezeigten Treffern sehr ähnlich sind. Sie können bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen.“

Führt man die Suche nun erneut aus, so können genaue Prüfungen stattfinden, ob sich der Content innerhalb der eigenen Webseite befindet oder unter einer anderen Domain liegt.
Unzählige, meist kostenfreie Tools (Duplicate-Content-Checker) im Web dienen ergänzend zum Prüfen; leider beziehen diese auch kleine Texte, wie Button oder Kontaktlinks mit ein, welche im Grunde unkritisch sind.

Als nützliches und zudem kostenfreies Tool bietet sich Siteliner an. Das Tool prüft die gesamte Webseite auf doppelte Inhalte und liefert eine kleinteilige Auflistung zu den einzelnen Schwachstellen. Nach Abschluss der Analyse steht ein Diagramm als Übersicht zur Verfügung. Dieses zeigt den Anteil an Duplicate Content, Common Content und Unique Content der geprüften Domain.

Grafische Darstellung zum Thema Duplicate Content

Für eine genaue Prüfung der Website-Inhalte auf Duplicate Content steht ein detaillierter Bericht mit allen gefundenen URL’s zur Verfügung, der z. B. schnellen Aufschluss über interne Duplikate gibt. Prüfen Sie bei auffallenden Werten unbedingt den scheinbaren doppelten Inhalt. Beachten Sie hierbei die Spalten “Match Words”, “Match Percentage” und “Match Pages”. Betrifft es die eigene Webseite oder wurden im schlechtesten Fall unerwünschte Kopien auf anderen Webseiten veröffentlicht?

Was Duplicate Content nicht ist

Nun wissen Sie sowohl was Duplicate Content ist, als auch wie man diesen identifizieren kann. Im Folgenden klären wir, was Duplicate Content nicht ist. Liegt ein Inhalt in mehreren Sprachversionen vor, so wird dies nicht als Duplicate Content gewertet, sofern dieser Inhalt richtig ausgezeichnet ist. Auch Zitate oder zitierte Textpassagen werden mithilfe einer korrekten semantischen Auszeichnung nicht als Duplicate Content identifiziert.

Beispiel eines Zitats mit korrekter Quelltext-Auszeichnung:
<blockquote>Hier steht der zu zitierende Text - <cite>Hier steht der Name des zitierten Autors oder der Quelle</cite></blockquote>

Schlusswort

Die Problematik durch den Duplicate Content betrifft eine Vielzahl an Webseiten. Jeder Webseitenbetreiber sollte sich dem Problem der negativen Ranking-Platzierung bewusst sein und entsprechende Gegenmaßnahmen einleiten.
Zusammengefasst lässt sich allerdings sagen, dass Duplicate Content nicht von Grund auf schlecht ist. Kleine Textbausteine wie Button oder Teaser sind sicherlich nicht bedenklich, da in der Praxis auch schwer zu umgehen.
Fakt ist allerdings, dass Google seinen Such-Algorithmus regelmäßig ändert und das Breitstellen von einzigartigem Content mehr und mehr von Relevanz ist.
Werden die Ursachen erkannt und bestmöglich behoben, so kann dies dem Ranking der Seite nur förderlich sein.

Quellen:
google.com
siteliner.com

Zwei Zeichentrickfiguren, die fröhlich Schilder mit der Aufschrift „SEO“ und "SEA" halten, symbolisieren die Teamarbeit im digitalen Marketing.

SEA und SEO - die perfekte Ergänzung

Zwei Figuren (Menschen) ganz schwarz, ohne GEsicht oder ähnliches stehen vor einer Abbildung einer Website

Die unterschätzte Kraft von SEA: Warum Suchanzeigen mehr leisten, als Sie denken

Aufgeklappter Laptop mit geöffneter Website zu sehen

Server-Side-Tracking: Warum es die Zukunft der Datensammlung und -nutzung ist

Duplicate Content? Was ist das denn?