Moov’Up

Qu’est-ce que le duplicate content ?


Qu’est-ce que le duplicate content ?

Duplicate Content fait référence à la fois au fait de proposer du contenu dupliqué sur son site et à un filtre mis en place par les moteurs de recherche comme Google et Yahoo pour proposer les résultats les plus pertinents en cas de similarité entre les contenus de plusieurs pages web.

Que qualifie-t-on de contenu dupliqué ?

On parle de duplicate content ou contenu dupliqué lorsqu’un même contenu est visible à l’identique sur plusieurs pages internet mais le terme caractérise aussi à une action pénalisante des moteurs de recherche Google et Yahoo qui vise à filtrer et éliminer les doublons dans leurs classements.

3 situations peuvent être qualifiées de duplicate content :

→ Une ou plusieurs pages rigoureusement identiques : sites dits miroirs.

→ Des pages qui affichent un contenu différent mais un balisage similaire.

→ Des pages qui affichent un même contenu mais des balises différentes.

Le contenu dupliqué concerne aussi bien des contenus identiques au sein d’un même site ou des contenus identiques sur 2 sites différents ou plus.

Le contenu dupliqué résulte dans la grande majorité des cas d’un plagiat plus ou moins volontaire mais la duplication peut aussi parfois résulter de problèmes techniques sur le site : des pages générées automatiquement avec un contenu similaire, par exemple.

Enfin, il se peut que le moteur de recherche perçoive certaines pages comme duplicate content malgré le fait que les contenus soient distincts. Mais une certaine similitude dans les contenus : citations, chiffres, proximité thématique peut entraîner une supposée duplication de la part des moteurs de recherche.

L’unicité de vos contenus doit donc constituer une priorité.

Quels sont les risques pour mon site ?

Une page identifiée comme affichant du contenu dupliqué risque avant tout d’être filtrée de la liste de résultats du moteur de recherche, voire totalement disparaître de l’index. Et bien que l’on puisse penser que le moteur de recherche est en mesure d’identifier la publication la plus ancienne et donc de punir le site plagiaire, il arrive malheureusement que le moteur de recherche priorise le site qui copie car plus pertinent aux yeux de celui-ci. En effet, il semble que d’autres facteurs entrent en ligne de compte comme son autorité pour déterminer le site à prioriser.

Selon les cas, le moteur de recherche n’affichera pas les mêmes sanctions :

* Dans le cas de sites miroirs : Google aura tendance à prioriser le site avec la page ayant plus forte autorité et désindexera les autres pages.

* Lorsque les pages sont similaires avec un balisage différent : Google priorisera la page avec la plus forte autorité pour les recherches portant sur les contenus communs. Il affichera cependant les pages répondant aux recherches relatives aux contenus originaux de chaque page.

* Pour les pages présentant un contenu différent avec un balisage identique : dans ce cas, la réaction est plus aléatoire mais le balisage similaire semble plutôt aggraver la situation et la page considérée comme plagiaire par Google peut se voir filtré.

Ce qu’il faut retenir : Google ne pénalise pas nécessairement directement les sites affichant du contenu dupliqué ou il ne les déclasse pas forcément mais le filtre sur le moteur de recherche supprime les doublons et ne propose à l’internaute que les sites qu’il estime les plus pertinents en résultat. Il y a donc nécessairement une perte de visibilité quand votre site est filtré. Si cette opération a lieu sur de nombreuses pages d’un même site, celui-ci perd de fait en qualité aux yeux de Google et en pertinence et peut ainsi se voir déclasser. Mais il ne s’agit rarement d’une véritable pénalité, c’est plutôt un effet suite au filtrage.

Outre un filtre natif de Google pour gérer les contenus dupliqués dans ses résultats de recherche, Google a aussi mis en place le système appelé Panda qui porte justement sur la qualité des contenus et qui, lui, pénalise les sites affichant des contenus spammy, parmi lesquels des contenus dupliqués.

ATTENTION aux nombreuses idées reçues qui circulent sur le Duplicate Content :

→ Si Google n’indexe pas les pages de mon site, c’est à cause de Duplicate Content : cela peut être le cas comme cela peut avoir une autre raison. Toutefois une analyse de vos contenus doit être envisagée dès lors que ceux-ci peinent à se positionner.

→ Google pénalise les 2 sites quand il constate des contenus identiques entre eux : c’est faux, Google en général priorise l’un des 2 sites. L’autre site se voit en général déclassé pour les recherches portant sur le contenu en question mais peut apparaître dans le classement pour d’autre requête.

→ Google désindexe le duplicate content : Non Google ne désindexe que rarement du contenu. Il ne propose tout simplement pas le site en résultat mais celui-ci reste dans son index et peut apparaître en résultat si l’internaute clique sur la recherche incluant les pages ignorées ou effectue une recherche pour laquelle le contenu constitue une réponse appropriée selon Google.

 

→ Il n’y a pas véritablement de pourcentage de contenu unique qui peut vous éviter la pénalité, on annonce souvent 70 ou 80% mais rien ne l’a prouvé. Plus vos contenus seront uniques et émaneront de vous, moins vous risquez d’être filtrés ou pénalisés !

→ Il n’y a absolument aucun lien entre PR (autorité du site) et qualité de ses contenus donc une page filtrée ou pénalisée pour contenu dupliqué verra son PR inchangé.

Comment gérer le contenu dupliqué ?

Le contenu dupliqué nuit non seulement à l’image d’un site, mais aussi à l’expérience utilisateur car il renvoie une qualité d’information moyenne, et ce, que la duplication soit volontaire ou pas. Le filtre Duplicate Content n’est pas infaillible et votre site peut parfaitement passer entre les mailles du filet. Mais, afficher du contenu dupliqué, c’est avant tout prendre le risque de perdre de l’audience car l’expérience utilisateur offerte n’est pas optimale.

La première mesure à mettre en œuvre pour éviter le contenu dupliqué est assez simple : NE PAS EN PRODUIRE ! Créez vos propres contenus ! Vous seuls êtes à même de parler de vous et de votre activité alors utilisez vos propres mots et n’allez pas chercher ailleurs ce que vous pouvez dire pour parler de vous !

Cependant, il se peut que votre site génère des contenus dupliqués de manière dynamique c’est souvent le cas des sites e-commerce ou avec moteur de recherche. Dans ce cas, il existe des solutions techniques pouvant être mises en œuvre pour limiter les effets néfastes du duplicate content :

** S’assurer que même générés dynamiquement vos contenus affichent bien un balisage unique : balises méta title et description, H1, url…

** Vous pouvez aussi fonctionner avec un système de balises canonical : on détermine une page principale à prioriser (la canonique) et on renvoie les autres pages vers celles-ci avec une balise canonical. On indique ainsi à Google et aux moteurs de recherche que la canonique est la page à prioriser en résultat. Cela permet de maîtriser la prise en compte des contenus.

** Enfin, si le contenu dupliqué est véritablement problématique, la désindexation des contenus problématiques peut constituer la solution la plus efficace afin d’éviter d’envoyer un signal négatif susceptible à terme d’entraîner la dépréciation de l’ensemble du site.

En résumé, la maîtrise de ses contenus est une étape indispensable à un bon référencement, à travers une stratégie pensée et structurée pour répondre avant tout aux attentes des internautes.

En cliquant sur "Accepter", vous nous autorisez à déposer des cookies lors de votre navigation. En savoir plus

Les paramètres des cookies sur ce site sont définis sur « accepter les cookies » pour vous offrir la meilleure expérience de navigation possible. Si vous continuez à utiliser ce site sans changer vos paramètres de cookies ou si vous cliquez sur "Accepter" ci-dessous, vous consentez à cela.

Fermer