Le Duplicate Content (référencement Internet)

Les définitions du dictionnaire technique classées par catégories:
Electricité, analogique | Electronique numérique | Ordinateur - Unité centrale | Périphériques | Sauvegarde | Sécurité | Réseau | Logiciel | Internet | Multimedia | Sites | Acronyme

Duplicate content (contenu dupliqué)

Le duplicate content est un terme utilisé en référencement internet pour désigner du texte identique sur deux pages différentes (d'un même site ou de sites différents). Il est également utilisé lorsque deux pages sont accessibles via deux adresses (URL) différentes (ou plus), certains CMS, ventes en ligne dont Oscommerce, ... ont ce problème nativement, des erreurs dans les fichiers .htaccess lors de l'URL Rewriting sont aussi une source. Ceci provoque généralement des pertes de positionnement importantes dans les résultats des recherches des moteurs.

Ce problème est connu des référenceurs Web depuis des années (en fait depuis 2007) et déclasse une des page, pénalise toutes les pages ou même les déclassent complètement de l'index. Depuis mi-2008, Google a nettement amélioré la détection de ce problème souvent lié à une copie du contenu sur un autre site, parfois par fainéantise ou information complémentaire sur un sujet, mais plus souvent pour "faire du contenu" sans se fatiguer. Les inscriptions automatiques dans les annuaires de sites (y compris les Farm-link) sont aussi visées. L'algorithme détecte maintenant des phrases identiques (même quelques mots) ou très similaires dans différents sites. Ceci a provoqué la chute de visiteurs dans bons nombres d'annuaires où les inscriptions (titre du lien et description) de leur site par les webmasters sont souvent identiques ou même copiées / collées, voire l'utilisation d'un logiciel d'inscription automatique. D'autres parties dupliquées ont également le problème comme les sites de petites annonces, voire forum, utilisation de flux RSS, ...

En 2008, ceci provoque un Pagerank gris, synonyme généralement de déclassement important (voire total) pour la majorité des pages identiques. Google semble juste garder les pages de sites considérés comme de "confiance" par leur ancienneté ou les liens institutionnels qui sont envoyés vers le site.

En avril 2012 avec la sortie de Pinguin, Google a de nouveau déclassé des pages reprises sur différents sites mais en modifiant les niveaux de confiance de chaque site. Par contre, cette fois, des pages déclassées gardent souvent un petit PR, donc plus difficiles à détecter.

Depuis début 2013, materiel-informatique.be ne permet plus le copié / collé: déclassé comme en 2008 par Pinguin à cause de copieurs de tous bords. Une partie des pages utilise javascript et toutes les pages utilisent un outils "maison" qui détectent les "lectures massives" en renvoyant une erreur 403: que ce soit des robots SEO ou des aspirateurs de sites. Une large partie des visiteurs indésirables sont bloqués en utilisant cidr via htaccess ou un firewall IPTABLE diretement sur tous les sites hébergés sur le serveur.

Ce n'est pas la seule source de déclassement des moteurs de recherche.

Définition annexe: backlistage - Google Panda

Lien externe: Dossier: les pénalités de Google 2007 - 2008, Pagerank et sanctions sur les sites.

Dernière mise à jour, le 26/01/2021

Tous droits réservés: reproduction interdite sans l'accord écrit de matériel-informatique.be


© les marques citées sont propriétés des constructeurs et éditeurs