Cómo detecta Google el contenido duplicado

Agencias

Sabemos que Google penaliza el contenido duplicado, tanto si es interno como si es externo. En el momento en que el robot de Google lo detecta, puede desde limitar su aparición en los resultados de búsqueda, hasta establecer penalizaciones de plagio de forma manual. Sin embargo, el contenido duplicado es algo de lo que muy pocas webs se pueden librar.

Con el fin de explicar cómo es que Google detecta el contenido duplicado y cómo elige cuál de los contenidos duplicados es el que tendrá valor en las SERPs, John Mueller, Martin Splitt, Gary Illyes y Lizzi Harvey, redactora técnica de Google, compartieron un podcast en el que resolvieron estas y otras dudas más en relación con este tipo de contenidos.

Cómo detecta Google el contenido duplicado

Todo comienza cuando Google crea una suma de verificación, también conocida como checksum para cada página de un sitio web, que básicamente es una huella digital única de cada documento basada en las palabras de la página. Su fin principal es detectar errores que puedan haberse introducido durante su transmisión o almacenamiento.

Así, es fácil imaginar que si hay dos páginas con la misma suma de verificación, Google determina que son clones, es decir, que están duplicadas entre sí. Así, por sí mismas, estas sumas de verificación se utilizan para verificar la integridad de los datos pero no son utilizadas para verificar su autenticidad, y es que la detección de contenido duplicado y la canonicalización no son lo mismo.

La canonicalización y la detección de contenido duplicado

Como te hemos comentado anteriormente, una etiqueta canonical permite indicar a los buscadores cuál es la URL original o preferida sobre otras, para que la prioricen y darle relevancia sobre otras a ignorar.

De acuerdo con Gary Illyes, analista de Google, “primero se detecta a los clones: básicamente se agrupan diciendo que todos son clones entre sí, y luego se tiene que encontrar la página líder entre todos estos clones: eso es la canonicalización”.

Así , se tiene detectado el contenido duplicado, pero para elegir cuál de estas páginas es la del contenido original y cuáles son los clones, básicamente lo que se hace es reducir el contenido a una suma de verificación, y eso se debe a que es mucho más fácil hacer eso que quizás comparar todas las palabras de una entrada, aseguró Gary en el podcast.

Tras reducir la suma de comprobación y comparar varios de estos resultados sobre el contenido textual de las páginas, se pueden obtener “cuasi duplicados”, es decir, no es necesario que todo el contenido de un sitio web sea exactamente igual a otro para ser penalizado, ya que se excluye contenido:

“Tenemos varios algoritmos que, por ejemplo, intentan detectar y luego eliminar texto estándar de las páginas, por ejemplo, se excluye la navegación del cálculo de esta suma de verificación, así como el pie de página y se queda lo que se llama “la pieza central” que básicamente el contenido central de las páginas”, agregó Gary.

Señales que utiliza Google para encontrar la URL canónica

Tras encontrar el contenido duplicado, se deberá seleccionar cuál es el documento que se mostrará en los resultados de búsqueda. Esto se hace porque “por lo general a los usuarios no les gusta cuando el mismo contenido se repite en muchos resultados de búsqueda, y también porque nuestro espacio de historia en el índice no es infinito” aseguró Gary.

Así, para calcular cuál será la URL canónica, la página que liderará el clúster, Google emplea más de 20 señales: así, Google toma en cuenta si la página está en una URL HTTPS, si está incluida en un mapa del sitio, o si la página se redirige a otra página, ya que esta es una señal muy clara de que otra página debería ser la canónica. Las señales que utiliza Google incluyen:

Contenido
Page Rank
HTTPS
Si la página está en el archivo de mapa de sitio
Una señal de redireccionamiento del servidor
Etiqueta Canonical

Google utiliza su aprendizaje automático para asignar el peso a cada una de estas señales, y un dato importante a tomar en cuenta es que una etiqueta canónica y un redireccionamiento tendrá mayor peso para el algoritmo. Como ves, la canonicalización es completamente independiente de la clasificación, pero la página que Google elige como canónica terminará en las páginas de resultados de búsqueda y se clasificará.

Imagen: Depositphotos