Google sobre el porcentaje que representa contenido duplicado


John Mueller de Google respondió recientemente a una pregunta sobre si existe un umbral porcentual de duplicación de contenido que Google utiliza para identificar y filtrar el contenido duplicado.

¿Qué porcentaje equivale a contenido duplicado?

De hecho, la conversación comenzó en Facebook cuando Duane Forrester (@DuaneForrester) preguntó si alguien sabía si algún motor de búsqueda ha publicado un porcentaje de superposición de contenido en el que el contenido se considera duplicado.

Bill Hartzer (bhartzer) recurrió a Twitter para preguntarle a John Mueller y recibió una respuesta casi inmediata.

Bill tuiteó:

“Oye, @johnmu, ¿hay un porcentaje que represente contenido duplicado?

Por ejemplo, ¿deberíamos intentar asegurarnos de que las páginas sean al menos un 72,6 % únicas en comparación con otras páginas de nuestro sitio?

¿Google siquiera lo mide?

John Mueller de Google respondió:

¿Cómo detecta Google el contenido duplicado?

La metodología de Google para detectar contenido duplicado se ha mantenido notablemente similar durante muchos años.

En 2013, Matt Cutts (@mattcutts), un ingeniero de software en ese momento en Google publicó un video oficial de Google describiendo cómo Google detecta contenido duplicado.

Comenzó el video afirmando que una gran cantidad de contenido de Internet está duplicado y que es algo normal que suceda.

“Es importante darse cuenta de que si observa el contenido en la web, aproximadamente el 25 % o el 30 % de todo el contenido de la web es contenido duplicado.

…La gente citará un párrafo de un blog y luego enlazará al blog, ese tipo de cosas”.

Continuó diciendo que debido a que gran parte del contenido duplicado es inocente y sin intención de spam, Google no penalizará ese contenido.

Penalizar páginas web por tener algún contenido duplicado, dijo, tendría un efecto negativo en la calidad de los resultados de búsqueda.

Lo que hace Google cuando encuentra contenido duplicado es:

«… intenta agruparlo todo y tratarlo como si fuera solo una pieza de contenido».

Matt continuó:

“Simplemente se trata como algo que necesitamos agrupar adecuadamente. Y debemos asegurarnos de que se clasifique correctamente”.

Explicó que Google luego elige qué página mostrar en los resultados de búsqueda y filtra las páginas duplicadas para mejorar la experiencia del usuario.

Cómo maneja Google el contenido duplicado: versión 2020

Avance rápido hasta 2020 y Google publicó un episodio de podcast de Search Off the Record en el que se describe el mismo tema en un lenguaje notablemente similar.

Aquí está el sección relevante de ese podcast desde el minuto 06:44 del episodio:

“Gary Illyes: Y ahora terminamos con el siguiente camino, que en realidad es canonicalización y detección de duplicados.

Martin Splitt: ¿No es eso lo mismo, detección de duplicados y canonicalización, más o menos?

Gary Illyes: [00:06:56] Bueno, no lo es, ¿verdad? Porque primero tienes que detectar los duplicados, básicamente agruparlos, diciendo que todas estas páginas son duplicados entre sí,
y luego básicamente tienes que encontrar una página cabecilla para todos ellos.

…Y eso es canonicalización.

Entonces, tiene la duplicación, que es el término completo, pero dentro de eso tiene la creación de clústeres, como la creación de clústeres duplicados y la canonicalización. “

Gary luego explica en términos técnicos cómo hacen exactamente esto. Básicamente, Google realmente no está mirando porcentajes exactamente, sino comparando sumas de verificación.

Se puede decir que una suma de verificación es una representación del contenido como una serie de números o letras. Entonces, si el contenido está duplicado, la secuencia numérica de la suma de verificación será similar.

Así lo explicó Gary:

“Entonces, para la detección de duplicados lo que hacemos es, bueno, tratamos de detectar duplicados.

Y cómo lo hacemos es quizás cómo lo hace la mayoría de las personas en otros motores de búsqueda, que es, básicamente, reducir el contenido a un hash o suma de verificación y luego comparar las sumas de verificación”.

Gary dijo que Google lo hace así porque es más fácil (y obviamente preciso).

Google detecta contenido duplicado con sumas de verificación

Entonces, cuando se habla de contenido duplicado, probablemente no se trate de un umbral de porcentaje, donde hay un número en el que se dice que el contenido está duplicado.

Más bien, el contenido duplicado se detecta con una representación del contenido en forma de suma de verificación y luego se comparan esas sumas de verificación.

Una conclusión adicional es que parece haber una distinción entre cuando parte del contenido está duplicado y todo el contenido está duplicado.


Imagen destacada de Shutterstock/Ezume Images





Consultar el artículo en la publicación original

Google sobre el porcentaje que representa contenido duplicado