Cómo Google analiza el contenido de las páginas web y lo pondera


Martin Splitt, en un seminario web de Duda, explicó un concepto llamado Anotación de pieza central que analiza cómo Google analiza el contenido de una página web.

No reproduciré la pregunta porque está algo fuera de tema y es larga.

Pero lo que Martin discute es cómo Google separa el texto estándar de una página web y luego resume de la estructura de contenido de texto de qué trata la página web.

Él menciona lo que se llama anotación de pieza central.

Martin Splitt explicó:

“Solo somos nosotros analizando el contenido y, no sé qué hemos dicho públicamente sobre esto, pero creo que lo mencioné en uno de los episodios de los podcasts.

Así que probablemente puedo decir que tenemos algo llamado Anotación de pieza central, por ejemplo, y hay algunas otras anotaciones que tenemos donde miramos el contenido semántico, así como potencialmente el árbol de diseño.

Pero, fundamentalmente, podemos leer eso de la estructura de contenido en HTML y darnos cuenta de que “¡Oh! Esto parece a partir de todo el procesamiento de lenguaje natural que hicimos en todo el contenido de texto aquí que obtuvimos, parece que se trata principalmente del tema A, comida para perros «.

Anuncio publicitario

Continuar leyendo a continuación

Captura de pantalla de Martin Splitt discutiendo la anotación de la pieza central

Martin Splitt de Google

A continuación, Martin habla sobre cómo el análisis de la página separa la página web en partes componentes, algunas de las cuales no son relevantes para la pieza central.

Las partes de la página, explica, se ponderan de manera diferente. La ponderación es una referencia a la importancia de un elemento de página. Por lo tanto, si una sección recibe una puntuación de ponderación ligera, no es tan importante que se pondere con una puntuación más alta.

Anuncio publicitario

Continuar leyendo a continuación

Martin continuó:

“Y luego está esta otra cosa aquí, que parecen ser enlaces a productos relacionados, pero en realidad no es parte de la pieza central. No es realmente el contenido principal aquí. Esto parece ser material adicional.

Y luego hay un montón de texto repetitivo o, “Oye, nos dimos cuenta de que el menú se ve más o menos igual en todas estas páginas y listas. Esto se parece mucho al menú que tenemos en todas las demás páginas de este dominio ”, por ejemplo, o lo hemos visto antes. En realidad, ni siquiera vamos por dominio o como, «Oh, esto parece un menú».

Descubrimos lo que parece repetitivo y luego, eso también se pondera de manera diferente «.

Se le da menos consideración al contenido fuera de tema

Martin menciona a continuación cómo después de que Google establece de qué se trata una página web, si una sección está fuera de tema, entonces esa sección fuera de tema no se le da tanta consideración, presumiblemente para fines de clasificación.

Martin explica:

“Por lo tanto, si tiene contenido en una página que no está relacionado con el tema principal del resto del contenido, es posible que no le demos tanta consideración como cree.

Todavía usamos esa información para el descubrimiento de enlaces y averiguar la estructura de su sitio y todo eso.

Pero si una página tiene 10,000 palabras sobre comida para perros y luego 3000 o 2000 o 1000 palabras sobre bicicletas, entonces probablemente este no sea un buen contenido para bicicletas «.

Eso es realmente interesante porque parece mostrar que cuando Google determina de qué se trata una página, es posible que el contenido fuera del tema no tenga la oportunidad de clasificarse o, como dice Martin, no se le da «unes una gran consideración. «

Jason Barnard preguntó:

“Me parece que está adivinando la semántica HTML5. ¿HTML5e semántico te ayuda o simplemente no te importa? ¿No tiene sentido?»

Lo que Jason estaba haciendo referencia era el marcado HTML5 que define las diferentes secciones de una página web, como el encabezado, la navegación, el pie de página, etc.

Anuncio publicitario

Continuar leyendo a continuación

Al comienzo de la discusión de Martin, estaba haciendo referencia al análisis de la estructura del contenido y el texto real. Así que ahora el tema se está desviando un poco aquí hacia la estructura semántica de HTML5.

Martin respondió:

“Nos ayuda, pero no es lo único que buscamos. Sí.»

Anotación de pieza central

Una anotación es una nota que explica algo. Una pieza central es algo que pretende ser el centro de atención.

Una anotación de la pieza central parece ser como un resumen del tema del contenido principal.

Martin explica cómo Google divide la página en diferentes secciones y pondera las partes fuera de la anotación de la pieza central de manera diferente.

También menciona cómo las partes de una página que son diferentes al tema principal no le dan mucha consideración, lo que parece significar que podría no ser contenido que pueda clasificar.

Citación

Seminario web de Duda sobre renderizado esencial

Vea a Martin Splitt explicar cómo Google analiza una página web en el minuto 28:42:

Anuncio publicitario

Continuar leyendo a continuación





Consultar el artículo en la publicación original

Cómo Google analiza el contenido de las páginas web y lo pondera
A %d blogueros les gusta esto: