¿Es un factor de clasificación de Google?


La indexación semántica latente (LSI) es un método de indexación y recuperación de información que se utiliza para identificar patrones en las relaciones entre términos y conceptos.

Con LSI, se utiliza una técnica matemática para encontrar semánticamente términos relacionados dentro de una colección de texto (una índice) donde esas relaciones podrían estar ocultas (o latente).

Y en ese contexto, parece que podría ser muy importante para el SEO.

¿Correcto?

Después de todo, Google es un índice masivo de información y escuchamos todo tipo de cosas sobre búsqueda semántica y el importancia de la relevancia en el algoritmo de ranking de búsqueda.

Si ha escuchado rumores sobre la indexación semántica latente en SEO o le han recomendado que use palabras clave LSI, no está solo.

Pero, ¿realmente ayudará LSI a mejorar su ranking de búsqueda? Vamos a ver.

La afirmación: la indexación semántica latente como factor de clasificación

La afirmación es simple: la optimización del contenido web con palabras clave LSI ayuda a Google a comprenderlo mejor y será recompensado con clasificaciones más altas.

Backlinko define las palabras clave LSI de esta manera:

“Las palabras clave de LSI (indexación semántica latente) son términos conceptualmente relacionados que los motores de búsqueda utilizan para comprender en profundidad el contenido de una página web”.

Mediante el uso de términos relacionados contextualmente, puede profundizar la comprensión de Google de su contenido. O eso dice la historia.

Ese recurso continúa con algunos argumentos bastante convincentes para las palabras clave de LSI:

  • Google confía en las palabras clave de LSI para comprender el contenidot en un nivel tan profundo.
  • Las palabras clave de LSI NO son sinónimos. En cambio, son términos que están estrechamente vinculados a su palabra clave objetivo”.
  • Google no SOLAMENTE términos en negrita que coincidan exactamente lo que acaba de buscar (en los resultados de búsqueda). También ponen en negrita palabras y frases que son similares. No hace falta decir que estas son palabras clave de LSI que desea agregar a su contenido”.

¿Esta práctica de «rociar» términos estrechamente relacionados con su palabra clave objetivo ayuda a mejorar su clasificación a través de LSI?

La evidencia de LSI como factor de clasificación

La relevancia se identifica como uno de los cinco factores clave que ayudan a Google a determinar qué resultado es la mejor respuesta para una consulta determinada.

Como explica Google es su Cómo funciona la búsqueda recurso:

«Para devolver resultados relevantes para su consulta, primero debemos establecer qué información está buscando, la intención detrás de su consulta».

Una vez establecida la intención:

“…los algoritmos analizan el contenido de las páginas web para evaluar si la página contiene información que podría ser relevante para lo que está buscando”.

Google continúa explicando que la «señal más básica» de relevancia es que las palabras clave utilizadas en la consulta de búsqueda aparecen en la página. Eso tiene sentido: si no está utilizando las palabras clave que busca el buscador, ¿cómo podría Google decir que usted es la mejor respuesta?

Ahora, aquí es donde algunos creen que LSI entra en juego.

Si usar palabras clave es una señal de relevancia, usar solo las palabras clave correctas debe ser una señal más fuerte.

Existen herramientas diseñadas específicamente para ayudarlo a encontrar estas palabras clave LSI, y los creyentes en esta táctica recomiendan usar todo tipo de otras tácticas de investigación de palabras clave para identificarlas también.

La evidencia contra LSI como factor de clasificación

John Mueller de Google ha sido claro como el cristal en este caso:

“…no tenemos concepto de palabras clave LSI. Así que eso es algo que puedes ignorar por completo”.

Existe un sano escepticismo en SEO de que Google pueda decir cosas que nos desvíen para proteger la integridad del algoritmo. Así que profundicemos aquí.

Primero, es importante comprender qué es LSI y de dónde proviene.

La estructura semántica latente surgió como una metodología para recuperar objetos textuales de archivos almacenados en un sistema informático a fines de la década de 1980. Como tal, es un ejemplo de uno de los conceptos anteriores de recuperación de información (IR) disponibles para los programadores.

A medida que la capacidad de almacenamiento de la computadora mejoraba y los conjuntos de datos disponibles electrónicamente crecían en tamaño, se hizo más complicado localizar exactamente lo que uno estaba buscando en esa colección.

Los investigadores describieron el problema que estaban tratando de hallar en un solicitud de patente presentada el 15 de septiembre de 1988:

“La mayoría de los sistemas aún requieren que un usuario o proveedor de información especifique relaciones y enlaces explícitos entre objetos de datos u objetos de texto, lo que hace que los sistemas sean tediosos de usar o aplicar a archivos de información informáticos grandes y heterogéneos cuyo contenido puede ser desconocido para el usuario. ”

La coincidencia de palabras clave se usaba en IR en ese momento, pero sus limitaciones eran evidentes mucho antes de que apareciera Google.

Con demasiada frecuencia, las palabras que utilizaba una persona para buscar la información que buscaba no coincidían exactamente con las palabras utilizadas en la información indexada.

Hay dos razones para esto:

  • Sinonimia: la amplia gama de palabras utilizadas para describir un solo objeto o idea da como resultado que se pierdan resultados relevantes.
  • Polisemia: los diferentes significados de una sola palabra dan como resultado que se recuperen resultados irrelevantes.

Estos siguen siendo problemas hoy en día, y puedes imaginar el gran dolor de cabeza que es para Google.

Sin embargo, las metodologías y la tecnología que usa Google para hallar la relevancia se trasladaron hace mucho tiempo de LSI.

Lo que hizo LSI fue crear automáticamente un “espacio semántico” para la recuperación de información.

Como explica la patente, LSI trató esta falta de fiabilidad de los datos de asociación como un problema estadístico.

Sin profundizar demasiado en las malas hierbas, estos investigadores creían esencialmente que había una estructura semántica latente subyacente oculta que podían extraer de los datos de uso de palabras.

Hacerlo revelaría el significado latente y permitiría que el sistema traiga resultados más relevantes, y solo los resultados más relevantes, incluso si no hay una coincidencia exacta de palabras clave.

Así es como se ve realmente ese proceso LSI:

Diagrama de flujo del proceso LSIImagen creada por el autor, enero de 2022

Y aquí está lo más importante que debe tener en cuenta sobre la ilustración anterior de esta metodología de la solicitud de patente: están ocurriendo dos procesos separados.

Primero, la colección o índice se somete a Análisis Semántico Latente.

En segundo lugar, se analiza la consulta y luego se busca similitudes en el índice ya procesado.

Y ahí es donde radica el problema fundamental con LSI como una señal de clasificación de búsqueda de Google.

El índice de Google es masivo en cientos de miles de millones de páginas, y está creciendo constantemente.

Cada vez que un usuario ingresa una consulta, Google revisa su índice en una fracción de segundo para encontrar la mejor respuesta.

El uso de la metodología anterior en el algoritmo requeriría que Google:

  1. Recrear ese espacio semántico utilizando LSA en todo su índice.
  2. Analizar el significado semántico. de la consulta
  3. Encuentre todas las similitudes entre el significado semántico de la consulta y documentos en el espacio semántico creado a partir del análisis de todo el índice.
  4. Ordenar y clasificar esos resultados.

Esa es una simplificación excesiva, pero el punto es que este no es un proceso escalable.

Esto sería muy útil para pequeñas colecciones de información. Fue útil para sacar a la superficie informes relevantes dentro del archivo computarizado de documentación técnica de una empresa, por ejemplo.

La solicitud de patente ilustra cómo funciona LSI utilizando una colección de nueve documentos. Para eso fue diseñado. LSI es primitivo en términos de recuperación de información computarizada.

Indexación semántica latente como factor de clasificación: nuestro veredicto

Indexación semántica latente (LSI): ¿es un factor de clasificación de Google?

Si bien los principios subyacentes de eliminar el ruido mediante la determinación de la relevancia semántica seguramente han informado los desarrollos en la clasificación de búsqueda desde que se patentó LSA/LSI, LSI en sí no tiene una aplicación útil en SEO en la actualidad.

No se ha descartado por completo, pero no hay evidencia de que Google haya usado alguna vez LSI para clasificar los resultados. Y Google definitivamente no está usando LSI o palabras clave de LSI hoy para clasificar los resultados de búsqueda.

Aquellos que recomiendan usar palabras clave LSI se aferran a un concepto que no entienden del todo en un esfuerzo por explicar por qué las formas en que las palabras están relacionadas (o no) son importantes en SEO.

La relevancia y la intención son consideraciones fundamentales en el algoritmo de clasificación de búsqueda de Google.

Esas son dos de las grandes preguntas que están tratando de hallar para encontrar la mejor respuesta para cualquier consulta.

La sinonimia y la polisemia siguen siendo grandes desafíos.

Semántica – es decir, nuestra comprensión de los diversos significados de las palabras y cómo se relacionan – es esencial para producir resultados de búsqueda más relevantes.

Pero LSI no tiene nada que ver con eso.


Imagen destacada: Paulo Bobita/Search Engine Journal





Consultar el artículo en la publicación original

¿Es un factor de clasificación de Google?