Encuentre recursos de más de 15 MB para un mejor rastreo de Googlebot


Googlebot es un sistema de rastreo web automático y siempre activo que mantiene actualizado el índice de Google.

El sitio web en todo el mundowebsize.com estima que el índice de Google es de más de 62 mil millones de páginas web.

El índice de búsqueda de Google está «muy por encima 100.000.000 gigas en tamaño.»

Googlebot y sus variantes (teléfonos inteligentes, noticias, imágenes, etc.) tienen ciertas restricciones en cuanto a la frecuencia de procesamiento de JavaScript o el tamaño de los recursos.

Google usa restricciones de rastreo para proteger sus propios recursos y sistemas de rastreo.

Por ejemplo, si un sitio web de noticias actualiza los artículos recomendados cada 15 segundos, Googlebot podría comenzar a omitir las secciones que se actualizan con frecuencia, ya que no serán relevantes ni válidas después de 15 segundos.

Hace años, Google anunció que no rastrea ni utiliza recursos mayores de 15 MB.

El 28 de junio de 2022, Google volvió a publicar esta entrada de blog al afirmar que no utiliza la parte sobrante de los recursos después de 15 MB para rastrear.

Para enfatizar que rara vez sucede, Google afirmó que el «tamaño medio de un archivo HTML es 500 veces más pequeño» que 15 MB.

línea de tiempo de bytes htmlCaptura de pantalla del autor, agosto de 2022

Arriba, HTTPArchive.org muestra el tamaño medio de archivo HTML de escritorio y móvil. Por lo tanto, la mayoría de los sitios web no tienen el problema de la restricción de 15 MB para el rastreo.

Pero, la web es un lugar grande y caótico.

Comprender la naturaleza del límite de rastreo de 15 MB y las formas de analizarlo es importante para los SEO.

Una imagen, un video o un error pueden provocar problemas de rastreo, y esta información de SEO menos conocida puede ayudar a los proyectos a proteger su valor de búsqueda orgánica.

Encuentre recursos de más de 15 MB para un mejor rastreo de Googlebot

¿El límite de rastreo de Googlebot de 15 MB es solo para documentos HTML?

No.

El límite de rastreo de Googlebot de 15 MB es para todos los documentos indexables y rastreables, incluidos Google Earth, Hancom Hanword (.hwp), texto de OpenOffice (.odt) y formato de texto enriquecido (.rtf) u otros tipos de archivos compatibles con Googlebot.

¿Se suman los tamaños de imagen y video con el documento HTML?

No, cada recurso se evalúa por separado según el límite de rastreo de 15 MB.

Si el documento HTML tiene 14,99 MB y la imagen destacada del documento HTML vuelve a tener 14,99 MB, ambos serán rastreados y utilizados por Googlebot.

El tamaño del documento HTML no se suma a los recursos que están vinculados a través de etiquetas HTML.

¿El CSS en línea, JS o URI de datos inflan el tamaño del documento HTML?

Sí, el CSS en línea, JS o el URI de datos se cuentan y se utilizan en el tamaño del documento HTML.

Por lo tanto, si el documento supera los 15 MB debido a recursos y comandos en línea, afectará la capacidad de rastreo del documento HTML específico.

¿Google deja de rastrear el recurso si tiene más de 15 MB?

No, los sistemas de rastreo de Google no dejan de rastrear los recursos que superan el límite de 15 MB.

Continúan buscando el archivo y usan solo la parte más pequeña que los 15 MB.

Para una imagen de más de 15 MB, Googlebot puede fragmentar la imagen hasta los 15 MB con la ayuda del «rango de contenido».

Content-Range es un encabezado de respuesta que ayuda a Googlebot u otros rastreadores y solicitantes a realizar solicitudes parciales.

¿Cómo auditar el tamaño del recurso manualmente?

Puedes usar Herramientas para desarrolladores de Google Chrome para auditar el tamaño del recurso manualmente.

Siga los pasos a continuación en Google Chrome.

  • Abra un documento de página web a través de Google Chrome.
  • Presione F12.
  • Vaya a la pestaña Red.
  • Actualizar la página web.
  • Ordena los recursos según la Cascada.
  • Comprobar el Talla columna en la primera fila, que muestra el tamaño del documento HTML.

A continuación, puede ver un ejemplo de un documento HTML de la página de inicio de searchenginejournal.com, que tiene más de 77 KB.

resultados de html de la página de inicio de la revista del motor de búsquedaCaptura de pantalla del autor, agosto de 2022

¿Cómo auditar el tamaño de los recursos de forma automática y masiva?

Utilice Python para auditar el tamaño del documento HTML de forma automática y masiva. Advertools y Pandas son dos bibliotecas de Python útiles para automatizar y escalar tareas de SEO.

Sigue las instrucciones de debajo.

  • Importar Advertools y Pandas.
  • Recopile todas las URL en el mapa del sitio.
  • Rastrear todas las URL en el mapa del sitio.
  • Filtre las URL con su tamaño HTML.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

El bloque de código anterior extrae las URL del mapa del sitio y las rastrea.

La última línea del código es solo para crear un marco de datos con un orden descendente según los tamaños.

URL y tamaño de Holisticseo.comImagen creada por el autor, agosto de 2022

Puede ver los tamaños de los documentos HTML como se muestra arriba.

El documento HTML más grande en este ejemplo tiene alrededor de 700 KB, que es una página de categoría.

Por lo tanto, este sitio web es seguro para restricciones de 15 MB. Pero, podemos comprobar más allá de esto.

¿Cómo verificar los tamaños de los recursos CSS y JS?

Titiritero se utiliza para comprobar el tamaño de los recursos CSS y JS.

Titiritero es un paquete de NodeJS para controlar Google Chrome con modo sin cabeza para la automatización del navegador y las pruebas de sitios web.

La mayoría de los profesionales de SEO usan API Lighthouse o Page Speed ​​Insights para sus pruebas de rendimiento. Pero, con la ayuda de Puppeteer, se pueden analizar todos los aspectos técnicos y de simulación.

Siga el bloque de código a continuación.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Si no sabe JavaScript o no terminó ningún tipo de tutorial de Puppeteer, puede que le resulte un poco más complicado comprender estos bloques de código. Pero, en realidad es simple.

Básicamente, abre una URL, toma todos los recursos y proporciona su «Tamaño de transferencia», «Tamaño codificado» y «Tamaño decodificado».

En este ejemplo, «decodedSize» es el tamaño en el que debemos centrarnos. A continuación, puede ver el resultado en forma de archivo XLS.

Tamaños de recursosTamaños de bytes de los recursos del sitio web.

Si desea volver a automatizar estos procesos para cada URL, deberá usar un bucle for en el comando «await.page.goto()».

Según sus preferencias, puede colocar cada página web en una hoja de trabajo diferente o adjuntarla a la misma hoja de trabajo agregándola.

Conclusión

La restricción de rastreo de 15 MB de Googlebot es una posibilidad rara que bloqueará sus procesos técnicos de SEO por ahora, pero HTTPArchive.org muestra que la mediana de video, imagen y JavaScript Los tamaños han aumentado en los últimos años.

El tamaño medio de la imagen en el escritorio ha superado 1 MB.

Serie temporal de bytes de imagenCaptura de pantalla del autor, agosto de 2022

Los bytes de video superan los 5 MB en total.

Series temporales de bytes de videoCaptura de pantalla del autor, agosto de 2022

En otras palabras, de vez en cuando, estos recursos, o algunas partes de estos recursos, pueden ser omitidos por Robot de Google.

Por lo tanto, debería poder controlarlos automáticamente, con métodos masivos para hacer tiempo y no saltar.

Más recursos:


Imagen destacada: BestForBest/Shutterstock





Consultar el artículo en la publicación original

Encuentre recursos de más de 15 MB para un mejor rastreo de Googlebot
A %d blogueros les gusta esto: