Saltearse al contenido

Scraping

Controle cómo graph8 hace scraping de sitios web y qué páginas se incluyen o excluyen.

Configuración del scraping

graph8 puede hacer scraping de sitios web para enriquecer los registros de contactos y empresas. Configure las preferencias globales de scraping de su organización.

Preferencias globales

  1. Vaya a Configuración → Scraping
  2. Defina el comportamiento del scraping:
    • Activar/Desactivar: habilite o deshabilite el scraping en su organización
    • Concurrencia: número de solicitudes de scraping simultáneas
    • Retardo: tiempo de espera entre solicitudes al mismo dominio

Reglas de exclusión

Defina qué URLs o patrones deben excluirse del scraping.

Agregar reglas de exclusión

  1. Haga clic en Agregar regla
  2. Elija el tipo de regla:
    • URL exacta: omite una página específica
    • Patrón de URL: omite páginas que coincidan con un patrón (por ejemplo, INLINECODE_0)
    • Dominio: omite un dominio completo
  3. Ingrese la URL o el patrón
  4. Guarde

Patrones de exclusión comunes

  • Páginas de inicio de sesión y autenticación
  • Páginas legales y de términos de servicio
  • URLs de herramientas internas
  • Páginas de perfiles en redes sociales
  • Páginas con información sensible

Gestión de reglas

  • Consulte todas las reglas de exclusión activas en la lista de reglas
  • Active o desactive reglas sin eliminarlas
  • Edite los patrones según sus necesidades
  • Elimine las reglas que ya no necesite

Dominios permitidos

Restrinja el scraping a dominios específicos para lograr una recopilación de datos más precisa.

Modo lista blanca

Cuando está habilitado, graph8 solo hace scraping de los dominios que usted haya autorizado explícitamente:

  1. Active el modo lista blanca
  2. Agregue dominios a la lista de permitidos
  3. Solo se hará scraping de esos dominios

Cuando está deshabilitado, se hace scraping de todos los dominios excepto los que coincidan con las reglas de exclusión.

Límites de velocidad

Controle la velocidad del scraping para no sobrecargar los sitios web de destino.

Configuración

  • Solicitudes por segundo: número máximo de solicitudes de scraping por segundo por dominio
  • Conexiones simultáneas: número máximo de conexiones al mismo tiempo
  • Intentos de reintento: cantidad de veces que se reintentará un scraping fallido

graph8 respeta automáticamente las directivas INLINECODE_1 de los sitios web de destino.

Manejo de datos

Configure cómo se asignan a sus registros los datos obtenidos mediante scraping.

Mapeo de campos

Los datos obtenidos mediante scraping pueden completar:

  • Campos de empresa: descripción del sitio web, industria, tecnologías, número de empleados
  • Campos de contacto: cargo, perfiles sociales, biografía

Calidad de los datos

  • graph8 deduplica los datos de scraping con los registros existentes
  • Los nuevos datos solo completan campos vacíos, salvo que active el modo de sobrescritura
  • Todos los datos obtenidos mediante scraping se registran con fines de auditoría

Preguntas frecuentes

¿graph8 respeta el robots.txt?

Sí. graph8 sigue las directivas INLINECODE_2 de forma predeterminada. Las páginas no permitidas por robots.txt no se procesan mediante scraping.

¿Qué ocurre si un scraping falla?

Los scrapings fallidos se reintentan según su configuración de reintentos. Una vez agotados todos los intentos, la URL se registra como fallida y se omite hasta la próxima ejecución programada.

¿Puedo programar el scraping?

El scraping se ejecuta cuando es necesario (por ejemplo, al agregar una nueva empresa o durante el enriquecimiento). También se pueden configurar programaciones recurrentes para operaciones por lotes.

¿El scraping afectará el rendimiento de mi sitio web?

graph8 solo hace scraping de sitios web externos (los sitios de sus prospectos), no del suyo. Los límites de velocidad garantizan que el scraping no sobrecargue los sitios de destino.