Scraping
Controle cómo graph8 hace scraping de sitios web y qué páginas se incluyen o excluyen.
Configuración del scraping
graph8 puede hacer scraping de sitios web para enriquecer los registros de contactos y empresas. Configure las preferencias globales de scraping de su organización.
Preferencias globales
- Vaya a Configuración → Scraping
- Defina el comportamiento del scraping:
- Activar/Desactivar: habilite o deshabilite el scraping en su organización
- Concurrencia: número de solicitudes de scraping simultáneas
- Retardo: tiempo de espera entre solicitudes al mismo dominio
Reglas de exclusión
Defina qué URLs o patrones deben excluirse del scraping.
Agregar reglas de exclusión
- Haga clic en Agregar regla
- Elija el tipo de regla:
- URL exacta: omite una página específica
- Patrón de URL: omite páginas que coincidan con un patrón (por ejemplo,
INLINECODE_0) - Dominio: omite un dominio completo
- Ingrese la URL o el patrón
- Guarde
Patrones de exclusión comunes
- Páginas de inicio de sesión y autenticación
- Páginas legales y de términos de servicio
- URLs de herramientas internas
- Páginas de perfiles en redes sociales
- Páginas con información sensible
Gestión de reglas
- Consulte todas las reglas de exclusión activas en la lista de reglas
- Active o desactive reglas sin eliminarlas
- Edite los patrones según sus necesidades
- Elimine las reglas que ya no necesite
Dominios permitidos
Restrinja el scraping a dominios específicos para lograr una recopilación de datos más precisa.
Modo lista blanca
Cuando está habilitado, graph8 solo hace scraping de los dominios que usted haya autorizado explícitamente:
- Active el modo lista blanca
- Agregue dominios a la lista de permitidos
- Solo se hará scraping de esos dominios
Cuando está deshabilitado, se hace scraping de todos los dominios excepto los que coincidan con las reglas de exclusión.
Límites de velocidad
Controle la velocidad del scraping para no sobrecargar los sitios web de destino.
Configuración
- Solicitudes por segundo: número máximo de solicitudes de scraping por segundo por dominio
- Conexiones simultáneas: número máximo de conexiones al mismo tiempo
- Intentos de reintento: cantidad de veces que se reintentará un scraping fallido
graph8 respeta automáticamente las directivas INLINECODE_1 de los sitios web de destino.
Manejo de datos
Configure cómo se asignan a sus registros los datos obtenidos mediante scraping.
Mapeo de campos
Los datos obtenidos mediante scraping pueden completar:
- Campos de empresa: descripción del sitio web, industria, tecnologías, número de empleados
- Campos de contacto: cargo, perfiles sociales, biografía
Calidad de los datos
- graph8 deduplica los datos de scraping con los registros existentes
- Los nuevos datos solo completan campos vacíos, salvo que active el modo de sobrescritura
- Todos los datos obtenidos mediante scraping se registran con fines de auditoría
Preguntas frecuentes
¿graph8 respeta el robots.txt?
Sí. graph8 sigue las directivas INLINECODE_2 de forma predeterminada. Las páginas no permitidas por robots.txt no se procesan mediante scraping.
¿Qué ocurre si un scraping falla?
Los scrapings fallidos se reintentan según su configuración de reintentos. Una vez agotados todos los intentos, la URL se registra como fallida y se omite hasta la próxima ejecución programada.
¿Puedo programar el scraping?
El scraping se ejecuta cuando es necesario (por ejemplo, al agregar una nueva empresa o durante el enriquecimiento). También se pueden configurar programaciones recurrentes para operaciones por lotes.
¿El scraping afectará el rendimiento de mi sitio web?
graph8 solo hace scraping de sitios web externos (los sitios de sus prospectos), no del suyo. Los límites de velocidad garantizan que el scraping no sobrecargue los sitios de destino.