Scrapling + Claude: scraping con bypass de Cloudflare sin APIs

Share

Hay una combinación de herramientas circulando en la comunidad de desarrolladores que está llamando la atención: Scrapling, un framework Python de scraping adaptativo, combinado con Claude Code como “cerebro” para decidir qué fetcher usar según el sitio. El resultado es un sistema de scraping que funciona completamente local, sin APIs externas, y con bypass nativo de Cloudflare Turnstile.

La tesis no es nueva — scraping inteligente existe desde hace años. Lo que cambia es la arquitectura: un LLM con acceso al contexto del sitio tomando decisiones de estrategia de fetching en tiempo real, mientras la librería maneja el bypass técnico. Es una separación de responsabilidades que hace el stack más capaz que cualquiera de las dos partes por sí solas.

¿Qué es Scrapling y qué puede hacer?

Scrapling (github.com/D4Vinci/Scrapling) es un framework de scraping Python creado por Karim Shoair que resuelve dos problemas que han plagado el scraping tradicional: los sitios que cambian su estructura y los sistemas anti-bot modernos.

Aprende IA con nosotros

Únete gratis a mi comunidad en Skool, donde compartimos noticias, tutoriales y recursos para seguir aprendiendo juntos.

👥 Únete gratis 🚀

Para el primer problema, usa “element tracking” adaptativo: los selectores aprenden la ubicación de los elementos en la página y pueden relocalizarlos automáticamente cuando el sitio cambia su diseño. Si un sitio actualiza su CSS y mueve el botón de precio a otro contenedor, el selector adaptativo lo encuentra sin que tengas que reescribir el código.

Para el segundo problema — y aquí está la parte que generó la conversación viral — tiene tres tipos de fetchers con capacidades distintas:

  • Fetcher: Peticiones HTTP rápidas con impersonación de TLS (fingerprint de Chrome, Firefox, etc.) y headers stealth.
  • StealthyFetcher: Automatización headless con bypass de Cloudflare Turnstile y Interstitials. Usa Camoufox (browser modificado con fingerprint spoofing) en vez del Chromium estándar que es fácilmente detectado.
  • DynamicFetcher: Browser automation completa con Playwright para sitios que requieren JavaScript complejo, SPAs, o interacciones de usuario.

La librería tiene 92% de test coverage, tipo hints completos, benchmarks documentados que la ubican como la más rápida del ecosistema Python para parsing (2.02ms vs 1,584ms de BeautifulSoup con lxml), y un servidor MCP integrado para uso con Claude.

La integración con Claude: un skill que toma decisiones de estrategia

El componente que genera el interés en la combinación no es Scrapling solo — es el skill de Claude Code para Scrapling, desarrollado por Cedric, que convierte a Claude en el “cerebro” que decide qué fetcher usar según las características del sitio objetivo.

La lógica es simple pero poderosa: no todos los sitios necesitan bypass de Cloudflare. Un sitio sin protección anti-bot se puede scrape con el Fetcher HTTP simple (más rápido). Un sitio con Cloudflare Turnstile necesita StealthyFetcher. Un SPA que carga datos via JavaScript necesita DynamicFetcher. Elegir mal el fetcher o es lento innecesariamente o falla con el anti-bot.

Claude, con acceso al contexto del sitio a través del MCP server de Scrapling, puede analizar el sitio y elegir el fetcher correcto automáticamente — además de manejar un “Cookie Vault” para persistir sesiones de login entre requests, y templates predefinidas para tipos comunes de sitios (foros, SPAs, e-commerce).

El resultado práctico según usuarios que lo reportaron: bypass exitoso de Cloudflare en sitios como Amazon y Trustpilot sin necesidad de proxies de pago ni APIs externas. Todo corre en tu máquina.

Por qué funciona el bypass (y por qué tiene límites)

Cloudflare Turnstile detecta bots principalmente por dos vectores: el fingerprint del browser (TLS, headers, comportamiento de usuario) y características del runtime de JavaScript (propiedades de `navigator`, tiempos de renderizado, etc.). Herramientas como Selenium y Playwright estándar fallan porque el Chromium que usan tiene fingerprints conocidos.

Camoufox, el browser que usa StealthyFetcher, está específicamente modificado para imitar un browser real en todas esas dimensiones. No es el mismo Chromium que cualquier bot puede descargar — es un fork endurecido para pasar como humano ante los sistemas de detección.

Los límites son reales: Cloudflare actualiza sus algoritmos de detección regularmente. Hay un juego del gato y el ratón entre las herramientas de bypass y los sistemas anti-bot. Lo que funciona hoy puede no funcionar en tres meses. Para enterprise-grade protection (Akamai, DataDome, Kasada, Incapsula), el propio README de Scrapling admite que se necesitan APIs externas — Scrapling solo cubre Cloudflare Turnstile nativamente.

El stack completo: cómo se arma

Para el desarrollador que quiera implementarlo, el stack tiene tres capas:

  1. Scrapling como motor: pip install "scrapling[all]" + scrapling install para los browsers. El MCP server se activa con pip install "scrapling[ai]".
  2. Claude Code con el skill: El skill de Cedric se configura en Claude Code como un conjunto de reglas y templates que guían las decisiones de fetching.
  3. Lógica de scraping: Claude recibe la URL objetivo, consulta las características del sitio via MCP, elige el fetcher, extrae los datos, y gestiona el Cookie Vault para mantener sesiones.

El MCP server de Scrapling no solo expone las capacidades de fetching — también procesa el contenido antes de pasárselo a Claude, extrayendo solo el HTML relevante en vez de pasar la página completa. Eso reduce el token usage y acelera el proceso.

La pregunta que el viral no responde

La viralidad del post en Twitter/X sobre esta combinación mezcla lo técnicamente interesante con un framing que hay que contextualizar. “Bypass de Cloudflare gratis y local” es un titular que vende — pero omite que:

1. Scrapling es claro en su README: es para investigación y educación. El scraping de sitios que prohíben bots en sus ToS sigue siendo un problema legal que ninguna herramienta resuelve.
2. El bypass de Cloudflare funciona para Turnstile, no para todos los sistemas anti-bot del mercado.
3. La efectividad varía por sitio. Amazon y Trustpilot son ejemplos reportados por usuarios — no una garantía de que funcione en cualquier sitio con Cloudflare.

Lo que sí es técnicamente genuino: la arquitectura de LLM + scraping framework es un patrón que va a volverse más común. Al igual que la verificación de código con IA, la extracción de datos web con IA como capa de decisión representa una separación de responsabilidades inteligente — el modelo razona, la librería ejecuta.

Por qué importa para developers en LATAM

El scraping web es una herramienta fundamental para investigación de mercado, monitoreo de precios, análisis competitivo, y agregación de datos públicos. En LATAM, donde muchos datos relevantes no tienen APIs públicas, la capacidad de extraer datos de la web es especialmente valiosa.

La combinación Scrapling + Claude Code reduce la barrera técnica de manera significativa: en vez de mantener scrapers frágiles que se rompen con cada cambio de diseño del sitio, el selector adaptativo sobrevive a esos cambios. En vez de elegir manualmente entre múltiples estrategias de fetching, Claude toma esa decisión. La tendencia de integrar IA directamente en herramientas de terminal sigue acelerando — este es un caso más del mismo patrón.

Scrapling tiene documentación completa, está activamente mantenido (92% test coverage no es común en proyectos open source), y su servidor MCP es suficientemente maduro como para usarse en producción. Para un desarrollador que necesite extraer datos web de manera confiable, es un stack que vale la pena evaluar — con los cuidados legales correspondientes.


Fuentes

Leer más

Otras noticias