Si trabajas con hardware embebido, lo sabes: los datasheets de semiconductores son PDFs de cientos de páginas con tablas de registros, campos de bits dispersos y convenciones que cambian de fabricante en fabricante. Automatizar esa extracción con un LLM “a pelo” parece la solución obvia. Pero no funciona —y saber por qué importa más que conocer la herramienta que sí funciona.
RegisterForge, disponible en regforge.dev, es un pipeline open-source que convierte datasheets de chips en mapas de registros estructurados, listos para exportar a C/C++ o SVD, por menos de $0.25 USD por documento completo. El número es llamativo. La arquitectura que lo hace posible es la parte realmente interesante.
¿Por qué los LLMs fallan directamente con PDFs técnicos?
No es un problema de capacidad intelectual del modelo. Es un problema estructural del enfoque. Cuando envías un datasheet completo a un LLM y le pides que extraiga los register maps, ocurren al menos cuatro cosas:
Claude Desbloqueado
Mi curso avanzado para aprender a sacarle mucho más provecho a Claude en el trabajo y en el día a día, con funciones y usos más potentes. Comienza el 23 de marzo.
→ Inscríbete hoy 🚀- El contexto se fragmenta entre páginas. Una tabla de registros puede extenderse por cinco páginas. Sin pasar el estado previo como contexto a cada página siguiente, el modelo pierde coherencia y empieza a inventar.
- Los PDFs tienen texto degradado. La conversión de PDF a texto plano introduce artefactos invisibles. Los modelos que procesan imágenes de alta resolución (300 DPI) superan consistentemente a los que procesan texto extraído del PDF directamente.
- Las alucinaciones son silenciosas en este dominio. Un LLM puede generar un JSON sintácticamente válido con campos de registros completamente inventados. Sin verificación, ese error pasa a producción disfrazado de resultado correcto. Es el mismo patrón que describimos al analizar el código generado por IA que parece correcto pero no lo es: plausible, limpio, y difícil de detectar hasta que falla en producción.
- No hay especialización de dominio semiconductor. Texas Instruments, STMicroelectronics, NXP, Microchip: cada uno tiene su propia convención de layout. Un modelo generalista no tiene ese conocimiento implícito.
¿Qué hace distinto el pipeline de RegisterForge?
El insight arquitectural es simple pero poderoso: los LLMs no deben ver el documento completo; solo deben ver lo que ya fue segmentado y clasificado. El pipeline opera en cuatro fases:
1. Análisis de layout con ML. Antes de que ningún LLM vea nada, un modelo de detección de objetos analiza cada página para identificar y clasificar elementos estructurales: tablas de registros, encabezados, notas al margen, figuras. El resultado es un mapa estructural del documento, no texto plano.
2. Extracción con LLMs especializados por rol. En lugar de un solo prompt masivo, diferentes modelos se encargan de sub-tareas acotadas: uno extrae nombres y direcciones de registros, otro infiere el tipo de acceso (lectura, escritura, lectura-escritura), otro interpreta las descripciones de campos de bits. Cada LLM opera en un dominio semántico pequeño, lo que reduce drásticamente la superficie de alucinación.
3. Verificación basada en evidencias. Cada dato extraído lleva una referencia exacta al fragmento del documento que lo sustenta. Si un campo afirma tener 4 bits pero la tabla fuente muestra 8, el sistema detecta el conflicto automáticamente. Investigaciones sobre extracción de documentos fiscales complejos con LLMs reportan hasta 84% de precisión numérica y 73–96% de precisión estructural en documentos de más de 200 páginas cuando se aplica este enfoque.
4. Recuperación de datos faltantes con trazabilidad. Los datasheets no son perfectos. El pipeline busca valores por defecto o campos omitidos en otras secciones del mismo documento —notas de aplicación, descripciones funcionales— y cuando infiere, lo marca explícitamente. Nada se inventa sin dejar rastro.
¿Por qué cuesta menos de $0.25?
Porque los LLMs costosos solo procesan los fragmentos ya segmentados y relevantes, no el documento de 400 páginas completo. El análisis de layout con ML es local y barato. Los modelos de lenguaje solo ven lo que necesitan ver. Para un equipo de hardware trabajando con 100 chips distintos, eso significa menos de $25 en total para generar una biblioteca completa de register maps estructurados.
¿Para qué sirve en la práctica?
Los register maps estructurados habilitan workflows que hoy son manuales o inexistentes:
- Generación automática de drivers: exportar directamente a SVD (System View Description), el formato estándar del ecosistema CMSIS de ARM, listo para usar en IDEs como Keil, IAR o VS Code con Cortex-Debug.
- Bringup de hardware acelerado: en lugar de leer el datasheet manualmente para escribir las configuraciones iniciales de un microcontrolador nuevo, generar el código base automáticamente desde el register map.
- Due diligence técnico de componentes: comparar las capacidades de múltiples semiconductores evaluando sus register maps sin intervención humana.
- Chatbots técnicos de soporte: un register map estructurado es la base ideal para construir un asistente que responda preguntas técnicas sobre un chip específico con trazabilidad real, no con alucinaciones.
Por qué importa más allá de los datasheets
RegisterForge no es un caso aislado: es un ejemplo de un patrón que se repite en dominios donde los LLMs generalistas llegan pero no terminan de rendir. Documentación legal, expedientes médicos, informes financieros estructurados, datasheets de semiconductores: todos comparten el mismo problema. El enfoque “prompt + modelo grande” no escala cuando el dominio es técnicamente denso y el costo del error es alto.
La lección que vale generalizar: cuando el dominio es especializado, la ventaja no viene del modelo más grande, sino de la arquitectura que guía al modelo hacia lo que sabe hacer bien. Segmentar antes de alimentar al LLM. Verificar con evidencias. Especializar por rol. Y publicar los datos abiertos para que la comunidad los mejore.
Eso es lo que hace RegisterForge. Y funciona.

