Ante el auge de la inteligencia artificial (IA), la forma en que se diseñan los documentos digitales está experimentando una transformación. La LF AI & Data Foundation, bajo el paraguas de la Linux Foundation, ha creado un grupo de trabajo para desarrollar DocLang, un nuevo formato de documento amigable para la IA que busca facilitar la ingestión y comprensión de archivos por parte de sistemas inteligentes en entornos empresariales.
DocLang ha sido promovido por un consorcio formado por líderes del sector como IBM, NVIDIA, Red Hat, ABBYY, HumanSignal y Forgis. Estos expertos sostienen que formatos tradicionales como PDF, Markdown, HTML o LaTeX no están diseñados para que las IA interpreten los documentos con precisión. De hecho, al convertirlos en tokens para los modelos de lenguaje, se pierde información semántica, relaciones estructurales y contexto geométrico vital.
En 2024 IBM lanzó Docling, un conjunto de herramientas open source para facilitar el análisis automático de documentos, y DocLang nace como evolución de esta iniciativa, estableciendo un estándar para el intercambio de datos estructurados optimizados en múltiples sistemas.
Como explica Maxime Vermeir, vicepresidente de Estrategia en IA de ABBYY, “los documentos están pensados para humanos, no para máquinas. DocLang introduce una representación mínima, estandarizada y nativa para IA, que abarca estructura, diseño, significado y gobernanza, facilitando una base más fiable para los sistemas actuales de IA”.
La especificación se basa en un vocabulario XML limitado y se adapta para mapear elementos DocLang con tokens para grandes modelos lingüísticos (LLM) de forma unitaria, evitando pérdidas de información. Además, soporta elementos comunes como tablas, fórmulas, gráficos y contenidos multimodales, y es totalmente abierto.
Uno de los beneficios prácticos de DocLang es la reducción significativa del coste en tokens que conlleva procesar documentos con IA. Según ABBYY, analizar un PDF mediante OCR puede requerir alrededor de 1.200 tokens de entrada y 150 de salida, algo manejable en casos puntuales, pero costoso a gran escala, especialmente con modelos avanzados y documentos extensos. Jon Knisley, responsable de IA en ABBYY, subraya que “los PDFs fueron diseñados para renderizar, no para entenderse, lo que provoca pérdidas de estructura y significado, limitando la precisión y generando costes adicionales por tokenización ineficiente”.
ABBYY ha lanzado una prueba interactiva que compara un informe anual de IBM en PDF frente a su versión DocLang: la segunda reduce un 37% los tokens de entrada (de 8.421 a 5.310), mantiene similar número de tokens de salida, reduce la latencia casi a la mitad y mejora la calidad al evitar errores de comprensión.
Knisley concluye que “aunque aún está en sus inicios, DocLang ofrece mayor precisión, menor coste, rapidez y resultados consistentes, invitando a más empresas y desarrolladores a unirse para impulsar un ecosistema abierto y eficiente de documentos adaptados a la IA”.

