Google presenta DiffusionGemma, un modelo de lenguaje que acelera la generación de texto usando técnicas de IA para imágenes

Por
3 min de lectura

El equipo de DeepMind de Google ha dado a conocer esta semana un nuevo modelo de lenguaje experimental llamado DiffusionGemma, que incorpora técnicas desarrolladas inicialmente para generadores de imágenes basados en inteligencia artificial. Este avance permite acelerar la producción de texto hasta cuatro veces cuando se ejecuta en hardware de consumo con recursos limitados, como ordenadores con tan solo 18 GB de memoria DRAM o VRAM.

A diferencia de los grandes modelos de lenguaje tradicionales que generan tokens de forma secuencial (auto-regresiva), DiffusionGemma, con 26.000 millones de parámetros y basado en una arquitectura de mezcla de expertos, crea múltiples tokens simultáneamente. Su funcionamiento se asemeja al proceso de difusión, empleado en modelos de imágenes como Stable Diffusion, donde una «lienzo» inicial con tokens aleatorios se refina a través de sucesivos pasos hasta alcanzar un resultado coherente y completo.

Según Google, esta metodología se beneficia de ser principalmente cómputo-dependiente en lugar de estar limitada por el ancho de banda de la memoria, lo que la hace ideal para su ejecución local aprovechando la potencia excedente de tarjetas gráficas avanzadas.

Aunque los modelos de difusión lingüística no son una novedad —anteriores como DREAM o Mercury 2 mostraron mejoras de velocidad pero menor rendimiento en benchmarks y precisión—, DiffusionGemma mantiene un rendimiento cercano a Gemma 4 12B en pruebas como el GPQA-Diamond, destacando sobre todo por su rapidez. Por ejemplo, ofrece un aumento de aproximadamente 2,25 veces la velocidad en comparación con un LLM estándar de 12.000 millones de parámetros con decodificación especulativa, y casi 4 veces más rápido que Gemma 4 26B-A4B cuando se ejecuta con una sola Nvidia H100.

Este modelo se lanza como una propuesta experimental destinada a la comunidad de desarrolladores y usuarios avanzados, disponible para su descarga gratuita bajo licencia Apache 2.0 en repositorios como Hugging Face. Además, ya está integrado en motores de inferencia populares como vLLM, MLX y HF Transformers, con soporte próximo para Llama.cpp.

El movimiento de Google refleja un interés creciente en habilitar la ejecución local de modelos de IA para reducir los costes en la nube asociados a los servicios de inteligencia artificial, siguiendo la tendencia iniciada recientemente con la inclusión de pequeños LLM en navegadores como Chrome.

Compartir este artículo
No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *