Inicio / IA / DiffusionGemma: el innovador modelo de Google que genera texto como si ‘dibujara’ palabras, 4 veces más rápido que ChatGPT

DiffusionGemma: el innovador modelo de Google que genera texto como si ‘dibujara’ palabras, 4 veces más rápido que ChatGPT

DiffusionGemma: el innovador modelo de Google que genera texto como si 'dibujara' palabras, 4 veces más rápido que ChatGPT

Google DeepMind ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial que rompe con el paradigma tradicional de generación de texto secuencial. En lugar de predecir palabra por palabra como hacen los modelos autorregresivos convencionales (ChatGPT, Claude, Gemini), DiffusionGemma «dibuja» el texto completo y luego lo refina progresivamente, logrando una velocidad hasta 4 veces superior en generación sobre GPU.

Cómo funciona

Los modelos de lenguaje tradicionales construyen las respuestas de forma lineal: predicen una palabra, luego la siguiente, y así sucesivamente hasta completar la idea. DiffusionGemma aplica una lógica de difusión, similar a la que utilizan modelos de generación de imágenes como Midjourney o Stable Diffusion. El sistema parte de una estructura global y va ajustando el contenido completo de manera progresiva hasta alcanzar una versión coherente.

Esto se traduce en que el modelo puede generar bloques completos de 256 tokens en paralelo en cada paso, utilizando atención bidireccional que permite que cada token «vea» a todos los demás simultáneamente. El resultado no solo es más rápido, sino que también ofrece ventajas significativas para dominios no lineales como la edición en línea (infill) y la finalización de código.

Especificaciones técnicas

DiffusionGemma es un modelo Mixture of Experts (MoE) de 26B parámetros totales, aunque solo activa 3,8B parámetros durante la inferencia, lo que permite ejecutarlo en GPUs de consumo como la NVIDIA RTX 5090 o 4090 (cuantizado, cabe en 18 GB de VRAM).

  • Más de 1.000 tokens por segundo en una GPU NVIDIA H100
  • Más de 700 tokens por segundo en una NVIDIA GeForce RTX 5090
  • Hasta 5× más rápido que modelos autorregresivos comparables en GPUs Blackwell gracias al soporte nativo de NVFP4 (formato de punto flotante de 4 bits)

Código abierto y accesible

Google ha liberado DiffusionGemma bajo licencia Apache 2.0, lo que significa que cualquier desarrollador puede descargar los pesos, modificarlos y desplegarlos en sus propios proyectos. Los pesos están disponibles en Hugging Face, y el modelo puede ejecutarse con frameworks como Hugging Face Transformers, llama.cpp, MLX, Unsloth y NVIDIA NeMo.

Además, es un modelo multimodal: acepta entradas de texto, imagen y vídeo para generar texto como salida. Está diseñado para flujos de trabajo interactivos locales donde la velocidad es crítica: edición en línea, iteración rápida y estructuras de texto no lineal.

Un cambio de paradigma

DiffusionGemma no reemplaza a los modelos autorregresivos tradicionales. Google recomienda Gemma 4 para aplicaciones de producción donde la calidad es la prioridad, pero DiffusionGemma abre la puerta a una nueva generación de modelos de lenguaje basados en difusión que priorizan la velocidad sin sacrificar demasiada precisión.

Este enfoque, combinado con un hardware cada vez más potente y asequible, acerca el sueño de tener asistentes de IA realmente interactivos funcionando completamente en local, sin depender de servidores externos ni de conexión a internet.

Fuentes: Google Blog, Google DeepMind, Google AI for Developers.