{"id":7537,"date":"2026-06-12T00:07:23","date_gmt":"2026-06-11T22:07:23","guid":{"rendered":"https:\/\/syf.es\/?p=7537"},"modified":"2026-06-13T15:24:44","modified_gmt":"2026-06-13T13:24:44","slug":"diffusiongemma-el-innovador-modelo-de-google-que-genera-texto-como-si-dibujara-palabras-4-veces-mas-rapido-que-chatgpt","status":"publish","type":"post","link":"https:\/\/syf.es\/?p=7537","title":{"rendered":"DiffusionGemma: el innovador modelo de Google que genera texto como si &#8216;dibujara&#8217; palabras, 4 veces m\u00e1s r\u00e1pido que ChatGPT"},"content":{"rendered":"<p><img decoding=\"async\" class=\"aligncenter wp-image-7586\" src=\"https:\/\/syf.es\/wp-content\/uploads\/2026\/06\/ai_text.jpg\" alt=\"DiffusionGemma: el innovador modelo de Google que genera texto como si &apos;dibujara&apos; palabras, 4 veces m\u00e1s r\u00e1pido que ChatGPT\" style=\"max-width:100%;height:auto\" \/><\/p>\n<p style=\"text-align: justify\">Google DeepMind ha presentado <strong>DiffusionGemma<\/strong>, un modelo experimental de inteligencia artificial que rompe con el paradigma tradicional de generaci\u00f3n de texto secuencial. En lugar de predecir palabra por palabra como hacen los modelos autorregresivos convencionales (ChatGPT, Claude, Gemini), DiffusionGemma \u00abdibuja\u00bb el texto completo y luego lo refina progresivamente, logrando una velocidad hasta <strong>4 veces superior<\/strong> en generaci\u00f3n sobre GPU.<\/p>\n<h2>C\u00f3mo funciona<\/h2>\n<p style=\"text-align: justify\">Los modelos de lenguaje tradicionales construyen las respuestas de forma lineal: predicen una palabra, luego la siguiente, y as\u00ed sucesivamente hasta completar la idea. <strong>DiffusionGemma aplica una l\u00f3gica de difusi\u00f3n<\/strong>, similar a la que utilizan modelos de generaci\u00f3n de im\u00e1genes como Midjourney o Stable Diffusion. El sistema parte de una estructura global y va ajustando el contenido completo de manera progresiva hasta alcanzar una versi\u00f3n coherente.<\/p>\n<p style=\"text-align: justify\">Esto se traduce en que el modelo puede generar bloques completos de 256 tokens en paralelo en cada paso, utilizando <strong>atenci\u00f3n bidireccional<\/strong> que permite que cada token \u00abvea\u00bb a todos los dem\u00e1s simult\u00e1neamente. El resultado no solo es m\u00e1s r\u00e1pido, sino que tambi\u00e9n ofrece <strong>ventajas significativas para dominios no lineales<\/strong> como la edici\u00f3n en l\u00ednea (infill) y la finalizaci\u00f3n de c\u00f3digo.<\/p>\n<h2>Especificaciones t\u00e9cnicas<\/h2>\n<p style=\"text-align: justify\">DiffusionGemma es un modelo <strong>Mixture of Experts (MoE) de 26B par\u00e1metros<\/strong> totales, aunque solo activa <strong>3,8B par\u00e1metros durante la inferencia<\/strong>, lo que permite ejecutarlo en GPUs de consumo como la NVIDIA RTX 5090 o 4090 (cuantizado, cabe en 18 GB de VRAM).<\/p>\n<ul>\n<li><strong>M\u00e1s de 1.000 tokens por segundo<\/strong> en una GPU NVIDIA H100<\/li>\n<li><strong>M\u00e1s de 700 tokens por segundo<\/strong> en una NVIDIA GeForce RTX 5090<\/li>\n<li><strong>Hasta 5\u00d7 m\u00e1s r\u00e1pido<\/strong> que modelos autorregresivos comparables en GPUs Blackwell gracias al soporte nativo de NVFP4 (formato de punto flotante de 4 bits)<\/li>\n<\/ul>\n<h2>C\u00f3digo abierto y accesible<\/h2>\n<p style=\"text-align: justify\">Google ha liberado DiffusionGemma bajo <strong>licencia Apache 2.0<\/strong>, lo que significa que cualquier desarrollador puede descargar los pesos, modificarlos y desplegarlos en sus propios proyectos. Los pesos est\u00e1n disponibles en <strong>Hugging Face<\/strong>, y el modelo puede ejecutarse con frameworks como Hugging Face Transformers, llama.cpp, MLX, Unsloth y NVIDIA NeMo.<\/p>\n<p style=\"text-align: justify\">Adem\u00e1s, es un modelo <strong>multimodal<\/strong>: acepta entradas de texto, imagen y v\u00eddeo para generar texto como salida. Est\u00e1 dise\u00f1ado para flujos de trabajo interactivos locales donde la velocidad es cr\u00edtica: edici\u00f3n en l\u00ednea, iteraci\u00f3n r\u00e1pida y estructuras de texto no lineal.<\/p>\n<h2>Un cambio de paradigma<\/h2>\n<p style=\"text-align: justify\">DiffusionGemma no reemplaza a los modelos autorregresivos tradicionales. Google recomienda Gemma 4 para aplicaciones de producci\u00f3n donde la calidad es la prioridad, pero DiffusionGemma abre la puerta a una <strong>nueva generaci\u00f3n de modelos de lenguaje basados en difusi\u00f3n<\/strong> que priorizan la velocidad sin sacrificar demasiada precisi\u00f3n.<\/p>\n<p style=\"text-align: justify\">Este enfoque, combinado con un hardware cada vez m\u00e1s potente y asequible, acerca el sue\u00f1o de tener <strong>asistentes de IA realmente interactivos funcionando completamente en local<\/strong>, sin depender de servidores externos ni de conexi\u00f3n a internet.<\/p>\n<p style=\"text-align: justify\"><em>Fuentes: <a href=\"https:\/\/blog.google\/innovation-and-ai\/technology\/developers-tools\/diffusion-gemma-faster-text-generation\/\" target=\"_blank\" rel=\"noopener\">Google Blog<\/a>, <a href=\"https:\/\/deepmind.google\/models\/gemma\/diffusiongemma\/\" target=\"_blank\" rel=\"noopener\">Google DeepMind<\/a>, <a href=\"https:\/\/ai.google.dev\/gemma\/docs\/diffusiongemma\" target=\"_blank\" rel=\"noopener\">Google AI for Developers<\/a>.<\/em><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google DeepMind ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial que rompe con el paradigma tradicional de generaci\u00f3n de texto secuencial. En lugar de predecir palabra por palabra como hacen los modelos autorregresivos convencionales (ChatGPT, Claude, Gemini), DiffusionGemma \u00abdibuja\u00bb el texto completo y luego lo refina progresivamente, logrando una velocidad hasta 4 veces superior<\/p>\n","protected":false},"author":1,"featured_media":7672,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[87],"tags":[],"class_list":["post-7537","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ia"],"_links":{"self":[{"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/posts\/7537","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/syf.es\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=7537"}],"version-history":[{"count":1,"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/posts\/7537\/revisions"}],"predecessor-version":[{"id":7603,"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/posts\/7537\/revisions\/7603"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/syf.es\/index.php?rest_route=\/wp\/v2\/media\/7672"}],"wp:attachment":[{"href":"https:\/\/syf.es\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=7537"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/syf.es\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=7537"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/syf.es\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=7537"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}