El nuevo modelo de código abierto con la capacidad de procesar datos en texto, imágenes, audio y video de forma eficiente, ya está disponible a través de las plataformas Hugging Face y Github.
En busca de mantenerse a la vanguardia a medida que se intensifica la competencia en el sector de la inteligencia artificial, Alibaba Cloud lanzó esta mañana un nuevo modelo de IA multimodal de código abierto llamado Qwen2.5-Omni-7B, diseñado para procesar texto, imágenes, audio y video en tiempo real, a través del que promete ayudar a las personas a desarrollar sus propios asistentes virtuales de última generación de manera más sencilla y rentable.
¿Qué separa al nuevo modelo de IA multimodal de Alibaba de la competencia?
El nuevo modelo de IA forma parte de la serie Qwen de Alibaba y sobresale principalmente por su gran capacidad para analizar múltiples formatos de entradas y generar respuestas tanto en texto como en voz, usando un tono y lenguaje natural.
A través de una publicación de blog, Alibaba explicó que más allá de su enfoque multimodal, lo que vuelve a Qwen2.5-Omni-7B distinto a otros sistemas de esta clase, es que fue diseñado para ejecutarse en todo tipo de dispositivos de baja gama, incluyendo smartphones y laptops, lo que les permite a las empresas desarrollar sus propios agentes de IA sin depender de una infraestructura costosa en la nube.
Lo anterior es posible gracias a que el nuevo modelo de Alibaba incorpora una serie de componentes de software desarrollados por la compañía, comenzando por una estructura compacta de 7 billones de parámetros.
Adicionalmente, Gwen2.5-Omni-7B, cuenta con una arquitectura única e innovadora que separa la generación de texto y la síntesis de voz llamada Thinker-Talker Architecture, lo que según la empresa asiática mejora en gran medida la calidad de las respuestas multimodales que ofrece su modelo con respecto a las de sus competidores.
Qwen2.5-Omni-7B también es respaldado por Block-wise Streaming Processing, una herramienta técnica que reduce la latencia en la generación de respuestas de voz, asegurando una mejor interacción en tiempo real con los usuarios.
Por otro lado, el nuevo modelo de Alibaba integra el sistema TMRoPE de la compañía, cuyo funcionamiento se basa en algoritmos que optimizan la sincronización entre video y audio, asegurando una interacción más coherente con los asistentes de IA.

Alibaba apuesta por la accesibilidad y el código abierto
Con el objetivo de “fomentar la innovación a través de la colaboración”, Alibaba ha liberado su modelo de código abierto en plataformas como Hugging Face y GitHub, para permitir que investigadores y desarrolladores personalicen su tecnología en función de sus necesidades.
Alibaba asegura que este enfoque abre las puertas a nuevas oportunidades para startups y compañías con presupuestos limitados que buscan beneficiarse del potencial de la IA sin grandes inversiones en hardware o licencias.
Cabe señalar que el lanzamiento del Qwen2.5-Omni-7B llega en un momento de intensa competencia en China, luego de que recientemente otras empresas como DeepSeek y Baidu lanzaran sus propios modelos de IA multimodal con capacidades avanzadas de razonamiento.
Mientras tanto, el gigante chino de la industria tecnológica confía en que Qwen2.5-Omni-7B tiene el potencial de marcar la pauta hacia una nueva etapa en el desarrollo de la inteligencia artificial, donde la capacidad de interpretar múltiples formatos de datos será esencial para mejorar la interacción entre los humanos y las máquinas. Con su estrategia de código abierto y su enfoque en la accesibilidad, Alibaba busca posicionarse como un referente en la IA empresarial y en la creación de experiencias más eficientes y accesibles para los usuarios.
“A medida que el ecosistema tecnológico evoluciona, la adopción de modelos multimodales como Qwen2.5-Omni-7B podría transformar la educación e industria automotriz en áreas clave como la atención al cliente, redefiniendo la manera en que las empresas aprovechan el potencial de la inteligencia artificial”, puntualizó la compañía.