Google ha presentado Gemini Omni, un nuevo y revolucionario modelo de inteligencia artificial diseñado para la creación de vídeos. Este avance busca redefinir el panorama de la generación de contenido audiovisual mediante IA, siguiendo la estela de éxitos previos de la compañía en la generación de imágenes.

¿Qué es Gemini Omni y cuáles son sus capacidades?

Gemini Omni se posiciona como la respuesta de Google a la creciente demanda de herramientas de creación de vídeo impulsadas por IA. Su propuesta de valor reside en su versatilidad, permitiendo la generación de contenido a partir de una amplia gama de entradas. Esto incluye la combinación de imágenes, audio, vídeo y texto en las instrucciones (prompts) proporcionadas por el usuario.

La inteligencia subyacente de Gemini Omni aprovecha su conocimiento del mundo real para asegurar que los vídeos generados sean coherentes y realistas. Más allá de la creación desde cero, el modelo está diseñado para interactuar con secuencias de vídeo existentes. Los usuarios pueden instruir a la IA para modificar elementos específicos o transformar completamente una escena.

Este nuevo modelo sustituye a Veo, la anterior solución de Google para la generación de vídeos. Gemini Omni es capaz de producir clips de hasta 10 segundos de duración, con la particularidad de incluir generación de audio nativa. Además, ofrece la posibilidad de convertir imágenes estáticas en vídeos cortos (hasta 5 imágenes) y gestionar múltiples interacciones dentro de una misma creación.

La plataforma permite un control granular sobre la producción audiovisual. Los usuarios pueden ajustar la estética, las acciones de los elementos, el entorno, el ángulo de la cámara y el estilo general del vídeo. Igualmente, se ha puesto énfasis en la consistencia de los personajes y la continuidad de la escena, garantizando físicas coherentes.

Innovación en la edición y personalización de vídeo

Las posibilidades creativas que abre Gemini Omni son amplias. Se pueden transformar vídeos para que adopten estilos artísticos, como la animación de dibujos animados. También es factible partir de una única imagen para generar un vídeo, añadir pistas de audio personalizadas o reemplazar elementos específicos dentro de una secuencia, como cambiar una persona por una criatura fantástica.

Google no solo busca ofrecer una herramienta de generación, sino también de edición avanzada y creativa. La capacidad de mantener la coherencia de personajes y escenarios a lo largo de un vídeo, junto con la simulación de físicas realistas, eleva el estándar para la creación de vídeo mediante inteligencia artificial.

¿Quién tiene acceso a Gemini Omni?

Actualmente, el acceso nativo a Gemini Omni está restringido a los suscriptores de pago de Gemini. La integración se realiza directamente en la aplicación web y móvil de Gemini, así como en Flow. Sin embargo, Google ha habilitado una vía de acceso gratuito a través de plataformas como YouTube Shorts y la aplicación YouTube Create.

Esta estrategia dual busca democratizar el acceso a la tecnología de generación de vídeo por IA, permitiendo a un público más amplio experimentar con sus capacidades, al tiempo que fomenta el uso de sus servicios de suscripción premium para funcionalidades avanzadas.

¿Cómo funciona Gemini Omni en la práctica?

Para utilizar Gemini Omni, los usuarios deben acceder a la interfaz de Gemini y seleccionar la opción de crear vídeo dentro del menú desplegable del campo de texto. Una vez activada la función de vídeo, el usuario puede proceder a la creación de su contenido.

La interfaz presenta una selección de estilos e ideas predefinidas, pero también permite la entrada de prompts personalizados. Los usuarios pueden incorporar vídeos, imágenes o archivos de audio como base para la generación o modificación. Por ejemplo, se puede subir un vídeo existente y especificar las modificaciones deseadas, o usar una imagen para iniciar un nuevo vídeo.

Tras proporcionar las instrucciones y los elementos multimedia, Gemini Omni procesa la solicitud. En cuestión de minutos, la IA generará el vídeo. El usuario podrá entonces previsualizar el resultado, solicitar rehacerlo, compartirlo o descargarlo en su dispositivo.

Fuente: Ver artículo original

Gemini Omni: La Inteligencia Artificial de Google que Revoluciona la Creación de Vídeo

¿Qué es Gemini Omni y cuáles son sus capacidades?

Innovación en la edición y personalización de vídeo

¿Quién tiene acceso a Gemini Omni?

¿Cómo funciona Gemini Omni en la práctica?

BlueReactive