La nueva versión de Gemini de Google puede manejar cantidades de datos mucho mayores

“En cierto modo, funciona de forma muy parecida a lo que hace nuestro cerebro, donde no todo el cerebro se activa todo el tiempo”, dice Oriol Vinyals, líder del equipo de aprendizaje profundo en DeepMind. Esta compartimentación ahorra potencia informática de la IA y puede generar respuestas más rápido.

“Ese tipo de fluidez que va y viene a través de diferentes modalidades, y su uso para buscar y comprender, es muy impresionante”, dice Oren Etzioni, exdirector técnico del Instituto Allen de Inteligencia Artificial, que no participó en el trabajo. “Esto es algo que no había visto antes”.

Una IA que pueda operar en múltiples modalidades se parecería más a la forma en que se comportan los seres humanos. “Las personas somos multimodales por naturaleza”, dice Etzioni, porque podemos alternar sin esfuerzo entre hablar, escribir y dibujar imágenes o gráficos para transmitir ideas.

Sin embargo, Etzioni advirtió que no se debe dar demasiado significado a los acontecimientos. “Hay una frase famosa”, dice. “Nunca confíes en una demostración de IA”.

Por un lado, no está claro cuánto omitieron o seleccionaron los videos de demostración de varias tareas (de hecho, Google recibió críticas por su lanzamiento temprano de Gemini por no revelar que el video fue acelerado). También es posible que el modelo no pueda replicar algunas de las demostraciones si se modificara ligeramente la redacción de entrada. Los modelos de IA en general, afirma Etzioni, son frágiles.

El lanzamiento de hoy de Gemini 1.5 Pro está limitado a desarrolladores y clientes empresariales. Google no especificó cuándo estará disponible para un lanzamiento más amplio.

Leave a Reply Cancel reply