Gemini está comiéndole la tostada a ChatGPT. Y OpenAI ha respondido integrando un médico de bolsillo

La batalla por la supremacía en la inteligencia artificial generativa ha entrado en una nueva y fascinante fase. Lo que comenzó como un duelo entre dos modelos de lenguaje, con ChatGPT de OpenAI liderando claramente la carrera, se ha transformado en un combate a tres bandas donde la innovación y la especialización son las nuevas armas. Google, tras un inicio titubeante con Bard, ha redoblado sus esfuerzos y lanzado **Gemini Advanced**, un contendiente que no solo iguala, sino que en ciertos aspectos supera a su rival. La respuesta de OpenAI no se ha hecho esperar, y ha sido contundente: han integrado capacidades de análisis de datos multimodales directamente en ChatGPT, convirtiéndolo, entre otras cosas, en un asistente médico de bolsillo. Este movimiento redefine por completo lo que podemos esperar de estos asistentes.

Estamos dejando atrás la era de los chatbots que solo generaban texto convincente. Ahora, los modelos están evolucionando hacia **asistentes multifuncionales integrales** que pueden ver, escuchar, entender y razonar sobre el mundo que los rodea a través de diferentes tipos de datos. La integración de la visión por computadora y el análisis de archivos no es un añadido superficial; es una mejora fundamental que acerca estas herramientas a la promesa original de la IA: ser una extensión de nuestras propias capacidades cognitivas. El usuario ya no solo conversa; colabora con un agente que puede examinar documentos, interpretar imágenes y ofrecer insights basados en un contexto mucho más rico.

##La revolución multimodal: cuando la IA puede ver y entender

El gran salto cualitativo en los últimos meses ha sido la transición de modelos puramente textuales a modelos **multimodales nativos**. Esto significa que la arquitectura fundamental de la IA está diseñada desde su base para procesar y comprender diferentes modalidades de información —texto, imágenes, audio, vídeo— de forma conjunta, no como piezas separadas. Gemini de Google se anunció con esta capacidad como su pilar fundamental, y OpenAI, aunque inicialmente se centró en el texto con GPT-4, ha respondido integrando estas funcionalidades de manera profunda en la experiencia de usuario de ChatGPT.

Esta multimodalidad es un cambio de juego por varias razones. En primer lugar, **elimina barreras de entrada**. Un usuario puede ahora subir una foto de la nevera y preguntar: «¿Qué puedo cocinar con estos ingredientes?». Puede capturar una gráfica compleja de un informe y pedir: «Explícame los datos clave de este gráfico». O, como veremos, puede mostrar una erupción cutánea y buscar una orientación preliminar. La IA ya no requiere que el usuario traduzca el mundo visual a descripciones textuales; lo interpreta por sí misma.

En segundo lugar, potencia enormemente la **productividad y la creatividad**. Imagina a un estudiante que sube sus apuntes escritos a mano y le pide al modelo que los resuma, los organice en un esquema y genere tarjetas de estudio. O a un profesional del marketing que analiza simultáneamente el texto de un anuncio, su composición visual y el rendimiento en datos de una hoja de cálculo, todo en una misma conversación. La capacidad de cruzar tipos de datos permite conexiones y análisis que antes eran imposibles o requerían múltiples herramientas especializadas.

###Cómo ChatGPT está implementando la visión artificial

OpenAI no ha lanzado un nuevo modelo desde cero para competir con Gemini en multimodalidad. En su lugar, ha optado por una estrategia inteligente: **integrar capacidades de visión y análisis de documentos directamente en la interfaz y la experiencia de ChatGPT**. Cuando un usuario sube un archivo —ya sea una imagen, un PDF, un documento de Word o una presentación— el modelo puede acceder a su contenido y razonar sobre él.

La magia está en que esto no es un simple OCR (reconocimiento óptico de caracteres). El modelo **comprende el contexto y la semántica** de lo que ve. Por ejemplo, si subes una foto de un armario desordenado, no solo listará los objetos que identifica («camisa azul», «libro», «zapatilla»).

Otras publicaciones ...

te invitamos a conocer

Nuestro canal de Youtube

Pulsa aquí
Qué es Medeo AI y cómo puede transformar tu creación de contenido

Qué es Medeo AI y cómo puede transformar tu creación de contenido

¿Te imaginas convertir un simple texto o un enlace de tu blog en un vídeo profesional en menos de lo...

Android 17 ya está aquí: la primera beta llega a los Google Pixel y anticipa el calendario de actualizaciones – Xataka Móvil

Android 17 ya está aquí: la primera beta llega a los Google Pixel y anticipa el calendario de actualizaciones – Xataka Móvil

El ciclo anual de Android no se detiene, y justo cuando la mayoría de usuarios está empezando a saborear las...

¿Adiós a POP3 en Gmail? Cómo afecta el reenvío automático desde Hostinger (y qué debes saber)

¿Adiós a POP3 en Gmail? Cómo afecta el reenvío automático desde Hostinger (y qué debes saber)

Si tienes tu correo profesional configurado en Hostinger y utilizas el reenvío automático para recibir todos tus mensajes en tu...

Estudiar en tiempos de IA: «Nunca ha sido tan fácil aprobar, pero tan difícil aprender»

Estudiar en tiempos de IA: «Nunca ha sido tan fácil aprobar, pero tan difícil aprender»

#Estudiar en tiempos de IA: "Nunca ha sido tan fácil aprobar, pero tan difícil aprender" El titular de **El Mundo**...

Telefónica y OpenAI se alían para que todos los clientes de Movistar tengan acceso a ChatGPT Plus

Telefónica y OpenAI se alían para que todos los clientes de Movistar tengan acceso a ChatGPT Plus

El panorama tecnológico acaba de presenciar uno de esos movimientos estratégicos que redefinen el acceso a la inteligencia artificial para...

Android 17 ya está aquí: la primera beta llega a los Google Pixel y anticipa el calendario de actualizaciones

Android 17 ya está aquí: la primera beta llega a los Google Pixel y anticipa el calendario de actualizaciones

El ciclo anual de Android no se detiene, y justo cuando la mayoría de usuarios está empezando a saborear las...

Las llamadas perdidas estarán más a la vista que nunca: así las va a integrar Samsung en la Now Bar

Las llamadas perdidas estarán más a la vista que nunca: así las va a integrar Samsung en la Now Bar

Si eres de los que vive pegado al móvil pero aún así se le pasan llamadas importantes, esta noticia te...

Transformando cada ordenador con Windows 11 en un PC con IA

Transformando cada ordenador con Windows 11 en un PC con IA

El futuro de la informática personal ya no es una promesa lejana; está aquí, integrado en el sistema operativo que...

Nuestro enfoque en materia de anuncios y la ampliación del acceso a ChatGPT

Nuestro enfoque en materia de anuncios y la ampliación del acceso a ChatGPT

En un mundo donde la inteligencia artificial se integra cada vez más en nuestra vida cotidiana, la accesibilidad y la...

El falso “terremoto” de la IA generativa: desmontando el relato de Matt Shumer

El falso “terremoto” de la IA generativa: desmontando el relato de Matt Shumer

En el vertiginoso mundo de la tecnología, pocos temas generan tanta expectación y, a la vez, tanta confusión como la...

La carga de los Galaxy S26 cambia para siempre: se filtra el precio e imágenes de la batería externa magnética de Samsung

La carga de los Galaxy S26 cambia para siempre: se filtra el precio e imágenes de la batería externa magnética de Samsung

El mundo de la carga inalámbrica está a punto de dar un salto cuántico, y Samsung parece dispuesto a liderarlo....

Tenemos un problema con la IA. Quienes se mostraban más entusiastas al principio empiezan a estar…

Tenemos un problema con la IA. Quienes se mostraban más entusiastas al principio empiezan a estar…

Hace apenas un par de años, la inteligencia artificial era la gran protagonista de cualquier conversación sobre tecnología. Prometía revolucionar...

Aprende a usar la inteligencia artificial en tu trabajo con este curso gratuito

Aprende a usar la inteligencia artificial en tu trabajo con este curso gratuito

¿Sientes que la tecnología avanza más rápido de lo que puedes asimilar y te da miedo quedarte atrás en tu...

OpenAI empezará a poner anuncios en ChatGPT. Ya sabemos a quién llegará esta primera prueba

OpenAI empezará a poner anuncios en ChatGPT. Ya sabemos a quién llegará esta primera prueba

# OpenAI empezará a poner anuncios en ChatGPT: ¿El inicio de una nueva era publicitaria en la IA? La inteligencia...

Un tsunami de millones de documentos hechos con IA está colapsando organizaciones vitales

Un tsunami de millones de documentos hechos con IA está colapsando organizaciones vitales

Imagine que cada día, en lugar de recibir diez informes para revisar, recibe diez mil. Imagine que cada contrato, cada...

La programación es el nuevo tablero de la IA: OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y…

La programación es el nuevo tablero de la IA: OpenAI y Anthropic lo han dejado claro con GPT-5.3-Codex y…

#La programación es el nuevo tablero de la IA: OpenAI y Anthropic lo han dejado claro Si llevas un tiempo...

Eliminar IA de Windows: cómo eliminar todas las funciones de inteligencia artificial fácilmente con… –

Eliminar IA de Windows: cómo eliminar todas las funciones de inteligencia artificial fácilmente con… –

La inteligencia artificial se ha integrado profundamente en Windows, desde Copilot en la barra de tareas hasta funciones de productividad...

Las empresas de IA no tienen plan de negocio o sustancia real para sostener su valor. Una caída bursátil tendrá efectos enormes para todo el mundo

Las empresas de IA no tienen plan de negocio o sustancia real para sostener su valor. Una caída bursátil tendrá efectos enormes para todo el mundo

La inteligencia artificial ha pasado de ser un concepto de ciencia ficción a dominar titulares, conversaciones y, sobre todo, los...