Gemini está comiéndole la tostada a ChatGPT. Y OpenAI ha respondido integrando un médico de bolsillo

enero 21, 2026
5:35 pm

La batalla por la supremacía en la inteligencia artificial generativa ha entrado en una nueva y fascinante fase. Lo que comenzó como un duelo entre dos modelos de lenguaje, con ChatGPT de OpenAI liderando claramente la carrera, se ha transformado en un combate a tres bandas donde la innovación y la especialización son las nuevas armas. Google, tras un inicio titubeante con Bard, ha redoblado sus esfuerzos y lanzado **Gemini Advanced**, un contendiente que no solo iguala, sino que en ciertos aspectos supera a su rival. La respuesta de OpenAI no se ha hecho esperar, y ha sido contundente: han integrado capacidades de análisis de datos multimodales directamente en ChatGPT, convirtiéndolo, entre otras cosas, en un asistente médico de bolsillo. Este movimiento redefine por completo lo que podemos esperar de estos asistentes.

Estamos dejando atrás la era de los chatbots que solo generaban texto convincente. Ahora, los modelos están evolucionando hacia **asistentes multifuncionales integrales** que pueden ver, escuchar, entender y razonar sobre el mundo que los rodea a través de diferentes tipos de datos. La integración de la visión por computadora y el análisis de archivos no es un añadido superficial; es una mejora fundamental que acerca estas herramientas a la promesa original de la IA: ser una extensión de nuestras propias capacidades cognitivas. El usuario ya no solo conversa; colabora con un agente que puede examinar documentos, interpretar imágenes y ofrecer insights basados en un contexto mucho más rico.

##La revolución multimodal: cuando la IA puede ver y entender

El gran salto cualitativo en los últimos meses ha sido la transición de modelos puramente textuales a modelos **multimodales nativos**. Esto significa que la arquitectura fundamental de la IA está diseñada desde su base para procesar y comprender diferentes modalidades de información —texto, imágenes, audio, vídeo— de forma conjunta, no como piezas separadas. Gemini de Google se anunció con esta capacidad como su pilar fundamental, y OpenAI, aunque inicialmente se centró en el texto con GPT-4, ha respondido integrando estas funcionalidades de manera profunda en la experiencia de usuario de ChatGPT.

Esta multimodalidad es un cambio de juego por varias razones. En primer lugar, **elimina barreras de entrada**. Un usuario puede ahora subir una foto de la nevera y preguntar: «¿Qué puedo cocinar con estos ingredientes?». Puede capturar una gráfica compleja de un informe y pedir: «Explícame los datos clave de este gráfico». O, como veremos, puede mostrar una erupción cutánea y buscar una orientación preliminar. La IA ya no requiere que el usuario traduzca el mundo visual a descripciones textuales; lo interpreta por sí misma.

En segundo lugar, potencia enormemente la **productividad y la creatividad**. Imagina a un estudiante que sube sus apuntes escritos a mano y le pide al modelo que los resuma, los organice en un esquema y genere tarjetas de estudio. O a un profesional del marketing que analiza simultáneamente el texto de un anuncio, su composición visual y el rendimiento en datos de una hoja de cálculo, todo en una misma conversación. La capacidad de cruzar tipos de datos permite conexiones y análisis que antes eran imposibles o requerían múltiples herramientas especializadas.

###Cómo ChatGPT está implementando la visión artificial

OpenAI no ha lanzado un nuevo modelo desde cero para competir con Gemini en multimodalidad. En su lugar, ha optado por una estrategia inteligente: **integrar capacidades de visión y análisis de documentos directamente en la interfaz y la experiencia de ChatGPT**. Cuando un usuario sube un archivo —ya sea una imagen, un PDF, un documento de Word o una presentación— el modelo puede acceder a su contenido y razonar sobre él.

La magia está en que esto no es un simple OCR (reconocimiento óptico de caracteres). El modelo **comprende el contexto y la semántica** de lo que ve. Por ejemplo, si subes una foto de un armario desordenado, no solo listará los objetos que identifica («camisa azul», «libro», «zapatilla»).

Otras publicaciones ...

te invitamos a conocer

Nuestro canal de Youtube

Pulsa aquí

Querida Microsoft: es hora de que Windows sea gratis

Hace unos días, mientras navegaba por Internet, me topé con un artículo que lanzaba una pregunta que muchos nos hemos...

OpenAI juraba que los anuncios en ChatGPT eran su «último recurso». Ahora son su plan de supervivencia

Cuando OpenAI lanzó ChatGPT en noviembre de 2022, no solo presentó al mundo una herramienta revolucionaria de inteligencia artificial, sino...

Investigadores canarios desarrollan un sistema de IA capaz de detectar el 91% de los casos de glaucoma

Un equipo de investigadores del Hospital Universitario de Canarias y la Universidad de La Laguna ha logrado un avance médico...

Samsung lanza la actualización de seguridad de abril para los Galaxy solucionando varias vulnerabilidades

Si eres usuario de un smartphone Samsung, probablemente ya estés familiarizado con esas notificaciones mensuales que anuncian una nueva actualización...

Guía Definitiva: Cómo Crear Videos Animados Virales con IA Usando Anijam (Edición 2026)

La creación de contenido animado ha sido históricamente una de las disciplinas más costosas, lentas y técnicamente exigentes del mundo...

Poniendo a prueba anuncios en ChatGPT

El mundo de la inteligencia artificial no deja de sorprendernos, y OpenAI, la compañía detrás del revolucionario ChatGPT, parece decidida...

Mythos, el nuevo modelo de IA de Anthropic que preocupa a gobiernos y bancos por su gran potencia

La carrera por el desarrollo de la inteligencia artificial más avanzada y segura tiene un nuevo protagonista de peso. Anthropic,...

El hito de ChatGPT no es ser una buena IA: es haberse convertido en una de las mayores captadoras de atención de la historia

Cuando OpenAI lanzó ChatGPT al público en noviembre de 2022, pocos podrían haber imaginado que estaban presenciando el nacimiento de...

Descubre el cuerpo humano como nunca antes: la guía definitiva de BioDigital Human

Si eres un creador de contenido o un profesor que utiliza WordPress y Elementor, integrar esta maravilla es sumamente sencillo....

Cualquier persona que tenga un teléfono Samsung debe activar esta configuración clave

Si eres uno de los millones de usuarios en el mundo que confía en un teléfono Samsung para su día...

Claude Mythos: el sistema de IA que no podemos usar – Fundación Pablo VI

En el vertiginoso mundo de la inteligencia artificial, donde cada semana parece traer un nuevo modelo revolucionario, ha surgido un...

¿Realmente se puede cambiar la dirección de Gmail? Verdades, mitos y soluciones definitivas

Es el sueño de cualquier usuario que creó su cuenta hace diez años: poder transformar ese dragon_fuego99@gmail.com en algo mucho...

He probado la ia musical de 2026: mureka v9 es de otro planeta

¿Te imaginas crear un hit nivel Grammy por accidente desde tu habitación? Acabo de probar Mureka V9 y la experiencia es, sencillamente,...

Flova lanza Seedance 2.0, la IA que está cambiando la forma de crear vídeo

Google tiene un nuevo método para que la IA consuma mucha menos memoria

La carrera por desarrollar inteligencia artificial más potente y eficiente acaba de dar un giro trascendental. Google, uno de los...

¿La IA amenaza el empleo? Cada vez más economistas lo piensan

La pregunta ya no es un ejercicio de ciencia ficción, sino el centro de un debate económico urgente. Mientras lees...

Samsung entra en modo de emergencia: ni siquiera el histórico éxito del Galaxy S26 es suficiente hoy en día

El panorama tecnológico es un océano en constante ebullición, donde navegar con éxito requiere no solo de un timón firme,...

Aplicaciones de ChatGPT: qué son y cómo usarlas para darles más funciones a ChatGPT

Imagina que tu ChatGPT, ese asistente conversacional que ya conoces, pudiera de repente no solo escribir correos o resumir textos,...