Adiós ChatGPT: cómo es GPT-4, una herramienta avanzada para analizar imágenes e imitar el habla humana

El laboratorio de investigación de inteligencia artificial OpenAI lanzó el martes la versión más nueva de su impresionante lenguaje software

El laboratorio de investigación de inteligencia artificial OpenAI lanzó el martes la versión más nueva de su impresionante lenguaje software, GPT-4, una herramienta avanzada para analizar imágenes e imitar el habla humana, empujando los límites técnicos y éticos de una ola de IA que prolifera rápidamente.

Su predecesor, ChatGPT, cautivó e inquietó al público con su asombrosa habilidad para generar escritura elegante, desatando una ola viral de ensayos universitarios, guiones y conversaciones, aunque solo podía generar texto y se basaba en una generación anterior de tecnología que no ha sido vanguardista desde hace más de un año.

GPT-4, por el contrario, es un sistema de última generación capaz de crear no solo palabras, sino también describir imágenes en respuesta a los comandos escritos simples de una persona. Cuando se muestra una foto de un guante de boxeo colgando sobre un balancín de madera con una pelota en un lado, por ejemplo, una persona puede preguntar qué sucederá si el guante se cae, y GPT-4 responderá que golpearía el balancín y enviaría la pelota a volar.

El lanzamiento coronó meses de entusiasmo y anticipación sobre un programa de IA, conocido como un modelo de lenguaje grande, que los primeros evaluadores habían afirmado que tenía una capacidad notablemente avanzada para razonar y aprender cosas nuevas.

Los desarrolladores prometieron en una publicación de blog el martes que la tecnología podría revolucionar aún más el trabajo y la vida. Pero esas promesas también han alimentado la ansiedad sobre cómo las personas podrán competir por trabajos subcontratados a máquinas inquietantemente refinadas o confiar en la precisión de lo que ven en línea.

Los funcionarios del laboratorio de San Francisco dijeron que el entrenamiento “multimodal” de GPT-4 en texto e imágenes le permitiría escapar del cuadro de chat y emular más completamente un mundo de color e imágenes, superando a ChatGPT en sus “capacidades de razonamiento avanzadas”. Una persona puede enviar una imagen a GPT-4 y la subtitulará.

Microsoft ha invertido miles de millones de dólares en OpenAI con la esperanza de que su tecnología se convierta en un arma secreta para su software de trabajo, motor de búsqueda y otras ambiciones en línea. Pero los impulsores de la IA dicen que es posible que solo rocen la superficie de lo que esa IA puede hacer, y que podría conducir a modelos comerciales y empresas creativas que nadie puede predecir aún.

Microsoft ha invertido miles de millones de dólares en OpenAI (Unsplash)
Microsoft ha invertido miles de millones de dólares en OpenAI (Unsplash)

Los rápidos avances de la IA, junto con la enorme popularidad de ChatGPT, han impulsado una carrera armamentista multimillonaria sobre el futuro del dominio de la IA y han transformado los nuevos lanzamientos de software en grandes espectáculos.

OpenAI y Microsoft, que a fines del año pasado lanzaron un chatbot impulsado por GPT en su herramienta de búsqueda Bing, se han movido agresivamente para contrarrestar a Google y otros pioneros de la IA con la creencia de que estas herramientas podrían resultar cruciales para las industrias futuras.

Pero el frenesí también ha provocado críticas de que las empresas se apresuran a explotar una tecnología no probada, no regulada e impredecible que podría engañar a la gente, socavar el trabajo de los artistas y provocar daños en el mundo real.

Los modelos de lenguaje de IA a menudo ofrecen respuestas incorrectas con confianza porque están diseñados para escupir frases convincentes, no hechos reales. Y debido a que han sido capacitados en texto e imágenes de Internet, también han aprendido a emular los prejuicios humanos de raza, género, religión y clase.

Dichos sistemas han inspirado un optimismo ilimitado en torno al potencial de esta tecnología, y algunos ven en sus respuestas una sensación de inteligencia o sensibilidad casi a la par de los humanos. Sin embargo, los sistemas, como los críticos y los investigadores de IA se apresuran a señalar, simplemente repiten patrones y asociaciones que se encuentran en sus datos de entrenamiento sin una comprensión clara de lo que está diciendo o cuándo está mal.

A pesar de su falta de fiabilidad, Silicon Valley ve un enorme potencial económico en este tipo de IA debido a la facilidad de uso de estos modelos. Cualquiera puede escribir lo que se conoce como un “mensaje” en inglés simple en un cuadro de chat, lo que permite a las personas que no saben cómo escribir código comunicarse con las máquinas de la misma manera que lo han hecho los programadores de computadoras durante décadas.

GPT-4, el cuarto “transformador preentrenado generativo” desde el primer lanzamiento de OpenAI en 2018, se basa en una técnica de red neuronal innovadora en 2017 conocida como el transformador que avanzó rápidamente en la forma en que los sistemas de IA pueden analizar patrones en el habla y las imágenes humanas.

Los sistemas están “pre-entrenados” mediante el análisis de billones de palabras e imágenes tomadas de Internet: artículos de noticias, reseñas de restaurantes y argumentos en tableros de mensajes; memes, fotos familiares y obras de arte. Luego, grupos gigantes de supercomputadoras de chips de procesamiento de gráficos mapearon sus patrones estadísticos, aprendiendo qué palabras tendían a seguirse en frases, por ejemplo, para que ahora la IA pueda imitar esos patrones, elaborando automáticamente largos pasajes de texto o imágenes detalladas, una palabra o píxel a la vez.

OpenAI dijo que GPT-4 tiene cientos de billones de “parámetros”, las variables que representan piezas de información que adquirió en el entrenamiento, como las arrugas en un cerebro. GPT-3, lanzado en 2020, tenía 175 000 millones de parámetros, lo que sugería un gran avance en términos de complejidad y cognición.

Los modelos de lenguaje de IA a menudo ofrecen respuestas incorrectas con confianza porque están diseñados para escupir frases convincentes, no hechos reales
Los modelos de lenguaje de IA a menudo ofrecen respuestas incorrectas con confianza porque están diseñados para escupir frases convincentes, no hechos reales

OpenAI se lanzó en 2015 como una organización sin fines de lucro, pero se ha convertido rápidamente en uno de los gigantes privados más formidables de la industria de la IA, aplicando avances en modelos de lenguaje a herramientas de IA de alto perfil que pueden hablar con personas (ChatGPT), escribir código de programación (GitHub Copilot) y crear imágenes fotorrealistas (DALL-E 2).

A lo largo de los años, también ha cambiado radicalmente su enfoque sobre los riesgos sociales potenciales de lanzar herramientas de IA a las masas. En 2019, la compañía se negó a lanzar públicamente GPT-2, diciendo que era tan bueno que estaban preocupados por las “aplicaciones maliciosas” de su uso, desde avalanchas automáticas de spam hasta campañas masivas de suplantación de identidad y desinformación.

La pausa fue temporal. En noviembre, ChatGPT, que utilizó una versión mejorada de GPT-3 que se lanzó originalmente en 2020, vio más de un millón de usuarios a los pocos días de su lanzamiento público.

Los experimentos públicos con ChatGPT y el chatbot de Bing han demostrado lo lejos que está la tecnología de un rendimiento perfecto sin intervención humana. Después de una serie de conversaciones extrañas y respuestas extrañamente incorrectas, los ejecutivos de Microsoft reconocieron que la tecnología aún no era confiable en términos de brindar respuestas correctas, pero dijeron que estaban desarrollando “métricas de confianza” para abordar el problema.

Se espera que GPT-4 mejore algunas deficiencias, y los evangelistas de IA como el bloguero de tecnología Robert Scoble han argumentado que “GPT-4 es mejor de lo que nadie espera”. Pero a los críticos les preocupa que eso pueda tener sus propias consecuencias, como ayudar a crear fotos falsas de eventos inexistentes o personas que hacen cosas que nunca hicieron.

El director ejecutivo de OpenAI, Sam Altman, trató de moderar las expectativas en torno a GPT-4 y dijo en enero que la especulación sobre sus capacidades había alcanzado niveles imposibles. “La fábrica de rumores de GPT-4 es algo ridículo”, dijo en un evento realizado por el boletín StrictlyVC. “La gente está rogando por estar decepcionada, y lo estará”.

Pero Altman también ha comercializado la visión de OpenAI con el aura de la ciencia ficción hecha realidad. En una publicación de blog el mes pasado, dijo que la compañía estaba planeando formas de garantizar que “toda la humanidad” se beneficie de la “inteligencia general artificial” o AGI, un término de la industria para la idea todavía fantástica de una superinteligencia de IA que generalmente es tan inteligente como, o más inteligente que, los propios humanos.

Microsoft, un inversionista de OpenAI, está trabajando para empaquetar GPT-4 en un producto vendible y ha comercializado la tecnología como un compañero súper eficiente que puede manejar el trabajo sin sentido y liberar a las personas para actividades más creativas. La herramienta podría, por ejemplo, ayudar a un desarrollador de software a hacer el trabajo de todo un equipo o permitir que una tienda familiar planifique y diseñe una campaña publicitaria profesional sin ayuda externa.

Un ejecutivo de Microsoft le dijo al sitio de noticias alemán Heise que un desarrollador había usado la IA para crear un prototipo para resumir y responder a las conversaciones del centro de llamadas con los clientes de una manera que podría ahorrarle a una empresa aproximadamente 500 horas al día, o más de 60 personas. trabajando en turnos de 8 horas, a través de decenas de miles de llamadas diarias.

La compañía está poniendo GPT-4 a disposición de los suscriptores de ChatGPT Plus, pero con un límite de uso. OpenAI dijo que planea ajustar el límite de uso según la demanda y el rendimiento del sistema a medida que escala en los próximos meses. Los desarrolladores también podrán crear aplicaciones con GPT-4 a través de la API de la empresa, una interfaz que permite la conexión de diferentes programas.

OpenAI ya ha permitido el acceso de algunas empresas colaboradoras a GPT-4. Duolingo, la aplicación de aprendizaje de idiomas, ha utilizado GPT-4 para presentar nuevas funciones, incluido un compañero de conversación de IA y una herramienta que les dice a los usuarios por qué una respuesta fue incorrecta.

Entradas populares