El GPT-4 de OpenAI exhibe un "rendimiento a nivel humano" en puntos de referencia profesionales

Una imagen colorida generada por IA de una silueta radiante. — Ars Technica

El martes, OpenAI anunciado GPT-4, un gran modelo multimodal que puede aceptar entradas de texto e imágenes mientras devuelve una salida de texto que “muestra un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales”, según OpenAI. También el martes, Microsoft Anunciado que Bing Chat se ha estado ejecutando en GPT-4 todo el tiempo.

Si funciona como se afirma, GPT-4 representa potencialmente la apertura de una nueva era en inteligencia artificial. “Aprueba un examen de barra simulado con una puntuación de alrededor del 10% superior de los examinados”, escribe OpenAI en su anuncio. “En contraste, el puntaje de GPT-3.5 estuvo alrededor del 10% inferior”.

OpenAI planea lanzar la capacidad de texto de GPT-4 a través de ChatGPT y su API comercial, pero con una lista de espera en primer lugar. GPT-4 está actualmente disponible para los suscriptores de ChatGPT Plus. Además, la empresa está probando la capacidad de entrada de imágenes de GPT-4 con un solo socio, se mis ojosuna próxima aplicación para teléfonos inteligentes que puede reconocer una escena y describirla.

Junto con el sitio web introductorio, OpenAI también lanzó un documento técnico describiendo las capacidades de GPT-4 y una tarjeta de modelo de sistema describiendo sus limitaciones en detalle.

Agrandar / Una captura de pantalla de la introducción de GPT-4 a los clientes de ChatGPT Plus del 14 de marzo de 2023.

Benj Edwards / Ars Technica

GPT significa “transformador preentrenado generativo”, y GPT-4 es parte de una serie de modelos de lenguaje fundamentales que se remontan al original GPT en 2018. Tras el lanzamiento original, OpenAI anunció GPT-2 en 2019 y GPT-3 en 2020. En 2022 llegó un refinamiento adicional llamado GPT-3.5. En noviembre, OpenAI lanzó ChatGPT, que en ese momento era un programa conversacional perfeccionado. modelo basado en GPT-3.5.

Los modelos de IA de la serie GPT han sido entrenados para predecir el siguiente token (un fragmento de una palabra) en una secuencia de tokens utilizando una gran cantidad de texto extraído en gran parte de Internet. Durante el entrenamiento, la red neuronal construye un modelo estadístico que representa las relaciones entre palabras y conceptos. Con el tiempo, OpenAI ha aumentado el tamaño y la complejidad de cada modelo de GPT, lo que ha resultado en un rendimiento generalmente mejor, modelo sobre modelo, en comparación con la forma en que un humano completaría el texto en el mismo escenario, aunque varía según la tarea.

En cuanto a las tareas, el rendimiento de GPT-4 es notable. Al igual que sus predecesores, puede seguir instrucciones complejas en lenguaje natural y generar trabajos técnicos o creativos, pero puede hacerlo con más profundidad: admite la generación y el procesamiento de hasta 32,768 tokens (alrededor de 25,000 palabras de texto), lo que permite una creación de contenido o análisis de documentos mucho más larga que los modelos anteriores.

Mientras analizaba las capacidades de GPT-4, OpenAI hizo que el modelo tomara pruebas como la Examen de la barra uniformeel Prueba de Admisión a la Facultad de Derecho (LSAT)el Examen de registro de posgrado (GRE) Cuantitativoy varias pruebas de asignaturas AP. En muchas de las tareas, obtuvo una puntuación a nivel humano. Eso significa que si GPT-4 fuera una persona juzgada únicamente por su capacidad para tomar exámenes, podría ingresar a la facultad de derecho, y probablemente también a muchas universidades.

🤯🤯Pues esto es otra cosa.

GPT-4 pasa básicamente todos los exámenes. Y no solo pasa…
El examen de la barra: 90%
LSAT: 88%
GRE Cuantitativo: 80%, Verbal: 99%
Cada AP, el SAT… pic.twitter.com/zQW3k6uM6Z

—Ethan Mollick (@emollick) 14 de marzo de 2023

El GPT-4 de OpenAI exhibe un “rendimiento a nivel humano” en puntos de referencia profesionales

Leave a Reply Cancel reply