La precisión de ChatGPT está disminuyendo, según un nuevo estudio

Un par de nuevos estudios presentan una dicotomía problemática para los programas de modelo de lenguaje grande ChatGPT de OpenAI. Aunque sus populares respuestas de texto generativo ahora son casi indistinguibles de las respuestas humanas de acuerdo a Según múltiples estudios y fuentes, GPT parece ser menos preciso con el tiempo. Quizás lo más angustioso es que nadie tiene una buena explicación para el preocupante deterioro.

Un equipo de Stanford y UC Berkeley señaló en un estudio de investigación publicó el martes que el comportamiento de ChatGPT ha cambiado notablemente con el tiempo, y no para mejor. Es más, los investigadores no saben exactamente por qué este deterioro en la calidad de la respuesta está ocurriendo.

Para examinar la consistencia de los programas GPT-3.5 y -4 subyacentes de ChatGPT, el equipo probó la tendencia de la IA a “derivarse”, es decir, ofrecer respuestas con diferentes niveles de calidad y precisión, así como su capacidad para seguir correctamente los comandos dados. Los investigadores le pidieron a ChatGPT-3.5 y -4 que resolvieran problemas matemáticos, respondieran preguntas delicadas y peligrosas, razonaran visualmente a partir de indicaciones y generaran código.

[Related: Big Tech’s latest AI doomsday warning might be more of the same hype.]

En su revisión, el equipo descubrió que “En general… el comportamiento del ‘mismo’ servicio LLM puede cambiar sustancialmente en un período de tiempo relativamente corto, lo que destaca la necesidad de un control continuo de la calidad LLM”. Por ejemplo, GPT-4 en marzo de 2023 identificó números primos con una tasa de precisión de casi el 98 por ciento. Sin embargo, en junio, la precisión de GPT-4 se redujo a menos del 3 por ciento para la misma tarea. Mientras tanto, GPT-3.5 en junio de 2023 mejoró la identificación de números primos en comparación con su versión de marzo de 2023. En lo que respecta a la generación de código de computadora, la capacidad de ambas ediciones para generar código de computadora empeoró entre marzo y junio.

Estas discrepancias podrían tener efectos en el mundo real, y pronto. A principios de este mes, un artículo publicado en la revista Educación médica JMIR por un equipo de investigadores de la NYU indica que las respuestas de ChatGPT a las consultas relacionadas con la atención médica son aparentemente indistinguibles de las de los profesionales médicos humanos en lo que respecta al tono y la redacción. Los investigadores presentaron a 392 personas 10 preguntas y respuestas de pacientes, la mitad de las cuales provenían de un proveedor de atención médica humana y la otra mitad del modelo de lenguaje grande (LLM) de OpenAI. Los participantes tenían “capacidad limitada” para distinguir respuestas escritas por humanos y chatbots

. Esto viene junto con las crecientes preocupaciones sobre la capacidad de AI para manejar la privacidad de los datos médicos, junto con su propensión a “alucinar“información inexacta..

Los académicos no son los únicos que notan los rendimientos decrecientes de ChatGPT. Como Business Insider notas el miércoles, el foro de desarrolladores de OpenAI ha albergado un debate continuo sobre el progreso del LLM, o la falta de él. “¿Ha habido algún tratamiento oficial de este tema? Como cliente que paga, pasó de ser un gran ayudante de chef a lavaplatos. Me encantaría obtener una respuesta oficial”, un usuario escribió a principios de este mes.

[Related: There’s a glaring issue with the AI moratorium letter.]

La investigación y el desarrollo de LLM de OpenAI está notoriamente restringida a la revisión externa, una estrategia que ha provocado un intenso rechazo y críticas por parte de expertos y usuarios de la industria. “Es muy difícil saber por qué sucede esto”, tuiteó Matei Zaharia, uno de los coautores del artículo de revisión de calidad de ChatGPT, el miércoles. Zaharia, profesora asociada de ciencias de la computación en UC Berkeley y CTO de Databricks, continuó suponiendo que el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) podría estar “chocando contra una pared” junto con el ajuste fino, pero también admitió que podrían ser simplemente errores en el sistema.

Por lo tanto, si bien ChatGPT puede pasar los puntos de referencia rudimentarios de la prueba de Turing, su calidad desigual aún plantea grandes desafíos y preocupaciones para el público, todos mientras poco se interpone en el camino de su continua proliferación e integración en la vida cotidiana.

Leave a Reply Cancel reply