Todas las respuestas del chatbot están inventadas. Esta nueva herramienta podría ayudarle a determinar en cuáles confiar.

El modelo de lenguaje confiable se basa en múltiples técnicas para calcular sus puntuaciones. Primero, cada consulta enviada a la herramienta se envía a varios modelos de lenguaje grandes diferentes. Cleanlab utiliza cinco versiones de DBRX, un modelo de lenguaje grande de código abierto desarrollado por Databricks, una empresa de inteligencia artificial con sede en San Francisco. (Pero la tecnología funcionará con cualquier modelo, dice Northcutt, incluidos los modelos Llama de Meta o la serie GPT de OpenAI, los modelos detrás de ChatpGPT, etc.). Si las respuestas de cada uno de estos modelos son iguales o similares, contribuirá a una puntuación más alta.

Al mismo tiempo, Trustworthy Language Model también envía variaciones de la consulta original a cada uno de los modelos DBRX, intercambiando palabras que tienen el mismo significado. Nuevamente, si las respuestas a consultas sinónimas son similares, contribuirá a una puntuación más alta. “Jugamos con ellos de diferentes maneras para obtener diferentes resultados y ver si están de acuerdo”, dice Northcutt.

La herramienta también puede hacer que varios modelos intercambien respuestas entre sí: “Es como, ‘Aquí está mi respuesta, ¿qué piensas?’ ‘Bueno, aquí está el mío, ¿qué te parece?’ Y les dejas hablar”. Estas interacciones se monitorean, miden y también se incorporan a la partitura.

Nick McKenna, científico informático de Microsoft Research en Cambridge, Reino Unido, que trabaja en grandes modelos de lenguaje para la generación de código, es optimista en cuanto a que el enfoque podría resultar útil. Pero duda que sea perfecto. “Uno de los peligros que vemos en las alucinaciones de modelos es que pueden aparecer de forma muy sutil”, dice.

En una variedad de pruebas en diferentes modelos de lenguaje grandes, Cleanlab muestra que sus puntuaciones de confiabilidad se correlacionan bien con la precisión de las respuestas de esos modelos. En otras palabras, las puntuaciones cercanas a 1 se alinean con respuestas correctas y las puntuaciones cercanas a 0 se alinean con respuestas incorrectas. En otra prueba, también descubrieron que el uso del modelo de lenguaje confiable con GPT-4 producía respuestas más confiables que GPT-4 por sí solo.

Los modelos de lenguaje grandes generan texto prediciendo la siguiente palabra más probable en una secuencia. En futuras versiones de su herramienta, Cleanlab planea hacer que sus puntuaciones sean aún más precisas basándose en las probabilidades que utilizó un modelo para hacer esas predicciones. También quiere acceder a los valores numéricos que los modelos asignan a cada palabra de su vocabulario, que utilizan para calcular esas probabilidades. Este nivel de detalle lo proporcionan ciertas plataformas, como Bedrock de Amazon, que las empresas pueden utilizar para ejecutar grandes modelos de lenguaje.

Cleanlab ha probado su enfoque con datos proporcionados por Berkeley Research Group. La empresa necesitaba buscar referencias a problemas de cumplimiento de la atención sanitaria en decenas de miles de documentos corporativos. Hacer esto a mano puede llevar semanas al personal calificado. Al verificar los documentos utilizando el modelo de lenguaje confiable, Berkeley Research Group pudo ver en qué documentos el chatbot tenía menos confianza y solo verificarlos. Redujo la carga de trabajo en aproximadamente un 80%, afirma Northcutt.

En otra prueba, Cleanlab trabajó con un banco grande (Northcutt no quiso nombrar la empresa, pero dice que es un competidor de Goldman Sachs). Al igual que Berkeley Research Group, el banco tuvo que buscar referencias a reclamaciones de seguros en unos 100.000 documentos. Una vez más, el modelo de lenguaje confiable redujo a más de la mitad la cantidad de documentos que debían verificarse a mano.

Ejecutar cada consulta varias veces a través de múltiples modelos lleva más tiempo y cuesta mucho más que el típico ir y venir con un solo chatbot. Pero Cleanlab está presentando el modelo de lenguaje confiable como un servicio premium que puede automatizar tareas de alto riesgo que en el pasado habrían estado fuera del alcance de los grandes modelos de lenguaje. La idea no es reemplazar a los chatbots existentes, sino hacer el trabajo de expertos humanos. Si la herramienta puede reducir la cantidad de tiempo que se necesita para contratar economistas o abogados cualificados a 2.000 dólares la hora, los costes valdrán la pena, afirma Northcutt.

A largo plazo, Northcutt espera que al reducir la incertidumbre en torno a las respuestas del chatbot, su tecnología desbloquee la promesa de grandes modelos de lenguaje para una gama más amplia de usuarios. “El tema de las alucinaciones no es un gran problema de modelo del lenguaje”, dice. “Es un problema de incertidumbre”.

Leave a Reply Cancel reply