Los datos de entrenamiento de tokens chinos de GPT-4o están contaminados por spam y sitios web pornográficos

Los datos de entrenamiento de tokens chinos de GPT-4o están contaminados por spam y sitios web pornográficos

El nuevo tokenizador tiene 200.000 tokens en total y alrededor del 25% están en idiomas distintos del inglés, dice Deedy Das, inversor en IA de Menlo Ventures. Usó filtros de idioma para contar la cantidad de tokens en diferentes idiomas, y los idiomas principales, además del inglés, son el ruso, el árabe y el vietnamita.

“Así que, en mi opinión, el principal impacto del tokenizador es que se reduce el costo en estos idiomas, no que la calidad en estos idiomas aumente dramáticamente”, dice Das. Cuando un LLM tiene tokens mejores y más largos en idiomas distintos del inglés, puede analizar las indicaciones más rápido y cobrar menos a los usuarios por la misma respuesta. Con el nuevo tokenizador, “lo que se consigue es una reducción de costes de casi cuatro veces”, afirma.

Das, que también habla hindi y bengalí, echó un vistazo a las fichas más largas en esos idiomas. Los tokens reflejan discusiones que tienen lugar en esos idiomas, por lo que incluyen palabras como “Narendra” o “Pakistán”, pero también términos comunes en inglés como “Primer Ministro”, “universidad” e “internacional”.

También aparecen con frecuencia. Tampoco muestran los problemas relacionados con los tokens chinos.

Esto probablemente refleja los datos de entrenamiento en esos idiomas, dice Das: “Mi teoría es que los sitios web en hindi y bengalí son muy rudimentarios. Es como [mostly] artículos de noticias. Entonces esperaría que este fuera el caso. No hay muchos robots de spam y sitios web pornográficos que intenten aparecer en estos idiomas. Será principalmente en inglés”.

Datos contaminados y falta de limpieza

Sin embargo, las cosas son drásticamente diferentes en chino. Según varios investigadores que han analizado la nueva biblioteca de tokens utilizados para GPT-4o, los tokens más largos en chino son casi exclusivamente palabras spam utilizadas en contextos de pornografía, juegos de azar y estafas. Incluso los tokens más cortos, como las palabras chinas de tres caracteres, reflejan esos temas en un grado significativo.

“El problema es claro: el corpus utilizado para entrenar [the tokenizer] no está limpio. Las fichas inglesas parecen buenas, pero las chinas no”, dice Cai de la Universidad de Princeton. No es raro que un modelo de lenguaje rastree spam al recopilar datos de entrenamiento, pero generalmente se realizará un esfuerzo significativo para limpiar los datos antes de usarlos. “Es posible que no hayan limpiado adecuadamente los datos de los chinos”, afirma.

El contenido de estos tokens chinos podría sugerir que han sido contaminados por un fenómeno específico: sitios web que secuestran contenido no relacionado en chino u otros idiomas para impulsar los mensajes de spam.

Estos mensajes suelen ser anuncios de vídeos pornográficos y sitios web de juegos de apuestas. Podrían ser negocios reales o simplemente estafas. Y el lenguaje se inserta en sitios web de contenido o, a veces, en sitios web legítimos para que puedan ser indexados por los motores de búsqueda, eludir los filtros de spam y aparecer en búsquedas aleatorias. Por ejemplo, Google indexó una página de resultados de búsqueda en un sitio web de los Institutos Nacionales de Salud de EE. UU., que enumera un sitio porno en chino. El mismo nombre del sitio también apareció en al menos cinco tokens chinos en GPT-4o.