El último error de OpenAI muestra los desafíos que enfrentan los modelos de IA chinos

De hecho, entre los pocos tokens chinos largos en GPT-4o que no son ni pornografía ni tonterías de juegos de azar, dos son “socialismo con características chinas” y “República Popular China”. La presencia de estas frases sugiere que una parte importante de los datos de entrenamiento en realidad provienen de escritos de los medios estatales chinos, donde las expresiones formales y largas son extremadamente comunes.

Históricamente, OpenAI ha sido muy reservado sobre los datos que utiliza para entrenar sus modelos, y probablemente nunca nos dirá qué parte de su base de datos de capacitación china son medios estatales y qué parte es spam. (OpenAI no respondió a Revisión de tecnología del .

preguntas detalladas enviadas el viernes).

Pero no es la única empresa que lucha con este problema. Las personas dentro de China que trabajan en su industria de IA coinciden en que hay una falta de conjuntos de datos de texto en chino de calidad para la formación de LLM. Una de las razones es que la Internet china solía estar, y en gran medida sigue estando, dividida por grandes empresas como Tencent y ByteDance.

. Son propietarios de la mayoría de las plataformas sociales y no compartirán sus datos con competidores o terceros para formar LLM.

De hecho, esta es también la razón por la que los motores de búsqueda, incluido Google, son un poco malos cuando se trata de realizar búsquedas en chino. Dado que el contenido de WeChat solo se puede buscar en WeChat, y el contenido de Douyin (el TikTok chino) solo se puede buscar en Douyin, un motor de búsqueda de terceros no puede acceder a estos datos, y mucho menos un LLM. Pero estas son las plataformas donde tienen lugar conversaciones humanas reales, en lugar de algún sitio web de spam que sigue intentando atraerte a los juegos de azar en línea.

La falta de datos de entrenamiento de calidad es un problema mucho mayor que la imposibilidad de filtrar la pornografía y las tonterías generales en los datos de entrenamiento de tokens de GPT-4o. Si no existe un conjunto de datos, las empresas de inteligencia artificial tienen que realizar un trabajo importante para identificar, obtener y seleccionar sus propios conjuntos de datos y filtrar contenido inapropiado o sesgado.

No parece que OpenAI haya hecho eso, lo cual, para ser justos, tiene cierto sentido, dado que la gente en China no puede usar sus modelos de IA de todos modos.

Aún así, hay muchas personas que viven fuera de China que quieren utilizar los servicios de inteligencia artificial en chino. Y merecen un producto que funcione tan bien como lo hacen los hablantes de cualquier otro idioma.

¿Cómo podemos resolver el problema de la falta de buenos datos sobre formación de LLM en chino? Cuéntame tu idea en zeyi@Heaven32.

Leave a Reply Cancel reply