Los conjuntos de datos de IA están llenos de errores. Está deformando lo que sabemos sobre la IA

Sí, pero: En los últimos años, los estudios han encontrado que estos conjuntos de datos pueden contener fallas graves. ImageNet, por ejemplo, contiene etiquetas racistas y sexistas así como fotos de rostros de personas obtenidos sin consentimiento. El último estudio ahora analiza otro problema: muchas de las etiquetas son completamente incorrectas. Un hongo está etiquetado como una cuchara, una rana está etiquetada como un gato y una nota alta de Ariana Grande está etiquetada como un silbato. El equipo de prueba ImageNet tiene una tasa de error de etiqueta estimada del 5,8%. Mientras tanto, el conjunto de prueba para QuickDraw, una compilación de dibujos a mano, tiene una tasa de error estimada del 10,1%.

¿Cómo se midió? Cada uno de los 10 conjuntos de datos utilizados para evaluar modelos tiene un conjunto de datos correspondiente que se utiliza para entrenarlos. Los investigadores, los estudiantes graduados del . Curtis G. Northcutt y Anish Athalye y el alumno Jonas Mueller, utilizaron los conjuntos de datos de entrenamiento para desarrollar un modelo de aprendizaje automático y luego lo usaron para predecir las etiquetas en los datos de prueba. Si el modelo no estaba de acuerdo con la etiqueta original, el punto de datos se marcó para revisión manual. Se pidió a cinco revisores humanos de Amazon Mechanical Turk que votaran sobre qué etiqueta, la del modelo o la original, pensaban que era la correcta. Si la mayoría de los revisores humanos estaban de acuerdo con el modelo, la etiqueta original se contabilizó como un error y luego se corrigió.

¿Importa esto? Si. Los investigadores observaron 34 modelos cuyo rendimiento se había medido previamente con el conjunto de pruebas de ImageNet. Luego, volvieron a medir cada modelo frente a los aproximadamente 1.500 ejemplos en los que se encontró que las etiquetas de datos eran incorrectas. Descubrieron que los modelos que no funcionaban tan bien en el original incorrecto las etiquetas fueron algunas de las que mejor se desempeñaron después de que se corrigieron las etiquetas. En particular, los modelos más simples parecían tener mejores resultados en los datos corregidos que los modelos más complicados que utilizan los gigantes tecnológicos como Google para el reconocimiento de imágenes y se supone que son los mejores en el campo. En otras palabras, podemos tener una sensación inflada de lo buenos que son estos modelos complicados debido a datos de prueba defectuosos.

¿Ahora que? Northcutt alienta al campo de la IA a crear conjuntos de datos más limpios para evaluar modelos y rastrear el progreso del campo. También recomienda que los investigadores mejoren la higiene de sus datos cuando trabajen con sus propios datos. De lo contrario, dice, “si tiene un conjunto de datos ruidoso y un montón de modelos que está probando, y los va a implementar en el mundo real”, podría terminar seleccionando el modelo incorrecto. Con este fin, él de código abierto el código que utilizó en su estudio para corregir errores de etiquetas, que, según él, ya está en uso en algunas de las principales empresas de tecnología.

Leave a Reply

Your email address will not be published. Required fields are marked *