Visión por computadora en IA: los datos necesarios para tener éxito

El desarrollo de la capacidad para anotar volúmenes masivos de datos mientras se mantiene la calidad es una función del ciclo de vida del desarrollo del modelo que las empresas a menudo subestiman. Requiere muchos recursos y experiencia especializada.

En el corazón de cualquier iniciativa exitosa de aprendizaje automático / inteligencia artificial (ML / AI) se encuentra el compromiso con los datos de entrenamiento de alta calidad y un camino hacia los datos de calidad comprobados y bien definidos. Sin esta canalización de datos de calidad, la iniciativa está condenada al fracaso.

Los equipos de visión por computadora o ciencia de datos a menudo recurren a socios externos para desarrollar su canal de capacitación de datos, y estas asociaciones impulsan el rendimiento del modelo.

No existe una definición única de calidad: los “datos de calidad” dependen completamente del proyecto específico de visión por computadora o aprendizaje automático. Sin embargo, existe un proceso general que todos los equipos pueden seguir cuando trabajan con un socio externo, y este camino hacia los datos de calidad se puede dividir en cuatro fases priorizadas.

Criterios de anotación y requisitos de calidad

La calidad de los datos de entrenamiento es una evaluación de la aptitud de un conjunto de datos para cumplir su propósito en un caso de uso de ML / AI determinado.

El equipo de visión por computadora necesita establecer un conjunto inequívoco de reglas que describan lo que significa calidad en el contexto de su proyecto. Los criterios de anotación son la colección de reglas que definen qué objetos anotar, cómo anotarlos correctamente y cuáles son los objetivos de calidad.

Los objetivos de precisión o calidad definen el resultado más bajo aceptable para métricas de evaluación como exactitud, recuperación, precisión, puntuación F1, etc. Por lo general, un equipo de visión por computadora tendrá objetivos de calidad sobre la precisión con la que se clasificaron los objetos de interés, la precisión con la que se localizaron los objetos y la precisión con la que se identificaron las relaciones entre los objetos.

Capacitación de la fuerza laboral y configuración de la plataformanorte

Configuración de plataforma. El diseño de tareas y la configuración del flujo de trabajo requieren tiempo y experiencia, y la anotación precisa requiere herramientas específicas de la tarea. En esta etapa, los equipos de ciencia de datos necesitan un socio con experiencia que los ayude a determinar la mejor manera de configurar las herramientas de etiquetado, las taxonomías de clasificación y las interfaces de anotación para lograr precisión y rendimiento.

Pruebas y puntuación de los trabajadores. Para etiquetar datos con precisión, los anotadores necesitan un plan de estudios de capacitación bien diseñado para que comprendan completamente los criterios de anotación y el contexto del dominio. La plataforma de anotación o el socio externo deben garantizar la precisión al realizar un seguimiento activo de la competencia del anotador en relación con las tareas de datos de oro o cuando un trabajador o administrador más capacitado modifique un juicio.

Verdad de tierra o datos de oro. Los datos reales son cruciales en esta etapa del proceso como base para calificar a los trabajadores y medir la calidad de la producción. Muchos equipos de visión por computadora ya están trabajando con un conj unto de datos reales.

Fuentes de autoridad y garantía de calidad

No existe un enfoque único de aseguramiento de la calidad (QA) que cumpla con los estándares de calidad de todos los casos de uso de ML. Los objetivos comerciales específicos, así como el riesgo asociado con un modelo de bajo rendimiento, impulsarán los requisitos de calidad. Algunos proyectos alcanzan la calidad de destino utilizando varios anotadores. Otros requieren revisiones complejas contra datos reales o flujos de trabajo de escalamiento con verificación de un experto en la materia.

Hay dos fuentes principales de autoridad que se pueden usar para medir la calidad de las anotaciones y que se usan para calificar a los trabajadores: datos de oro y revisión de expertos.

  • Datos de oro: los datos de oro o el conjunto de registros de verdad del terreno se pueden utilizar como una herramienta de calificación para probar y calificar a los trabajadores al comienzo del proceso y también como medida de la calidad de la producción. Cuando usa datos de oro para medir la calidad, compara las anotaciones de los trabajadores con las anotaciones de sus expertos para el mismo conjunto de datos, y la diferencia entre estas dos respuestas independientes y ciegas se puede usar para producir mediciones cuantitativas como exactitud, recuperación, precisión y puntuaciones F1. .
  • Revisión de expertos: este método de garantía de calidad se basa en la revisión de expertos de un trabajador altamente calificado, un administrador o de un experto del lado del cliente, a veces los tres. Se puede utilizar junto con el control de calidad de datos de oro. El revisor experto observa la respuesta dada por el trabajador calificado y la aprueba o hace las correcciones necesarias, produciendo una nueva respuesta correcta. Inicialmente, se puede realizar una revisión de expertos para cada instancia de datos etiquetados, pero con el tiempo, a medida que mejora la calidad de los trabajadores, la revisión de expertos puede utilizar un muestreo aleatorio para el control de calidad continuo.

Iterando sobre el éxito de los datos

Una vez que un equipo de visión por computadora ha lanzado con éxito una canalización de datos de capacitación de alta calidad, puede acelerar el progreso hacia un modelo listo para producción. A través del soporte continuo, la optimización y el control de calidad, un socio externo puede ayudarlos a:

  • Velocidad de seguimiento: para escalar de manera efectiva, es bueno medir el rendimiento de las anotaciones. ¿Cuánto tardan los datos en moverse por el proceso? ¿Se acelera el proceso?
  • Ajuste la capacitación de los trabajadores: a medida que el proyecto se amplía, los requisitos de etiquetado y calidad pueden evolucionar. Esto requiere capacitación y calificación continuas de la fuerza laboral.
  • Capacitar en casos extremos: con el tiempo, los datos de entrenamiento deben incluir cada vez más casos extremos para que su modelo sea lo más preciso y robusto posible.

Sin datos de entrenamiento de alta calidad, incluso los proyectos ML / AI más ambiciosos y mejor financiados no pueden tener éxito. Los equipos de visión por computadora necesitan socios y plataformas en los que puedan confiar para brindar la calidad de datos que necesitan y para impulsar modelos de ML / AI que cambian la vida del mundo.

Alegion es el socio probado para construir la canalización de datos de entrenamiento que impulsará su modelo a lo largo de su ciclo de vida. Póngase en contacto con Alegion en [email protected].

Este contenido fue producido por Alegion. No fue escrito por el personal editorial de ..

Leave a Reply

Your email address will not be published. Required fields are marked *