Aprendiendo sobre IA con el fundador de Google Brain and Landing AI, Andrew Ng

Esta entrevista ha sido condensada y ligeramente editada para mayor claridad.

Revisión de tecnología del .: estoy seguro de que la gente le pregunta con frecuencia: “¿Cómo puedo construir un negocio que priorice la inteligencia artificial?” ¿Qué sueles decir a eso?

Andrew Ng: Normalmente digo: “No hagas eso”. Si voy a un equipo y digo: “Todos, por favor, sean la IA primero”, eso tiende a enfocar al equipo en la tecnología, lo que podría ser excelente para un laboratorio de investigación. Pero en términos de cómo ejecuto el negocio, tiendo a estar guiado por el cliente o guiado por la misión, casi nunca guiado por la tecnología.

Ahora tiene esta nueva empresa llamada Landing AI. ¿Puedes contarnos un poco sobre qué es y por qué decidiste trabajar en él?

Después de dirigir los equipos de IA en Google y Baidu, me di cuenta de que la IA ha transformado la Internet de los consumidores de software, como la búsqueda web y la publicidad en línea. Pero quería llevar la IA a todas las demás industrias, que es una parte aún mayor de la economía. Entonces, después de analizar muchas industrias diferentes, decidí concentrarme en la fabricación. Creo que varias industrias están preparadas para la IA, pero uno de los patrones para que una industria esté más preparada para la IA es si ha experimentado una transformación digital, por lo que hay algunos datos. Eso crea una oportunidad para que los equipos de IA utilicen los datos para crear valor.

Así que uno de los proyectos que me ha entusiasmado recientemente es la inspección visual de fabricación. ¿Puede ver una imagen de un teléfono inteligente que sale de la línea de fabricación y ver si tiene algún defecto? ¿O mirar un componente de automóvil y ver si tiene una abolladura? Una gran diferencia está en el software de consumo de Internet, tal vez tenga mil millones de usuarios y una gran cantidad de datos. Pero en la fabricación, ninguna fábrica ha fabricado mil millones o incluso un millón de teléfonos inteligentes rayados. Gracias a Dios por eso. Entonces, el desafío es, ¿puedes hacer que una IA funcione con cien imágenes? Resulta que a menudo puedes. De hecho, me ha sorprendido muchas veces lo mucho que se puede hacer incluso con cantidades modestas de datos. Y a pesar de que todo el entusiasmo y las relaciones públicas en torno a la IA están en los conjuntos de datos gigantes, siento que hay mucho espacio que necesitamos para crecer también para abrir estas otras aplicaciones donde los desafíos son bastante diferentes.

¿Cómo haces eso?

Un error muy frecuente que veo cometer a los CEO y CIO: me dicen algo como “Oye, Andrew, no tenemos tantos datos; mis datos son un desastre. Así que dame dos años para construir una excelente infraestructura de TI. Entonces tendremos todos estos datos geniales sobre los que construir IA “. Siempre digo: “Eso es un error. No hagas eso “. En primer lugar, no creo que ninguna empresa del planeta hoy en día, tal vez ni siquiera los gigantes tecnológicos, piense que sus datos están completamente limpios y son perfectos. Es un viaje. Pasar dos o tres años para construir una hermosa infraestructura de datos significa que le faltan comentarios del equipo de IA para ayudar a priorizar qué infraestructura de TI construir.

Por ejemplo, si tiene muchos usuarios, ¿debería priorizar el hacerles preguntas en una encuesta para obtener un poco más de datos? O en una fábrica, ¿debería priorizar la actualización del sensor de algo que registre las vibraciones 10 veces por segundo a tal vez 100 veces por segundo? A menudo, se está comenzando a hacer un proyecto de IA con los datos que ya tiene, lo que permite que un equipo de IA le brinde comentarios para ayudar a priorizar qué datos adicionales recopilar.

En las industrias en las que simplemente no tenemos la escala del software de consumo de Internet, siento que debemos cambiar la mentalidad de grande datos a bien datos. Si tiene un millón de imágenes, adelante, utilícelo, eso es genial. Pero hay muchos problemas que pueden usar conjuntos de datos mucho más pequeños que están etiquetados limpiamente y cuidadosamente seleccionados.

¿Podría darnos un ejemplo? ¿A qué te refieres con buenos datos?

Primero, déjeme dar un ejemplo del reconocimiento de voz. Cuando trabajaba con la búsqueda por voz, obtenía clips de audio en los que escuchaba a alguien decir: “Um, el clima de hoy”. La pregunta es, ¿cuál es la transcripción correcta para ese clip de audio? ¿Es “Um (coma) el tiempo de hoy” o es “Um (punto, punto, punto) el tiempo de hoy”, o es “Um” algo que simplemente no transcribimos? Resulta que cualquiera de estos está bien, pero lo que no está bien es que diferentes transcriptores utilicen cada una de las tres convenciones de etiquetado. Entonces sus datos son ruidosos y dañan el sistema de reconocimiento de voz. Ahora, cuando tiene millones o mil millones de usuarios, puede tener esos datos ruidosos y simplemente promediarlos: el algoritmo de aprendizaje funcionará bien. Pero si se encuentra en un entorno en el que tiene un conjunto de datos más pequeño, digamos, cien ejemplos, entonces este tipo de datos ruidosos tiene un gran impacto en el rendimiento.

Otro ejemplo de la fabricación: trabajamos mucho en la inspección del acero. Si conduce un automóvil, el costado de su automóvil alguna vez estuvo hecho de una hoja de acero. A veces hay pequeñas arrugas en el acero, o pequeñas abolladuras o manchas en él. Entonces puede usar una cámara y visión por computadora para ver si hay defectos o no. Pero diferentes etiquetadores etiquetarán los datos de manera diferente. Algunos colocarán un cuadro delimitador gigante alrededor de toda la región. Algunos colocarán pequeños cuadros delimitadores alrededor de las pequeñas partículas. Cuando tiene un conjunto de datos modesto, asegurarse de que los diferentes inspectores de calidad etiqueten los datos de manera coherente, resulta ser una de las cosas más importantes.

Para muchos proyectos de IA, el modelo de código abierto que descarga de GitHub, la red neuronal que puede obtener de la literatura, es lo suficientemente bueno. No por todos los problemas, sino por los principales. Así que fui a muchos de mis equipos y les dije: “Hola a todos, la red neuronal es lo suficientemente buena. No nos metamos más con el código. Lo único que va a hacer ahora es crear procesos para mejorar la calidad de los datos “. Y resulta que a menudo resulta en mejoras más rápidas en el rendimiento del algoritmo.

¿En qué tamaño de datos está pensando cuando dice conjuntos de datos más pequeños? ¿Estás hablando de cien ejemplos? ¿Diez ejemplos?

El aprendizaje automático es tan diverso que resulta realmente difícil dar respuestas únicas para todos. He trabajado en problemas en los que tenía entre 200 y 300 millones de imágenes. También trabajé en problemas en los que tenía 10 imágenes y todo lo demás. Cuando miro las aplicaciones de fabricación, creo que algo como decenas o tal vez cien imágenes para una clase de defecto no es inusual, pero hay una gran variación incluso dentro de la fábrica.

Encuentro que las prácticas de IA cambian cuando los tamaños de los conjuntos de entrenamiento bajan, digamos, 10,000 ejemplos, porque ese es el umbral en el que el ingeniero básicamente puede mirar cada ejemplo y diseñarlo ellos mismos y luego tomar una decisión.

Recientemente estuve charlando con un muy buen ingeniero en una de las grandes empresas de tecnología. Y le pregunté: “Oye, ¿qué haces si las etiquetas son inconsistentes?” Y él dijo: “Bueno, tenemos este equipo de varios cientos de personas en el extranjero que hace el etiquetado. Así que escribiré las instrucciones de etiquetado, haré que tres personas etiqueten cada imagen y luego tomaré un promedio “. Y dije: “Sí, eso es lo correcto cuando tienes un conjunto de datos gigante”. Pero cuando trabajo con un equipo más pequeño y las etiquetas no son coherentes, solo busco a las dos personas que no están de acuerdo entre sí, las pongo a ambas en una llamada de Zoom y les pido que hablen entre sí para tratar de llegar a una resolución.

Quiero dirigir nuestra atención ahora para hablar sobre sus pensamientos sobre la industria de la IA en general. El algoritmo es nuestro boletín de AI, y les di a nuestros lectores la oportunidad de enviarles algunas preguntas con anticipación. Un lector pregunta: el desarrollo de la IA parece haberse bifurcado principalmente hacia la investigación académica o hacia programas de grandes empresas a gran escala y con uso intensivo de recursos como OpenAI y DeepMind. Eso realmente no deja mucho espacio para que contribuyan las pequeñas empresas emergentes. ¿Cuáles cree que son algunos de los problemas prácticos en los que las empresas más pequeñas pueden centrarse realmente para ayudar a impulsar la adopción comercial real de la IA?

Creo que mucha de la atención de los medios tiende a estar en las grandes corporaciones y, a veces, en las grandes instituciones académicas. Pero si asistes a conferencias académicas, hay mucho trabajo realizado por grupos de investigación y laboratorios de investigación más pequeños. Y cuando hablo con diferentes personas en diferentes empresas e industrias, siento que hay tantas aplicaciones comerciales para las que podrían usar la inteligencia artificial. Por lo general, voy a los líderes empresariales y les pregunto: “¿Cuáles son sus mayores problemas empresariales? ¿Cuáles son las cosas que más te preocupan? ” para poder comprender mejor los objetivos de la empresa y luego pensar en si existe o no una solución de IA. Y a veces no lo hay, y está bien.

Quizás solo mencionaré un par de lagunas que encuentro emocionantes. Creo que hoy en día, la construcción de sistemas de IA sigue siendo muy manual. Tiene algunos ingenieros brillantes de aprendizaje automático y científicos de datos que hacen cosas en una computadora y luego las llevan a producción. Hay muchos pasos manuales en el proceso. Así que estoy entusiasmado con las operaciones de ML [machine learning operations] como una disciplina emergente para ayudar a que el proceso de construcción e implementación de sistemas de IA sea más sistemático.

Además, si observa muchos de los problemas comerciales típicos, todas las funciones, desde el marketing hasta el talento, hay mucho espacio para la automatización y la mejora de la eficiencia.

También espero que la comunidad de IA pueda analizar los problemas sociales más importantes: ver qué podemos hacer por el cambio climático, la falta de vivienda o la pobreza. Además de los problemas comerciales a veces muy valiosos, también deberíamos trabajar en los problemas sociales más importantes.

¿Cómo realiza realmente el proceso de identificar si existe la oportunidad de buscar algo con el aprendizaje automático para su negocio?

Intentaré aprender un poco sobre el negocio yo mismo y trataré de ayudar a los líderes empresariales a aprender un poco sobre la IA. Luego, generalmente hacemos una lluvia de ideas sobre un conjunto de proyectos, y para cada una de las ideas, haré tanto la diligencia técnica como la diligencia comercial. Veremos: ¿Tiene suficientes datos? ¿Cuál es la precisión? ¿Hay una cola larga cuando se implementa en producción? ¿Cómo se completa la información y se cierra el ciclo del aprendizaje continuo? Entonces, asegurándose de que el problema sea técnicamente factible. Y luego la diligencia comercial: nos aseguramos de que esto logre el ROI que esperamos. Después de ese proceso, tiene lo habitual, como estimar los recursos, los hitos y, con suerte, entrar en ejecución.

Otra sugerencia: es más importante comenzar rápidamente y está bien comenzar de a poco. Mi primera aplicación empresarial significativa en Google fue el reconocimiento de voz, no la búsqueda web ni la publicidad. Pero ayudar al equipo de voz de Google a hacer que el reconocimiento de voz sea más preciso, le dio al equipo de Brain la credibilidad y los medios para buscar asociaciones cada vez más grandes. Así que Google Maps fue la segunda gran asociación en la que usamos la visión por computadora para leer los números de las casas para geolocalizar las casas en los mapas de Google. Y solo después de esos dos primeros proyectos exitosos tuve una conversación más seria con el equipo de publicidad. Así que creo que veo que más empresas fracasan al comenzar demasiado grandes que fracasan al comenzar demasiado pequeñas. Está bien hacer un proyecto más pequeño para comenzar como organización para aprender qué se siente al usar la IA y luego continuar para construir éxitos más grandes.

¿Qué es algo que nuestra audiencia debería empezar a hacer mañana para implementar la IA en sus empresas?

Súmate. La IA está provocando un cambio en la dinámica de muchas industrias. Entonces, si su empresa aún no está haciendo inversiones bastante agresivas e inteligentes, este es un buen momento.