Inteligencia artificial, Geoffrey Hinton, red neuronal, GLOM, vectores, percepción visual, percepción humana, intuición

El aprendizaje profundo desencadenó la última revolución de la inteligencia artificial, transformando la visión por computadora y el campo en su conjunto. Hinton cree que el aprendizaje profundo debería ser casi todo lo que se necesita para replicar completamente la inteligencia humana.

Pero a pesar del rápido progreso, todavía existen grandes desafíos. Si expone una red neuronal a un conjunto de datos desconocido o un entorno extraño, se revelará frágil e inflexible. Los vehículos autónomos y los generadores de lenguaje de redacción de ensayos impresionan, pero las cosas pueden salir mal. Los sistemas visuales de IA se pueden confundir fácilmente: una taza de café reconocida desde un lado sería un desconocido desde arriba si el sistema no hubiera sido entrenado en esa vista; y con la manipulación de unos pocos píxeles, un panda puede confundirse con un avestruz, o incluso con un autobús escolar.

GLOM aborda dos de los problemas más difíciles para los sistemas de percepción visual: comprender una escena completa en términos de objetos y sus partes naturales; y reconocer objetos cuando se ven desde un nuevo punto de vista (el enfoque de GLOM está en la visión, pero Hinton espera que la idea también se pueda aplicar al lenguaje).

Un objeto como la cara de Hinton, por ejemplo, está formado por sus ojos vivos, aunque cansados ​​por los perros (demasiada gente haciendo preguntas; muy poco sueño), su boca y orejas, y una nariz prominente, todo coronado por un no demasiado – despeinado tímido de mayor parte gris. Y dada su nariz, se lo reconoce fácilmente incluso a primera vista en la vista de perfil.

Ambos factores, la relación entre la parte y el todo y el punto de vista, son, desde la perspectiva de Hinton, cruciales para la forma en que los humanos ven. “Si GLOM alguna vez funciona”, dice, “hará la percepción de una manera mucho más humana que las redes neuronales actuales”.

Sin embargo, agrupar partes en total puede ser un problema difícil para las computadoras, ya que las partes a veces son ambiguas. Un círculo puede ser un ojo, una rosquilla o una rueda. Como lo explica Hinton, la primera generación de sistemas de visión de IA trató de reconocer objetos basándose principalmente en la geometría de la relación parte-todo: la orientación espacial entre las partes y entre las partes y el todo. En cambio, la segunda generación se basó principalmente en el aprendizaje profundo, dejando que la red neuronal se entrenara con grandes cantidades de datos. Con GLOM, Hinton combina los mejores aspectos de ambos enfoques.

“Hay una cierta humildad intelectual que me gusta”, dice Gary Marcus, fundador y director ejecutivo de Robust.AI y un conocido crítico de la gran dependencia del aprendizaje profundo. Marcus admira la voluntad de Hinton de desafiar algo que le dio fama, admitir que no está funcionando del todo. “Es valiente”, dice. “Y es un gran correctivo decir: ‘Estoy tratando de pensar fuera de la caja’”.

La arquitectura GLOM

En elaboración de GLOM, Hinton trató de modelar algunos de los atajos mentales —estrategias intuitivas o heurísticas— que la gente usa para dar sentido al mundo. “GLOM, y de hecho gran parte del trabajo de Geoff, se trata de observar las heurísticas que la gente parece tener, construir redes neuronales que podrían tener esas heurísticas y luego demostrar que las redes funcionan mejor en la visión como resultado”, dice Nick Frosst. un científico informático en una empresa de idiomas en Toronto que trabajó con Hinton en Google Brain.

Con la percepción visual, una estrategia es analizar partes de un objeto, como diferentes rasgos faciales, y así comprender el todo. Si ve cierta nariz, puede reconocerla como parte del rostro de Hinton; es una jerarquía de parte y todo. Para construir un mejor sistema de visión, Hinton dice: “Tengo una fuerte intuición de que necesitamos usar jerarquías de parte y todo”. Los cerebros humanos comprenden esta composición de parte-todo creando lo que se llama un “árbol de análisis sintáctico”, un diagrama de ramificación que demuestra la relación jerárquica entre el todo, sus partes y subpartes. La cara en sí está en la parte superior del árbol, y los ojos, la nariz, las orejas y la boca componentes forman las ramas que se encuentran debajo.

Uno de los principales objetivos de Hinton con GLOM es replicar el árbol de análisis sintáctico en una red neuronal; esto lo distinguiría de las redes neuronales anteriores. Por razones técnicas, es difícil de hacer. “Es difícil porque cada imagen individual sería analizada por una persona en un árbol de análisis único, por lo que querríamos que una red neuronal hiciera lo mismo”, dice Frosst. “Es difícil conseguir algo con una arquitectura estática, una red neuronal, que adopte una nueva estructura, un árbol de análisis, para cada nueva imagen que ve”. Hinton ha realizado varios intentos. GLOM es una revisión importante de su intento anterior en 2017, combinado con otros avances relacionados en el campo.

“¡Soy parte de una nariz!”

Vector de GLOM

Rejilla de cara Hinton

MS TECH | EVIATAR BACH VÍA WIKIMEDIA

Una forma generalizada de pensar sobre la arquitectura GLOM es la siguiente: La imagen de interés (digamos, una fotografía del rostro de Hinton) se divide en una cuadrícula. Cada región de la cuadrícula es una “ubicación” en la imagen: una ubicación puede contener el iris de un ojo, mientras que otra puede contener la punta de su nariz. Para cada ubicación en la red hay alrededor de cinco capas o niveles. Y nivel por nivel, el sistema hace una predicción, con un vector que representa el contenido o la información. En un nivel cercano al fondo, el vector que representa la ubicación de la punta de la nariz podría predecir: “¡Soy parte de una nariz!” Y en el siguiente nivel, al construir una representación más coherente de lo que está viendo, el vector podría predecir: “¡Soy parte de una cara en la vista de ángulo lateral!”

Pero entonces la pregunta es, ¿están de acuerdo los vectores vecinos en el mismo nivel? Cuando están de acuerdo, los vectores apuntan en la misma dirección, hacia la misma conclusión: “Sí, los dos pertenecemos a la misma nariz”. O más arriba en el árbol de análisis sintáctico. “Sí, ambos pertenecemos a la misma cara”.

Buscar consenso sobre la naturaleza de un objeto, sobre qué es exactamente el objeto, en última instancia, los vectores de GLOM de forma iterativa, ubicación por ubicación y capa sobre capa, promedio con vectores vecinos al lado, así como vectores predichos de niveles superiores e inferiores .

Sin embargo, la red no tiene un “promedio de cualquier cosa” con cualquier cosa cercana, dice Hinton. Promedia selectivamente, con predicciones vecinas que muestran similitudes. “Esto es bastante conocido en Estados Unidos, se llama cámara de eco”, dice. “Lo que haces es solo aceptar opiniones de personas que ya están de acuerdo contigo; y luego lo que sucede es que obtienes una cámara de eco donde un montón de gente tiene exactamente la misma opinión. GLOM realmente usa eso de una manera constructiva “. El fenómeno análogo en el sistema de Hinton son esas “islas de acuerdo”.

“Geoff es un pensador muy inusual …”

Sue Becker

“Imagínese a un grupo de personas en una habitación, gritando ligeras variaciones de la misma idea”, dice Frosst, o imagine a esas personas como vectores que apuntan en ligeras variaciones de la misma dirección. “Después de un tiempo, convergerían en una idea y todos la sentirían más fuerte, porque la habían confirmado las otras personas que los rodeaban”. Así es como los vectores de GLOM refuerzan y amplifican sus predicciones colectivas sobre una imagen.

GLOM usa estas islas de vectores coincidentes para lograr el truco de representar un árbol de análisis sintáctico en una red neuronal. Mientras que algunas redes neuronales recientes utilizan la concordancia entre vectores para activación, GLOM utiliza un acuerdo para representación—Construir representaciones de cosas dentro de la red. Por ejemplo, cuando varios vectores están de acuerdo en que todos representan parte de la nariz, su pequeño grupo de concordancia representa colectivamente la nariz en el árbol de análisis sintáctico de la red para la cara. Otro grupo más pequeño de vectores coincidentes podría representar la boca en el árbol de análisis sintáctico; y el gran grupo en la parte superior del árbol representaría la conclusión emergente de que la imagen en su conjunto es el rostro de Hinton. “La forma en que se representa aquí el árbol de análisis sintáctico”, explica Hinton, “es que a nivel de objeto tienes una gran isla; las partes del objeto son islas más pequeñas; las subpartes son islas aún más pequeñas, y así sucesivamente “.

Figura 2 del artículo GLOM de Hinton. Las islas de vectores idénticos (flechas del mismo color) en los distintos niveles representan un árbol de análisis sintáctico.

GEOFFREY HINTON

Según el viejo amigo y colaborador de Hinton, Yoshua Bengio, un científico informático de la Universidad de Montreal, si GLOM logra resolver el desafío de ingeniería de representar un árbol de análisis sintáctico en una red neuronal, sería una hazaña; sería importante para hacer que las redes neuronales funcionen correctamente. “Geoff ha producido intuiciones increíblemente poderosas muchas veces en su carrera, muchas de las cuales han demostrado ser correctas”, dice Bengio. “Por lo tanto, les presto atención, especialmente cuando él se siente tan fuerte por ellos como por GLOM”.

La fuerza de la convicción de Hinton se basa no solo en la analogía de la cámara de eco, sino también en analogías matemáticas y biológicas que inspiraron y justificaron algunas de las decisiones de diseño en la novedosa ingeniería de GLOM.

“Geoff es un pensador muy inusual en el sentido de que es capaz de basarse en conceptos matemáticos complejos e integrarlos con limitaciones biológicas para desarrollar teorías”, dice Sue Becker, ex alumna de Hinton, ahora neurocientífica cognitiva computacional en la Universidad McMaster. “Los investigadores que se centran más en la teoría matemática o la neurobiología tienen muchas menos probabilidades de resolver el rompecabezas infinitamente convincente de cómo las máquinas y los humanos pueden aprender y pensar”.

Convertir la filosofía en ingeniería

Hasta ahora, la nueva idea de Hinton ha sido bien recibida, especialmente en algunas de las cámaras de eco más grandes del mundo. “En Twitter, obtuve muchos me gusta”, dice. Y un YouTube tutorial reclamó el término “MeGLOMania”.

Hinton es el primero en admitir que, en la actualidad, GLOM es poco más que una reflexión filosófica (pasó un año como estudiante de filosofía antes de pasar a la psicología experimental). “Si una idea suena bien en filosofía, es buena”, dice. “¿Cómo podrías tener una idea filosófica que suena a basura, pero que en realidad resulta ser cierta? Eso no pasaría por una idea filosófica “. La ciencia, en comparación, está “llena de cosas que suenan como una completa basura” pero que resultan funcionar notablemente bien, por ejemplo, las redes neuronales, dice.

GLOM está diseñado para sonar filosóficamente plausible. Pero, ¿funcionará?

Leave a Reply

Your email address will not be published. Required fields are marked *