La startup que intenta convertir la web en una base de datos

La startup que intenta convertir la web en una base de datos

“La Web es una colección de datos, pero es un desastre”, dice el cofundador y director ejecutivo de Exa, Will Bryk. “Aquí hay un vídeo de Joe Rogan, un atlántico artículo de allí. No hay organización. Pero el sueño es que la Web parezca una base de datos”.

Websets está dirigido a usuarios avanzados que necesitan buscar cosas que otros motores de búsqueda no son buenos para encontrar, como tipos de personas o empresas. Pregunte por “startups que fabrican hardware futurista” y obtendrá una lista de empresas específicas de cientos de largos enlaces, en lugar de impredecibles, a páginas web que mencionan esos términos. Google no puede hacer eso, dice Bryk: “Hay muchos casos de uso valiosos para inversores o reclutadores

o realmente cualquiera que quiera algún tipo de conjunto de datos de la web”.

Las cosas han avanzado rápido desde Revisión de tecnología del . dio la noticia en 2021 de que los investigadores de Google estaban explorando el uso de grandes modelos de lenguaje en un nuevo tipo de motor de búsqueda. La idea pronto atrajo feroces críticas. Pero las empresas de tecnología hicieron poco caso. Tres años después, gigantes como Google y Microsoft compiten con una serie de recién llegados como Perplexity y OpenAI, que lanzaron ChatGPT Search en octubre, por una parte de esta nueva tendencia.

Exa no está (todavía) intentando superar a ninguna de esas empresas. En cambio, propone algo nuevo. La mayoría de las otras empresas de búsqueda incluyen grandes modelos de lenguaje en los motores de búsqueda existentes, utilizándolos para analizar la consulta de un usuario y luego resumir los resultados. Pero los propios motores de búsqueda no han cambiado mucho. Perplexity todavía dirige sus consultas a la Búsqueda de Google o Bing, por ejemplo. Piense en los motores de búsqueda de inteligencia artificial de hoy en día como sándwiches con pan fresco pero relleno duro.

Exa proporciona a los usuarios listas familiares de enlaces, pero utiliza la tecnología detrás de grandes modelos de lenguaje para reinventar la forma en que se realiza la búsqueda. Esta es la idea básica: Google funciona rastreando la web y creando un amplio índice de palabras clave que luego se relacionan con las consultas de los usuarios. Exa rastrea la web y codifica el contenido de las páginas web en un formato conocido como incrustaciones, que pueden ser procesados ​​por grandes modelos de lenguaje.

Las incrustaciones convierten palabras en números de tal manera que palabras con significados similares se convierten en números con valores similares. De hecho, esto permite a Exa capturar el significado del texto en las páginas web, no sólo las palabras clave.

Una captura de pantalla de Websets que muestra los resultados de la búsqueda: “empresas; nuevas empresas; con sede en EE. UU.; enfoque en atención médica; cofundador técnico”

Los modelos de lenguaje grandes utilizan incrustaciones para predecir las siguientes palabras de una oración. El motor de búsqueda de Exa predice el siguiente enlace. Escriba “startups que fabrican hardware futurista” y el modelo generará enlaces (reales) que podrían seguir a esa frase.

Sin embargo, el enfoque de Exa tiene un costo. Codificar páginas en lugar de indexar palabras clave es lento y costoso. Exa ha codificado unos mil millones de páginas web, afirma Bryk. Esto es muy poco comparado con Google, que ha indexado alrededor de un billón. Pero Bryk no ve esto como un problema: “No es necesario integrar toda la web para que sea útil”, afirma. (Dato curioso: “exa” significa un 1 seguido de 18 0 y “googol” significa un 1 seguido de 100 0).