Por qué las bases de datos vectoriales están en auge mientras el ciclo de hype de AI llega a su punto máximo

Por qué las bases de datos vectoriales están en auge mientras el ciclo de hype de AI llega a su punto máximo

Las bases de datos vectoriales están de moda, a juzgar por la cantidad de startups que ingresan en el espacio y los inversores que se apuntan para obtener una parte del pastel. La proliferación de grandes modelos de lenguaje (LLMs) y el movimiento de inteligencia artificial generativa (GenAI) han creado un terreno fértil para que las tecnologías de bases de datos vectoriales florezcan.

Mientras que las bases de datos relacionales tradicionales como Postgres o MySQL son adecuadas para datos estructurados, como tipos de datos predefinidos que se pueden clasificar ordenadamente en filas y columnas, esto no funciona tan bien para datos no estructurados como imágenes, videos, correos electrónicos, publicaciones en redes sociales y cualquier dato que no se adhiera a un modelo de datos predefinido.

Por otro lado, las bases de datos vectoriales almacenan y procesan datos en forma de incrustaciones vectoriales, que convierten texto, documentos, imágenes y otros datos en representaciones numéricas que capturan el significado y las relaciones entre los diferentes puntos de datos. Esto es perfecto para el aprendizaje automático, ya que la base de datos almacena datos espacialmente según la relevancia de cada elemento para los demás, facilitando la recuperación de datos semánticamente similares.

Esto es particularmente útil para LLMs, como el GPT-4 de OpenAI, ya que permite que el chatbot de IA comprenda mejor el contexto de una conversación al analizar conversaciones similares anteriores. La búsqueda vectorial también es útil para todo tipo de aplicaciones en tiempo real, como recomendaciones de contenido en redes sociales o aplicaciones de comercio electrónico, ya que puede examinar lo que un usuario ha buscado y recuperar elementos similares en un instante.

La búsqueda vectorial también puede ayudar a reducir las «alucinaciones» en las aplicaciones de LLM, al proporcionar información adicional que puede no haber estado disponible en el conjunto de datos de entrenamiento original.

En enero, Qdrant aseguró $28 millones en financiación para capitalizar el crecimiento que lo ha llevado a convertirse en una de las 10 startups comerciales de código abierto de más rápido crecimiento el año pasado. Y está lejos de ser la única startup de base de datos vectorial que ha recaudado dinero últimamente: Vespa, Weaviate, Pinecone y Chroma colectivamente recaudaron $200 millones el año pasado para diversas ofertas vectoriales.