Векторная база данных

Материал из Циклопедии
Перейти к навигации Перейти к поиску
Векторные базы данных: мощный инструмент для современного анализа данных // Develop (30 июн. 2023 г.) [14:41]

Векторная база данных (англ. vector database), или векторная поисковая система (англ. vector search engine) — разновидность баз данных, в которой вместе с другими элементами данных могут храниться векторы (списки чисел фиксированной длины).

Общая информация[править]

Векторные базы данных обычно реализуют один или несколько алгоритмов поиска ближайшего соседа[1][2][3], что позволяет через поисковый запрос получить наиболее подходящие (ближайшие по вектору) записи базы данных.

Векторы — это математические представления данных в многомерном пространстве. В этом пространстве каждое измерение соответствует определённому признаку данных, а количество измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве отражает его характеристики. Слова, фразы или целые документы, а также изображения, аудио и другие типы данных могут быть векторизованы (представлены в виде вектора)[4].

Векторы признаков могут быть вычислены из необработанных данных с использованием методов машинного обучения, таких как алгоритмы конструирования признаков, эмбеддингов[5] или нейронные сети глубокого обучения. Цель состоит в том, чтобы семантически сходные элементы данных получали векторы признаков, близкие друг к другу.

Векторные базы данных могут использоваться для поиска сходства[en], семантического поиска, мультимодального поиска[en], рекомендательных систем, больших языковых моделей (LLM), обнаружения объектов и т.д.[6]

Техники[править]

Методы поиска сходства по многомерным векторам включают:

В тестах 2017 года реализации на основе HNSW были одними из самых эффективных[7][8].

На таких конференциях, как Международная конференция по поиску сходства и приложениям (International Conference on Similarity Search and Applications, SISAP) и Конференция по нейронным системам обработки информации[en] (NeurIPS), проводятся соревнования по векторному поиску в больших базах данных.

Примеры векторных баз данных[править]

Название Лицензия
Aerospike[9][10] проприетарная
AllegroGraph[11][12] проприетарная
Apache Cassandra[13][14] Apache License 2.0
Chroma[15][16] Apache License 2.0[17]
Azure Cosmos DB[18] проприетарная
Couchbase[19][20] BSL 1.1[21]
DataStax[22] проприетарная
Elasticsearch[23] Server Side Public License, Elastic License[24]
HDF5 Query Indexing[25] BSD 3-Clause[26]
Lantern[27] BSL 1.1[28]
LlamaIndex[29] MIT License[30]
MariaDB[31][32] GPL v2[33]
Marqo[34] Apache License 2.0[35]
Meilisearch[36] MIT License[37]
Milvus[38][39] Apache License 2.0
MongoDB Atlas[40] Server Side Public License (Managed service)
Neo4j[41][42] GPL v3 (Community Edition)[43]
ObjectBox[44] Apache License 2.0[45]
OpenSearch[46][47][48] Apache License 2.0[49]
Oracle Database[50] проприетарная
Pinecone[51] проприетарная
Postgres with pgvector[52] PostgreSQL License[53]
Qdrant[54] Apache License 2.0[55]
Redis Stack[56][57] Redis Source Available License[58]
Snowflake[59] проприетарная
SurrealDB[60] BSL 1.1[61]
Typesense[62] GPL v3 (Community Edition)[63]
Vespa[64] Apache License 2.0[65]
Weaviate[66] BSD 3-Clause[67]

См. также[править]

Источники[править]

  1. Roie Schwaber-Cohen What is a Vector Database & How Does it Work. Pinecone. Проверено 18 ноября 2023.
  2. What is a vector database. Elastic. Проверено 18 ноября 2023.
  3. What is a Vector Database?. Проверено 10 июля 2023.
  4. Vector database. learn.microsoft.com (2023-12-26). Проверено 11 января 2024.
  5. Evan Chaki What is a vector database?. Microsoft (2023-07-31). — «A vector database is a type of database that stores data as high-dimensional vectors, which are mathematical representations of features or attributes.»
  6. Vector database. learn.microsoft.com (2023-12-26). Проверено 11 января 2024.
  7. Aumüller, Martin; Bernhardsson, Erik & Faithfull, Alexander (2017), Beecks, Christian; Borutta, Felix & Kröger, Peer et al., eds., «ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms», vol. 10609, Cham: Springer International Publishing, сс. 34–49, ISBN 978-3-319-68473-4, doi:10.1007/978-3-319-68474-1_3, <http://link.springer.com/10.1007/978-3-319-68474-1_3>. Проверено 19 марта 2024. 
  8. Aumüller Martin, Bernhardsson Erik ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms // Similarity Search and Applications. — Cham: Springer International Publishing. — Т. 10609. — P. 34–49. — ISBN 978-3-319-68474-1.
  9. Aerospike Recognized by Independent Research Firm Among Notable Vendors in Vector Databases Report (en-US). Morningstar (2024-05-07). Проверено 1 августа 2024.
  10. Aerospike raises $109M for its real-time database platform to capitalize on the AI boom (en-US). TechCrunch (2024-04-04). Проверено 1 августа 2024.
  11. AllegroGraph 8.0 Incorporates Neuro-Symbolic AI, a Pathway to AGI (en-US). TheNewStack (2023-12-29). Проверено 6 июня 2024.
  12. Franz Inc. Introduces AllegroGraph Cloud: A Managed Service for Neuro-Symbolic AI Knowledge Graphs (en-US). Datanami (2024-01-18). Проверено 6 июня 2024.
  13. 5 Hard Problems in Vector Search, and How Cassandra Solves Them (en-US). TheNewStack (2023-09-22). Проверено 22 сентября 2023.
  14. Vector Search quickstart. Проверено 21 ноября 2023.
  15. Palazzolo, Stephanie Vector database Chroma scored $18 million in seed funding at a $75 million valuation. Here's why its technology is key to helping generative AI startups. (en-US). Business Insider. Проверено 16 ноября 2023.
  16. MSV, Janakiram Exploring Chroma: The Open Source Vector Database for LLMs (en-US). The New Stack (2023-07-28). Проверено 16 ноября 2023.
  17. chroma/LICENSE at main · chroma-core/chroma англ.. GitHub.
  18. Vector database. learn.microsoft.com (26 December 2023). Проверено 10 января 2024.
  19. Couchbase aims to boost developer database productivity with Capella IQ AI tool (en-US). VentureBeat (2023-08-30).
  20. Investor Presentation Third Quarter Fiscal 2024 (en-US). Couchbase Investor Relations (2023-12-06).
  21. Anderson, Scott Couchbase Adopts BSL License (en-US). The Couchbase Blog (2021-03-26). Проверено 14 февраля 2024.
  22. DataStax brings vector database search to multicloud with Astra DB (июль 2023 года).
  23. Elasticsearch Relevance Engine brings new vectors to generative AI, VentureBeat (май 2023 года).
  24. elasticsearch/LICENSE.txt at main · elastic/elasticsearch англ.. GitHub.
  25. HDF5 Query Indexing. GitHub (27 Sep 2019). Проверено 3 мая 2024.
  26. HDFGroup/COPYING at master · HDFGroup/hdf5 англ.. GitHub. Проверено 29 октября 2023.
  27. Lantern (en-US) (2024-04-05). Проверено 5 апреля 2024.
  28. lantern/LICENSE at main /lanterndata/lantern англ.. GitHub. Проверено 10 апреля 2024.
  29. Wiggers, Kyle LlamaIndex adds private data to large language models (en-US). TechCrunch (2023-06-06). Проверено 29 октября 2023.
  30. llama_index/LICENSE at main · run-llama/llama_index англ.. GitHub. Проверено 29 октября 2023.
  31. MariaDB Vector (en-US). MariaDB.org. Проверено 30 июля 2024.
  32. Vector search in old and modern databases (en-us). manticoresearch.com. Проверено 30 июля 2024.
  33. Licensing FAQ. MariaDB KnowledgeBase. Проверено 30 июля 2024.
  34. Sawers, Paul Meet Marqo, an open source vector search engine for AI applications (en-US). TechCrunch (2023-08-16). Проверено 20 августа 2024.
  35. «marqo-ai/marqo», Marqo, 2024-08-20, <https://github.com/marqo-ai/marqo?tab=Apache-2.0-1-ov-file#readme>. Проверено 20 августа 2024. 
  36. Meilisearch Homepage (en-US). Meilisearch (2024-10-08). Проверено 29 октября 2023.
  37. meilisearch/LICENSE at main · meilisearch/meilisearch англ.. GitHub. Проверено 8 октября 2024.
  38. Open Source Vector Database – Milvus – LFAI & DATA. Проверено 29 октября 2023.
  39. Liao, Ingrid Lunden and Rita Zilliz raises $60M, relocates to SF (en-US). TechCrunch (2022-08-24). Проверено 29 октября 2023.
  40. Introducing Atlas Vector Search: Build Intelligent Applications with Semantic Search and AI Over Any Type of Data (en-US). MongoDB (2023-06-22).
  41. Neo4j enhances its graph database with vector search (en-AU). itbrief (2023-08-22).
  42. Vector search indexes (en-US). neo4j.
  43. Neo4j licensing.
  44. Top Fifteen Vector Databases (en-US). db-engines.com (2024-07-03). Проверено 3 июля 2024.
  45. ObjectBox Java license. github.
  46. Using OpenSearch as a Vector Database (en-US). OpenSearch.org (2023-08-02). Проверено 7 февраля 2024.
  47. Pan, James Jie; Wang, Jianguo & Li, Guoliang (2023-10-21), «Survey of Vector Database Management Systems» 
  48. AWS debuts new AI-powered data management and analysis tools (en-US). SiliconANGLE (2023-07-26). Проверено 7 февраля 2024.
  49. OpenSearch license. github.
  50. Hook(1) and Priyadarshi(2), Doug(1) and Ranjan(2) Oracle Announces General Availability of AI Vector Search in Oracle Database 23ai. oracle (May 2, 2024). Проверено 9 июля 2024.
  51. Pinecone leads 'explosion' in vector databases for generative AI (en-US). VentureBeat (2023-07-14). Проверено 29 октября 2023.
  52. pgvector (en-US). GitHub. Проверено 27 ноября 2023.
  53. pgvector/License (en-US). GitHub. Проверено 27 ноября 2023.
  54. Sawers, Paul Qdrant, an open-source vector database startup, wants to help AI developers leverage unstructured data (en-US). TechCrunch (2023-04-19). Проверено 29 октября 2023.
  55. qdrant/LICENSE at master · qdrant/qdrant англ.. GitHub. Проверено 29 октября 2023.
  56. Using Redis as a Vector Database with OpenAI | OpenAI Cookbook англ.. cookbook.openai.com. Проверено 10 февраля 2024.
  57. Redis as a vector database quick start guide англ.. Redis. Проверено 31 января 2024.
  58. Search and query англ.. Redis. Проверено 10 февраля 2024.
  59. Vector data type and vector similarity functions — General Availability (en-US). Snowflake (2024-05-17). Проверено 17 мая 2024.
  60. Wiggers, Kyle SurrealDB raises $6M for its database-as-a-service offering (en-US). TechCrunch (2023-01-04). Проверено 19 января 2024.
  61. SurrealDB | License FAQs | The ultimate multi-model database англ.. SurrealDB. Проверено 14 февраля 2024.
  62. Martinez, Miguel Typesense Homepage (en-US). Typesense (2024-06-20). Проверено 20 июня 2024.
  63. Typesense licensing.
  64. Yahoo spins off AI scaling engine Vespa as an independent company, siliconANGLE (октябрь 2023 года).
  65. vespa/LICENSE at master · vespa-engine/vespa англ.. GitHub.
  66. Weaviate reels in $50M for its AI-optimized vector database (en-US). SiliconANGLE (2023-04-21). Проверено 29 октября 2023.
  67. weaviate/LICENSE at master · weaviate/weaviate англ.. GitHub. Проверено 29 октября 2023.

Ссылки[править]

 
Концепции

Модель данных • Реляционная (модель алгебра • Нормальная форма • Ссылочная целостность • БД • СУБД) • Иерархическая модель • Векторная • Сетевая (модель СУБД) • Объектно-ориентированная (БД СУБД) • Транзакция • Журнализация • Секционирование • Контрольная точка

Объекты

Отношение (таблица) • Представление • Хранимая процедура • Триггер • Курсор • Индекс

Ключи

Потенциальный • Первичный • Внешний • Естественный • Суррогатный (искусственный) • Суперключ

SQL

SELECT • INSERT • UPDATE • MERGE • DELETE • TRUNCATE • JOIN • UNION • INTERSECT • EXCEPT • CREATE • ALTER • DROP • GRANT • COMMIT • ROLLBACK

СУБД

IMS • DB2 • Informix • Oracle Database • Microsoft SQL Server • Adaptive Server Enterprise • Teradata Database • Firebird • PostgreSQL • MySQL • SQLite • Microsoft Access • Visual FoxPro • ЛИНТЕР • CouchDB • MongoDB • Caché

Компоненты

Язык запросов • Оптимизатор запросов • План выполнения запроса • ODBC • ADO • ADO.NET • JDBC

Категория Категория

Руниверсалис

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Векторная база данных», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA.

Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?».