Векторная база данных
Векторная база данных (англ. vector database), или векторная поисковая система (англ. vector search engine) — разновидность баз данных, в которой вместе с другими элементами данных могут храниться векторы (списки чисел фиксированной длины).
Общая информация[править]
Векторные базы данных обычно реализуют один или несколько алгоритмов поиска ближайшего соседа[1][2][3], что позволяет через поисковый запрос получить наиболее подходящие (ближайшие по вектору) записи базы данных.
Векторы — это математические представления данных в многомерном пространстве. В этом пространстве каждое измерение соответствует определённому признаку данных, а количество измерений варьируется от нескольких сотен до десятков тысяч, в зависимости от сложности представляемых данных. Положение вектора в этом пространстве отражает его характеристики. Слова, фразы или целые документы, а также изображения, аудио и другие типы данных могут быть векторизованы (представлены в виде вектора)[4].
Векторы признаков могут быть вычислены из необработанных данных с использованием методов машинного обучения, таких как алгоритмы конструирования признаков, эмбеддингов[5] или нейронные сети глубокого обучения. Цель состоит в том, чтобы семантически сходные элементы данных получали векторы признаков, близкие друг к другу.
Векторные базы данных могут использоваться для поиска сходства[en], семантического поиска, мультимодального поиска[en], рекомендательных систем, больших языковых моделей (LLM), обнаружения объектов и т.д.[6]
Техники[править]
Методы поиска сходства по многомерным векторам включают:
- Hierarchical navigable small world[en] (HNSW)
- Locality-sensitive hashing (LSH)
- инвертированный индекс
В тестах 2017 года реализации на основе HNSW были одними из самых эффективных[7][8].
На таких конференциях, как Международная конференция по поиску сходства и приложениям (International Conference on Similarity Search and Applications, SISAP) и Конференция по нейронным системам обработки информации[en] (NeurIPS), проводятся соревнования по векторному поиску в больших базах данных.
Примеры векторных баз данных[править]
См. также[править]
Источники[править]
- ↑ Roie Schwaber-Cohen What is a Vector Database & How Does it Work. Pinecone. Проверено 18 ноября 2023.
- ↑ What is a vector database. Elastic. Проверено 18 ноября 2023.
- ↑ What is a Vector Database?. Проверено 10 июля 2023.
- ↑ Vector database. learn.microsoft.com (2023-12-26). Проверено 11 января 2024.
- ↑ Evan Chaki What is a vector database?. Microsoft (2023-07-31). — «A vector database is a type of database that stores data as high-dimensional vectors, which are mathematical representations of features or attributes.»
- ↑ Vector database. learn.microsoft.com (2023-12-26). Проверено 11 января 2024.
- ↑ Aumüller, Martin; Bernhardsson, Erik & Faithfull, Alexander (2017), Beecks, Christian; Borutta, Felix & Kröger, Peer et al., eds., «ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms», vol. 10609, Cham: Springer International Publishing, сс. 34–49, ISBN 978-3-319-68473-4, doi:10.1007/978-3-319-68474-1_3, <http://link.springer.com/10.1007/978-3-319-68474-1_3>. Проверено 19 марта 2024.
- ↑ Aumüller Martin, Bernhardsson Erik ANN-Benchmarks: A Benchmarking Tool for Approximate Nearest Neighbor Algorithms // Similarity Search and Applications. — Cham: Springer International Publishing. — Т. 10609. — P. 34–49. — ISBN 978-3-319-68474-1.
- ↑ Aerospike Recognized by Independent Research Firm Among Notable Vendors in Vector Databases Report (en-US). Morningstar (2024-05-07). Проверено 1 августа 2024.
- ↑ Aerospike raises $109M for its real-time database platform to capitalize on the AI boom (en-US). TechCrunch (2024-04-04). Проверено 1 августа 2024.
- ↑ AllegroGraph 8.0 Incorporates Neuro-Symbolic AI, a Pathway to AGI (en-US). TheNewStack (2023-12-29). Проверено 6 июня 2024.
- ↑ Franz Inc. Introduces AllegroGraph Cloud: A Managed Service for Neuro-Symbolic AI Knowledge Graphs (en-US). Datanami (2024-01-18). Проверено 6 июня 2024.
- ↑ 5 Hard Problems in Vector Search, and How Cassandra Solves Them (en-US). TheNewStack (2023-09-22). Проверено 22 сентября 2023.
- ↑ Vector Search quickstart. Проверено 21 ноября 2023.
- ↑ Palazzolo, Stephanie Vector database Chroma scored $18 million in seed funding at a $75 million valuation. Here's why its technology is key to helping generative AI startups. (en-US). Business Insider. Проверено 16 ноября 2023.
- ↑ MSV, Janakiram Exploring Chroma: The Open Source Vector Database for LLMs (en-US). The New Stack (2023-07-28). Проверено 16 ноября 2023.
- ↑ chroma/LICENSE at main · chroma-core/chroma англ.. GitHub.
- ↑ Vector database. learn.microsoft.com (26 December 2023). Проверено 10 января 2024.
- ↑ Couchbase aims to boost developer database productivity with Capella IQ AI tool (en-US). VentureBeat (2023-08-30).
- ↑ Investor Presentation Third Quarter Fiscal 2024 (en-US). Couchbase Investor Relations (2023-12-06).
- ↑ Anderson, Scott Couchbase Adopts BSL License (en-US). The Couchbase Blog (2021-03-26). Проверено 14 февраля 2024.
- ↑ DataStax brings vector database search to multicloud with Astra DB (июль 2023 года).
- ↑ Elasticsearch Relevance Engine brings new vectors to generative AI, VentureBeat (май 2023 года).
- ↑ elasticsearch/LICENSE.txt at main · elastic/elasticsearch англ.. GitHub.
- ↑ HDF5 Query Indexing. GitHub (27 Sep 2019). Проверено 3 мая 2024.
- ↑ HDFGroup/COPYING at master · HDFGroup/hdf5 англ.. GitHub. Проверено 29 октября 2023.
- ↑ Lantern (en-US) (2024-04-05). Проверено 5 апреля 2024.
- ↑ lantern/LICENSE at main /lanterndata/lantern англ.. GitHub. Проверено 10 апреля 2024.
- ↑ Wiggers, Kyle LlamaIndex adds private data to large language models (en-US). TechCrunch (2023-06-06). Проверено 29 октября 2023.
- ↑ llama_index/LICENSE at main · run-llama/llama_index англ.. GitHub. Проверено 29 октября 2023.
- ↑ MariaDB Vector (en-US). MariaDB.org. Проверено 30 июля 2024.
- ↑ Vector search in old and modern databases (en-us). manticoresearch.com. Проверено 30 июля 2024.
- ↑ Licensing FAQ. MariaDB KnowledgeBase. Проверено 30 июля 2024.
- ↑ Sawers, Paul Meet Marqo, an open source vector search engine for AI applications (en-US). TechCrunch (2023-08-16). Проверено 20 августа 2024.
- ↑ «marqo-ai/marqo», Marqo, 2024-08-20, <https://github.com/marqo-ai/marqo?tab=Apache-2.0-1-ov-file#readme>. Проверено 20 августа 2024.
- ↑ Meilisearch Homepage (en-US). Meilisearch (2024-10-08). Проверено 29 октября 2023.
- ↑ meilisearch/LICENSE at main · meilisearch/meilisearch англ.. GitHub. Проверено 8 октября 2024.
- ↑ Open Source Vector Database – Milvus – LFAI & DATA. Проверено 29 октября 2023.
- ↑ Liao, Ingrid Lunden and Rita Zilliz raises $60M, relocates to SF (en-US). TechCrunch (2022-08-24). Проверено 29 октября 2023.
- ↑ Introducing Atlas Vector Search: Build Intelligent Applications with Semantic Search and AI Over Any Type of Data (en-US). MongoDB (2023-06-22).
- ↑ Neo4j enhances its graph database with vector search (en-AU). itbrief (2023-08-22).
- ↑ Vector search indexes (en-US). neo4j.
- ↑ Neo4j licensing.
- ↑ Top Fifteen Vector Databases (en-US). db-engines.com (2024-07-03). Проверено 3 июля 2024.
- ↑ ObjectBox Java license. github.
- ↑ Using OpenSearch as a Vector Database (en-US). OpenSearch.org (2023-08-02). Проверено 7 февраля 2024.
- ↑ Pan, James Jie; Wang, Jianguo & Li, Guoliang (2023-10-21), «Survey of Vector Database Management Systems»
- ↑ AWS debuts new AI-powered data management and analysis tools (en-US). SiliconANGLE (2023-07-26). Проверено 7 февраля 2024.
- ↑ OpenSearch license. github.
- ↑ Hook(1) and Priyadarshi(2), Doug(1) and Ranjan(2) Oracle Announces General Availability of AI Vector Search in Oracle Database 23ai. oracle (May 2, 2024). Проверено 9 июля 2024.
- ↑ Pinecone leads 'explosion' in vector databases for generative AI (en-US). VentureBeat (2023-07-14). Проверено 29 октября 2023.
- ↑ pgvector (en-US). GitHub. Проверено 27 ноября 2023.
- ↑ pgvector/License (en-US). GitHub. Проверено 27 ноября 2023.
- ↑ Sawers, Paul Qdrant, an open-source vector database startup, wants to help AI developers leverage unstructured data (en-US). TechCrunch (2023-04-19). Проверено 29 октября 2023.
- ↑ qdrant/LICENSE at master · qdrant/qdrant англ.. GitHub. Проверено 29 октября 2023.
- ↑ Using Redis as a Vector Database with OpenAI | OpenAI Cookbook англ.. cookbook.openai.com. Проверено 10 февраля 2024.
- ↑ Redis as a vector database quick start guide англ.. Redis. Проверено 31 января 2024.
- ↑ Search and query англ.. Redis. Проверено 10 февраля 2024.
- ↑ Vector data type and vector similarity functions — General Availability (en-US). Snowflake (2024-05-17). Проверено 17 мая 2024.
- ↑ Wiggers, Kyle SurrealDB raises $6M for its database-as-a-service offering (en-US). TechCrunch (2023-01-04). Проверено 19 января 2024.
- ↑ SurrealDB | License FAQs | The ultimate multi-model database англ.. SurrealDB. Проверено 14 февраля 2024.
- ↑ Martinez, Miguel Typesense Homepage (en-US). Typesense (2024-06-20). Проверено 20 июня 2024.
- ↑ Typesense licensing.
- ↑ Yahoo spins off AI scaling engine Vespa as an independent company, siliconANGLE (октябрь 2023 года).
- ↑ vespa/LICENSE at master · vespa-engine/vespa англ.. GitHub.
- ↑ Weaviate reels in $50M for its AI-optimized vector database (en-US). SiliconANGLE (2023-04-21). Проверено 29 октября 2023.
- ↑ weaviate/LICENSE at master · weaviate/weaviate англ.. GitHub. Проверено 29 октября 2023.
Ссылки[править]
- Vector database // Английская Википедия
- Sawers, Paul Why vector databases are having a moment as the AI hype cycle peaks. TechCrunch (2024-04-20). Проверено 23 апреля 2024.
![]() ↑ [+] | |
---|---|
Концепции |
Модель данных • Реляционная (модель • алгебра • Нормальная форма • Ссылочная целостность • БД • СУБД) • Иерархическая модель • Векторная • Сетевая (модель • СУБД) • Объектно-ориентированная (БД • СУБД) • Транзакция • Журнализация • Секционирование • Контрольная точка |
Объекты |
Отношение (таблица) • Представление • Хранимая процедура • Триггер • Курсор • Индекс |
Ключи |
Потенциальный • Первичный • Внешний • Естественный • Суррогатный (искусственный) • Суперключ |
SQL |
SELECT • INSERT • UPDATE • MERGE • DELETE • TRUNCATE • JOIN • UNION • INTERSECT • EXCEPT • CREATE • ALTER • DROP • GRANT • COMMIT • ROLLBACK |
СУБД |
IMS • DB2 • Informix • Oracle Database • Microsoft SQL Server • Adaptive Server Enterprise • Teradata Database • Firebird • PostgreSQL • MySQL • SQLite • Microsoft Access • Visual FoxPro • ЛИНТЕР • CouchDB • MongoDB • Caché |
Компоненты |
Язык запросов • Оптимизатор запросов • План выполнения запроса • ODBC • ADO • ADO.NET • JDBC |
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Руниверсалис» («Руни», руни.рф) под названием «Векторная база данных», расположенная по адресу:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA. Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?». |
---|