DeepSeek R1

Материал из Циклопедии
Перейти к навигации Перейти к поиску
программное обеспечение
DeepSeek R1
Файл:DeepSeek logo.svg
Логотип DeepSeek
Тип

ИИ-модель для обработки естественного языка и рассуждений (LLM)

Автор

Лян Вэньфэн (основатель DeepSeek)

Разработчики

Команда DeepSeek при поддержке High-Flyer Capital

Интерфейс

API (совместим с OpenAI), Open WebUI, Ollama CLI

Языки интерфейса

Многоязычная поддержка (NLP)

Первый выпуск

Январь 2025

Читаемые форматы

Текстовые, код, структурированные данные

Типы создаваемых файлов

Текстовые ответы, логические цепочки (CoT)

Последняя версия

DeepSeek-R1 (671B параметров) (2025-02-03 (технический релиз))

Кандидат в релизы

DeepSeek-R1-Zero (чистое RL-обучение)

Тестовая версия

Дистриллированные модели (1.5B, 7B, 14B, 32B, 70B)

Состояние

Активно развивается, доступны дистриллированные версии

Лицензия

MIT License

Сайт

Официальный сайт

DeepSeek R1 — модель искусственного интеллекта, разработанная компанией DeepSeek для решения широкого спектра задач в области обработки естественного языка и рассуждений. Платформа предоставляет возможность бесплатно генерировать тексты, анализировать документы, программировать и выполнять множество других операций без ограничений по количеству запросов или их тематике. Разработчики отмечают, что такая доступность стала возможной благодаря эффективной системе обучения нейронной сети, которая значительно дешевле в реализации по сравнению с конкурентами[1].

Ключевым отличием DeepSeek от таких решений, как ChatGPT, является использование архитектуры «mixture of experts» (смесь экспертов). Этот подход позволяет обрабатывать данные более целенаправленно, привлекая специализированные знания только в тех областях, которые необходимы для конкретной задачи. Таким образом, модель становится более оптимизированной и экономичной в работе[1].

История[править]

DeepSeek — китайская компания, основанная в 2023 году Лян Вэньфэном и расположенная в Ханчжоу. Она специализируется на разработке технологий искусственного интеллекта и создании открытых больших языковых моделей (LLM). Компания получила финансирование от хедж-фонда High-Flyer. В январе 2025 года DeepSeek представила свою ключевую разработку — модель DeepSeek R1, чьи возможности сопоставимы с такими передовыми решениями, как GPT-4o и o1 от OpenAI. При этом стоимость её создания составила около 6 миллионов долларов, значительно ниже затрат на разработку GPT-4 в 2023 году, которая оценивалась в 100 миллионов долларов[2].

Архитектура[править]

Одним из основных факторов, способствовавших успеху DeepSeek, стала инновационная архитектура Multi-head Latent Attention (MLA). Эта технология позволяет модели отсеивать до 95 % нерелевантных данных, что существенно снижает стоимость обучения на 90 %. DeepSeek опередила ChatGPT по всем ключевым показателям производительности. При этом серия моделей R1, обученная математическим методом проб и ошибок, достигла уровня возможностей GPT-4, затратив на разработку намного ниже[3].

Специалисты компании DeepSeek заявили, что при создании модели R1 они отказались от традиционных подходов к обработке датасетов на этапе выравнивания. Для версии R1 Zero полностью исключили этап надзора за дообучением (SFT — supervised fine-tuning), а для версии R1 заменили его на использование примеров промежуточных рассуждений, которые помогают модели формировать логические шаги перед предоставлением конечного ответа. Вместо обучения с подкреплением на основе обратной связи от человека применялись «чистые» методы с подкреплением, позволяющие модели самостоятельно развивать способность к рассуждениям. Этот подход существенно сократил необходимость ручного участия в процессе создания модели[2].

Обучение DeepSeek R1[править]

DeepSeek R1, как и большинство языковых моделей (LLM), генерирует текст посредством последовательного вывода токенов. Однако она выделяется способностью эффективно справляться с математическими и логическими задачами благодаря более глубокому анализу проблем с использованием специальных «токенов мышления», которые объясняют ход рассуждений модели. Процесс создания качественной LLM включает три основных этапа[4]:

  1. Языковое моделирование: на этом этапе модель обучается предсказывать следующее слово в тексте, используя огромные объёмы данных из интернета. Результатом становится базовая версия модели.
  2. Контролируемое дообучение (SFT): модель учится выполнять инструкции и отвечать на вопросы более осмысленно, используя примеры правильных ответов, подготовленные людьми. Этот процесс превращает базовую модель в instruction-tuned модель (или SFT-модель).
  3. Тонкая настройка предпочтений: на заключительном этапе модель адаптируется под человеческие предпочтения, что делает её поведение более естественным и соответствующим ожиданиям пользователей. В результате получается preference-tuned LLM, которая используется в приложениях и платформах[4].

Уникальность DeepSeek R1[править]

Хотя общая структура обучения DeepSeek R1 соответствует стандартным подходам, модель имеет несколько ключевых отличий, которые определяют её уникальность[4].

Длинные цепочки рассуждений в SFT-данных[править]

В процессе обучения использовано 600 000 примеров решений задач, сопровождаемых подробными размышлениями. Такие данные сложны для сбора и требуют значительных затрат на ручную разметку. Чтобы преодолеть этот барьер, команда DeepSeek создала промежуточную модель, которая автоматически генерирует эти данные[4].

Промежуточная высококачественная модель для логических рассуждений[править]

Эта модель, являющаяся предшественницей R1, специализируется на логических задачах и была вдохновлена архитектурой R1 Zero. Хотя она не предназначена для широкого использования, модель играет важную роль в процессе разработки. Она требует минимального количества размеченных данных для обучения, использует масштабное обучение с подкреплением для совершенствования своих навыков, а также превосходно справляется с задачами на рассуждения, но менее эффективна в выполнении универсальных задач. Выходные данные этой модели используются для обучения более универсальной версии, которая сохраняет способности к логическим рассуждениям, одновременно демонстрируя высокую производительность в других типах задач[4].

Создание моделей рассуждений через масштабное обучение с подкреплением[править]

Состоит из нескольких этапов: масштабное обучение с подкреплением, ориентированное на рассуждения (R1 Zero), генерация SFT-данных для рассуждений с помощью промежуточной модели и общий этап обучения с подкреплением[4].

Масштабное обучение с подкреплением, ориентированное на рассуждения (R1 Zero)[править]

На этом этапе используется экспериментальная модель R1 Zero, которая:

  • Обладает высокой эффективностью в решении задач на рассуждения без необходимости использования размеченного SFT-набора данных.
  • Начинает обучение с базовой предобученной модели и затем развивает свои навыки через обучение с подкреплением, минуя этап SFT.
  • Достигает уровня производительности, сравнимого с OpenAI о1[4].

Успех R1 Zero объясняется двумя факторами:

  1. Высококачественные базовые модели, обученные на огромных объёмах данных (в данном случае — 14,8 триллионов токенов).
  2. Возможность автоматической проверки рассуждений, что исключает необходимость ручной оценки, как это требуется при создании текстового контента для чатов или статей[4].

Генерация SFT-данных для рассуждений с помощью промежуточной модели[править]

Для повышения эффективности и применимости промежуточной модели рассуждений, созданной на предыдущем этапе, её дополнительно дообучают с использованием метода контролируемого обучения (SFT). Этот процесс включает обучение модели на множестве примеров задач, требующих логических рассуждений. Часть этих данных генерируется и фильтруется из результатов работы R1 Zero, формируя начальный набор Cold Start Data (данные для холодного старта)[4].

В отличие от R1 Zero, который начинает обучение с подкреплением (RL) с нуля, R1 использует подготовительный этап SFT-дообучения. Это связано с тем, что ранние фазы RL могут быть нестабильными, что может негативно повлиять на качество модели. Для устранения этой проблемы создается качественный, хотя и небольшой, набор данных CoT (Chain-of-Thought — цепочки рассуждений), на котором проводится первичное SFT-обучение. Эти данные собираются несколькими способами[4]:

  • Few-shot prompting. Предоставление модели нескольких примеров длинных логических решений для анализа.
  • Генерация детальных ответов. Модель получает запросы на создание развернутых ответов с пошаговыми объяснениями и самопроверкой.
  • Сбор данных из R1 Zero. Использование выходных данных DeepSeek-R1-Zero, преобразованных в читаемый формат.
  • Ручная доработка. Аннотаторы корректируют автоматически сгенерированные ответы для повышения их качества[4].

Набор SFT-данных содержит всего 5 000 примеров, которые можно собрать вручную. Однако для полноценного обучения R1 требуется гораздо больше — около 600 000 примеров. Промежуточная модель помогает синтетически генерировать недостающие данные, делая процесс масштабируемым[4].

Общий этап обучения с подкреплением[править]

На этом шаге R1 проходит дополнительное обучение с подкреплением, чтобы не только улучшить свои навыки в логических рассуждениях, но и стать более универсальной, способной справляться с широким спектром задач. Процесс аналогичен ранее применяемому, но теперь охватывает не только задачи на рассуждения, но и другие типы запросов. Для оценки качества ответов используются дополнительные механизмы[4]:

  • Модель полезности оценивает, насколько ответ модели информативен и полезен для пользователя.
  • Модель безопасности контролирует соответствие ответов этическим стандартам и безопасность контента[4].

Эти принципы напоминают подходы, применяемые в моделях Llama от Meta. Хотя промежуточная модель (R1 Zero) демонстрирует высокую эффективность в логических задачах, она имеет ограничения в других областях, таких как написание текста, ответы на общие вопросы, генерация кода вне контекста задач на рассуждения. Благодаря этому этапу обучения, R1 становится универсальной моделью, которая сочетает в себе способность к глубоким логическим рассуждениям с возможностью эффективно обрабатывать широкий круг запросов. Таким образом, модель достигает баланса между специализацией и универсальностью, что делает её конкурентоспособной на современном рынке языковых моделей[4].

DeepSeek в России[править]

В отличие от таких популярных решений, как ChatGPT от OpenAI, Google Gemini и других известных чат-ботов, DeepSeek работает на территории России без каких-либо ограничений. Доступ к искусственному интеллекту возможен через веб-версию на сайте chat.deepseek.com, а также через мобильные приложения для платформ Android и iOS. Для начала использования сервиса достаточно зарегистрироваться на официальном сайте или авторизоваться через аккаунт Google[5].

Примечания[править]

  1. 1,0 1,1 Скандальная китайская нейросеть: как DeepSeek-R1 ворвался на рынок ИИ. Компьютерра (2025-02-11). Проверено 21 февраля 2025.
  2. 2,0 2,1 Нейросеть DeepSeek: что умеет, как пользоваться, отличия от ChatGPT. РИА Новости (2025-01-31). Проверено 21 февраля 2025.
  3. Савкин, Игорь Как пользоваться революционной нейросетью DeepSeek и в чём её феномен. Код Дурова (2025-01-28). Проверено 21 февраля 2025.
  4. 4,00 4,01 4,02 4,03 4,04 4,05 4,06 4,07 4,08 4,09 4,10 4,11 4,12 4,13 4,14 Кайда, Наталья DeepSeek-R1: как обучали модель, встряхнувшую AI-индустрию. Proglib (2025-02-03). Проверено 21 февраля 2025.
  5. Джабборов, Дони Чем уникальна китайская нейросеть DeepSeek, о которой все говорят. Тест «Газеты.Ru». Газета.ру (2025-01-29). Проверено 21 февраля 2025.
Nuvola apps Talk.PNG
Философия

Автономный агентТест ТьюрингаКитайская комната

Направления

Агентный подход Адаптивное управление Инженерия знаний Модель жизнеспособной системы Машинное обучение Нейронные сети Нечёткая логика Обработка естественного языка Распознавание образов Роевой интеллект Эволюционные алгоритмы Экспертная система

Применение

Голосовое управление Задача классификации Классификация документов Кластеризация документов Кластерный анализ Локальный поиск Машинный перевод Оптическое распознавание символов Распознавание речи Распознавание рукописного ввода Игровой ИИ

Исследователи

Норберт Винер Алан Тьюринг В. М. Глушков Г. С. Осипов Э. В. Попов Д. А. Поспелов М. Г. Гаазе-Рапопорт Т. А. Гаврилова В. Ф. Хорошевский Г. С. Поспелов Марвин Мински Джон Маккарти Фрэнк Розенблатт Чарльз Бэббидж Аллен Ньюэлл Герберт Саймон Ноам Хомский Джуда Перл Сеймур Пейперт Клод Шеннон Джозеф Вейценбаум Патрик Винстон В. К. Финн

Организации

Государственный университет информатики и искусственного интеллекта Machine Intelligence Research Institute

Шаблон:Генеративный ИИ

Знание.Вики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «DeepSeek R1», расположенная по следующим адресам:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?».