Qwen2.5 Max
программное обеспечение | |
Qwen | |
---|---|
Тип | |
Разработчик | |
Языки интерфейса |
многоязычный |
Первый выпуск |
2025 |
Последняя версия |
2.5 max |
Сайт |
Qwen2.5 Max — крупномасштабная языковая модель (LLM), разработанная компанией Alibaba Cloud в рамках серии «Тонгъи Цяньвэнь» (通义千问). Модель выпущена 29 января 2025 года и основана на подходе Mixture of Experts (MoE). Она прошла предварительное обучение на обширном датасете объёмом более 20 триллионов токенов. Дополнительная настройка осуществлялась с применением метода Supervised-Fine-Tuning, где активное участие принимали люди, а также с использованием технологий обучения с подкреплением на основе обратной связи от человека (RLHF)[1].
Qwen2.5 Max поддерживает 29 языков (включая русский, английский и китайский) и способна работать с контекстами длиной до 128 тысяч токенов. Позиционируется как инструмент для задач, требующих анализа сложных текстов, генерации кода и кросс-языковых коммуникаций[1].
Архитектура[править]
Qwen2.5 Max построена на архитектуре Mixture of Experts (MoE), которая распределяет вычислительные задачи между множеством специализированных модулей (экспертами). Это позволяет модели эффективно масштабироваться для обработки больших объёмов данных. Однако на текущий момент модель недоступна для загрузки или независимого тестирования через открытые платформы, такие как GitHub или HuggingFace. Это ограничивает возможности научного сообщества для детального анализа её архитектуры и воспроизводимости результатов[2]. Вопросы прозрачности также остаются ключевыми: все публикуемые данные о производительности Qwen2.5 Max предоставлены исключительно компанией Alibaba[2].
Обучение и доработка включали два этапа:
- Контролируемая тонкая настройка (SFT) — люди корректировали ответы модели для повышения их релевантности.
- Обучение с подкреплением (RLHF) — пользователи ранжировали ответы ИИ, чтобы система научилась выбирать наиболее подходящие варианты[3].
Сравнение с конкурентами[править]
Согласно результатам оценки в различных бенчмарках, таких как Arena-Hard, MMLU-Pro, GPQA-Diamond, LiveCodeBench и LiveBench, Qwen 2.5 Max превзошла такие известные решения, как GPT-4o (OpenAI), Claude 3.5 Sonnet (Anthropic) и Llama 3.1 405B (Meta). Модель обладает мультимодальным функционалом, способна обрабатывать текстовые, видео- и графические данные, а также поддерживает интернет-поиск. При сравнении использовались конкретные версии конкурентов — DeepSeek V3 вместо R1 и GPT-4o вместо последних флагманских разработок OpenAI. Это выбор объясняется методологией тестирования[4].
Тест | Qwen2.5 Max | DeepSeek V3 | Claude 3.5 Sonnet |
---|---|---|---|
Arena-Hard (предпочтения) | 89,4 | 85,5 | 85,2 |
MMLU-Pro (знания) | 76,1 | 75,9 | 78,0 |
LiveCodeBench (код) | 38,7 | 37,6 | 38,9 |
GSM8K (математика) | 94,5 | 89,3 | 89,0 |
- Arena-Hard: Qwen 2.5 Max продемонстрировала высокие показатели, набрав 89,4 балла, что позволило ей опередить DeepSeek V3 (85,5) и Claude 3.5 Sonnet (85,2).
- MMLU-Pro: В категории сложных академических задач Qwen 2.5 Max достигла результата в 76,1 балла, немного превзойдя DeepSeek V3 (75,9). Лидерство осталось за Claude 3.5 Sonnet (78,0), а второе место занял GPT-4o (77,0).
- LiveCodeBench: В области программирования модель показала результат 38,7 баллов, что сопоставимо с DeepSeek V3 (37,6) и лишь незначительно уступает Claude 3.5 Sonnet (38,9).
- LiveBench: По решению практических задач искусственного интеллекта Qwen 2.5 Max заняла первое место, набрав 62,2 балла, обогнав DeepSeek V3 (60,5) и Claude 3.5 Sonnet (60,3)[5].
Особенности[править]
Qwen 2.5 Max не является открытой в плане исходного кода. Для работы с этой моделью доступны два основных пути: использование платформы Qwen Chat или интеграция через API на Alibaba Cloud. Пользователи могут общаться с моделью напрямую, используя веб-интерфейс, что позволяет легко задавать вопросы и получать ответы без дополнительной технической подготовки. Разработчики имеют возможность подключить функционал модели к своим приложениям через API[5].
Модель была обучена на массиве данных, насчитывающем 20 триллионов токенов, что эквивалентно примерно 15 триллионам слов. Такой объём данных делает Qwen 2.5 Max одной из наиболее хорошо подготовленных моделей ИИ с точки зрения масштаба обучающего набора[3].
В отличие от таких моделей, как DeepSeek R1 или флагманских решений OpenAI (o1), Qwen 2.5 Max не предоставляет детального пошагового объяснения своих выводов, что может быть важно для задач, требующих прозрачности рассуждений[3].
Qwen2.5 Max поддерживает 29 языков, включая русский, английский, китайский, французский, испанский, арабский, японский, корейский, вьетнамский и другие. Эта функциональность делает модель универсальным инструментом для международных проектов, локализации контента и коммуникации в глобальном масштабе. Например, в статье на TenChat подчеркивается, что многоязычность модели позволяет ей конкурировать с такими решениями, как ChatGPT, особенно в задачах перевода и кросс-культурной коммуникации[1].
Примечания[править]
- ↑ 1,0 1,1 1,2 Simonov, Danila Не DeepSeek'ом единым: вышел Qwen2.5-Max от Alibaba. Хабр (2025-01-29). Проверено 26 февраля 2025.
- ↑ 2,0 2,1 Не только DeepSeek: Alibaba представила Qwen2.5-Max. SkyPro (2025-01-29). Проверено 26 февраля 2025.
- ↑ 3,0 3,1 3,2 Все, что вам нужно знать о Qwen2.5-Max — скачок искусственного интеллекта Alibaba. Bitrue (2025-01-30). Проверено 26 февраля 2025.
- ↑ DeepSeek ‒ только начало: Qwen 2.5 Max добивает монополию США на передовой ИИ. Securitylab.ru (2025-01-30). Проверено 27 февраля 2025.
- ↑ 5,0 5,1 В Китае представили ИИ мощнее DeepSeek: гонка языковых моделей продолжается. Techinsider (2025-01-30). Проверено 27 февраля 2025.
![]() | Одним из источников, использованных при создании данной статьи, является статья из википроекта «Знание.Вики» («znanierussia.ru») под названием «Qwen2.5 Max», расположенная по следующим адресам:
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий. Всем участникам Знание.Вики предлагается прочитать материал «Почему Циклопедия?». |
---|