YOLO (модель машинного обучения)

Материал из Циклопедии
Перейти к навигации Перейти к поиску

YOLO[1] (англ. You Only Look Once — ты смотришь только раз[2]) — семейство открытых моделей машинного обучения, предназначенное для распознавания объектов на фото и видео. Название YOLO — «ты смотришь только раз» — отражает идею продукта обнаружения объектов «на лету». Решает три основных задачи распознавания изображений: классификацию, обнаружение, сегментацию[3].

Помимо этих основных задач в версии 8 также добавились распознавание поз (человека) и отслеживание (объекта на видео) (при появлении объекта в кадре ему присваивается идентификатор, которым он сопровождается во время видеопотока)

Классификация, Обнаружение, Сегментация — три основные задачи распознавания изображений — пояснение от Ultralytics что решает каждая задача

YOLO изначально было разработано Джозефом Редмоном и Али Фархади в 2016 году. В настоящее время развивается компанией «Ultalytics».

Инструмент основан на алгоритмах свёрточной нейронной сети (CNN). Принцип работы YOLO подразумевает ввод сразу всего изображения, которое проходит через свёрточную нейронную сеть только один раз в отличие от других аналогичных алгоритмов. Именно поэтому выбрано такое название.

На состоянию на май 2023, последней версией является YOLO v.8[4]. Также поддерживаемой версией является YOLO v.5.

Оценка поз. Иллюстрация от Ultralytics.

В текущей версии для каждой задачи предоставляется на выбор 5-6 моделей, отличающихся объёмом потребляемых ресурсов, производительностью и точностью:

Число параметров, миллионы
Обнаружение и Отслеживание Сегментация Классификация Оценка поз
nano 3,2 3,4 2,7 3,3
small 11,2 11,8 6,4 11,6
medium 25,9 27,3 17,0 26,4
large 43,7 46,0 37,5 44,4
extra large 68,2 4,02 57,4 69,4
YOLOv8x-pose-p6 - - - 99,1

Модели поставляются предобученными на наборе изображений COCO val2017 (80 классов изображений), но может быть переучен пользователем на своём наборе данных.

Позволяет задействовать возможности аппаратного ускорения CUDA.

Распространяется по двум лицензиям:

Источники[править]

  1. YOLO v.8 (англ.).
  2. Отсылка к англоязычному выражению «you only live once» (англ. живём только раз) и эпизод YOLO сериала Симпсонов
  3. Как работает Object Tracking на YOLO и DeepSort (рус.).
  4. Упражнение по применению YOLO v.8 (англ.).
Runi.svg Одним из источников этой статьи является статья в википроекте «Руниверсалис» («Руни», руни.рф), называющаяся «YOLO (модель машинного обучения)».
Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC BY-SA.
Всем участникам Руниверсалиса предлагается прочитать «Обращение к участникам Руниверсалиса» основателя Циклопедии и «Почему Циклопедия?».