Бинирование данных
Бинирование данных (Data binning) — техника предварительной обработки данных используемая для уменьшения влияния небольших погрешностей измерения.
Другие названия: дискретное бинирование данных, бакетирование данных (data bucketing)
Общая информация[править]
Первоначальные значения данных, которые попадают в заданный небольшой интервал, называющийся бином[en], заменяются значением, представляющим этот интервал, часто центральным значением (средним значением или медианой). Бинирование данных связано с квантованием: бинирование данных работает по оси абсцисс, в то время как квантование работает по оси ординат. Бинирование является обобщением округления.
Статистическое бинирование данных — способ группирования некоторого количества более-или-менее непрерывных значений в меньшее количество «бинов». Например, если имеются данные о группе людей, бинирование данных позволяет сгруппировать значения их возрастов в меньшее количество возрастных интервалов (например, группирование в одном бине 5-и летнего интервала). Бинирование данных может быть также использовано в многомерной статистике[en], в таких случаях одновременно бинируются данные в нескольких измерениях
В цифровой обработке изображений, термин «бинирование» имеет совсем другое значение. Пиксельное бинирование — это процесс комбинирования блоков соседних пикселей, применяемый для всего изображения, с суммированием или усреднением их значений, во время или после считывания данных. Оно уменьшает количество данных; также, в результате такой операции, становится ниже относительный уровень шума.
Примеры использования[править]
Гистрограммы являются примером использования бинирования данных для отображения частотных распределений. Они обычно используются в одномерном пространстве и на равных промежутках для облегчения визуализации информации.
Некоторые системы цифровых фотоаппаратов используют функцию автоматического бинирования пикселей для улучшения контраста изображений.[1]
Бинирование также используется в машинном обучении для ускорения[2] метода бустинга деревьев решений в классификации с учителем и регрессии в различных алгоритмах, таких как Microsoft LightGBM[en] и scikit-learn Histogram-based Gradient Boosting Classification Tree.
См. также[править]
- Дискретизация непрерывных характеристик[en]
- Сгруппированные данные[en]
- Гистограмма
- Шкала
- Квантование (обработка сигналов)
- Округление
Примечания[править]
- ↑ Use of binning in photography.. Nikon, FSU. Проверено 18 января 2011.
- ↑ LightGBM: A Highly Efficient Gradient Boosting Decision Tree. Neural Information Processing Systems (NIPS). Проверено 18 декабря 2019.
![]() | Это заготовка статьи. Вы можете помочь проекту, исправив и дополнив её. |