Маргинальное распределение

Материал из Циклопедии
Перейти к: навигация, поиск

В теории вероятности и статистике, маргинальное распределение подмножества набора случайных величин — это распределение вероятностей переменных, содержащихся в этом подмножестве. Это даёт возможность представить вероятности различных значений переменных в подмножестве без указания на другие значения переменных. Маргинальное распределение — полная противоположность условному распределению, в котором вероятности полностью зависят от других значений переменных.

Термин маргинальная величина используется для обозначения переменных из подмножества, в котором они содержатся. Эти термины называют «маргинальными», потому что они были найдены путем суммирования значений в таблице вдоль строк или столбцов, и записи этой суммы в полях таблицы.[1] Распределение маргинальных величин (маргинальное распределение) получается путём маргинализации распределения случайных величин.

Здесь понимается, что проводимые теоретические исследования или анализ данных включают в себя большой набор случайных величин, но внимание уделяется ограниченному числу этих величин. Во многих приложениях анализ может начинаться заданным набором случайных величин, затем набор можно расширить определением новых (как сумма начальных случайных величин) и, наконец, уменьшить число переменных путем смещения внимания на маргинальное распределение подмножества (такой как сумма). Может осуществляться несколько разных исследований, каждое из которых работает с различными подмножествами переменных как с маргинальными переменными.

Содержание

[править] Случай двух переменных

x1 x2 x3 x4 py(Y)↓
y1 432 232 132 132 832
y2 232 432 132 132 832
y3 232 232 232 232 832
y4 832 0 0 0 832
px(X) → 1632 832 432 432 3232
Совместное и маргинальное распределение случайных величин X,Y имеют ненулевую взаимную информацию I(X; Y). Значения совместного распределения представляют собой квадрат 4×4, значения маргинального распределения указаны на полях справа и снизу.

Даны две случайные величины X and Y совместное распределение которых известно. Маргинальное распределение X Это простое распределение вероятности X усредненное по информации о Y. Это распределение вероятности X когда значение Y неизвестно. Это, как правило, рассчитывается суммированием или интегрированием функции совместного распределения над Y.

Для дискретных случайных величин, маргинальная функция вероятности может быть записана как Pr(X = x). Таким образом,

[math]\Pr(X=x) = \sum_{y} \Pr(X=x,Y=y) = \sum_{y} \Pr(X=x|Y=y) \Pr(Y=y),[/math]

где Pr(X = x,Y = y) это совместное распределение X и Y, тогда как Pr(X = x|Y = y) является условное распределение X при условии Y. В этом случае, величина Y изолируется(«удаляется из совместного распределения»).

Двумерные маргинальные и совместные вероятности дискретных случайных величин часто изображают в виде двусторонних таблиц.

Аналогично, для непрерывных случайных величин маргинальную функцию плотности вероятности можно записать как pX(x). В таком случае

[math]p_{X}(x) = \int_y p_{X,Y}(x,y) \, \operatorname{d}\!y = \int_y p_{X|Y}(x|y) \, p_Y(y) \, \operatorname{d}\!y ,[/math]

где pX,Y(x,y) представляет совместное распределение X и Y, в то время, как pX|Y(x|y) представляет условную вероятность X по Y. Снова, случайная величина Y изолируется(«удаляется из совместного распределения»).

Заметим, что маргинальное распределение всегда можно записать как математическое ожидание:

[math]p_{X}(x) = \int_y p_{X|Y}(x|y) \, p_Y(y) \, \operatorname{d}\!y = \mathbb{E}_{Y} [p_{X|Y}(x|Y)][/math]

Интуитивно, маргинальная вероятность X вычисляется путем изучения полной вероятности X для определенного значения Y, а затем усреднения этой условной вероятности над распределением всех значений Y.

Это следует из определения математического ожидания, то есть в общем случае:

[math]\mathbb{E}_Y [f(Y)] = \int_y f(y) p_Y(y) \, \operatorname{d}\!y[/math]

[править] Реальный пример

Предположим, что нужно вычислить вероятность того, что пешеход будет сбит автомобилем при пересечении дороги на пешеходном переходе, не обращая внимания на знаки светофора. Пусть H это дискретная случайная величина принимающая одно из значений {Сбит, Не сбит}. Пусть L это дискретная случайная величина принимающая значения цвета светофора {Красный, Жёлтый, Зелёный}.

В реальности, H должна зависеть от L. То есть, P(H = Сбит) и P(H = Не сбит) принимает разные значения, в зависимости какого цвета горит светофор L: красным, жёлтым, или зелёным. Например человек вероятней может быть сбит машиной, когда пытается перейти дорогу в то время, когда для машины горит зелёный, и менее вероятней, когда для машины горит красный. Другими словами, для каждой возможной пары значений H и L, необходимо учитывать совместное распределение вероятности H и L чтобы найти вероятность того, что пара событий случится вместе, если пешеход игнорирует цвет светофора.

Однако, при попытке посчитать маргинальную вероятность P(H=Сбит), в которой мы требуем чтобы вероятность H=Сбит в ситуации, когда мы не знаем значения L и когда пешеход игнорирует цвет светофора. В общем случае, пешеход может быть сбит когда горит красным ИЛИ жёлтым ИЛИ зелёным. Таким образом, в этом случае маргинальная вероятность может быть найдена суммированием P(H,L) для всех возможных значений L, где каждое значение L взвешено по своей вероятности появления.

Ниже приведена таблица условной вероятности того, что пешеход будет сбит, зависящая от сигнала светофора. (Заметьте, что столбцы в этой таблице должны давать в сумме 1 поскольку вероятность быть сбитым либо не сбитым равна 1 независимо от состояния светофора.)

Условное распределение: P(H|L)
Красный Жёлтый Зелёный
Не сбит 0.99 0.9 0.2
Сбит 0.01 0.1 0.8

Чтобы найти совместное распределение вероятностей, нам нужно больше данных. Пусть P(L=красный) = 0.2, P(L=жёлтый) = 0.1, и P(L=зелёный) = 0.7. Умножая каждый столбец в условной вероятности на вероятность того, что пешеход сбит на данный сигнал светофора, найдём совместное распределение H и L, которое написано в 3 строке. (Заметим, что суммирование значений 3 строки даёт единицу).

Совместное распределение: P(H,L)
Красный Жёлтый Зелёный Marginal probability P(H)
Не сбит 0.198 0.09 0.14 0.428
Сбит 0.002 0.01 0.56 0.572
Всего 0.2 0.1 0.7 1

Маргинальная вероятность P(H=Сбит) это сумма значений в строке H=Сбит таблицы совместного распределения, поскольку она является вероятностью быть сбитым, когда сигнал красный или жёлтый или зелёный. Точно так же маргинальная вероятность того, что P(H=Не сбит) это сумма значений строки H=Не сбит. В этом примере вероятность быть сбитым, будучи невнимательным пешеходом равна 0.572.

[править] Многомерные распределения

Пример многомерного распределения. Маргинальные распределения показаны красным и синим. Маргинальное распределение X приближено созданием гистограммы X-координат без учёта Y-координат.

Формула для многомерного распределения, аналогична приведенным выше, в которых символы X и/или Y интерпретируются как векторы. В частности, каждое суммирование или интегрирование будет проходить над всеми переменными, кроме тех, которые содержатся в X.

[править] См. также

[править] Источники

  1. Trumpler and Weaver (1962), pp. 32-33.

[править] Литература

  • The Cambridge Dictionary of Statistics. — Cambridge University Press, 2002. — ISBN 0-521-81099-X.
  • Statistical Astronomy. — Dover Publications, 1962.
Bvn-small.png  Шаблон: п·о·и       Вероятностные распределения
Одномерные Многомерные
Дискретные: Бернулли | Биномиальное | Геометрическое | Гипергеометрическое | Логарифмическое | Отрицательное биномиальное | Пуассона | Дискретное равномерное Мультиномиальное
Абсолютно непрерывные: Бета | Вейбулла | Гамма- | Гиперэкспоненциальное | Гомпертца | Колмогорова | Коши | Лапласа | Логнормальное | Нормальное (Гаусса) | Логистическое | Накагами | Парето | Пирсона | Полукруговое | Непрерывное равномерное | Райса | Рэлея | Стьюдента | Трейси — Видома | Фишера | Хи-квадрат | Экспоненциальное | Variance-gamma Многомерное нормальное | Копула
Персональные инструменты
Пространства имён

Варианты
Действия
Навигация
Инструменты