Подходы к измерению информации

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Подходы к измерению информации — выделяемые в информатике два подхода к измерению информации, основанные на определении К. Шеннона, применяемое в математической теории информации, и определении А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров:

  1. Содержательный (вероятностный). Количество информации можно рассматривать как меру уменьшения неопределённости знания при получении информационных сообщений.
  2. Объёмный (алфавитный). Это объективный, количественный метод для измерения информации, циркулирующей в информационной технике.

Содержательный подход[править]

Согласно Шеннону, информативность сообщения характеризуется содержащейся в нем полезной информацией — той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации.

По Шеннону, информация — уменьшение неопределенности наших знаний.

Неопределенность некоторого события — это количество возможных исходов данного события.

Так, например, если из колоды карт наугад выбирают карту, то неопределенность равна количеству карт в колоде. При бросании монеты неопределенность равна 2.

Содержательный подход часто называют субъективным, так как разные субъекты информацию об одном и том же предмете оценивают по-разному.

Но если число исходов не зависит от суждений людей (случай бросания кубика или монеты), то информация о наступлении одного из возможных исходов является объективной.

Если сообщение уменьшило неопределенность знаний ровно в два раза, то говорят, что сообщение несет 1 бит информации.

1 бит — объем информации такого сообщения, которое уменьшает неопределенность знания в два раза.

Рассмотрим, как можно подсчитать количество информации в сообщении, используя содержательный подход.

Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных (равновозможных) событий. Тогда количество информации i, заключенное в этом сообщении, и число событий N связаны формулой: 2i = N. Эта формула носит название формулы Хартли. Получена она в 1928 г. американским инженером Р. Хартли.

Если N равно целой степени двойки (2, 4, 8, 16 и т.д.), то вычисления легко произвести «в уме». В противном случае количество информации становится нецелой величиной, и для решения задачи придется воспользоваться таблицей логарифмов либо определять значение логарифма приблизительно (ближайшее целое число, большее).

Например, если из 256 одинаковых, но разноцветных шаров наугад выбрали один, то сообщение о том, что выбрали красный шар несет 8 бит информации (28 = 256).

Для угадывания числа (наверняка) в диапазоне от 0 до 100, если разрешается задавать только двоичные вопросы (с ответом «да» или «нет»), нужно задать 7 вопросов, так как объем информации о загаданном числе больше 6 и меньше 7 (26 < 100 > 27).

Алфавитный подход[править]

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита.

Двоичный алфавит содержит 2 символа, его мощность равна двум. Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов. Сообщения, записанные по системе UNICODE, используют алфавит из 65 536 символов.

С позиций computer science носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера. Согласно Колмогорову, информативность последовательности символов не зависит от содержания сообщения, алфавитный подход является объективным, т. е. он не зависит от субъекта, воспринимающего сообщение. Чтобы определить объем информации в сообщении при алфавитном подходе, нужно последовательно решить задачи:

  1. Определить количество информации (i) в одном символов по формуле 2i = N, где N — мощность алфавита
  2. Определить количество символов в сообщении (К)

Вычислить объем информации по формуле: I = К * i.

Единицы измерения информации[править]

В информатике используется величина, называемая байтом (byte) и равная 8 битам. И если бит позволяет выбрать один вариант из двух возможных, то байт, соответственно, 1 из 256 (28). В большинстве современных ЭВМ при кодировании каждому символу соответствует своя последовательность из восьми нулей и единиц, т. е. байт.

Наряду с байтами для измерения количества информации используются более крупные единицы

1 Кбайт (один килобайт) = 210 байт = 1024 байта;

1 Мбайт (один мегабайт) = 210 Кбайт = 1024 Кбайта;

1 Гбайт (один гигабайт) = 210 Мбайт = 1024 Мбайта.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как

1 Терабайт (Тб) = 1024 Гбайта = 240 байта

1 Петабайт (Пб) = 1024 Тбайта = 250 байта.

См. также[править]

Литература[править]

Ruwiki logo.png Одним из источников этой статьи является статья в википроекте «Рувики» («Багопедия», «ruwiki.ru») под названием «Подходы к измерению информации», находящаяся по адресу:

«https://ru.ruwiki.ru/wiki/Подходы_к_измерению_информации»

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.
Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?»