Проектирование отказоустойчивых распределенных информационных систем. Для студентов - страница 13
N = m >n,
где: N – число всевозможных отображаемых состояний;
m – основание системы счисления (разнообразие символов, применяемых в алфавите);
n – число разрядов (символов) в сообщении.
Поэтому в различных системах счисления один разряд имеет различный вес, и соответственно меняется единица измерения данных. Так, в двоичной системе счисления единицей измерения служит «бит» – двоичный разряд, в десятичной системе счисления – «дит», как десятичный разряд. Например:
а) сообщение в двоичной системе 10111011 имеет объем данных V>д = 8 бит;
б) сообщение в десятичной системе 275903 имеет объем данных V>д = 6 дит.
В современной ЭВМ наряду с минимальной единицей данных «бит» широко
используется укрупненная единица измерения «байт», равная 8 бит.
Определение количества информации на синтаксическом уровне невозможно без рассмотрения понятия неопределенности состояния системы (энтропии системы).
Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. До получения информации получатель мог иметь некоторые предварительные (априорные) сведения о системе α. Мера неосведомленности о системе H (α) и является для него мерой неопределенности состояния системы. После получения некоторого сообщения получатель приобретает некоторую дополнительную информацию J>β (α), уменьшающую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы становится равной Н>β (α), Тогда количество информации J>β (α), о системе α, полученное в сообщении β, определится как:
J>β (α) = Н (α) – Н>β (α)
т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность H>β (α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации станет равным:
J>β (α) = Н (α)
Иными словами, энтропия системы Н (α) может рассматриваться как мера недостающей информации. Энтропия системы H (α), имеющей N возможных состояний согласно формуле ШЕННОНА, равна:
N
Н (α) = -, ∑ P>i log P>i
i=1
где P>i -вероятность того, что система находится в i-м состоянии.
Для случая, когда все состояния системы равновероятны, ее энтропия определяется по формуле:
Н (α) = log N.
Рассмотрим пример. По каналу связи передается n- разрядное сообщение, использующее m различных символов.
Так как количество всевозможных кодовых комбинаций определяется по формуле N = m >n, то при равно вероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет определяться по формуле ХАРТЛИ:
I = log N = n log m.
Если в качестве основания логарифма принять m, то формула упростится и количество информации станет равным:
I = n.
В данном случае количество информации (при условии полного априорного незнания абонентном содержания сообщения) будет равно объему данных I = У>д, полученных по каналу связи.
Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно «бит» и «дит».
Степень информативности сообщения определяется отношением количества информации к объему данных, т.е.
Y = 1/ V>д, причем 0 где: Y – характеризует лаконичность сообщения. С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.