Опубликован: 11.04.2007 | Уровень: специалист | Доступ: платный
Лекция 3:

Базовые понятия теории информации

< Лекция 2 || Лекция 3: 123 || Лекция 4 >

Вероятностный подход к измерению дискретной и непрерывной информации

В основе теории информации лежит предложенный Шенноном способ измерения количества информации, содержащейся в одной случайной величине, относительно другой случайной величины. Этот способ приводит к выражению количества информации числом.

Для дискретных случайных величин X и Y, заданных законами распределения P(X=X_i)=p_i, P(Y=Y_j)=q_j и совместным распределением P(X=X_i,Y=Y_j)=p_{ij}, количество информации, содержащейся в X относительно Y, равно

I(X,Y)=\sum_{i,j}p_{ij}\log_2{p_{ij}\over
p_iq_j}.

Для непрерывных случайных величин, X и Y, заданных плотностями распределения вероятностей p_X(t_1), p_Y(t_2) и p_{XY}(t_1,t_2), аналогичная формула имеет вид

I(X,Y)=\int\limits_{\quad\bR^2}\!\!\!\!\!
\int p_{XY}(t_1,t_2)\log_2{p_{XY}(t_1,t_2)\over
p_X(t_1)p_Y(t_2)}dt_1dt_2.

Очевидно, что

\begin{align*}P(X=X_i,X=X_j) = \begin{cases}
0,&\text{при $i\ne j$}\\
P(X=X_i),&\text{при $i=j$}\end{cases}\end{align*}
и, следовательно,
I(X,X)=\sum_ip_i\log_2{p_i\over
p_ip_i}=-\sum_ip_i
\log_2p_i.

Энтропия дискретной случайной величины X в теории информации определяется формулой

H(X)=HX=I(X,X).

Свойства меры информации и энтропии:

  1. I(X,Y)\ge0, I(X,Y)=0 \xLeftrightarrow X и Y независимы;
  2. I(X,Y)=I(Y,X) ;
  3. HX=0 \xLeftrightarrow X - константа;
  4. I(X,Y)=HX+HY-H(X,Y), где H(X,Y)=-\sum_{i,j}p_{ij}\log_2p_{ij} ;
  5. I(X,Y)\le I(X,X). Если I(X,Y)=I(X,X), то X - функция от Y. Если X - инъективная функция1Функция f - инъекция, если на разных значениях аргумента, она принимает разные значения. от Y, то I(X,Y)=I(X,X).
  1. Логарифмированием из очевидного для всех x неравенства e^{x-1}\ge x (равенство устанавливается только при x=1 ) получается неравенство x-1\ge\ln x или \textstyle{x-1\over\ln2}\ge\log_2x.
    -I(X,Y)=\sum_{i,j}p_{ij}\log_2{p_iq_j\over p_{ij}}\le
\sum_{i,j}p_{ij}{{p_iq_j\over p_{ij}}-1\over\ln2}=
    =\fi
\sum_{i,j}{p_iq_j-p_{ij}\over\ln2}=
{\sum_ip_i\sum_jq_j-\sum_{i,j}p_{ij}\over\ln2}={1-1\over\ln2}=0,
    т.е. I(X,Y)=0 только при p_{ij}=p_iq_j для всех i и j, т.е. при независимости X и Y. Если X и Y независимы, то p_{ij}=p_iq_j и, следовательно, аргументы логарифмов равны 1 и, следовательно, сами логарифмы равны 0, что означает, что I(X,Y)=0 ;
  2. Следует из симметричности формул относительно аргументов;
  3. Если HX=0, то все члены суммы, определяющей HX, должны быть нули, что возможно тогда и только тогда, когда X - константа;
  4. Из четырех очевидных соотношений
    \sum_jp_{ij} = p_i,\quad \sum_ip_{ij} = q_j,
    HX = -\sum_i p_i \log_2 p_i = -\sum_{i,j} p_{ij} \log_2
p_i,
    HY = -\sum_j q_j \log_2 q_j = -\sum_{i,j} p_{ij} \log_2
q_j
    получается
    HX+HY-H(X,Y) = \sum_{i,j} p_{ij} (\log_2 p_{ij} - \log_2 q_j -
\log_2 p_i)= I(X,Y);
  5. Нужно доказать I(X,Y)=HX+HY-H(X,Y)\le HX или HY-H(X,Y) \le 0.
    HY-H(X,Y) = -\sum_{i,j} p_{ij} \log_2 q_j +
\sum_{i,j} p_{ij} \log_2 p_{ij} = \sum_{i,j} p_{ij}
\log_2(p_{ij}/q_j),
    но p_{ij}=P(X=X_i,Y=Y_j) \le q_j=P(Y=Y_j), а значит аргументы у всех логарифмов не больше 1 и, следовательно, значения логарифмов не больше 0, а это и значит, что вся сумма не больше 0.

Если HX=I(X,X)=I(X,Y), то для каждого i p_{ij} равно либо q_j, либо 0. Но из p_{ij} = P(X=X_i,Y=Y_j) = P(X=X_i/Y=Y_j)P(Y=Y_j) \in \{q_j, 0\} следует P(X=X_i/Y=Y_j)\in \{0,1\}, что возможно только в случае, когда X - функция от Y.

При независимости случайных величин, X и Y одна из них ничем не описывает другую, что и отражается в том, что для таких случайных величин, I(X,Y)=0.

Рассмотрим пример измерения количества информации при подбрасывании двух игральных костей.

Пусть заданы дискретные случайные величины X_1, X_2 и Y. X_1 и X_2 - количества очков, выпавших соответственно на 1-й и 2-й игральной кости, а Y=X_1+X_2. Найти I(Y,X_1), I(X_1,X_1), I(Y,Y).

Законы распределения вероятностей для дискретной случайной величины X_1 и X_2 совпадают, т.к. кости одинаковые и без изъянов.

\centerline{\hbox{\vbox{\offinterlineskip\halign{&\strut\hfil\ #\ \hfil\cr
X_1& \vrule& 1& 2& 3& 4& 5& 6\cr
\noalign{\hrule}
p& \vrule& \span\span1/6\span\span\span\cr}}
\vbox{\hbox{, т.е. при j=1...6 q_j=P(X_1=j)=1/6.}}}}

Закон распределения вероятностей для дискретной случайной величины Y,

P(Y=i)=P(X_1+X_2=i),\quad i=2...12,
вследствие того, что X_1, X_2 - независимы и поэтому
P(X_1=n,X_2=m)=P(X_1=n)P(X_2=m),
будет
p_i=P(X_1+X_2=i)=\sum\limits_{n+m=i\atop1\le n,m\le6}P(X_1=n)
P(X_2=m)=\sum\limits_{n+m=i\atop1\le n,m\le6}1/36.

Таблицы, определяющие Y:

\smallskip
\setbox\bzero=\vbox{\offinterlineskip\halign{&\strut\hfil\ $#$\ \hfil\cr
_{X_2}\bs^{X_1}& \vrule& 1& 2& 3& 4& 5& 6\cr
\noalign{\hrule}
1& \vrule& 2& 3& 4& 5& 6& 7\cr
2& \vrule& 3& 4& 5& 6& 7& 8\cr
3& \vrule& 4& 5& 6& 7& 8& 9\cr
4& \vrule& 5& 6& 7& 8& 9& 10\cr
5& \vrule& 6& 7& 8& 9& 10& 11\cr
6& \vrule& 7& 8& 9& 10& 11& 12,\cr}}
\setbox\bone=\vbox{\offinterlineskip
\halign{&\strut\hfil\ $#$\ \hfil\cr
Y=X_1+X_2& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
p& \vrule& \xfrac1{36}& \xfrac2{36}& \xfrac3{36}& \xfrac4{36}&
     \xfrac5{36}& \xfrac6{36}& \xfrac5{36}& \xfrac4{36}&
     \xfrac3{36}& \xfrac2{36}& \xfrac1{36},\cr}}
\setbox\btwo=\hbox{\quad т.е.\ при $i=2...12$, $p_i=P(Y=i)=(6-|7-i|)/36$.}
\dzero=\wd\bzero \advance\dzero\wd\bone \advance\dzero1em
\box\bzero
\smallskip

\setbox\bone=\vbox{\offinterlineskip
\halign{&\strut\hfil\ $#$\ \hfil\cr
Y=X_1+X_2& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
p& \vrule& \xfrac1{36}& \xfrac2{36}& \xfrac3{36}& \xfrac4{36}&
     \xfrac5{36}& \xfrac6{36}& \xfrac5{36}& \xfrac4{36}&
     \xfrac3{36}& \xfrac2{36}& \xfrac1{36},\cr}}
\setbox\btwo=\hbox{\quad то есть при $i=2...12$, $p_i=P(Y=i)=(6-|7-i|)/36$.}
\dzero=\wd\bzero \advance\dzero\wd\bone \advance\dzero1em
\ifdim \dzero<\hsize \centerline{\hbox{\box\bzero \quad
\vbox{\box\bone \vskip4pt \box\btwo \copy\strutbox \copy\strutbox}}}
\else \centerline{\box\bzero}\smallskip \centerline{\box\bone}\smallskip 
\centerline{\box\btwo}\fi
\smallskip

Закон совместного распределения вероятностей дискретной случайной величины X_1 и Y будет

p_{ij}=P(Y=i,X_1=j)=P(Y=i/X_1=j)P(X_1=j),
например,
P(Y=2,X_1=1)=P(Y=2/X_1=1)P(X_1=1)=
=\fi
P(X_2=1)P(X_1=1)=1/36. В общем случае получится
p_{ij}=P(Y=i,X_1=j)=\begin{cases}1/36, &\text{при $1\le i-j\le6$,}\\
0, &\text{иначе.}\end{cases}

\centerline{\vbox{\offinterlineskip
\let~=\xfrac\halign{&\strut\ $#$\ \hfil\cr
_{X_1}\bs^Y& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
1& \vrule& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0& 0& 0\cr
2& \vrule& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0& 0\cr
3& \vrule& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0\cr
4& \vrule& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0\cr
5& \vrule& 0& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0\cr
6& \vrule& 0& 0& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}\cr}}}
\smallskip

Тогда

I(Y,X_1)=
\sum^6_{j=1}\sum_{1\le i-j\le6}p_{ij}\log_2{p_{ij}\over p_iq_j}=
={1\over36}\sum^6_{j=1}\sum_{1\le
i-j\le6}\log_2{1\over6p_i}=
={1\over36}(
\sum^7_{i=2}\log_2{1\over6p_i}+\sum^8_{i=3}\log_2{1\over6p_i}+\cdots+
\sum^{11}_{i=6}\log_2{1\over6p_i}+\sum^{12}_{i=7}\log_2{1\over6p_i})=
={1\over36}((\log_2{6\over1}+\log_2{6\over2}+\cdots+\log_2{6\over6})+
\cdots+(\log_2{6\over6}+\log_2{6\over5}+\cdots+\log_2{6\over1}))=
={1\over36}
(\underline{2\log_26}+4\log_23+6\log_22+8\log_2{3\over2}+10\log_2{6\over5}+
\underline{6\log_21})=
=(2+2\log_23+4\log_23+6+8\log_23-8+10\log_23+10-10\log_25)/36=
=(10+24\log_23-10\log_25)/36\approx0.69 \hbox{
бит/символ}.

I(X_1,X_1)=I(X_2,X_2)=-\sum^6_{j=1}q_j\log_2q_j=\log_26=
1+\log_23\approx2.58  \hbox{ бит/символ}.
I(Y,Y)=-\sum_{i=2}^{12}p_i\log_2p_i=
={1\over36}(2\log_236+4\log_218+6\log_212+8\log_29+10\log_2{36\over5}
+6\log_26)=
=(4+4\log_23+4+8\log_23+12+6\log_23+16\log_23+20+20\log_23-
10\log_25+\fi6+6\log_23)/36=
=\fi(46+60\log_23-10\log_25)/36
\approx 3.27 
\hbox{ бит/сим}.

Здесь 0 < I(Y,X_1)=I(Y,X_2) < I(X_1,X_1)=I(X_2,X_2) <
I(Y,Y), что соответствует свойствам информации.

Подчеркнутый член {1\over36}2\log_26 = I(X_1,X_1)/18 в расчете I(X_1,Y) соответствует информации о двух случаях из 36, когда Y=2 и Y=12, которые однозначно определяют X_1. Шесть случаев, когда Y=7, не несут никакой информации об X_1, что соответствует подчеркнутому члену 6\log_21 = 0.

Расчеты можно проводить, используя 4-е свойство информации, через энтропию.

H(Y,X_1) = -\sum_{i,j} p_{ij}\log_2 p_{ij} = \log_236 = 2(1+\log_23) 
= 2HX_1 \approx 5.17 \hbox{ бит/символ}.
I(Y,X_1) = HX_1+HY-H(X_1,Y)=HY-HX_1 \approx 
3.27-2.58=0.69 \hbox{ бит/символ}.

Расчет количества информации с использованием 4-го свойства, а не определения, обычно требует меньше вычислений.

< Лекция 2 || Лекция 3: 123 || Лекция 4 >
Евгений Плескач
Евгений Плескач
Беларусь, Минск
Xxxx Xxxx
Xxxx Xxxx
Россия