Базовые понятия теории информации
Вероятностный подход к измерению дискретной и непрерывной информации
В основе теории информации лежит предложенный Шенноном способ измерения количества информации, содержащейся в одной случайной величине, относительно другой случайной величины. Этот способ приводит к выражению количества информации числом.
Для дискретных случайных величин и
, заданных законами распределения
,
и совместным распределением
, количество информации, содержащейся в
относительно
, равно
![I(X,Y)=\sum_{i,j}p_{ij}\log_2{p_{ij}\over
p_iq_j}.](/sites/default/files/tex_cache/1aae7267358726aac5f8e734d1422a50.png)
Для непрерывных случайных величин, и
, заданных
плотностями распределения
вероятностей
,
и
, аналогичная формула
имеет вид
![I(X,Y)=\int\limits_{\quad\bR^2}\!\!\!\!\!
\int p_{XY}(t_1,t_2)\log_2{p_{XY}(t_1,t_2)\over
p_X(t_1)p_Y(t_2)}dt_1dt_2.](/sites/default/files/tex_cache/cc4636e80bb477aa824803164eff1784.png)
Очевидно, что
![\begin{align*}P(X=X_i,X=X_j) = \begin{cases}
0,&\text{при $i\ne j$}\\
P(X=X_i),&\text{при $i=j$}\end{cases}\end{align*}](/sites/default/files/tex_cache/301e6db9efd00046e04f1e4c410fbda2.png)
![I(X,X)=\sum_ip_i\log_2{p_i\over
p_ip_i}=-\sum_ip_i
\log_2p_i.](/sites/default/files/tex_cache/36f443cf946f215c1d75fd52156bf183.png)
Энтропия дискретной случайной величины в теории информации определяется
формулой
![H(X)=HX=I(X,X).](/sites/default/files/tex_cache/042dda509e5dab20e0827b34a530f82a.png)
Свойства меры информации и энтропии:
-
,
и
независимы;
-
;
-
- константа;
-
, где
;
-
. Если
, то
- функция от
. Если
- инъективная функция1Функция
- инъекция, если на разных значениях аргумента, она принимает разные значения. от
, то
.
- Логарифмированием из очевидного для всех
неравенства
(равенство устанавливается только при
) получается неравенство
или
.
т.е.только при
для всех
и
, т.е. при независимости
и
. Если
и
независимы, то
и, следовательно, аргументы логарифмов равны 1 и, следовательно, сами логарифмы равны 0, что означает, что
;
- Следует из симметричности формул относительно аргументов;
- Если
, то все члены суммы, определяющей
, должны быть нули, что возможно тогда и только тогда, когда
- константа;
- Из четырех очевидных соотношенийполучается
- Нужно доказать
или
.
но, а значит аргументы у всех логарифмов не больше 1 и, следовательно, значения логарифмов не больше 0, а это и значит, что вся сумма не больше 0.
Если , то для каждого
равно либо
,
либо 0. Но из
следует
, что возможно только в случае,
когда
- функция от
.
При независимости случайных величин, и
одна из них
ничем не описывает другую, что и отражается в том, что для таких случайных величин,
.
Рассмотрим пример измерения количества информации при подбрасывании двух игральных костей.
Пусть заданы дискретные случайные величины ,
и
.
и
- количества
очков, выпавших соответственно на 1-й и 2-й игральной кости, а
.
Найти
,
,
.
Законы распределения вероятностей для дискретной случайной величины и
совпадают, т.к. кости одинаковые и без изъянов.
![\centerline{\hbox{\vbox{\offinterlineskip\halign{&\strut\hfil\ #\ \hfil\cr
X_1& \vrule& 1& 2& 3& 4& 5& 6\cr
\noalign{\hrule}
p& \vrule& \span\span1/6\span\span\span\cr}}
\vbox{\hbox{, т.е. при j=1...6 q_j=P(X_1=j)=1/6.}}}}](/sites/default/files/tex_cache/1aaa7de6e618c479719afe1af06d3eb9.png)
Закон распределения вероятностей для дискретной случайной величины ,
![P(Y=i)=P(X_1+X_2=i),\quad i=2...12,](/sites/default/files/tex_cache/f256cefa96b0b8154451e18a65bd6671.png)
![X_1](/sites/default/files/tex_cache/0d5fa3f335333b23d4aaf795d1336587.png)
![X_2](/sites/default/files/tex_cache/e209e24a3d42a840c21481572570342f.png)
![P(X_1=n,X_2=m)=P(X_1=n)P(X_2=m),](/sites/default/files/tex_cache/19a0ec08bc51bc516f6a7c2e73735226.png)
![p_i=P(X_1+X_2=i)=\sum\limits_{n+m=i\atop1\le n,m\le6}P(X_1=n)
P(X_2=m)=\sum\limits_{n+m=i\atop1\le n,m\le6}1/36.](/sites/default/files/tex_cache/16eb44417da6f6a9fda69893251e83ec.png)
Таблицы, определяющие :
![\smallskip
\setbox\bzero=\vbox{\offinterlineskip\halign{&\strut\hfil\ $#$\ \hfil\cr
_{X_2}\bs^{X_1}& \vrule& 1& 2& 3& 4& 5& 6\cr
\noalign{\hrule}
1& \vrule& 2& 3& 4& 5& 6& 7\cr
2& \vrule& 3& 4& 5& 6& 7& 8\cr
3& \vrule& 4& 5& 6& 7& 8& 9\cr
4& \vrule& 5& 6& 7& 8& 9& 10\cr
5& \vrule& 6& 7& 8& 9& 10& 11\cr
6& \vrule& 7& 8& 9& 10& 11& 12,\cr}}
\setbox\bone=\vbox{\offinterlineskip
\halign{&\strut\hfil\ $#$\ \hfil\cr
Y=X_1+X_2& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
p& \vrule& \xfrac1{36}& \xfrac2{36}& \xfrac3{36}& \xfrac4{36}&
\xfrac5{36}& \xfrac6{36}& \xfrac5{36}& \xfrac4{36}&
\xfrac3{36}& \xfrac2{36}& \xfrac1{36},\cr}}
\setbox\btwo=\hbox{\quad т.е.\ при $i=2...12$, $p_i=P(Y=i)=(6-|7-i|)/36$.}
\dzero=\wd\bzero \advance\dzero\wd\bone \advance\dzero1em
\box\bzero
\smallskip](/sites/default/files/tex_cache/4068fee5969d6aeac34e6747d0d423e4.png)
![\setbox\bone=\vbox{\offinterlineskip
\halign{&\strut\hfil\ $#$\ \hfil\cr
Y=X_1+X_2& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
p& \vrule& \xfrac1{36}& \xfrac2{36}& \xfrac3{36}& \xfrac4{36}&
\xfrac5{36}& \xfrac6{36}& \xfrac5{36}& \xfrac4{36}&
\xfrac3{36}& \xfrac2{36}& \xfrac1{36},\cr}}
\setbox\btwo=\hbox{\quad то есть при $i=2...12$, $p_i=P(Y=i)=(6-|7-i|)/36$.}
\dzero=\wd\bzero \advance\dzero\wd\bone \advance\dzero1em
\ifdim \dzero<\hsize \centerline{\hbox{\box\bzero \quad
\vbox{\box\bone \vskip4pt \box\btwo \copy\strutbox \copy\strutbox}}}
\else \centerline{\box\bzero}\smallskip \centerline{\box\bone}\smallskip
\centerline{\box\btwo}\fi
\smallskip](/sites/default/files/tex_cache/ddb9dad0d4643a9170ff868f9258e830.png)
Закон совместного распределения вероятностей дискретной случайной величины и
будет
![p_{ij}=P(Y=i,X_1=j)=P(Y=i/X_1=j)P(X_1=j),](/sites/default/files/tex_cache/242cf7dc4833360fd8f40155acef0cd4.png)
![P(Y=2,X_1=1)=P(Y=2/X_1=1)P(X_1=1)=](/sites/default/files/tex_cache/1a680812e0a1325538227ca0959e3d17.png)
![=\fi
P(X_2=1)P(X_1=1)=1/36](/sites/default/files/tex_cache/298e1429cfcf93025c667d4a5406cd82.png)
![p_{ij}=P(Y=i,X_1=j)=\begin{cases}1/36, &\text{при $1\le i-j\le6$,}\\
0, &\text{иначе.}\end{cases}](/sites/default/files/tex_cache/82cff55ce148bf95fc0e60dbec5ef32b.png)
![\centerline{\vbox{\offinterlineskip
\let~=\xfrac\halign{&\strut\ $#$\ \hfil\cr
_{X_1}\bs^Y& \vrule& 2& 3& 4& 5& 6& 7& 8& 9& 10& 11& 12\cr
\noalign{\hrule}
\omit& \omit\ \vrule height1pt\hfil\cr
1& \vrule& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0& 0& 0\cr
2& \vrule& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0& 0\cr
3& \vrule& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0& 0\cr
4& \vrule& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0& 0\cr
5& \vrule& 0& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& 0\cr
6& \vrule& 0& 0& 0& 0& 0& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}& ~1{36}\cr}}}
\smallskip](/sites/default/files/tex_cache/d4fb7ee136d5c7f49c7da3cdc394e16d.png)
Тогда
![I(Y,X_1)=
\sum^6_{j=1}\sum_{1\le i-j\le6}p_{ij}\log_2{p_{ij}\over p_iq_j}=](/sites/default/files/tex_cache/4553007c1ca702b4ac214f4989f6be98.png)
![={1\over36}\sum^6_{j=1}\sum_{1\le
i-j\le6}\log_2{1\over6p_i}=](/sites/default/files/tex_cache/fbcbff1a06474ba021cbe25d5bcdaaef.png)
![={1\over36}(
\sum^7_{i=2}\log_2{1\over6p_i}+\sum^8_{i=3}\log_2{1\over6p_i}+\cdots+
\sum^{11}_{i=6}\log_2{1\over6p_i}+\sum^{12}_{i=7}\log_2{1\over6p_i})=](/sites/default/files/tex_cache/c61f98ae2532c61576026ad0e17d7a5b.png)
![={1\over36}((\log_2{6\over1}+\log_2{6\over2}+\cdots+\log_2{6\over6})+
\cdots+(\log_2{6\over6}+\log_2{6\over5}+\cdots+\log_2{6\over1}))=](/sites/default/files/tex_cache/73545be9686e72cdee7470c129c8f9e0.png)
![={1\over36}
(\underline{2\log_26}+4\log_23+6\log_22+8\log_2{3\over2}+10\log_2{6\over5}+
\underline{6\log_21})=](/sites/default/files/tex_cache/773164b2bef7beb4575dd7005c5a54b6.png)
![=(2+2\log_23+4\log_23+6+8\log_23-8+10\log_23+10-10\log_25)/36=](/sites/default/files/tex_cache/bdf7e51ac902d7d62e1dfb655f863a6e.png)
![=(10+24\log_23-10\log_25)/36\approx0.69 \hbox{
бит/символ}.](/sites/default/files/tex_cache/3f74a0858ae9d4b98b1bc7220edc6a33.png)
![I(X_1,X_1)=I(X_2,X_2)=-\sum^6_{j=1}q_j\log_2q_j=\log_26=
1+\log_23\approx2.58 \hbox{ бит/символ}.](/sites/default/files/tex_cache/29bc2bb4e9a8851835f0e483bbd25ca5.png)
![I(Y,Y)=-\sum_{i=2}^{12}p_i\log_2p_i=](/sites/default/files/tex_cache/870718b70502334d4cd64d6407831ae7.png)
![={1\over36}(2\log_236+4\log_218+6\log_212+8\log_29+10\log_2{36\over5}
+6\log_26)=](/sites/default/files/tex_cache/840f7ed8c530db7557d07cc2f88ae00c.png)
![=(4+4\log_23+4+8\log_23+12+6\log_23+16\log_23+20+20\log_23-
10\log_25+\fi6+6\log_23)/36=](/sites/default/files/tex_cache/192e16275258947d901123d15317f365.png)
![=\fi(46+60\log_23-10\log_25)/36
\approx 3.27
\hbox{ бит/сим}.](/sites/default/files/tex_cache/9ef1d0bef50dd4a090a730399c4f6f6b.png)
Здесь , что соответствует свойствам информации.
Подчеркнутый член в расчете
соответствует информации о двух случаях из 36, когда
и
, которые однозначно определяют
. Шесть случаев, когда
, не несут никакой информации об
, что соответствует подчеркнутому члену
.
Расчеты можно проводить, используя 4-е свойство информации, через энтропию.
![H(Y,X_1) = -\sum_{i,j} p_{ij}\log_2 p_{ij} = \log_236 = 2(1+\log_23)
= 2HX_1 \approx 5.17 \hbox{ бит/символ}.](/sites/default/files/tex_cache/fce5fbaa5562d1ed880de156c860dfb1.png)
![I(Y,X_1) = HX_1+HY-H(X_1,Y)=HY-HX_1 \approx
3.27-2.58=0.69 \hbox{ бит/символ}.](/sites/default/files/tex_cache/7cfb315cae1ad71d9c5da5e8edf0c773.png)
Расчет количества информации с использованием 4-го свойства, а не определения, обычно требует меньше вычислений.