Материал предоставлен http://it.rfet.ru

Условная энтропия

Найдем энтропию сложного опыта %%α \wedge β%% в том случае, если опыты не являются независимыми, т.е. если на исход β оказывает влияние результат опыта α. Например, если в ящике всего два разноцветных шара и α состоит в извлечении первого, а %%β%% - второго из них, то а полностью снимает неопределенность сложного опыта %%α \wedge β%%, т.е. оказывается

%%Н(α \wedge β) = H(α)%%, a не сумме энтропии, как следует из (2.5).

Связь между %%α%% и %%β%% состоит в том, что какие-то из исходов %%A(α)%% могут оказывать влияние на исходы из %%В(β)%%, т.е. некоторые пары событий %%A_i \wedge B_j%% не являются независимыми. Но тогда в (2.6) %%p(A_i \wedge B_j)%% не следует заменять произведением вероятностей:

$$p(A_i \wedge B_j)=p(A_i)\cdot p_{A_i}(B_j)$$

где - %%p_{A_i}(B_j)%% вероятность наступления исхода %%В%%, при условии, что в первом опыте имел место исход %%А_i%%.

Тогда %%log_2 p(A_i \wedge B_j) = log_2 p(A_i)+log_2 p_{A_i}(B_j)%%

При подстановке в (2.6) получаем:

$$ H(α \wedge β) = -\sum^{n}_{i=1}\sum^{m}_{j=1}{p(A_i)p_{A_i}(B_j)\cdot (log_2 p(A_i)+log_2 p_{A_i}(B_j))}=$$ $$=-\sum^{n}_{i=1}\sum^{m}_{j=1}{p(A_i)p_{A_i}(B_j)\cdot log_2 p(A_i)} -\sum^{n}_{i=1}\sum^{m}_{j=1}{p(A_i)p_{A_i}(B_j)\cdot log_2 p_{A_i}(B_j)} $$

В первом слагаемом индекс %%j%% имеется только у %%B%%; изменив порядок суммирования, получим члены вида:

$$\sum^{m}_{j=1}{p_{A_i}(B_j)}$$ Однако,

$$\sum^{m}_{j=1}{p_{A_i}(B_j)} = p_{A_i}(B_j) (\sum^{m}_{j=1}{B_j})$$

образует достоверное событие (какой-либо из исходов опыта β все равно реализуется). Следовательно, первое слагаемое оказывается равным:

$$-\sum^{n}_{i=1}{p_{A_i}(B_j)log_2 p_{A_i}(B_j)}= Н_{A_i}(α)$$

Во втором слагаемом члены вида

$$\sum^{m}_{j=1}{p_{A_i}(B_j)log_2 p_{A_i}(B_j)}= Н_{A_i}(β)~~~(2.8)$$

имеют смысл энтропии опыта %%β%% при условии, что в опыте %%α%% реализовался исход %%А_i%% - будем называть ее условной энтропией. Если ввести данное понятие и использовать его обозначение, то второе слагаемое будет иметь вид:

$$\sum^{n}_{i=1}{p_{A_i} \cdot Н_{A_i}(β)} = Н_α (β)~~~~~~~(2.9)$$

где %%H_α(β)%% есть средняя условная энтропия опыта %%β%% при условии выполнении опыта %%α%%. Окончательно получаем для энтропии сложного опыта:

$$ Н(α \wedge β) = Н(α)+Н_α (β)~~~~~~~(2.10)$$

Полученное выражение представляет собой общее правило нахождения энтропии сложного опыта. Совершенно очевидно, что выражение (2.5) является частным случаем (2.10) при условии независимости опытов α и β.

Относительно условной энтропии можно высказать следующие утверждения:

  1. Условная энтропия является величиной неотрицательной. %%H_α(β) = 0%% только в том случае, если любой исход α полностью определяет исход %%β%%. В этом случае %%Н(α \wedge β) = Н(α)%%.
  2. Если опыты %%α%% и %%β%% независимы, то %%Н_α(β) = Н(β)%%, причем это оказывается наибольшим значением условной энтропии. Другими словами, опыт %%α%% не может повысить неопределенность опыта %%β%%; он может либо не оказать никакого влияния (если опыты независимы), либо понизить энтропию %%β%%.

Приведенные утверждения можно объединить одним неравенством:

$$0 \leqslant Н_α (β) \leqslant Н (β)~~~~(2.11)$$

т.е. условная энтропия не превосходит безусловную.

3. Из соотношений (2.10) и (2.11) следует, что

$$Н(α \wedge β) \leqslant Н(α) +H( β)$$

причем равенство реализуется только в том случае, если опыты %%α%% и %%β%% независимы.

Пример. Имеется три тела с одинаковыми внешними размерами, но с разными массами %%х_1, х_2 и х_3%%. Необходимо определить энтропию, связанную с нахождением наиболее тяжелого из них, если сравнивать веса тел можно только попарно.

Последовательность действий достаточно очевидна: сравниваем вес двух любых тел, определяем из них более тяжелое, затем с ним сравниваем вес третьего тела и выбираем наибольший из них. Поскольку внешне тела неразличимы, выбор номеров тел при взвешивании будет случаен, однако общий результат от этого выбора не зависит. Пусть опыт ее состоит в сравнении веса двух тел, например, 1-го и 2-го. Этот опыт, очевидно, может иметь два исхода: %%А_1 – х_1 > х_2%%; его вероятность %%р(А_1) = 1/2%%; исход %%А_2 - x_1 < х_2%%; также его вероятность %%р(А_2) = 1/2%%.

$$Н(α)=-\frac{1}{2} log_2 \frac{1}{2}--\frac{1}{2} log_2 \frac{1}{2}=1 \;бит$$

Опыт %%β%% - сравнение весов тела, выбранного в опыте %%α%%, и 3-го - имеет четыре исхода: %%B_1, - х_1 > х_3, B_2 – х_1 < х_3, B_3 - х_2 > х_3, В_4 - х_2 < х_3;%% вероятности исходов зависят от реализовавшегося исхода %%α%% - для удобства представим их в виде таблицы:

-%%B_1%%%%B_2%%%%B_3%%%%B_4%%
%%A_1%%%%\frac{1}{2}%%%%\frac{1}{2}%%00
%%A_1%%00%%\frac{1}{2}%%%%\frac{1}{2}%%

Вновь, воспользовавшись формулами (2.8) и (2.9) находим:

$$Н_{A_1}(β)=-\frac{1}{2} log_2 \frac{1}{2}--\frac{1}{2} log_2 \frac{1}{2}=1 \;бит$$ $$Н_{A_2}(β)=-\frac{1}{2} log_2 \frac{1}{2}--\frac{1}{2} log_2 \frac{1}{2}=1 \;бит$$ $$Н_α(β)=p(A_1)\cdot Н_{A_1}(β) + p(A_2)\cdot Н_{A_2}(β)=\frac{1}{2}\cdot 1+ \frac{1}{2} \cdot 1=1\; бит$$

Следовательно, энтропия сложного опыта, т.е. всей процедуры испытаний:

$$Н(α \wedge β) = Н(α) +H_α( β)=2\;бит$$

Свойства энтропииЭнтропия и информация