НОУ ИНТУИТ | Практикум по методам построения алгоритмов. Лекция 12: Оптимальное кодирование

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 08.04.2009 | Уровень: для всех | Доступ: платный

|

Вам нравится? Нравится 24 студентам

| Поделиться |

Поддержать программу

Ключевые слова: t-бит, байт, алфавит, символ, буква, код алфавита, функция, таблица, слово, кодовое слово, код символа, двоичное слово, декодирование, ПО, однозначный код, бит, префиксный код, символ алфавита, частота, средняя длина кода, длина, кодирование, неравенство, неравенство Крафта Макмиллана, неравенство Крафта-Макмиллана, отрезок, пользователь, место, неравенство Крафта, свободное пространство, объединение, остаток, выражение, многочлен, Произведение, произвольное, натуральное число, порядок переменных, равенство, основание, минимум, оптимальность, код Хаффмена, сортировка, дерево, ребро, погрешность, энтропия Шеннона, единица, код Шеннона-Фано, целое число, симплекс, градиент, разность, значение, ZIP, программа, файл

12.1. Коды

Имея 2^n символов, мы можем кодировать каждый из них битами, поскольку существует 2^n комбинаций из битов. Например, можно закодировать 4=2^2 символа А, Г, Т, Ц (используемые при записи геномов) двухбитовыми комбинациями , , и . Другой пример: последовательностями из битов (байтами) можно закодировать 256 символов (и этого хватает на латинские и русские буквы, знаки препинания и др.).

Более формально: пусть нам дан алфавит, то есть конечное множество, элементы которого называются символами или буквами этого алфавита. Кодом для алфавита называется функция (таблица) $\alpha$ , которая для каждого символа из указывает двоичное слово $\alpha(a)$ , называемое кодовым словом, или просто кодом этого символа. ( Двоичное слово - конечная последовательность нулей и единиц.) Не требуется, чтобы коды всех символов имели равные длины.

Мы допускаем, чтобы разные символы имели одинаковые коды. Согласно нашему определению, разрешается все буквы алфавита закодировать словом (и даже пустым словом) - но, конечно, такой код будет бесполезен. Хороший код должен позволять декодирование (восстановление последовательности символов по ее коду).

Формально это определяется так. Пусть фиксирован алфавит и код $\alpha$ для этого алфавита. Для каждого слова в алфавите (то есть для любой конечной последовательности букв алфавита ) рассмотрим двоичное слово $\alpha(P)$ , которое получается, если записать подряд коды всех букв из (без каких-либо разделителей). Код $\alpha$ называется однозначным, если коды различных слов различны: $\alpha(P)\ne \alpha(P')$ при $P\ne P'$ .

12.1.1. Рассмотрим трехбуквенный алфавит $\{a,b,c\}$ и код $\alpha(a)=0$ , $\alpha(b)=01$ и $\alpha(c)=00$ . Будет ли этот код однозначным?

Решение. Нет, поскольку слова и кодируются одинаково.

12.1.2. Для того же алфавита рассмотрим код $\alpha(a)=0$ , $\alpha(b)=10$ и $\alpha(c)=11$ . Будет ли этот код однозначным?

Решение. Будет. Чтобы доказать это, достаточно объяснить, как можно восстановить слово по его коду $\alpha(P)$ . Если $\alpha(P)$ начинается с нуля, то ясно, что слово начинается с . Если $\alpha(P)$ начинается с единицы, то слово начинается с или с - чтобы узнать, с чего именно, достаточно посмотреть на второй бит слова $\alpha(P)$ . Восстановив первую букву слова , мы забываем о ней и о ее коде, и продолжаем все сначала.

Верно и более общее утверждение. Назовем код префиксным, если коды букв не являются началами друг друга (слово $\alpha(p)$ не является началом слова $\alpha(q)$ , если буквы и различны).

12.1.3. Доказать, что любой префиксный код является однозначным.

Решение. Декодирование можно вести слева направо. Первая буква восстанавливается однозначно: если для двух букв и слова $\alpha(p)$ и $\alpha(q)$ являются началами кода, то одно из слов $\alpha(p)$ и $\alpha(q)$ является началом другого, что невозможно для префиксного кода. И так далее.

12.1.4. Привести пример однозначного кода, не являющегося префиксным.

Указание. Пусть $\alpha(a)=0$ , $\alpha(b)=01$ , $\alpha(c)=11$ . Этот код является "суффиксным", но не префиксным.

12.1.5. Найти таблицу для азбуки Морзе. Объяснить, почему ее можно использовать на практике, хотя она не является ни префиксным, ни даже однозначным кодом.

Дальше >>

Практикум по методам построения алгоритмов

Практикум по методам построения алгоритмов

Оптимальное кодирование

12.1. Коды

Вопросы и ответы

Студенты

Авторизоваться

Практикум по методам построения алгоритмов

Практикум по методам построения алгоритмов

Оптимальное кодирование

12.1. Коды

Вопросы и ответы

Студенты