Экстернат |
Особенности и алгоритмы кодирования голоса
Около 25 лет назад в области музыки появилось новое направление – синтетическая музыка (ярким представителем которой является, например, Жан Мишель Жарр). Это относится как к композиторской, так и к исполнительской деятельности. Зафиксированы даже случаи, когда профессиональные музыканты требовали запретить исполнение музыки электронными средствами во время концертов. Здесь, как и в случае использования фонограмм певцами, присутствия исполнителя на сцене не требуется.
Для улучшения качества передачи низких частот в дополнение к суб-диапазонным фильтрам используется быстрое Фурье-преобразование ( FFT ). Результирующая частота бит при передаче звуковых данных оказывается непостоянной. Практическое измерение показывает, что частота редко превышает 110 Кбит/с, а применение 128 кбит/с делает качество воспроизведения неотличимым от CD. Ограничение скорости на уровне 64 Кбит/с вносит лишь незначительные искажения.
Несколько лет назад (в начале 1990-х) появился новый вид услуг в Интернете – голосовая связь (IP-Phone, VocalTec). Сегодня 30 миллионов абонентов регулярно пользуются IP-phone и его аналогами, до конца текущего десятилетия их число увеличится до 200 миллионов, а качество голосовой связи постепенно приближается к уровню цифровой телефонии.
Среди пользователей есть те, для кого это лишь возможность общения, как для радиолюбителей; но все больше людей использует IP-phone для деловых контактов или даже как объект бизнеса.
Существуют два алгоритма сжатия звуковой информации, используемых для IP-телефонных переговоров: GSM (Global System for Mobile communications, ftp://ftp.cs.tu-berlin.de/pub/local/kbs/tubmik/gsm), которая обеспечивает коэффициент сжатия 5, и алгоритм DSP-группы (True Speech) с коэффициентом сжатия данных 18 (работает при частотах 7,7 Кбит/с). Добавление аппаратных средств сжатия информации позволяет сократить необходимую полосу до 6,2 Кбит/с. Потеря 2-5% пакетов остается незамеченной, 20% оставляет разговор понятным. В таблице 2.1 представлена зависимость необходимой полосы телекоммуникационного канала от частоты стробирования звукового сигнала, которая определяет качество воспроизведения.
Пропускная способность [бит/с] | Частота стробирования [1/с] |
---|---|
9600 | 4000 |
14400 | 6000 |
19200 | 8000 |
28800 | 11000 |
Для подключения к сети IP-phone необходима мультимедийная карта, микрофон, динамики (или наушники), 8 Мбайт оперативной памяти, доступ к Интернету и соответствующее программное обеспечение. Качество передачи звука зависит от загруженности IP-канала. В качестве транспорта используется протокол UDP. Для обеспечения высокого качества звука нужна гарантированная ширина IP-канала, ведь задержанные сверх меры UDP-дейтограммы теряются безвозвратно, что и приводит к искажениям. Внедрение протоколов, гарантирующих определенную ширину канала, сделают IP-phone значительно более привлекательным. Многие компании уже предлагают такое оборудование и программы.
В последнее время технология передачи звука по каналам Интернет стала широко использоваться для трансляции новостей и музыки. При этом обеспечивается вполне удовлетворительное качество даже при передаче стереопрограмм. В этом случае имеется возможность применить более эффективное сжатие информации и протоколы типа RTP и RTCP. Задержка при передаче в этом случае никакого значения не имеет, а качество доставки гарантировано.
Современные системы IP-телефонии снабжены гибкой системой буферов, позволяющих использовать для передачи паузы, когда один из партнеров молчит. Дополнительные возможности открывают технологии предоставления гарантированного качества обслуживания (DiffServ или IntServ в рамках протоколов MPLS-TE или RSVP-TE).
В настоящее время имеется практически полный набор технологий, чтобы создать электронную книгу. Такая книга будет представлять собой систему размером с ноутбук (или даже миниатюрнее), снабженную устройством для чтения CD-дисков. Текст книги вместе с иллюстрациями и необходимыми командными последовательностями записывается на CD. При этом в перспективе можно рассматривать возможность того, что такое устройство будет читать "книгу" вслух (вывод на наушники).
В настоящее время имеется достаточно большое количество книг, записанных на CD. Это прежде всего энциклопедические словари, альбомы музеев, Библия и многие другие. Существуют обширные библиотеки художественной литературы в Интернете. Преимущество такой формы книги уже сегодня ощутимо – вы можете использовать современные поисковые средства, чтобы найти нужный раздел или какую-то конкретную информацию. По мере развития этой технологии и интеграции ее с сетями можно будет осуществлять поиск не только по данной книге, но и по книгам или журналам, ссылки на которые в данной книге содержатся, — это может быть особенно полезно при первичном знакомстве с какой-то проблемой. Этому способствует и появление электронных аналогов практически всех научных журналов и многих газет. Я здесь не говорю о компактности, а в перспективе — и долговечности такой формы записи информации.
При звуковом воспроизведении читатель сможет выбирать, голосом какого актера или актеров будет читаться данная книга. Разумеется, актерам не потребуется начитывать данный текст — эту работу на себя возьмет машина.
Достаточно иметь запись характерных особенностей и интонаций конкретного голоса, и процессор сам при генерации звука будет использовать голосовые особенности того или иного человека.
Немного фантазии, и можно будет представить, как ЭВМ будет воспроизводить текст в виде фильма, который она сгенерировала по выданному ей тексту (ведь сгенерирован же на ЭВМ корабль "Титаник" и море, по которому он плывет). Аналогичные услуги смогут оказываться и через сеть Интернет. Наибольшие трудности вызовет реализация качественного воспроизведения. Программы, способные преобразовывать символьный текст в голос, уже существуют. Проблема распознавания индивидуального голоса давно решена в охранных системах. Осталось научиться использовать результаты такого анализа при воспроизведении.
Активно внедряются новые стандарты и протоколы для обеспечения передачи звука по IP-каналам, проведения видеоконференций и управления в реальном масштабе времени. К таким протоколам относятся RTP (Real Time Protocol, RFC-1889, -1890), RTCP (Real-Time Control Protocol), который является дополнением RTP, и RSVP (Resource ReSerVation Protocol, см. разделы проектов IETF http://nic.nordu.net, ftp://ftp.isi.edu, http://munnari.oz.au и http://ds.internic.net или ftp://ftp.ietf.org/internet-drafts/draft-ietf-rsvp-spec-16.txt), служащий для обеспечения своевременной доставки данных при работе в реальном времени, а также MPLS-TE. Протокол RTP способен работать не только в UDP/IP, но и в сетях CLNP, ATM и IPX. Он обеспечивает детектирование потерь, идентификацию содержимого, синхронизацию и безопасность (доступ по шифрованному паролю, см. RFC-1423). Проблема синхронизации при передаче звука особенно важна, так как даже для локальных сетей время доставки пакетов может варьироваться в весьма широких пределах из-за используемого алгоритма доступа (например, CSMA/CD), а это приводит к искажениям при воспроизведении. Протоколы RTP и RTCP позволяют одновременное голосовое общение большого числа людей в рамках сети Интернет. Протокол же RSVP (или MPLSTE) в случае внедрения гарантирует качество связи (разумеется, при достаточной широкополосности канала) за счет повышения приоритета пакетов реального времени. Следует иметь в виду, что голосовое общение хотя и весьма привлекательно, однако не является единственной и даже главной целью разработчиков. По мере совершенствования протоколов Интернет сделает возможным управление в реальном масштабе времени довольно сложными удаленными объектами.
При внедрении IP-телефонии желательно, чтобы сетевая инфраструктура обеспечивала:
- время задержки в одну сторону менее 100 мс;
- вероятность потери пакета менее 5%;
- оборудование должно соответствовать требованиям h.323v2, а механизмы безопасности — стандарту h.235;
- наличие функции привратника в маршрутизаторе/шлюзе (блокирует установку новых телефонных соединений при отсутствии необходимых ресурсов).
Одна из возможных реализаций IP-телефонии показана на рис. 2.6 ( MVW – Multiflex Voice/WAN модуль, включаемый в маршрутизатор).
Связь может осуществляться как с традиционной старой аналоговой телефонной сетью, так и с ISDN. Телефонные аппараты могут подключаться непосредственно к интерфейсу маршрутизатора, к сетевой рабочей станции или к специальному сетевому адаптеру. При построении подобной системы следует непременно реализовать функцию h.323 (Gatekeeper — привратник). Это позволит блокировать бесконтрольное и неэффективное использование ресурсов сети.
Для передачи информации на большие расстояния в настоящее время используются исключительно электромагнитные волны (акустические волны пригодны лишь для ограниченных расстояний, например под водой). При этом пересылка может осуществляться по медным проводам, оптоволоконному кабелю или непосредственно, по схеме "передатчик-приемник". В последнем случае используются антенны. Для того чтобы антенна была эффективна, ее размеры должны быть сравнимы с длиной передаваемой волны. Чем шире динамический диапазон передаваемых частот, тем труднее сделать антенну, пригодную для решения этой задачи. Именно по этой причине для передачи используются частоты, начиная с многих сотен килогерц и выше (длина волн — сотни метров и меньше). Передача сигнала непосредственно по лучу лазера ограничена расстояниями 100-5000 м и становится неустойчивой даже для инфракрасного диапазона волн при наличии осадков.
Между тем человек воспринимает акустические колебания в области 20-12000 Гц, и для целей пересылки звука (например, телефонии) требуется именно этот диапазон частот. Динамический диапазон частот в этом случае равен 600, а для высококачественного воспроизведения звука он в два раза шире. При решении этой проблемы используется преобразование частот и различные методы модуляции. Так, тот же частотный диапазон, лежащий в пределах 100,0 — 00,012 МГц, соответствует динамическому частотному диапазону 0,012%, что позволяет сделать компактную антенну и упростить частотное выделение сигнала.
На рис. 2.7 показана зависимость ослабления от частоты передаваемого сигнала для медной линии с сечением 0,5 мм.
От частоты зависит фаза (из расчета на километр) и волновое сопротивление скрученной пары (см. рис. 2.8); по этой причине искажения формы сигнала при заметной длине линии неизбежны.
Из формулы (1.1) видно, что расширять пропускную способность канала можно за счет широкополосности и высокого отношения "сигнал-шум". Существует много источников шума, один из главных — тепловые шумы ( N = kTB, где T — температура в градусах Кельвина, B — полоса пропускания приемника, а k — постоянная Больцмана). Этот вид шума вносит наибольший вклад в области высоких частот. Данное обстоятельство иногда позволяет улучшить отношение "сигнал/шум", подавив высокочастотную составляющую. На практике часто существенно большее влияние оказывают различного рода наводки. Увеличение пропускной способности сети достигается путем сокращения длины кабеля (уменьшение расстояния между узлами сети), заменой типа кабеля, например на провод с большим сечением, или применением оптоволоконного кабеля. Определенный эффект может быть получен и с помощью усовершенствованной системы шумоподавления (новый, более эффективный модем).