Опубликован: 13.08.2008 | Уровень: специалист | Доступ: свободно | ВУЗ: Московский государственный технический университет им. Н.Э. Баумана
Лекция 3:

Передача речи по IP-сети

< Лекция 2 || Лекция 3: 123 || Лекция 4 >

3.5. Эхо, устройства ограничения его влияния

Феномен эха вызывает затруднения при разговоре и у говорящего, и у слушающего. Говорящий слышит с определенной задержкой свой собственный голос. Если сигнал отражается дважды, то слушающий дважды слышит речь говорящего (второй раз - с ослаблением и задержкой).

В телефонных сетях существуют два вида эха:

  • Эхо говорящего. Когда абонент говорит по телефону и слышит собственный голос, такое явление называется эхом говорящего.
  • Эхо слушающего. Когда абонент слышит голос собеседника дважды, то такая ситуация называется эхом слушателя.

В той или иной степени эхо присутствует всегда. Однако серьезной проблемой оно становится только при большой громкости. Эхо также представляет собой проблему в том случае, когда интервал между моментом, когда абонент говорит, и моментом появления отраженного сигнала становится достаточно большим. Если абонент слушает речь собеседника, то эхо мешает пониманию разговора - речь собеседника звучит в трубке дважды.

Эхо может иметь электрическую и акустическую природу.

Отражения часто проявляются при взаимодействии ТфОП и IP-сетей.

С целью экономии кабеля в ТфОП для подключения абонентских терминалов с давних пор используются двухпроводные линии, по которым речевые сигналы передаются в обоих направлениях. Более того, во многих телефонных сетях передача сигналов обоих направлений по двум проводам применяется и в соединительных линиях между электромеханическими АТС (хотя теперь для организации связи между АТС все чаще используется раздельная передача сигналов разных направлений, то есть четырехпроводная схема их передачи). Для разделения сигналов разных направлений в терминалах абонентов (телефонных аппаратах) и на АТС применяются простые мостовые схемы, называемые дифсистемами. Работа этих мостовых схем основывается на согласовании импедансов в плечах моста, одним из плеч которого является двухпроводная абонентская линия. Так как абонентские линии могут очень сильно различаться по своим параметрам (длине, диаметру жил кабеля и т. п.), то достичь точного согласования (тем более во всей полосе передаваемых частот) невозможно. Вместо этого администрация связи вынуждена ориентироваться на некоторую среднюю величину импеданса для всех абонентских линий своей национальной сети. Это приводит к тому, что сигналы прямого и обратного направления в большинстве случаев не разделяются полностью, и в дифсистеме сохраняется частичное отражение сигналов.

Если задержка распространения сигнала в сети невелика (что обычно и бывает в местных сетях), такой отраженный сигнал попросту незаметен и не вызывает неприятных ощущений. Если задержка достигает величины 15-20 мс, возникает эффект "огромного пустого помещения". При дальнейшем увеличении задержки субъективная оценка качества разговора резко ухудшается, вплоть до полной невозможности продолжать беседу.

В рамках ТфОП проблема такого эха известна с тех самых пор, когда телефонная сеть стала настолько протяженной, что задержки распространения сигналов перестали быть неощутимыми. Были разработаны и методы борьбы с этим феноменом - от минимизации задержек путем соответствующего планирования сети до применения эхозаградителей и эхокомпенсаторов. Как мы уже видели выше, задержки, свойственные процессам передачи речи по IP-сетям, таковы, что не оставляют выбора и делают механизмы, ограничивающие эффект эха, обязательными в любом оборудовании IP-телефонии.

Акустическое эхо возникает при пользовании терминалами громкоговорящей связи независимо от того, какая технология используется в них для передачи информации. Акустическое эхо может обладать значительной длительностью, а особенно неприятным бывает изменение его характеристик при смене, например, взаимного расположения терминала и говорящего или даже появления других людей в помещении. Эти обстоятельства делают построение устройств эффективного подавления акустического эха очень непростой задачей.

Существуют два типа устройств, предназначенных для ограничения вредных эффектов эха: эхозаградители и эхокомпенсаторы.

Эхозаградители появились в начале 70-х годов. Принцип их работы прост и состоит в отключении канала передачи, когда в канале приема присутствует речевой сигнал. Такая техника широко используется в дешевых телефонных аппаратах с громкоговорящей связью (speakerphones), однако простота не обеспечивает нормального качества связи - перебить говорящего становится невозможно, т. е. связь, по сути, становится полудуплексной.

Эхокомпенсатор - это более сложное устройство, которое моделирует эхо-сигнал для последующего его вычитания из принимаемого сигнала. Эхо моделируется как взвешенная сумма задержанных копий входного сигнала или, иными словами, как свертка входного сигнала с оцененной импульсной характеристикой канала. Оценка импульсной характеристики происходит в тот момент, когда говорит только удаленный корреспондент, для чего используется детектор одновременной речевой активности. После вычитания синтезированной копии эхо-сигнала из сигнала обратного направления полученный сигнал подвергается нелинейной обработке для увеличения степени подавления эха (подавление очень слабых сигналов).

Поскольку эхо моделируется только как линейный феномен, любые нелинейные процессы на пути его возникновения приводят к ухудшению работы эхокомпенсатора. Использование более сложных алгоритмов позволяет подавлять эхо, представляющее собой не только задержанный, но и сдвинутый по частоте сигнал, что часто происходит из-за наличия в ТфОП устаревших частотных систем передачи. Реализация таких алгоритмов необходима для успешного функционирования эхокомпенсаторов в телефонных сетях на территории России и бывшего СССР, и поэтому алгоритмы эхокомпенсации в российском оборудовании IP-телефонии на базе, например, интеллектуальной платформы Протей-IP разработаны именно с учетом сдвига эха по частоте.

Эхокомпенсатор должен хранить амплитуды эхо-сигналов, задержанных на время от нуля до продолжительности самого длительного подавляемого эхо-сигнала. Это значит, что эхокомпенсаторы, рассчитанные на подавление более длительных эхо-сигналов, требуют для своей реализации большего объема памяти и большей производительности процессора. Таким образом, выгодно помещать эхокомпенсаторы "максимально близко", в смысле задержки, к источнику эха.

По изложенным причинам эхокомпенсаторы являются неотъемлемой частью шлюзов IP-телефонии. Алгоритмы эхо-компенсации реализуются обычно на базе тех же цифровых сигнальных процессоров, что и речевые кодеки, и обеспечивают подавление эхо-сигналов длительностью до 32-64 мс. К эхокомпенсаторам терминалов громкоговорящей связи предъявляются гораздо более строгие требования, которые здесь рассматриваться не будут, так как проблема акустического эха не входит в число проблем, специфических для IP-телефонии.

3.6. Принципы кодирования речи

При переходе от аналоговых к цифровым сетям связи возникла необходимость преобразовать аналоговый электрический сигнал в цифровой формат на передающей стороне, то есть закодировать, и затем после приема перевести обратно в аналоговую форму, то есть декодировать.

Цель любой схемы кодирования - получить такую цифровую последовательность, которая требует минимальной скорости передачи и из которой декодер может восстановить исходный речевой сигнал с минимальными искажениями.

При преобразовании речевого сигнала в цифровую форму так или иначе имеют место два процесса - дискретизация (sampling), то есть формирование дискретных во времени отсчетов амплитуды сигнала, и квантование, то есть дискретизация полученных отсчетов по амплитуде (кодирование непрерывной величины - амплитуды - числом с конечной точностью). Эти две функции выполняются аналого-цифровыми преобразователями (АЦП), которые размещаются в современных АТС на плате абонентских комплектов, а в случае передачи речи по IP-сетям - в терминале пользователя (компьютере или IP-телефоне).

Так называемая теорема отсчетов гласит, что аналоговый сигнал может быть успешно восстановлен из последовательности выборок с частотой, которая превышает как минимум вдвое максимальную частоту, присутствующую в спектре передаваемого сигнала. В телефонных сетях полоса частот речевого сигнала намеренно, посредством специальных фильтров, ограничена диапазоном 0,3-3,4 кГц, что не влияет на разборчивость речи и позволяет узнавать собеседника по голосу. По этой причине частота дискретизации при аналого-цифровом преобразовании выбрана равной 8 кГц, причем такая частота используется во всех телефонных сетях на нашей планете.

Дискретизация и квантование аналогового речевого сигнала

увеличить изображение
Рис. 3.5. Дискретизация и квантование аналогового речевого сигнала

При квантовании непрерывная величина отображается на множество дискретных значений, что, естественно, приводит к потерям информации. Для того чтобы обеспечить в такой схеме достаточный динамический диапазон (способность передавать без искажений как сильные, так и слабые сигналы), дискретная амплитуда сигнала кодируется 12/13-разрядным двоичным числом по линейному закону.

Процесс аналого-цифрового преобразования получил применительно к системам связи название импульсно-кодовой модуляции (ИКМ).

Чтобы снизить необходимую скорость передачи битов, применяют нелинейный (логарифмический) закон квантования, т. е. квантованию подвергается не амплитуда сигнала, а ее логарифм. В данном случае происходит процесс "сжатия" динамического диапазона сигнала, а при восстановлении сигнала - обратный процесс.

На сегодня применяются две основные разновидности ИКМ:

  • с кодированием по m-закону;
  • с кодированием по А-закону.

В результате сжатия сигнал с амплитудой, кодируемой 12-13 битами, описывается всего восемью битами. Различаются эти разновидности ИКМ деталями процесса сжатия (m-закон кодирования предпочтительнее использовать при малой амплитуде сигнала и при малом отношении сигнал/шум). Исторически сложилось так, что в Северной Америке используется кодирование по m-закону, а в Европе - по А-закону. Поэтому при международной связи во многих случаях требуется преобразование m-кодирования в A-кодирование, ответственность за которое несет страна, где используется m-закон кодирования. В обоих случаях каждый отсчет кодируется 8 битами, или одним байтом, который можно считать звуковым фрагментом. Для передачи последовательности таких фрагментов необходима пропускная способность канала, равная 64 кбит/с. Это определяется простыми арифметическими действиями: 4 000 Гц * 2 = 8 000 отсчетов/с; 8 000 отсчетов/с * 8 битов = 64 кбит/с, что является базовой частотой для цифровой телефонии. Поскольку ИКМ была первой стандартной технологией, получившей широкое применение в цифровых системах передачи, пропускная способность канала, равная 64 кбит/с, стала всемирным стандартом для цифровых сетей всех видов, причем стандартом, который обеспечивает передачу речи с очень хорошим качеством. Соответствующие процедуры кодирования и декодирования стандартизованы ITU-T в рекомендации G.711.

Подчеркнем, что такое высокое качество передачи речевого сигнала (принимается за эталон при оценке качества других схем кодирования) достигнуто в системах ИКМ за счет явно избыточной, при современном уровне технологии, скорости передачи информации.

Чтобы уменьшить присущую ИКМ избыточность и снизить требования к полосе пропускания, последовательность чисел, полученная в результате преобразования речевого аналогового сигнала в цифровую форму, подвергается математическим преобразованиям, позволяющим уменьшить необходимую скорость передачи. Эти преобразования "сырого" цифрового потока в поток меньшей скорости называют "сжатием" (рассматривая ИКМ как некую промежуточную форму представления для дальнейшей обработки информации).

Существует множество подходов к "сжатию" речевой информации, все их можно разделить на три категории: кодирование формы сигнала (waveform coding), кодирование исходной информации (source coding) и гибридное кодирование, представляющее собой сочетание двух предыдущих подходов.

Наибольший интерес представляют сложные алгоритмы, позволяющие снизить требования к полосе пропускания.

В них осуществляется кодирование формы сигнала, используется то обстоятельство, что между случайными значениями нескольких следующих подряд отсчетов существует некоторая зависимость. Проще говоря, значения соседних отсчетов обычно мало отличаются одно от другого. Это позволяет с довольно высокой точностью предсказать значение любого отсчета на основе значений нескольких предшествовавших ему отсчетов.

При построении алгоритмов кодирования названная закономерность используется двумя способами.

Во-первых, есть возможность изменять параметры квантования в зависимости от характера сигнала.

Во-вторых, существует подход, называемый дифференциальным кодированием, или линейным предсказанием. Вместо того чтобы кодировать входной сигнал непосредственно, кодируют разность между входным сигналом и "предсказанной" величиной, вычисленной на основе нескольких предыдущих значений сигнала.

Простейшей реализацией последнего подхода является так называемая дельта-модуляция (ДМ), алгоритм которой предусматривает кодирование разности между соседними отсчетами сигнала только одним информационным битом, обеспечивая передачу, по сути, только знака разности.

Наиболее совершенным алгоритмом является алгоритм адаптивной дифференциальной импульсно-кодовой модуляции (АДИКМ). Он предусматривает формирование сигнала ошибки предсказания и его последующее адаптивное квантование.

Подобные методы кодирования часто используются в современных устройствах кодирования речи.

< Лекция 2 || Лекция 3: 123 || Лекция 4 >
Нияз Сабиров
Нияз Сабиров

Здравствуйте. А уточните, пожалуйста, по какой причине стоимость изменилась? Была стоимость в 1 рубль, стала в 9900 рублей.

Елена Сапегова
Елена Сапегова

для получения диплома нужно ли кроме теоретической части еще и практическую делать? написание самого диплома требуется?

Дмитрий Молокоедов
Дмитрий Молокоедов
Россия, Новосибирск, НГПУ, 2009