Возможности реставрации

Что такое реставрация записи.


Это попытка улучшить качество звука в записи, сделанной с низким битрейтом (то есть с большим сжатием с потерей качества) на непритязательном оборудованиии в шумной обстановке и при которой источник звука находился на удалении от микрофона. Улучшить качество звука для записи речи — а это наиболее частая задача — это значит повысить разборчивость слов и сделать прослушивание записи более комфортным — то есть без шумов, гулкости и посторонних громких звуков.

Процесс восстановления записи состоит из нескольких этапов.

Шумоподавление

Первое — это избавление от равномерного фонового шума.

Это могут быть разные звуки: гудение ламп в помещении; шум работающих рядом с микрофоном приборов — вентиляторов компьютера, включенного кондиционера, урчащего холодильника; наводки от сети 60 Hz на записывающую аппаратуру; помехи, создаваемые самим оборудованием для записи из-за его невысокого качества (т.н. когерентный шум); шипение в записи с магнитной ленты и так далее.

Есть несколько технологий избавления от таких шумов.

Наводки на определенных частотах (типа сетевых на частоте 60 Hz или гудение ламп) удаляются просто вырезанием этих частот из записи — такое удаление очень узкой полосы (и иногда ее гармоник) из записи на слух вообще никак не обнаруживается, в то время как шум удаляется полностью.

Для шумов, занимающих широкую полосу частот (а часто практически всю) используются другие методы. Самый очевидный — это когда звуковой паттерн, то есть образец «чистого» шума складывается со всей остальной записью с обратным знаком, как бы вычитается из нее. В действительности это более сложный процесс, но при определенном приближении о нем можно думать так. Это довольно действенный метод, но его избыточное использование приводит к потере частот в оригинальной записи и появлению артефактов, которые в зарубежной литературе называются chirping или «подводный звук».

К сожалению, на 100% избавиться от шумов в сильно зашумленной записи таким методом нельзя — либо ты убираешь полностью шумы, но миришься с артефактами шумоподавления (которые могут восприниматься еще болезненнее при прослушивании, чем оригинальный шум, от которого ты избавлялся), либо ты оставляешь немного шума, гораздо более тихого, но при этом сохраняешь основной звук практически без потерь. Если фоновые шумы сами по себе изначально тихие, от них можно избавиться таким методом полностью и без ущерба для основной записи.

Существуют технологии, которые для подавления шумов используют множество тонко настраиваемых гейтов; такой подход вносит меньше искажений в очищаемый звук. На практике применяются комбинированные методы — современные системы шумоподавления используют весьма изощренные способы, в том числе и адаптивные алгоритмы, которые автоматически подстраиваются на ходу, и даже технологии с применением машинного обучения.

Независимо от используемых технологий, при неаккуратном шумоподавлении очень легко испортить исходную запись, причем сделать это на самом раннем этапе ее восстановления. Это значит, что при таких ошибках, когда они станут более очевидными в конце всего процесса реставрации записи, всю работу придется переделывать с нуля, а это иногда несколько дней труда.

Часто лучший результат дает последовательное применение нескольких проходов шумодава с очень небольшим коэффициентом подавления на каждом проходе.

Я хочу акцентировать здесь внимание на том, что мы сейчас говорим пока только о постоянных фоновых шумах, от которых можно избавиться путем применения определенных фильтров (часто — их серии) ко всей записи, потому что бывают ещё случайные шумы — крик птиц, звонок телефона, шум проезжающего поезда, сигнал автомобиля, стук каблуков — и так далее. С такими помехами, как правило, приходится разбираться вручную. Это очень кропотливая и тонкая работа, страшно занудная, хотя уже появляются технологии, которые пытаются решать такие задачи в автоматическом режиме — для определенного класса задач результат получается весьма неплохим, но, к сожалению, нередко за него приходится расплачиваться артефактами, о которых я писал выше. Здесь все очень зависит от исходного качества записи. Если источник звука находился далеко от микрофона, а сама запись велась с низким битрейтом, то есть была сильно сжата с потерей качества, об автоматизации процесса удаления такого типа шумов можно забыть.


Восстановление данных, утраченных при сжатии


Помимо избавления от шумов, при восстановлении записи отдельно стоят еще две задачи, которые отчасти близки ей по духу.

Обе эти задачи связаны с восстановлением (если быть точным, с попыткой восстановления) исходных данных, которые были потеряны из-за использовании низкого разрешения при изначальной записи звука и агрессивного сжатия данных при формирования mp3-файла.

Одна из этих задач — это избавление от артефактов сжатия. Вторая — восстановление утраченных частот. Дело в том, что параметры записи звука (частота дискретизации, разрядность данных) и степень сжатия в телефонах и диктофонах выставлены по умолчанию такими, что во главу угла ставится размер результирующего файла — в ущерб качеству звука. Речь разобрать худо-бедно можно — и ладно! При этом диапазон частот жестко режется — всё, что выше 4.7 KHz, просто отсекается. Это еще не телефон, но уже близко — в телефоне, напомню, режется на 3.4 KHz. Эти отрезанные данные безвозвратно утрачиваются. Полностью. В то время как в этих частотах сидит важная информация. Например, если для мужского голоса согласные звучат в диапазоне 3-6 kHz (они хоть частично попадают в это прокрустово ложе), то для женского голоса это 5-8 kHz. Такое обрезание заканчивается тем, что в женском голосе вы просто перестаете различать буквы [ф] и [с] — вместо них вы слышите какое-то усредненное шипение.

Существуют алгоритмы, которые по рисунку формант человеческого голоса в низких и средних частотах способны синтезировать, то есть реконструировать утраченные при сжатии частоты. То есть для тонов и их гармоник, звучащих в сохраненной полосе частот, «домысливаются» и «рисуются» их гармоники в верхнем диапазоне. Если мы говорим о голосе, то это прибавляет ему разборчивости и прозрачности. Но тут же кроется и коварство — сколь прибавляет это «хрусталя» голосу, столь же прибавляет оно его и шумам, поэтому здесь приходится, как и всегда, искать золотую середину — за любую прибавку качества ты все время платишь новыми артефактами.


Эквализация


После шумоподавления и восстановления утраченного мы приступаем к эквализации звука, или EQ.

Эту работу можно разделить на два отдельных этапа, хотя проводятся они, как правило, в один присест.

Избавление от резонансных частот

Первое — это поиск резонансных частот и избавление от них. Здесь надо пояснить, что это такое. Любое помещение, если только это не специально подготовленная студия, обитая звукопоглощающим материалом и имеющая специфическую форму, — в нем формируются стоячие волны.

Сейчас поясню, что это.

Дело в том, что звук очень хорошо отражается от стен, пола, потолка, окон (особенно!) и мебели; между любыми параллельными поверхностями (например, противоположными параллельными стенами или полом и потолком) образуются стоячие звуковые волны для некоторых характерных частот — таких, для которых в расстояние между поверхностями укладывается целое число их длин полуволн. Стоячие волны образуются из-за интерференции отраженных волн, распространяющихся во встречном направлении — именно так и происходит между двумя параллельными поверхностями.

Таким образом для каждого помещения существует свой уникальный набор резонансных частот, характерный именно для этого помещения и определяемый его геометрией.

Почему это важно?

Если все прочие частоты, формируемые источником звука, звучат в помещении более или менее ровно, то частоты, для которых образуются стоячие волны, начинают резонировать и звучать заметно громче. На практике это приводит к тому, что запись становится некомфортной для прослушивания, потому что периодически при звуках определенной частоты (например, при произнесении каких-то гласных) они начинают отчетливо выпирать и резать слух. Дискомфорт от прослушивания такой записи может оказаться настолько сильным, что слушать ее длительное время становится просто невозможно.

Есть различные техники поиска резонансных частот в записи. Когда известна геометрия помещения, в котором производилась запись, эти частоты можно рассчитать по формулам, но как правило, их поиск ведется звукоинженером на слух с помощью определенных техник — формулы часто оказываются бесполезными, потому что геометрия помещений, как правило, куда сложней простой прямоугольной коробки (например, из-за обстановки).

Резонансных частот в помещении насчитывается десятки, но как правило, достаточно вырезать всего несколько самых «вредных» узких полос в нижнем и среднем диапазонах, чтобы значительно улучшить качество звучания.

EQ

Вторая часть — это общая эквализация. Если речь идет о речи (извините за каламбур:), то убирая или, наоборот, выпячивая отдельные полосы частот, можно добиться лучшей отчетливости и разборчивости речи, эффекта присутствия, «мяса» в голосе и общей прозрачности записи.

to be continued...