Обробка аудіо для ютуба і стрімів: як зробити дикторський голос програмними засобами

Створення відеороликів, трансляція подкастів і стрімів — усе це стає популярнішим із кожним роком. Зростаюча конкуренція висуває більше вимог до якості контенту, особливо до технічної частини — мало хто терпітиме хрипкий звук і ледь помітну мову, яку заглушає фонова музика. У цій статті розглядаються базові методи обробки голосу, які допоможуть зробити його порівнянним за якістю з промовою професійного диктора або радіоведучого.

Загальні поради

Варто одразу обмовитися: хорошого результату не вийде без хороших «сирців» — вихідний матеріал має бути якісним. В ідеалі, мовлення має не тільки записуватися на хороший мікрофон і звукову карту, а й бути начитаним з дикцією, вимовою, інтонаціями, виразністю, характером, манерою і правильним диханням. Можливі дефекти мовлення — яскраво виражена гаркавість або гугнявість — обробкою не виправляються.

Ідеально, якщо мова записана в акустично обробленій кімнаті. Якщо такої немає, можна обійтися акустичним екраном для мікрофона. Відстань до мікрофона індивідуальна і залежить від гучності голосу, експресії та динаміки. Головне, щоб не було перевантажень або відверто тихого сигналу. Оптимальне значення — ві д-18 д о-12 дБ.

На мікрофоні обов’язково має бути або вітрозахист, або поп-фільтр. Вибухові приголосні складно піддаються комп’ютерному опрацюванню, тож краще придбати недорогий аксесуар, який позбавить від більшості проблем з ними.

Набір непоганих безкоштовних плагінів від DAW Reaper можна завантажити з офіційного сайту — там є все необхідне. Для тих, хто всерйоз захопиться звукорежисурою, можна порадити більш просунуті пакети плагінів від Waves, Fabfilter, Softube — їх існує безліч на будь-який смак.

Обробку варто виконувати на студійних моніторах або в навушниках студійного рівня. Без якісного контролю буде складно розібрати, що взагалі відбувається з аудіосигналом.

Обробляємо звук для офлайн-відео

Отже, голос записано, і тепер потрібно його обробити.

Почати варто з чищення матеріалу: прибрати всі шуми в паузах, якщо необхідно — вдихи, зітхання та інші артефакти. Можна зробити все вручну, а можна поставити нойз-гейт. Він має бути на самому початку ланцюга обробки. Налаштувати гейт дуже просто: параметр threshold означає поріг його спрацьовування, тут потрібно взяти найгучнішу ділянку з шумами і зробити рівень thrershold трохи вищим за нього. Attack — як швидко гейт «відкривається» для пропуску корисного сигналу, release — як швидко він «закривається» для видалення шуму. Головне, щоб гейт не відкушував занадто тихі слова.

Наступний крок — шумозаглушення. Потрібно знайти ділянку запису без будь-якого сигналу, щоб на ній був присутній тільки шум ланцюга звукозапису. Якщо рівень шуму нижче 50 дБ (як на скріншоті вище) — можна сміливо махнути на нього рукою і не робити нічого, такий шум ніхто не почує. Якщо шум явно помітний, можна використовувати спеціальні плагіни (наприклад, reafir від Reaper або denoiser у Cubase) для його видалення, або підрізати еквалайзером кілька найгаласливіших частот — точно так само, як видалятимуться резонанси в наступному пункті.

Фільтрація і видалення резонансів. Буває, що низький чоловічий голос починає неприємно бубоніти в районі 100-200 Гц, або високий жіночий тембр у поєднанні з не найкращим мікрофоном неприємно ріже по вухах. Так і проявляються резонанси. Позбутися їх просто: потрібно поставити в ланцюг обробки еквалайзер і вузькою смугою з великим посиленням (10-30 дБ) «пройтися» по всьому частотному спектру, обчислюючи найнеприємніші місця, де в вухах ріже свист, дзвін або гудіння. Їх необхідно послабити вузькою смугою на 3-5 дБ. Головне тут не перестаратися — видалення всього двох-трьох основних резонансів зазвичай вистачає для дикторського голосу.

Пошук і підрізання резонансу

Крім цього, можна зовсім видалити цілі шматки спектра, в яких немає ніякого корисного сигналу. Це робиться за допомогою low-pass і hi-pass фільтрів, які обрізають високі та низькі частоти відповідно.

Найчастіше проблеми зустрічаються в таких областях:

Нижче 75-100 Гц — тут міститься, здебільшого, низькочастотний шум, що бубонить. Можна сміливо застосувати hi-pass фільтр і обрізати все до цих значень.

100-150 Гц — тут нерідко знаходяться гудячі частоти, особливо це стосується чоловічого вокалу, записаного в невеликій кімнаті. Можна підрізати їх вузькою смугою.

800-1000 Гц — тут може розташовуватися «гундосий» назальний тон, який також має сенс підрізати вузькою смугою.

4-9 кГц — тут знаходяться сибілянти — шиплячі приголосні звуки «с-с-с», «ш-ш-ш», «щ-щ-щ», які можуть неприємно свистіти під час запису. Для боротьби з ними зазвичай використовується деессер — спеціальний прилад, який пом’якшує різкість свистячих приголосних. Але можна не морочитися, знайти найнеприємнішу частоту і також підрізати її вузькою смугою.

Вище 16 кГц — у людській мові рідко присутнє щось корисне вище цієї частоти, тож можна сміливо застосовувати low-pass фільтр.

Такий вигляд має еквалайзер після вирізання резонансів і непотрібних частот

Додавання відсутніх частот. Тепер, коли залишився тільки корисний сигнал, потрібно зробити його чіткішим і яскравішим. Як відправна точка будуть корисні такі дані:

180-240 Гц — додавання 3-5 дБ широкою смугою в цій ділянці зробить чоловічу мову повнішою і читабельнішою. Для жіночої мови це буде 200-300 Гц.

1.5-2 — 5 кГц — це найважливіший діапазон для голосу, так звана область розбірливості. Людський слух найбільш чутливий саме до цих частот, варто додати їх широкою смугою на 3-8 дБ.

9-11 кГц — ці частоти відповідають за яскравість голосу. Їх дуже часто не вистачає в мові, записаній навіть на студійний мікрофон, особливо в заглушеній кімнаті, яка з апетитом пожирає верхи вокалу. Нерідко доводиться значно додавати цей діапазон — на 6-12 дБ, щоб надати мові ясності. Але потрібно стежити за шиплячими приголосними.

Вище 12 кГц — це область «повітря», підняття якої дасть змогу зробити мову натуральнішою і яскравішою. Зазвичай для цієї та попередньої області частот використовується параметр еквалайзера hi-shelf, що має вигляд «планки» і дає змогу моментально «освітлити» голос.

Під час еквалізації низьких частот краще використовувати вузькі смуги, а під час високих — широкі, це зробить роботу еквалайзера менш помітною.

Компресія. Компресором прибирається різниця між гучними і тихими ділянками запису. У підсумку голос звучатиме рівномірно, від ударів і кашлю слухач не здригатиметься, а під час шепоту йому не доведеться додавати гучність. Зрозуміти роботу компресора допоможе аналогія з гучною музикою в кімнаті, яка не подобається сусідові за стінкою. Параметр threshold буде тим критичним рівнем гучності музики, після перевищення якого сусід починає тарабанити по батареї монтуванням; attack — як швидко він біжить до батареї, якщо перевищить цей рівень; ratio — наскільки потрібно зменшити гучність, щоб заспокоїти сусіда; а release — як довго сусід перестає обурюватися після зменшення гучності. Сусід-компресор змушує нещасного меломана тримати рівень гучності музики в певних межах. Почати налаштування можна з таких значень:

Ratio: 4:1 (таким чином, якщо сигнал перевищує поріг на 4 дБ, то він скомпресується до 1 дБ вище за поріг)

Attack: як правило, для голосу добре працює швидка атака в районі 5-10 мс, вона дає змогу компресору спрацьовувати миттєво. Якщо при цьому компресія починає з’їдати приголосні — атаку потрібно збільшити.

Release: якщо в компресорі є функція автореліз, можна нею і скористатися. Якщо ні — почати варто з 40-50 мс.

Output або make-up: якщо в компресорі є функція автомейкапа, можна застосувати її. В іншому разі компенсацію гучності можна виконати вручну на слух — головне, щоб підсумковий сигнал не потрапляв у червону зону.

Threshold: тут потрібно дивитися за рівнем гучності вихідного треку. Почати можна з-8 дБ.

Є перевірений метод налаштування компресора «на слух» для новачків: потрібно викрутити ratio і threshold на максимум, attack і release — на мінімум. Так буде краще чутно, що прилад робить із сигналом. Далі підбирається атака, потім реліз, а параметрами ratio і threshold регулюється рівень до бажаних значень. Зазвичай рівень компресії відображається на індикаторі «догори дриґом», адже компресор працює на пониження сигналу. Параметр threshold слід встановити таким чином, щоб компресор зрізав близько 6 дБ для тихого голосу і близько 12 дБ для гучних ділянок.

Лімітерінг. Ця операція дає змогу обмежити максимальний рівень гучності. Сигнал на майстер-шині не повинен зашкалювати, і лімітер виступає в ролі дуже жорсткого компресора, який не дає змоги сигналу вибратися за межі встановленого значення. Як правило, середнє арифметичне рівня сигналу (RMS) має бути близьк о-16 дБ. Під час рендеру на майстер-шині потрібно виставити рівен ь-0.5 дБ, тому що фінальна конвертація аудіо може зробити звук голоснішим і додати спотворень. За відсутності лімітера його роль може зіграти компресор: достатньо виставити ratio на максимум, threshold н а-0.5 дБ, і атаку на мінімум.

Лімітер і компресор у ролі лімітера

Якщо фонова музика у відео заглушає мову, потрібно виставити RMS музики і RMS голосу однаковими, після чого зменшити музику на 5-10 дБ. Якщо в деяких місцях слова все ще нерозбірливі, можна застосувати до музичної підкладки еквалізацію. Досить подивитися на еквалайзер для мови і зробити все навпаки в еквалайзері для музики: наприклад, якщо в мові 5 кГц піднято широкою смугою, то в музиці ці самі 5 кГц потрібно зменшити.

Обробляємо звук в онлайні

У стрімів і подкастів є своя специфіка під час обробки голосу — тут важливо, щоб плагіни не були ресурсомісткими і не сильно вантажили комп’ютер. Тому варто використовувати мінімально необхідний набір ефектів.

Найчастіше для стрімів використовується програма OBS Studio. У ній можна завантажувати точнісінько ті самі VST-плагіни для обробки звуку, що і в DAW. Якщо використовується не OBS Studio, то для обробки голосу можна скористатися окремою програмою для потокового оброблення звуку VSTHost, вона працює з будь-якими додатками для стримів.

Такий вигляд має плагін ReaFIR в OBS Studio

Для обробки голосу потрібен необхідний мінімум:

1. шумозаглушення. На відміну від офлайн-відео, звук до яких нерідко записується окремо на якісний мікрофон, у стримах часто використовується не найкраще обладнання. Недорогий мікрофон укупі з вбудованою звуковою картою і ввімкненою функцією Microphone Boost у налаштуваннях звуку Windows будуть сильно шуміти. Для того, щоб позбутися цього шуму, можна використовувати вбудований в OBS фільтр Noise Suppression. У нього всього одне налаштування — рівень шумозаглушення, почати варто зі значення близьк о-20 дБ.

2. Гейт. Якщо в звуці для офлайн-відео можна вручну вирізати всі крики дітей за вікном і рев сусідського перфоратора за стіною, то з онлайном такий фокус не провернути. Знадобиться гейт.

Release можна зробити довгим, близько 200 мс, оскільки роботу гейта буде надто чутно при швидкому релізі. Правильно налаштований гейт майже непомітний для слухача і видаляє лише шуми та призвуки в паузах між фразами.

Рівень гейта потрібно зробити трохи вищим, ніж фоновий шум, не варто виставляти рівень поруч із рівнем голосу.

Простий спосіб налаштування гейта для мовлення — потрібно скласти губи трубочкою і шумно видихнути повітря в бік від мікрофона, запам’ятати на індикаторі значення рівня цього шуму і виставити його на гейті.

3. еквалайзер. Тут усе те ж саме, що і для офлайн-відео: потрібно відфільтрувати зайві частоти, вирізати кілька найогидніших резонансів і додати частот у зоні розбірливості. Також варто подивитися на індикатор: якщо звук після обробки еквалайзером «пікує» в червоній зоні, потрібно прибрати вихідний Gain, якщо, навпаки, занадто тихий — додати.

4. Компресор. Для стрімів він має навіть більше значення, ніж для офлайн-відео — в онлайні жоден диктор не зможе встежити за динамікою свого голосу впродовж кількох годин. Слід бути готовим до того, що мова буде то ледь чутною, то занадто гучною. Тому потрібно використовувати більш жорсткі налаштування компресора, ніж для офлайн-відео. Почати можна з ratio 10:1, атаки 5 мс і релізу в 30 мс або автоматично.

За таких налаштувань немає потреби в лімітері — компресор виконуватиме його роль. Але якщо динаміка мови дуже велика і не дає змоги налаштувати гейт (то слова починають обрізатися, то шум просочується в ефір), тоді можна використати два компресори: перший, з більш м’якими настройками (ratio 3:1), поставити перед гейтом, другий, як лімітер, — наприкінці ланцюга (ratio викрутити на максимум, threshold — так, щоб компресор спрацьовував лише в разі дуже гучних фраз).

Дайте послухати результати!

Розібратися в обробці звуку за текстом буває непросто, але результат того вартий. Дивіться самі. Точніше, слухайте.

Якісний звук у сучасних відео та стримах означає нітрохи не менше, ніж відео з високою роздільною здатністю. А часом і більше — адже багато хто ставить ролики на тло, дивлячись їх впівока і сприймаючи те, що відбувається, в основному на слух.

При цьому варто врахувати, що цей посібник дає лише базові налаштування як точку відліку. Кінцевий результат має підбиратися аудіально, адже головний інструмент у роботі звукорежисера — це його власні вуха.