Які бувають аудіоформати і який краще вибрати для прослуховування музики

З появою стримінг-сервісів суперечки про формати стали долею гіків. Ще недавно в них колупалися лише аудіофіли, меломани і ретрогради. Але сьогодні зарубіжні стримінг-сервіси з музикою в lossless йдуть з Росії, оплатити акаунти стає неможливо. Російські стрімінги не можуть похвалитися звуком без втрати якості, тому питання про формати домашньої музичної колекції знову актуальне як ніколи. У чому зберігати музику?

Основи цифрового звуку

Щоб не заплутатися в термінології, розмову про звукові формати потрібно почати з самих основ цифрового звуку. Як аудіо перетворюється на нулі та одиниці?

Наприклад, музикант підключає електрогітару до звукової карти. У ній є модуль АЦП — аналого-цифровий перетворювач, який конвертує сигнал у цифри за допомогою методу імпульсного кодування. АЦП вимірює амплітуду сигналу кілька тисяч разів на секунду і записує кожну зміну, отримуючи копію аналогового сигналу.

Цей процес називається дискретизацією, від латинського discretus — переривчастий, на противагу безперервній аналоговій хвилі. З якою частотою потрібно виконувати дискретизацію, щоб отримати максимально точну копію без відчутних втрат?

Частота дискретизації

За теоремою Котельникова, фіксація змін має відбуватися щонайменше у 2 рази частіше, ніж найвища чутна частота в спектрі сигналу. Поріг чутності для людини — приблизно 20 кГц. Відповідно, якщо фіксувати зміни амплітуди хоча б 40 тисяч разів на секунду, то вийде дискретний сигнал, який не відрізнити від аналогового. Тому типові частоти дискретизації в будь-якій звуковій карті такі:

  • 44.1 кГц — стандарт Audio CD і загалом дефолтна частота дискретизації, на якій створюється більшість записів. Чому не 40, а саме 44.1? Так склалося історично. Компакт-диски з’явилися на початку вісімдесятих, коли основним носієм цифрової інформації ще була магнітна плівка, причому саме відеоплівка. На ній можна було записати 60 кадрів за секунду, кожен кадр містив 245 рядків із трьома вибірками для трьох основних кольорів. Виходить 245х3х60=44100 вибірок. Щоб забезпечити сумісність двох форматів, саме така частота дискретизації була обрана для Audio CD.
  • 48 кГц — стандарт студій звукозапису, що прийшов із кіно. На кіноплівці 24 кадри на секунду, тому 48 кГц забезпечує синхронізацію звуку і відео. З кіно стандарт прийшов у студії звукозапису, де і сьогодні часто використовується як дефолтне значення.
  • 88.2, 96, 192 кГц — це попередні стандарти, збільшені вдвічі. Багато артистів і продюсерів хочуть записати оригінали в максимальній якості, щоб, наприклад, видати музику на SACD та інших просунутих форматах.

Розрядність

Розрядність, або глибина — це скільки біт використовується для кодування кожного відрізка сигналу. Якщо частота дискретизації — це те, як часто АЦП фіксує зміни амплітуди, то розрядність — це наскільки точно фіксується кожна зміна.

Наприклад, за розрядності 1 біт є тільки два варіанти: 1 (сигнал на максимальній гучності) і 0 (тиша). За розрядності 8 біт уже можливо 256 значень (2 у 8 ступені) гучності хвилі, за 16 бітів (стандарт CD) — 65 536 значень тощо. Вище 32 біт підніматися сенсу немає, далі вже йде збільшення розміру файлу без відчутної різниці в якості.

Бітрейт

Бітрейт показує, скільки інформації пішло на кодування однієї секунди звуку. Він залежить від попередніх двох параметрів і обчислюється за формулою:

Бітрейт = Частота дискретизації x Розрядність x Кількість каналів

Наприклад, бітрейт музики на Audio CD: 44,1 кГц × 16 біт × 2 = 1 411,2 кбіт/с

Бітрейт стисненого аудіо набагато менший. Наприклад, максимум mp3 — це 320 кбіт\с. У цьому і сенс стиснення аудіо — отримати менший розмір за рахунок втрати частини інформації вихідного сигналу. Що це за інформація, буде розказано нижче, але спочатку потрібно поговорити про формати звуку без стиснення.

Аудіоформати без стиснення

Формати без стиснення пропонують найкращу якість звуку, яка іноді виходить за межі можливостей інших форматів. Платою за це буде високий об’єм файлів, тож колекція музики в такій якості зазвичай зберігається на ліцензійних дисках, слухається на дорогій апаратурі і є предметом гордості аудіофілів і меломанів.

  • Wave. На Audio CD музика записується у форматі wav з частотою дискретизації 44.1 кГц \ 16 біт. Wave — один з найстаріших форматів цифрового звуку, створений Microsoft разом з IBM ще в 1991 році і повсюдно використовується досі. Оригінальний аналоговий звук у ньому оцифровується без змін. Більшість музичних вихідних — партії інструментів, вокалу, майстер-треки — зберігаються у файлах із розширенням .wav. Хвилина аудіотрека в цьому форматі завжди займатиме однаковий обсяг на диску залежно від частоти дискретизації та бітності, але незалежно від того, є там музика чи ні. Тобто хвилина тиші важитиме стільки ж, скільки хвилина дез-металу.
  • Aiff — це побратим wave від Apple. Примітно, що обидва формати не є якимись специфічними для кожної з платформ, тому чудово працюють і на ПК, і на макінтошах.
  • Linear PCM — формат звуку для DVD-Audio, підтримує якість до 192 кГц\24 біт. Це розширює динамічний діапазон з 96 до 144 Дб, а частотний діапазон — до 96 кГц. Зазвичай аудіо записується без стиснення, але якщо альбом не поміщається на носій, то його можуть стиснути без втрати якості за допомогою алгоритму Meridian Lossless Packing у якості до 192 кГц\24 біт для стерео і до 96 Кгц\24 біт для багатоканального звуку.
  • DSD — формат звуку Super Audio CD з частотою дискретизації 2822,4 кГц, при цьому роздільна здатність дорівнює 1 DSD, тобто, грубо кажучи, 1 біту. Сенс у тому, що надлишкова частота дискретизації знижує шуми квантування і збільшує співвідношення сигналу до шуму. Такий формат має динамічний діапазон до 120 Дб, а частотний — до 50 кГц. Також вміє працювати з багатоканальним звуком 5.1.

У цю категорію потрапляє і вініл — унікальний формат, популярний уже понад століття. На платівці звук перебуває у вигляді аналогової аудіодоріжки, а не в нулях і одиницях. Відсутність оцифрування і механічний спосіб відтворення робить його особливою стравою для аудіофілів і меломанів.

Формати зі стисненням і втратою якості

Lossy compression — це компресія з втратою якості. Під час конвертації оригінального аудіофайлу втрачається частина інформації. Після своєрідного «очищення» сигнал компресується і займає на диску значно менше простору, ніж вихідний файл, але і звучить гірше. Кожен формат має свої алгоритми компресії, але, загалом і в цілому, кожен із них видаляє:

  • Шматки частотного спектра з країв — ультранизькі та ультрависокі частоти. Що сильніша компресія, то менше баса і високих частот буде в треку. Особливо ясно це помітно під час порівняння оригінального треку з сильно стиснутим mp3 — останній звучатиме помітно глухіше. Таким чином, звужується частотний діапазон треку.
  • Тихі гармоніки, що йдуть за гучними. Приміром, якщо після удару бочки є тиха гітарна нота, її буде вирізано частково або повністю, оскільки слухач, скоріш за все, все одно її не розчує через ефект звукового маскування — гучні звуки заглушають тихі. Це звужує динамічний діапазон треку.
  • Елементи, що повторюються, можуть склеюватися, піки хвиль, що розташовані близько один до одного, — усереднюватися тощо.

Як дізнатися, яка інформація втрачається під час стиснення? Досить завантажити вихідний і конвертований треки в DAW типу Cubase, і на одному з них перевернути фазу. Під час синхронного програвання загальна інформація з різною фазою буде взаємно відніматися, і залишаться тільки надлишки даних з вихідного треку. На ефекті фазового віднімання також засноване активне шумозаглушення в навушниках.

Найпопулярніші формати стисненого з втратою якості аудіо — це:

  • MP3 — король усіх lossy форматів, розроблений ще 1994 року Інститутом Фраунгофера. Принцип роботи схожий на компресію зображень у jpeg. Звук рубається на частини (фрейми), потім алгоритм видаляє з цих шматків усе, що не можна почути на побутовій апаратурі. Ґрунтовно почистивши трек, алгоритми потім його компресують, щоб той займав менший об’єм — до 1\10 від вихідного. MP3 може кодувати в 32-320 кбіт\с з частотою дискретизації до 48 кГц, також є функція змінного бітрейта (VBR) — коли менш насичені ділянки треку кодуються з меншим бітрейтом, економлячи місце. Можливість кодування багатоканального звуку відсутня, тому в кіно цей формат не прижився.
  • AAC — альтернатива mp3, розроблена всім світом, включно з Sony, Nokia, Dolby Laboratories, Інститутом Фраунгофера і ще пачкою організацій. Пропонує вищу якість порівняно з mp3 за меншого об’єму файлів за рахунок більш досконалих алгоритмів компресії. Виробляє аудіофайли з частотою дискретизації до 96 кГц (удвічі більшою за mp3), вміє кодувати багатоканальний звук 5.1, значно краще за основного конкурента працює з частотами, вищими за 16 кГц. У підсумку звук в AAC з бітрейтом 128 кбіт\с звучить краще, ніж mp3 на максималках. Формат активно використовується в техніці Apple, популярний на стрімінг-сервісах (включно з ютубом) і в побутовій техніці. Файли зазвичай мають розширення .aac, але можуть укладатися і в контейнер .mp4 або .3gp.
  • WMA — дітище Microsoft рекламувалося як ультимативний lossy формат, і справді пропонує вищу якість звуку, як порівняти з mp3: відсутність кліппінгу, ефективніша компресія і менший розмір файлів. З мінусів — заточеність під Windows Media Player, тому багато девайсів його просто не читають (наприклад, техніка Apple).
  • OGG VORBIS — опенсорс формат з безліччю переваг. Частота дискретизації змінна — від 2 до 192 кГц з розрядністю до 32 біт. За дефолтом використовується змінний бітрейт, при цьому крайні значення не обмежені і можуть варіюватися від 1 до 1000 кбіт\с. Схема роботи схожа на mp3, але інша математична модель забезпечує краще стиснення і гарантує високу точність розташування семплів без зсувів і втрачених ділянок. Якщо взяти файли .mp3 і .ogg з однаковим бітрейтом, то другий не тільки краще звучатиме, а й займатиме менше місця на диску. Формат не набув такої популярності, як MP3, але часто використовується ігровими студіями для зберігання аудіофайлів до гри. Розпізнати можна за розширенням .ogg або .oga.

Формати зі стисненням набули популярності завдяки Інтернету, адже вони дають змогу слухати треки онлайн навіть за невисокої швидкості підключення. Завдяки малому розміру вони відкрили можливість зберігання на вінчестері або медіасервері цілих дискографій. Платою буде втрата якості, але вона не відчувається на побутових колонках і стає помітною тільки тренованому вуху під час порівняння лоб в лоб з іншими форматами на студійній акустиці або в хороших навушниках.

Формати зі стисненням без втрати якості

Lossless компресія виконується без втрати якості. У результаті виходять файли, які містять повний обсяг інформації з вихідних кодів, але займають менше простору на носії. Звучить як магія? Насправді все просто — ці формати знаходять більш ефективні способи зберігання надлишкових даних. Наприклад, послідовність біт типу ABCDABCDABCDABCD буде записана як (ABCD)*3, що істотно знижує розмір файлу. Схожим чином працюють архіватори, але lossless формати заточені під аудіо, тому роблять свою справу краще, ніж звичайний Winrar.

Найпопулярніші формати lossless audio — це:

  • FLAC — вільний lossless формат від розробників OGG VORBIS, з’явився на початку двотисячних. Під час компресії він розрізає трек на шматки по кілька кілобайт, для кожного зі шматків індивідуально підбирається оптимальний спосіб стиснення. Зі стереодорожки робить усереднений монотрек і окрему доріжку з різницею лівого і правого каналів — так аудіодані простіше стиснути. Таким чином вдається зменшити розмір вихідного файлу в 1,5-3,5 раза. Бітрейт для стандартного CD-трека варіюється від 400 до 1200 кбіт\с, що приблизно дорівнює 20-50 Мб для п’яти хвилин музики. Якість звуку ідентична вихідній. Максимальна частота дискретизації — 192 кГц за роздільної здатності до 24 біт, у цьому разі бітрейт буде 36 864 кбіт\с.
  • ALAC — формат стиснення аудіо без втрати даних від Apple. Створює файли з частотою дискретизації до 384 кГц і розрядністю до 32 біт. Формат заточений під «яблучну» техніку і працює на ній краще за інші lossless формати, оскільки декодується за допомогою вбудованого DSP, тоді як FLAC та іже з ними на айподі будуть вантажити центральний процесор. У 2011 році Apple відкрила вихідний код ALAC, і тепер його підтримує техніка від найрізноманітніших виробників. Файли цього формату заточені в контейнер MP4 і мають розширення .m4a.
  • WMA — lossless-версія формату від Microsoft з частотою дискретизації до 96 кГц і розрядністю до 24 біт. Однак алгоритми компресії не дуже ефективні, тому файли займають більше місця, ніж інші lossless формати. З плюсів — вміє кодувати об’ємний звук.
  • WavPack, OptimFROG — обидва мають гібридний режим для створення з аудіодоріжки двох файлів. У першому файлі буде стиснута музика з втратами, а другий — файл корекції, який під час складання з першим дає звук без втрат. Таким чином, формати увібрали в себе найкраще з двох світів, хоча великої популярності поки що не здобули.

Висновок

Чи чутна різниця між wav\flac і mp3 з високим бітрейтом? Наскільки вона суттєва? Це залежить від композиції, апаратури та слуху. В інтернеті є тести, де програється оригінальний wav проти mp3 — вони й дадуть відповідь на запитання. Якщо хоча б у половині випадків вдається розрізнити нестиснене аудіо — тоді варто заморочитись із колекцією музики у flac або іншому lossless форматі. В іншому разі можна зі спокійною совістю продовжувати користуватися будь-яким стрімінг-сервісом із тих, що залишилися.