Аудіо матеріали

Аудіо матеріали

1.Загальні питання

В даний час звукова інформація є невід'ємною частиною будь-якої мультимедіа системи. У зв'язку з цим виникає проблема зберігання звукових даних. До появи цифрової техніки звук зберігався у вигляді, найбільш близькому до природного: у вигляді аналогових коливань, записаних на магнітний носій або вініловий диск. Однак, незважаючи на те, що цей спосіб зберігання найбільш точно передає всі властивості звуку, проблеми збереження і передачі роблять неможливим використання цього способу в мультимедіа системах. Виникає необхідність зберігання інформації у цифровому вигляді.

При роботі зі звуком важливо знати не лише основні можливості програм, використовуваних для створення аудіо мультимедіа компонентів, а й основні формати і параметри цифрового звуку. Важливу роль при роботі зі звуком відіграє розуміння процесів перетворення аналогового звуку в цифрову форму.

Звукова інформація являє собою сукупність коливань звукової частоти - від 20Гц до 20кГц

Рис.1. Звукова інформація

Найбільш очевидним способом зберігання звуку в цифровій формі є дискретизація за часом і амплітуді. При цьому безперервний сигнал подається як послідовність відліків, що йдуть через фіксовані інтервали часу (рис. 2).

Рис.2. Дискретизація за часом і амплітуді

Таке уявлення називається також імпульсно-кодова модуляція (Pulse Code Modulation, PCM). На якість перетвореного звуку впливають два параметри: частота дискретизації (sampling rate), і розрядність дискретизації (sample size). Частота дискретизації показує, як часто вимірюється амплітуда сигналу, а розрядність дискретизації - число бітів, використовуваних для зберігання кожного відліку. Чим вище ці два параметри, тим ближче оцифрований сигнал буде до вихідного аналоговому, в той же час, буде збільшуватися обсяг даних, що кодують цей сигнал, і, відповідно, необхідна пропускна здатність каналу зв'язку. Виникає завдання стиснення оцифрованого звуку.

- Стандарт CD-audio: 44,1 кГц, 16 біт;

- Стандарт DVD: 96 кГц, 24 біт.

Формати цифрового звуку

Формат аудіофайлу представляє собою специфікацію, яка описує структуру, в якій аудіодані зберігаються у файлі. Існування безлічі звукових форматів зумовлена великою кількістю областей застосування звукових даних, наприклад, для відтворення в CD-приводі, для зберігання музики або звукових ефектів у відео іграх, для запису саундтреків до відеокліпів або для завантаження через Internet.

Розглянемо деякі формати для зберігання аудіоданих.

Формат Microsoft Wave

Формат Wave є форматом для операційної системи Windows. Формат підтримує безліч різних типів аудіоданих, в тому числі 8 - і 16-бітові, моно і стерео. Має підтримку великої кількості схем стиску, включаючи безліч варіантів ADPCM через Microsoft ACM (Audio Compression Manager). Файли в форматі Wave мають розширення wav.

Формат Windows Media Audio

Це спеціальний формат, що дозволяє створювати потокові аудіофайли для передачі через Internet, підтримує відеодані. Є форматом для операційної системи Windows. Формат Windows Media Audio містить власні складні функції стиснення, що дозволяють передавати аудіодані через Internet у режимі реального часу. Файли Windows Media мають розширення wma і asf.

Формат MPEG Audio (MP 3)

Формат MPEG Audio використовує математичні та акустичні алгоритми компресування звуку, що дозволяє в багато разів зменшити кількість пам'яті, займане аудіофайлом, з деякою втратою якості. Підтримується практично всіма операційними системами при наявності спеціалізованих програмних програвачів. Файли в форматі MPEG Audio мають розширення mp 3.

Проведення запису

Якість стисненого аудіо багато в чому визначається тим, наскільки якісно була здійснена первинна запис дикторського голосу і як записувалося музичний супровід.

Загальна характеристика програмно-апаратного комплексу запису звуку Degidesign Session 8

Session 8 - комплексна цифрова студія, яка об'єднує разом цифровий запис звуку, MIDI, аналоговий мікшер і систему комутації. Працює на базі комп'ютера PC. Повний комплект складається з двох плат (Core System) - основна займає 16-бітний ISA слот, і на ній розташований цифровий процесор (DSP) + SCSI-2 контролер, друга 8-бітна ISA плата служить як порт із зовнішнім роз'ємом для підключення звукового інтерфейсу вводу / виводу (I / O Interface). Комплекс оснащений програмним забезпеченням з однойменною назвою «Session 8» версії 2.5, розробленим під операційну систему Microsoft Windows 95. Підтримується обсяг дискового простору більше 2 Гбайт; введено численні автоматизовані функції для редагування звуку.

Для мікшування Session 8 має в своєму розпорядженні двома режимами: зовнішній, для використання з автономним мікшером, і внутрішній, повністю цифровий. У внутрішньому режимі робота йде з «віртуальним» мікшером на екрані монітора. Цифрові параметричні еквалайзери дозволяють працювати без будь-яких якісних втрат, властивих аналоговим агрегатів.

Іншою особливістю Session 8 є режим програмної комутації (routing) входів. Входи можна розподіляти за допомогою простого й зручного графічного інтерфейсу, а також можна призначати ефекти на канали (компресори, гейти і т.д.). За допомогою цієї функції можна обійтися без апаратного перепризначення каналів запису, що дозволяє уникнути втрати часу на комутацію проводів.

Завдяки наявності стандартного WAV драйвера Session 8 працює і з іншими програмними продуктами, включаючи Cakewalk, Cubase, Sound Froge, Cool Edit і т.п.

Обробка

Для комп'ютерної обробки аудіоінформації існує безліч програм і різних програмних фільтрів, якість обробки визначається професіоналізмом персоналу і вартістю програмно-апаратних комплексів.

Опис типового технологічного процесу виробництва звукових компонентів.

Можна виділити кілька основних етапів технологічного ланцюжка підготовки звукового мультимедіа компоненти:

запис;
обробка записаного матеріалу:

Монтаж фонограми передбачає видалення надлишкових пауз, збірку мовної фонограми з декількох дублів, коригування застережень диктора чи видалення непотрібних музичних тем, а також інші дії, передбачені технічним завданням;

частотна обробка, застосування ефектів;
вирівнювання рівня гучності.

контрольне прослуховування і збереження аудіофайлу у форматі, вказаному в технічному завданні.

Контрольне прослуховування проводиться з метою виявлення технічного браку, помилок монтажу та перевірки відповідності параметрів фонограми технічним завданням.

При створенні синхронного саундтрека до відеоряду технологічний ланцюжок виглядає інакше:

підготовка вихідних матеріалів:
монтаж саундтрека:
контрольне прослуховування і збереження даних:

збереження відеофайлу в необхідному форматі.

Технічне завдання

Приклад виконання запису і обробки звукового супроводу для відеоролика

Озвучити відео ролик, представлений файлом lions. Mpg.

Дикторський текст:

«Лев - це дуже великий, могутньої статури звір. Його самці досягають у довжину 180 - 240 сантиметрів, не рахуючи хвоста. Маса лева від 180 до 227 кілограмів. Голова надзвичайно масивна з досить довгою мордою. Лапи невисокі, дуже сильні. Дуже характерна сильно розвинена у дорослих самців довга грива, що покриває шию, плечі і груди, тоді як на всьому іншому тілі вовна коротка буро-жовта. На відміну від інших великих хижаків, леви зустрічаються не тільки в поодинці і парами, а й великими групами - так званими прайдами. У прайд зазвичай входять один-два дорослих самця, декілька дорослих левиць і молоді звірі. Здобиччю їм служать різні антилопи, зебри та інші копитні середньої величини аж до молодих слонів, носорогів, бегемотів, а також свійської худоби »

Формат фонограми: MPEG, 16 bit, 44.1 kHz, mono.

Саундтрек повинен містити звуки природи, що збігаються з подіями в сюжеті; закадровий дикторський текст. У фонограмі дикторського тексту повинні бути видалені надлишкові паузи між словами.

Параметри фонограми дикторського тексту: піковий рівень гучності 0 dB, Graphic EQ зріз НЧ нижче 160 Hz, Dynamics Graphic Compressor Soft knee compressor / gate (-24 dB threshold).

Параметри фонограми звукових ефектів: середній рівень гучності -28 dB.

Запис дикторського тексту на обладнанні Session 8

Після запуску програми сконфігуріруем сесію.

Сесія - це проектний файл програми Session 8, в якому зберігаються відомості про комутації каналів, список файлів, записаних у цій сесії.

Необхідно підключити мікрофон до мікрофонного входу аудіо інтерфейсу Session 8. Потім потрібно запустити програмну оболонку Session 8 і в ній призначити програмний канал, що відповідає входу, куди підключений мікрофон. Призначення каналів наведено на малюнку 3.1.

Рис. 3.1

Потім необхідно налаштувати обладнання, тобто знайти таке положення мікрофона, в якому мікрофон уловлює мінімум електричних та інших шумів. Також необхідно встановити рівень чутливості каналу. Ці установки впливають на рівень гучності запису.

Управління записом в Session 8 можна здійснювати у вікні Edit і у вікні Mix:

Edit Window - це вбудований звуковий редактор. Тут записаний матеріал представляється у графічній формі, редактор дозволяє проводити лінійний монтаж декількох аудіо треків (не більше 8). Також Edit Window дозволяє робити запис.

Mix Window - представляє собою віртуальну мікшерну консоль. На кожен канал передбачені графічні регулятори: рівня гучності, балансу, також є можливість управління шістьма апаратними еквалайзерами.

вікно Edit зручно використовувати, коли всі технічні параметри запису вже виставлені. При цьому планується запис декількох дублів, оскільки в цьому вікні можна побачити імена всіх записаних раніше файлів. Також в цьому вікні зручно працювати при багатоканального запису. Діалогове вікно режиму наведено на малюнку 3.2.

Рис. 3.2

- Вікно Mix зазвичай використовується для виставлення технічних параметрів запису. Є можливість встановлення програмного рівня гучності (не впливає на рівень запису). Тут призначаються канали, в яких проводитиметься запис. Зручний графічний індикатор дозволяє в реальному часі контролювати рівень запису і відслідковувати перевантаження по амплітуді (Clipping). Діалогове вікно режиму наведено на малюнку 3.3.

Рис. 3.3

Для зручності користувачів, керуючі кнопки аналогічні кнопкам відтворення / запису на магнітофонах. Session 8 не зможе виконати запис, якщо жоден з каналів не відкритий для запису. Для того щоб дозволити запис в каналі, необхідно попередньо зробити активною кнопку Record - Enable в тому каналі, до якого має бути зроблений запис. Також неможливо проводити запис, коли заповнений жорсткий диск Session 8. У Edit Window відображається або вільне місце в мегабайтах, або час запису, в залежності від кількості відкритих для запису каналів. Після попередніх налаштувань, для початку запису необхідно натиснути кнопку Record і потім натиснути кнопку Play (або клавішу Space на клавіатурі). Зупинка запису здійснюється шляхом натискання кнопки Stop.

Session 8 здійснює запис безпосередньо на свій жорсткий диск (Direct - to - Hard). У відмові програми Session 8, вся незбережена користувачем інформація залишається на диску.

Після закінчення запису необхідно зберегти записаний матеріал. Для цього потрібно скористатися пунктом меню File à Save Takes. Після цього запис буде збережена на жорсткий диск комп'ютера з вказаним ім'ям у форматі WAVE.

Хоча програмна частина комплексу Digidesign Session 8 і надає деякі можливості з монтажу та обробці записаного звуку, краще скористатися більш потужним звуковим редактором для досягнення більш високої якості звукового файлу.

Фонограма із записом дикторського тексту (до монтажу) представлена в Додатку 1, приклад 1 (CD - ROM: \ Record \ BIO _01. Wav).

Монтаж і обробка звукових файлів в Sound Forge 6.0

Видалення шумів

Як правило, у записі присутні шуми, не рідко можна порівняти за амплітудою з корисним сигналом. Перший етап обробки звукового файлу - це видалення шумів з фонограми. Вікно Noise Reduction наведено на малюнку 3.4.

Рис. 3.4

Видалення квазіпостійного широкосмугового шуму виробляється за допомогою плагіна Noise Reduction. В основі роботи цієї функції лежить частотне розділення спектру сигналу на 64 смуги. До кожної смузі застосовується свій Gate, який пригнічує сигнал нижче заданого рівня і пропускає, якщо рівень вище встановленого. Поділ спектру всього сигналу на смуги сприяє більш точному поділу шуму й корисного сигналу. Функція дозволяє не тільки звільнити сигнал від шуму, але і збереже шум в окремому файлі, якщо це необхідно. Noise Reduction можна використовувати не тільки для шумозаглушення, але і для видалення будь-яких небажаних звуків з фонограми (наприклад, сирени автосигналізації в інтерв'ю).

Перед викликом Noise Reduction необхідно виділити фрагмент файлу від 200 до 500 мілісекунд, який повинен бути тишею (наприклад, пауза між словами). Далі виконується сканування виділеного фрагмента (Capture noiseprint). Noise Reduction дозволяє задавати глибину придушення шуму, а також інші параметри. Пропонується кілька режимів обробки. Режим точного придушення Mode 0, режим «приблизного» придушення Mode 3. При натисканні кнопки Selection задається область застосування обробки (в іншому випадку шум буде видалений з виділеного раніше фрагмента). У разі необхідності можна повторити виконання Nose Reduction.

Монтаж

Після видалення шуму здійснюється монтаж фонограм відповідно до вимог технічного завдання. Монтаж фонограми багато в чому схожий на процес редагування тексту. Окремо взяті фрагменти мовних фонограм збираються в єдине ціле відповідно до монтажним листом. Музичні фонограми коригуються за тривалості, швидкості і тональності звучання.

Монтажний аркуш являє собою таблицю, в якій вказується ім'я файлу, дикторський текст (для мовних фонограм) або назва музичного фрагмента, хронометраж файлу. В окремих випадках наводиться тайм-код на кожну фразу або музичну тему.

Sound Forge дозволяє використовувати буфер обміну даних, виробляти виділення довільних областей файлу, видаляти фрагменти з фонограм (наприклад, паузи в мові), додавати фрагменти у фонограму, коригувати швидкість звучання, в тому числі без зміни висоти тону і т.д.

При видаленні пауз з фонограми використовується автоматизований засіб Auto Trim / Crop в меню Process. Діалогове вікно Auto Trim / Crop представлено на малюнку 3.5.

У цьому вікні можна задати мінімальну відстань між фразами (Minimum inter - phrase silence). Всі ділянки тиші, коротше заданого значення вирізані не будуть.

Також присутні налаштування порогу атаки (attack threshold) і порога відпускання (release threshold). Поріг атаки задає той рівень гучності, який програма буде вважати початком нової фрази, а поріг відпускання - це рівень гучності, який програма буде вважати кінцем фрази і початку паузи.

Рис. 3.5

Частотна обробка

Для частотної обробки зазвичай застосовується еквалайзер. Еквалайзер - це пристрій або програмний засіб, що дозволяє роздільно управляти гучністю частот у різних діапазонах сигналу. У Sound Forge еквалайзер представлений у трьох варіантах: графічний, параграфіческій і параметричний.

На малюнку 3.6 показано вікно графічного еквалайзера. Посилювати чи послаблювати частоти можна за допомогою зсуву точок на кривій вище рівня нуля або нижче. Також графічний еквалайзер має вкладками 10 Band і 20 Band, які імітують апаратні еквалайзери.

Рис. 3.6

Параметричний еквалайзер є більш потужним і гнучким, ніж графічний еквалайзер. Вікно параметричного еквалайзера наведено на малюнку 3.7.

Рис. 3.7

Основна відмінність цього еквалайзера від графічного - можливість більш точного завдання частоти і рівня гучності сигналу цієї частоти.

Параграфіческій еквалайзер, на відміну від графічного і параметричного, дозволяє одержати більш складний - нелінійний графік корекції звуку. Вікно параграфіческого еквалайзера наведено на малюнку 3.8.

Рис. 3.8

У розпорядженні користувача знаходяться чотири частотних діапазону, у кожного з яких своя регулювання рівня (чотири вертикальних движка в середині вікна під графіком).

Для кожного діапазону можна вказати, де він розташований на шкалі частот. Ця операція проводиться за допомогою горизонтальних движків Center frequency (частота середини діапазону). Також можна регулювати ширину діапазону.

Для робіт, пов'язаних з частотною обробкою фонограми дикторського тексту найбільш зручно використовувати графічний еквалайзер. Параметричний і параграфіческій еквалайзери використовуються для проведення більш складних робіт, пов'язаних з частотною обробкою.

Вирівнювання рівня гучності

Також як і частотну обробку, вирівнювання рівня гучності необхідно проводити при виданні декількох фонограм в рамках одного мультимедіа продукту. Це необхідно для комфортного прослуховування.

Як функції для вирівнювання рівня гучності зручно використовувати Normalize. Ця функція збільшує гучність звуку наступним чином: спочатку досліджує файл на предмет самого високого рівня сигналу, а потім віднімає цей рівень з максимально можливого, що дорівнює 100% (або встановленим значенням). Функція Normalize використовує отриману різницю при збільшенні гучності звукових даних. Найвищий рівень сигналу в даному файлі доводиться до 100% (або до встановленого значення), а більш низькі рівні пропорційно збільшуються.

Контрольне прослуховування і збереження аудіо файлу

Перед збереженням остаточної версії фонограми, її необхідно прослухати. У разі виявлення дефектів або невідповідності вимогам технічного завдання, виявлені недоліки необхідно усунути. Після усунення шлюбу, проводиться повторне контрольне прослуховування.

Якщо фонограма відповідає вимогам технічного завдання, виконується останній етап обробки - збереження файлу. Для можливості зміни обробки отриманого файлу в майбутньому, необхідно зберегти його не тільки у вихідному форматі (формат, зазначений у технічному завданні), але і без компресії (Microsoft WAVE, PCM (Uncompressed), 16 bit, 44.1 kHz, mono / stereo).

Таблиця основних рівнів якості звукових файлів, що створюються для використання в каналах зв'язку.

kBit / s	Частота дискретизації при обробці сигналу	kbps	Реальна вихідна частота	Опис
256	44 kHz, stereo	32	22 кГц	Максимальні можливості mp3 формату - звук чистий і без спотворень. Але і максимальний потік (32 кбайта в секунду), що позначиться на трохи більшому розмірі файлу mp3 та DivX і можливо невеликому уповільненні на слабких комп'ютерах при відтворенні.
128	44 kHz, stereo	16	18 кГц	Оптимальні можливості mp3 формату - звук з мінімумом спотворень. Середній потік - 16 кбайт. Найбільш часто використовуваний бітрейт при формуванні mp3.
96	44 kHz, stereo	12	16 кГц	Середні можливості mp3 формату - звук ще нормальний, але можуть бути спотворення і вже немає високих частот. Часто використовуваний бітрейт, хоча виграш у кінцевому розмірі файлу в порівнянні з попереднім форматом невеликий, а спотворень істотно більше.
64	44 kHz, mono	8	18 кГц	Це моно аналог варіанту 128 кбіт. Оптимальні можливості mp3 формату для моно звуку - звук з мінімумом спотворень, але моно. Часто використовуваний бітрейт у випадках, коли не потрібно стереозвуку.
48	44 kHz, mono	6	16 кГц	Не дуже якісний звук для музичних файлів, можуть бути спотворення і вже немає високих частот, причому моно.
64	22 kHz, stereo	8	11 кгц	Оптимальні можливості mp3 формату для дикторського супроводу - звук може бути з невеликими спотвореннями, високих мало.
32	22 kHz, mono	4	11 кгц	Оптимальні можливості mp3 формату для дикторського супроводу - звук може бути з невеликими спотвореннями, високих мало, але хороші середні. Мінімальний бітрейт (4кбайта в секунду).