Hra so zvukmi (ako vzniká mp3)

Autor: Lubo Kužela | 29.11.2010 o 14:12 | (upravené 6.12.2010 o 13:44) Karma článku: 0,00 | Prečítané:  1814x

V tomto článku sa pohráme so zvukmi a budeme skúšať vnímanie zvukov našim uchom. Budem písať o tom, ako sa komprimuje zvuk a ako vzniká zvukový formát mp3.

Zvukové vlny

Všetok zvuk sú vibrácie, zvukové vlny. Všetky vlny oscilujú (kmitajú) v rôznych dĺžkach (vlnová dĺžka je definovaná ako vzdialenosť medzi vrcholom jednej vlny a vrchol ďalšie). Vibrovanie na rôznych frekvenciách sa prejavuje inak, od úplne pomalých po rýchle kmity. Niekde medzi týmito extrémami sú vlnové dĺžky, ktoré sú počuteľné človekom ako zvuk.

main.jpg

Zobrazenie zvukových vĺn v programe na úpravu zvuku.

 

Naše uši sú naladené len na veľmi úzku šírku pásma vibrácií z celkového spektra. Dokonca aj  hudobné nástroje vytvárajú veľa frekvencií, ktoré sú pre nás nepočuťeľné. Frekvencie sú obvykle opísané v jednotkách zvaných Hertz (Hz). Jeden Hertz v jednoduchosti znamená "počet kmitov za sekundu." Všeobecne platí, že ľudia nemôžu počuť frekvencie pod 20 Hz (20 cyklov za sekundu), ani nad 20 kHz. Zatiaľ čo schopnosť počuť tóny závisí od jednotlivca, je všeobecne pravda, že ľudia vnímajú stredové frekvencie silnejšie než vysoké a nízke frekvencie a že citlivosť na vyššie frekvencie klesá s vekom a pri dlhšom vystavení hlasným zvukom. V skutočnosti, v čase, keď sme dospelí, väčšina z nás nepočuje dobre nad 16kHz (aj keď ženy majú tendenciu zachovať schopnosť počuť vyššie frekvencie). Najcitlivejšie rozsah sluchu pre väčšinu ľudí sa pohybuje medzi 2 kHz a 4 kHz, čo je úroveň pravdepodobne daná evolúciou, vzťahujúca sa k normálnom rozsahu ľudského hlasu, ktorý má frekvencie zhruba od 500 Hz až 2 kHz.

V tomto súbore je 15 sekundový zvuk s frekvenciou od 0 do 1000Hz. Počuť ho začíname asi pri 20Hz, teda nie hneď na začiatku.

No je tu ešte jedna vec, ktorá spočíva v našej mysli samotnej. Niektorí hovoria, že zdravá myseľ funguje s akýmsi "redukčným ventilom", systematicky prenáša dôležité informácie do popredia a ignoruje nadbytočné, či nepodstatné údaje. Odhaduje sa, že len asi miliardtina údajov dostupných piatimi zmyslami je človekom vnímaná. Je zrejmé, že jednou z najdôležitejších funkcií mysle je fungovať ako sito na preosievanie najdôležitejšie informácií.

Zvuk a jeho kompresia

Základným princípom akéhokoľvek  kódera (program na tvorbu mp3) je, že šetrí miesto na ukladanie informácií, ktoré nemôžu byť dostatočne vnímané ľuďmi. Môžete byť prekvapený, ale dobrý záznam ukladá obrovské množstvo audio dát, ktoré ste nikdy ani nepočuli, pretože záznamové zariadenia (mikrofóny, gitara snímača, a tak ďalej) je citlivé na širšiu škálu zvukov, ako vaše ucho počuje.

Nekomprimovaný zvuk, ako je k dispozícii na CD, ukladá viac dát, než váš mozog môže skutočne spracovať. Napríklad, ak sú dva tóny veľmi podobné a veľmi blízko pri sebe, váš mozog môže vnímať iba jeden z nich. Ak sú dva zvuky veľmi odlišné, ale jeden je oveľa hlasnejšie ako druhý, môže váš mozog vnímať skôr hlasnejší signál. A samozrejme vaše uši sú citlivejšie na niektoré frekvencie než na ostatné. Štúdium týchto javov sa nazýva psychoakustika, a tento odbor je už značne rozvinutý; natoľko, že zvuk môže byť celkom presne popísaný v tabuľkách, grafoch a v matematických modeloch, ktoré reprezentujú zvuk a ľudský sluch.

MP3 kódovacie nástroje analyzujú prichádzajúci zdroj signálu, transformujú ho do matematických vzorcov a porovnávajú tieto vzory so psychoakustickými modelmi uloženými v kodéri. Kodér potom môže vyradiť väčšinu dát, ktoré nezodpovedajú modelu, a nechať to, čo je skutočne potrebné. Osoba, ktorá vykonáva kódovanie má možnosť určiť, koľko bitov by malo byť vyhradených na ukladanie každej sekundy hudby (tzv. bitrate). Čím vyššia je frekvencia vzorkovania (bitrate), tým kvalitnejší je zvukový súbor, ale aj väčší. Takýto druh kompresie je nazýva stratový, pretože strácame určité dáta.

MP3 súbory sa skladajú zo série veľmi krátkych snímok (frames) za sebou, podobne ako filmový pás. Každá snímka obsahuje hlavičku, ktorá obsahuje ďalšie informácie. V niektorých kódovaniach sa môžu tieto snímky (rámy) ovplyvňovať navzájom. Napríklad, ak jeden rám má viac úložného priestoru a ďalší nedostatok, môžu “spolupracovať”. Na začiatku alebo na konci MP3 súboru, môže mp3 obsahovať ďalšie informácie o súbore, ako je meno interpreta, názov skladby, názov albumu, rok, žáner, atď. Toto sa nazýva "ID3" dáta.

Kompresia

V rámci procesu filtrovania, opísaného v predchádzajúcom odseku, ktoré sa vyskytuje podvedome v každom z nás, zahŕňa proces tzv. maskovanie. Pri kódovaní MP3 sa používajú dva spôsoby: sluchové a temporálne (časové).

Simultánne (sluchové) maskovanie

Simultánne maskovanie (niekedy označované ako "sluchové maskovanie") môže byť najlepšie popísané nasledovným príkladom: Občas môžete počuť gitaristu ako sa prstami posúva po gitarových strunách pri tichých pasážach. Samozrejme, že len zriedkakedy to počujete, ak vôbec počujete tento efekt pri rockovej pesničke, pretože okolité tóny úplne prehlušia všetky tieto jemné efekty.

MP3 kodek, je samozrejme ľahostajný ku gitarovým strunám. Všetko čo pozná, sú frekvencie a úrovne hlasitosti.

Aby sme si ukázali simultánne maskovanie na skutočnom príklade, povedzme, že máme zvukový signál skladajúci sa z dokonalého sínusoida kmitajúceho pri 1000 Hz. Teraz si predstavte druhý dokonalý sínusový signál, tentoraz na trochu vyššej frekvencii, povedzme 1.100 Hz, ale aj oveľa tichší - povedzme -10 db. Väčšina ľudí nebude schopná vôbec zachytiť druhý tón. Avšak, dôvod prečo je druhý tón nepočuteľný nie je preto, že je tichší, ale preto, že jeho frekvencia je veľmi blízko (podobná) prvej. Pre ilustráciu tejto skutočnosti, budeme pomaly meniť frekvenciu (kmitanie) druhého tónu, kým nedosiahne 4000 Hz. Avšak, budeme držať rovnakú hlasitosť, aká bola (na-10dB). Ako sa druhý tón stáva viac odlišný od prvého, stane sa viac počuteľný, až v určitom momente bude väčšina ľudí počuť dva odlišné tóny, jeden hlasnejší než druhý, ako je znázornené na obrázku. V prípade A, tón 2 je sotva počuteľný oproti tónu 1. V bode B je tón 2 slabo počuteľný, aj keď jeho hlasitosť zostáva nezmenená.


mp3_0202.gif

Tu sú aj zvukové súbory pre ilustráciu:

1000Hz (0dB)

1100Hz (-10dB)

1100Hz - 4000Hz (-10dB)

Čo sa teda deje pri psychoakustickom jave zvanom "simultánne maskovanie"? Ukazuje dôležitú úlohu mysle pri počúvaní: Kedykoľvek sa frekvencia tónu blíži k frekvencii iného, máme problém vnímať ich ako jedinečné. Súvisí to s našou obmedzenou kapacitou vnímania, ku ktorej prispieva to, že má mozog schopnosť odfiltrovať menej dôležité prvky.

Časové maskovanie (Temporal masking)

Okrem sluchového maskovania, ktoré je závislé na vzťahu medzi frekvenciou a relatívnou hlasitosťou, je tu druhý typ maskovania založený na čase. Myšlienka časového maskovania je založená na tom, že ľudia majú tiež ťažkosti počuť zreteľné zvuky, ktoré sú blízko seba v čase. Napríklad, ak hlasný zvuk a tichý zvuk sú prehrávané súčasne, nebudete schopní počuť tichý zvuk. Ak však existujú dostatočné oneskorenia medzi dvoma zvukmi, počujete aj druhý, pokojnejší zvuk. Kľúč k úspechu časového maskovania je pri určení doby medzi dvomi tónmi, pri ktorej sa druhý tón stane počuteľným, tj. je dostatočne významný, aby sa udržal v dátovom poli (bitstream), alebo sa naopak stratil. Táto vzdialenosť sa pohybuje okolo piatich milisekúnd pri práci s čistými tónmi, ale inak sa mení (nahor a nadol) v súlade s rôznymi audio pasážami.

Samozrejme, tento proces funguje aj v opačnom smere: nemusíte počuť tichý tón, ktorý príde pred hlasnejším tónom.

Teraz uvažujme na chvíľu o tom, že zvukový signál zložený z dvoch sínusových vĺn, aj keď jeden je tichší, obsahuje takmer dvakrát toľko dát ako signál obsahujúci jednu vlnu. Ak by ste skúsili urobiť kompresiu tohto audio signálu obsahujúceho dve sínusové vlny, venovali by ste menej úložného priestoru na disku takmer nepočuteľnému signálu, a viac dominantnému signálu. A samozrejme, to je presne to, čo algoritmy väčšiny kodekov robia. Využívajú niektoré vlastnosti psychoakustických javov, a pridelujú úložný priestor inteligentne.

bitrate.GIF

 

Dátový tok (bitrate)

Kým MP3 užívatelia nemôžu kontrolovať mieru stratenia informácie, môžu kontrolovať počet bitov za sekundu vyhradených naukladanie dát.

Bitrate teda udáva počet bitov za sekundu, ktorý by mal byť vyhradený na uloženie finálneho zvukového súboru - čím vyšší dátový tok, tým väčšie je audio rozlíšenie výsledného produktu, ako je znázornené na obrázku. Jednoduchý spôsob, ako si prestaviť vplyv bitrate na kvalitu, sú veľmi staré filmy. Objavuje sa sekanie obrazu, pretože je zobrazených menej snímok za sekundu, čo znamená aj to, že je menej dát distribuovaných v jednom časovom rámci.

Pre ilustráciu tu je ukážka skladby Vidiečan s bitrate 128kB/s, 64kB/s a 32kB/s. Velkosti ukážok sú 318/159/16,3 kB.


Poznámka: Pôvodne som vložil prehrávače zvukov priamo do blogu, ale keďže sa spúšťali automaticky (napriek nastaveniu), vyriešil som to takto.. Zmes týchto zvukov spolu bola dosť nepríjemná.

Nabudúce možno niečo o stereo efekte.

 

Literatúra:

MP3: The Definitive Guide, Scot Hacker, 2000

 

 

Páčil sa Vám tento článok? Pridajte si blogera medzi obľúbených a my Vám pošleme email keď napíše ďalší článok
Pridaj k obľúbeným

Hlavné správy

Nemám úctu voči prezidentke, povedal v parlamente Danko

Matovič prišiel pred Danka s papierom, na ktorom bolo napísané: On je ožratý.


Už ste čítali?