Nové pokročilé kódování zvuku aac. Formát HE-AAC, jeho verze a jejich rozdíly

Nedávno jsem obdržel následující dopis:

Dobrý den, MP3 je nejoblíbenější zvukový formát, ale existuje tolik dalších, jako jsou AAC, FLAC, OGG a WMA, že si opravdu nejsem jistý, který z nich bych měl použít. Jaký je mezi nimi rozdíl a který z nich mám použít k ukládání hudby?

Otázka je docela populární, pokusím se na ni odpovědět jednoduše, ale jasně.

O rozdílu mezi bezeztrátovým a ztrátovým jsme již mluvili, ale stručně řečeno, existují dva typy kvality zvuku:

  • bezztrátové: FLAC, ALAC, WAV;
  • ztrátové: MP3, AAC, OGG, WMA.

Bezztrátový formát zachovává plnou kvalitu zvuku, ve většině případů na úrovni CD, zatímco ztrátový formát komprimuje soubory, aby se ušetřilo místo (samozřejmě je zhoršená kvalita zvuku).

Nekomprimované formáty ukládání dat: FLAC, ALAC, WAV a další

  • WAV a AIFF: WAV i AIFF ukládají zvuk nekomprimovaný, což znamená, že jde o přesné kopie původního zvuku. Tyto dva formáty jsou v podstatě stejné kvality; Jen ukládají data trochu jinak. AIFF vyrábí Apple, takže jej můžete vidět častěji v produktech Apple, zatímco WAV je do značné míry univerzální. Jelikož jsou však nekomprimované, zabírají spoustu zbytečného místa. Pokud zvuk neupravujete, nemusíte zvuk v těchto formátech ukládat.
  • FLAC: Free Lossless Audio Codec (FLAC) je nejoblíbenější bezztrátový formát ukládání zvuku, takže je dobrou volbou. Na rozdíl od WAV a AIFF data mírně komprimuje, takže zabírá méně místa. Je však považován za formát, který ukládá bezeztrátový zvuk, kvalita hudby zůstává stejná jako u původního zdroje, takže je efektivnější používat než WAV a AIFF. Je to zdarma a open source.
  • Apple Lossless: Také známý jako ALAC, Apple Lossless je podobný FLAC. Jedná se o lehce komprimovaný formát, nicméně hudba zůstane zachována bez ztráty kvality. Jeho komprese není tak účinná jako FLAC, takže vaše soubory mohou být o něco větší, ale je plně podporována iTunes a iOS (zatímco FLAC nikoli). Pokud tedy jako hlavní používáte iTunes a iOS software pro poslech hudby budete muset použít tento formát.
  • OPICE.: APE - má nejagresivnější kompresní algoritmus pro bezztrátové ukládání hudby, to znamená, že získáte maximální úsporu místa. Jeho kvalita zvuku je stejná jako u FLAC, ALAC, ale často dochází k problémům s kompatibilitou. Přehrávání tohoto formátu navíc mnohem více zatěžuje procesor při jeho dekódování, protože data jsou vysoce komprimovaná. Obecně bych tento formát nedoporučoval používat, pokud nemáte omezenou dostupnou paměť a nemáte problémy s kompatibilitou softwaru.

Formáty pro ukládání komprimovaného zvuku: MP3, AAC, OGG a další


Pokud chcete poslouchat hudbu tady a teď, je pravděpodobné, že budete používat ztrátový formát. Šetří spoustu paměti, takže vám zbyde více místa pro skladby na vašem přenosném přehrávači, a pokud jsou dostatečně vysoké, budou k nerozeznání od původního zdroje. Zde jsou formáty, se kterými se pravděpodobně setkáte:

  • MP3: MPEG Audio Layer III nebo MP3 je nejběžnější ztrátový formát pro ukládání zvuku. Natolik, že se stal synonymem hudby ke stažení. MP3 není nejúčinnějším formátem ze všech, ale rozhodně je nejvíce podporovaný, což jej dělá nejlepší volba pro ukládání komprimovaného zvuku.
  • A.A.C.: Advanced Audio Coding, také známé jako AAC, je podobné MP3, i když je o něco efektivnější. To znamená, že můžete mít soubory, které zabírají méně místa, ale mají stejnou kvalitu zvuku jako MP3. Nejlepším evangelistem tohoto formátu je dnes iTunes společnosti Apple, díky němuž se AAC stalo tak populární, že se stalo téměř tak široce známým jako MP3. Měl jsem jen jedno zařízení za velmi dlouhou dobu, které neumělo přehrávat AAC, a to bylo před několika lety, takže tento formát můžete bezpečně používat k ukládání hudby.
  • Ogg Vorbis: Formát Vorbis, známý jako Ogg Vorbis díky použití kontejneru Ogg, je bezplatnou alternativou k MP3 a AAC. Jeho hlavní vlastností je, že není omezen patenty, ale vás jako koncového uživatele se to vůbec netýká. Ve skutečnosti je i přes svou otevřenost a podobnou kvalitu mnohem méně populární než MP3 a AAC, což znamená, že jej podporuje méně programů. Proto jej nedoporučujeme používat, abyste se vyhnuli problémům s kompatibilitou softwaru.
  • WMA: Windows Media Audio je vlastní proprietární formát společnosti Microsoft, podobný MP3 nebo AAC. Oproti jiným formátům nenabízí žádné výhody a mimo platformu Windows také není příliš dobře podporován. Nedoporučujeme kopírovat CD do tohoto formátu, pokud si nejste jisti, že veškerá hudba bude přehrávána na platformě Windows nebo na přehrávačích kompatibilních s tímto formátem.

Co byste tedy měli použít?

Nyní, když rozumíte rozdílu mezi jednotlivými formáty, který byste měli použít k kopírování nebo stahování hudby? Obecně doporučujeme používat MP3 nebo AAC. Jsou kompatibilní téměř s každým přehrávačem a oba jsou k nerozeznání od originálu, pokud . Pokud nemáte speciální potřeby, které diktují jinak, MP3 a AAC jsou vaší nejlepší volbou.

Existuje však něco, co je třeba říci pro ukládání hudby v bezztrátovém formátu, jako je FLAC. I když si vyšší kvality pravděpodobně nevšimnete, bezztrátový je skvělý pro ukládání hudby, pokud ji plánujete později převést do jiných formátů, protože převod ztrátového formátu do jiného ztrátového formátu (například AAC na MP3) bude mít za následek Když se objeví soubory, se zdají být výrazně nižší kvality. Proto pro archivační účely doporučujeme FLAC. Můžete však použít jakýkoli bezztrátový formát, protože můžete převádět mezi bezztrátovými formáty beze změny kvality souboru.

V tomto článku navrhuji zvážit účinnou metodu komprese zvukových souborů. Toto je druhý díl ze série o optimalizaci obsahu pro mobilní telefony, první, připomínám, byl věnován .

Zvukové soubory zpravidla zabírají nejvíce, někdy velikost každé kompozice v průměru dosahuje 3-5 megabajtů. Takové úložné objemy v paměti mobilního telefonu jsou plýtvání.

Nejoblíbenějším formátem je stále mp3, ale z hlediska „efektivity“ kódování má k ideálu daleko. Jedna alternativa je A.A.C., ve srovnání s mp3 je schopen produkovat vyšší kvalitu s podobnou velikostí souboru.

V praxi to umožňuje komprimovat zvukové soubory na průměrnou velikost 1,5-2 Mb, které znějí mírně odlišně od originálu. Tento článek poskytuje návod, jak převést zvukové soubory do AAC pomocí foobar2000.

Pokročilé kódování zvuku (AAC)

Toto je širokopásmový algoritmus kódování zvuku, který poskytuje podporu 1 až 48 kanálů při vzorkovacích frekvencích od 8 do 96 kHz. AAC pracuje s datovými toky v rozsahu od 8 kbps pro mono hlas až po neuvěřitelných 160 kbps na kanál pro vysoce kvalitní kódování pomocí více cyklů kódování/dekódování.

Formát byl vyvinut společně několika společnostmi: AT&T Bell Laboratories, Fraunhofer IIS, Dolby Laboratories, Sony Corporation a Nokia. Formát AAC je aktivně propagován držiteli patentů. V první řadě díky mobilní zařízení, které mají hardwarovou podporu pro tento formát. Můžete si zapamatovat umístění telefonů Sony EricssonŘada Walkman, jako modely vytvořené pro lidi, kteří kladou velký důraz na kvalitu zvuku zařízení. Tento formát se také používá v internetovém obchodě iTunes a v mnoha dalších oblastech souvisejících s médii.

Klíčové výhody AAC

  • Až 48 audio kanálů;
  • B Ó vyšší účinnost kódování při konstantním i proměnlivém datovém toku;
  • Vzorkovací frekvence 8 Hz až 96 kHz (MP3: 8 Hz až 48 kHz);
    Flexibilnější režim Joint stereo.

AAC kódování

K tomu použijeme program


Foobar2000 má minimalistické, rozšiřitelné rozhraní a obsahuje mnoho funkcí pro podporu metadat a vysoce kvalitní přehrávání Zvuk. Existují obě oficiální složky a
komponenty třetích stran s širokou škálou doplňkových funkcí.

Klíčové vlastnosti foobar 2000

  • Podporované audio formáty: MP3, MP4, AAC, Vorbis, FLAC, WAV, Audio CD atd.;
  • Plná podpora Unicode;
  • Vyrovnání hlasitosti (ReplayGain);
  • Snadno přizpůsobitelný design rozhraní;
  • Pokročilé možnosti práce se značkami;
  • Podpora pro ripování Audio CD a také překódování všech podporovaných audio formátů pomocí převodníku komponent;
  • Plná podpora ReplayGain;
  • Otevřená architektura umožňuje vývojáři třetích stran rozšířit funkčnost přehrávače.
operační systém
Windows XP - SP2 nebo vyšší, Vista, Seven.

Chcete-li pracovat, musíte si z kanceláře stáhnout nejnovější stabilní verzi foobar 2000. místo. Zde si také můžete stáhnout další komponenty a pluginy. Aby foobar2000 kódoval zvukové soubory do formátu AAC, musíte si stáhnout tento bezplatný kodek a umístit jej do složky, kde jsou umístěny soubory programu.

Kodek si můžete stáhnout z. vývojářské weby. Existují dvě oblíbené alternativy - kodek AAC od společnosti Nero nebo QuickTime AAC od společnosti Apple.

Na odborných fórech se již dlouho vedou vášnivé diskuse o tom, který kodek AAC je lepší, často se shodují v tom, že psychoakustické algoritmy ve zvuku Nero jsou lépe implementovány. Pro tento článek je vybraný kodek od Nero (neroAacEnc.exe), po zvládnutí technologie kódování si budete moci vyzkoušet QT AAC (qaac.exe).

Spusťte foobar2000, otevřete soubor, který je třeba převést (Soubor - Otevřít...). Vyberte řádek a z rozevíracího seznamu vyberte možnost Převést.


Zajímá nás položka Výstupní formát.


Otevře se následující okno


Nabídka nastavení převodu


Přejděte na položku AAC (Nero) a kliknutím na Upravit spusťte poloautomatický režim nastavení.


V tomto menu můžete nastavit parametry pro kodér AAC (Encoder) - režim kódování (Mode) a bitrate (Quality). Většina efektivní režim s proměnným bitratem - VBR, který nám doporučuje foobar2000. Kvalita nám umožňuje určit kvalitu výstupního souboru – čím vyšší je hodnota bitrate, měřená v kilobitech/s, tím vyšší je kvalita výsledného zvukového souboru a jeho velikost.
Zde je potřeba najít kompromis mezi kvalitou a velikostí. To lze určit pouze experimentálně. Z vlastní zkušenosti to mohu říci
pro mobilní telefon pro mnoho hudebních souborů zcela stačí q v rozsahu od 23 do 30. Vše závisí na složitosti hudební skladby.

Ukončete nastavení - klikněte na OK, poté na Zpět a nakonec Převést. Zobrazí se okno s upozorněním, že kódujete do ztrátového formátu.


Protože se v budoucnu plánuje přehrávání tohoto souboru aac mobilní telefon, pak je určité snížení kvality nevyhnutelným procesem. Souhlasíme se zahájením kódování.


Po několika minutách, pokud bylo vše provedeno správně, se v kontejneru vytvoří soubor s příponou m4a - aac. Tento soubor by se měl v telefonu přehrát bez problémů, ale pokud váš model odmítne soubor přehrát, můžete zkusit jednoduše změnit příponu z .m4a na .aac.

Existují také doplňkové příkazy, tzv. přepínače, které umožňují vyrábět více doladění kodek.

Podívejme se na ty nejdůležitější při kódování v režimu VBR

- ignorovat délku- ignorujte dobu trvání souboru, nejlépe použijte.

-q- nastavuje kvalitu zvuku, 0 - minimální kvalita, 1 - maximální. Příslušnou hodnotu bitrate můžete určit pomocí již zvažovaného profilu AAC.

Zbývající příkazy lze zkopírovat z níže uvedeného příkladu.

Abyste mohli zadávat klíče, musíte si ve foobar2000 vytvořit nový profil. Chcete-li to provést, v nabídce Převést nastavení klepněte na Přidat nový a nastavit své hodnoty.


Klíče musí jít v určitém pořadí.

Příklad platného řádku:-ignorelength -q 0,52 -if - -of %d

Existují varianty formátu jako HE-AAC a HE-AACv2 – tyto formáty znamenají, že kodek AAC používá speciální algoritmy pro ultranízké datové toky. Faktem je, že kodek AAC sám vybírá optimální režim kódování, takže není potřeba používat přepínače -lc, -he a -hev2.

Získané charakteristiky zvukového souboru si můžete prohlédnout v programu

Formát AAC dnes ještě nedosáhl masového rozšíření na audio nosičích, ale v řadě parametrů předčí všechny dnes existující typy komprese zvuku, a proto si zaslouží naši pozornost.

co to je?

Začněme definicí: AAC je proprietární (proprietární) možnost komprese zvukových souborů. Zároveň má menší ztrátu kvality při kódování ve srovnání s MP3 za podmínek stejného bitrate. Formát AAC je navíc širokopásmový algoritmus kódování zvuku, který používá dva hlavní principy kódování k výraznému snížení množství dat potřebných k přenosu kvalitního digitálního zvuku. Toto řešení je uznáváno jako jedno z nejkvalitnějších, implementováno pomocí technologie ztrátové komprese. Formát podporuje většinu moderních zařízení, dokonce i přenosných. Je třeba poznamenat, že vyzváněcí tóny ve formátu AAC lze zakoupit iTunes store a tento obchod nabízí hudbu komprimovanou výhradně pomocí uvedené rozhodnutí. Je třeba také říci, že formát AAC byl původně vytvořen jako nástupce MP3, což by mohlo poskytnout lepší kvalitu kódování. Řešení bylo vydáno již v roce 1997 jako nová, sedmá část rodiny MPEG-2.

Princip činnosti

Při kódování v tento formát jsou prováděny následující procesy: ze signálu jsou odstraněny nevnímané složky, kódovaný zvukový signál je zbaven redundance. Poté jsou data zpracována metodou MDCT podle její složitosti. V další fázi se přidávají kódy pro opravu různých vnitřní chyby. Nakonec je signál přenesen nebo uložen.

Všechny detaily

Zajímavé je, že formát AAC má vzorkovací frekvenci v rozsahu 8-96 kHz, stejně jako řadu kanálů v rozsahu 1-48. MP3 používá hybridní sadu filtrů. AAC se zase uchýlí k Modified Discrete Cosine Transform se zvětšenou velikostí okna, která dosahuje 2048 bodů.

Ve srovnání s MP3 je tedy AAC mnohem vhodnější pro kódování zvuku, který má proud komplexních pulzů i obdélníkových vln. Formát má schopnost dynamicky přepínat délky bloků MDCT v rozsahu 2048-256 bodů. V případě, že dojde ke krátkodobé nebo jednorázové změně, použije se malé „okno“ 256 bodů, aby bylo dosaženo lepší rozlišení. Toto výchozí nastavení je velké okno o velikosti 2 048 bodů, aby se maximalizovala efektivita kódování. AAC má oproti konvenčnímu MP3 řadu výhod. Mezi nimi je třeba poznamenat: implementace velké číslo audio kanálů (až 48), značná efektivita kódování v podmínkách konstantních a proměnných datových toků, stejně jako vzorkovací frekvence v rozsahu od 8 Hz do 96 kHz (u MP3 se toto číslo pohybuje od 8 Hz do 48 kHz) a flexibilnější speciální režim tzv. Joint stereo. Pokud jde o řešení AAC+, jedná se o kodek, který je zaměřen na práci s nízkými datovými toky. Jedná se o kombinaci SBR a AAC LC, díky které je dosaženo dobrého zvuku již v rozsahu 32-48 kbps.

2009-09-30T20:52

2009-09-30T20:52

Audiofilský software

První myšlenky na použití psychoakustického maskování ke kompresi zvukových dat pocházejí z roku 1979. Odpovídající audio kodéry se však začaly rozšiřovat až v polovině 90. let, kdy výpočetní výkon osobní počítače Stačilo přehrávat komprimovaný zvuk v reálném čase a objevil se standard MPEG-1 Audio Layer 3, lépe známý jako MP3. Komprimované audio formáty se staly nepostradatelnými pro přenos zvuku přes internet a poskytují „prakticky transparentní“ stereofonní kvalitu zvuku (to znamená, že kódovaný signál je pro většinu posluchačů nerozeznatelný od originálu) při bitových rychlostech nad 128 kbps. Základní principy formátu MP3 naleznete v článcích K. Glasmana (2...8/2005)

Rozvoj metod komprese dat a psychoakustiky postupně vedl k tomu, že se standard MP3 stal „stísněným“ pro implementaci nových nápadů do kódování zvuku. Výsledkem je, že do roku 1997 Fraunhofer Institute (Fraunhofer IIS), který vytvořil MP3 na počátku 90. let, stejně jako Dolby, AT&T, Sony a Nokia, vyvinul nová metoda komprese zvuku - Advanced Audio Coding (AAC), zahrnuté ve standardech MPEG-2 a MPEG-4. Hlavní rozdíly oproti standardu MP3 jsou:

  • podpora širšího rozsahu formátů (až 48 kanálů) a vzorkovacích frekvencí zvuku (od 8 kHz do 96 kHz);
  • účinnější a jednodušší banka filtrů: hybridní banka filtrů MP3 byla nahrazena konvenčním MDCT (modified discrete cosine transform);
  • širší limity pro změnu frekvenčně-časového rozlišení v bance filtrů – osmkrát (v MP3 – třikrát) – vedly k lepšímu kódování přechodných jevů (přechodových procesů) a stacionárních částí zvukového signálu;
  • lepší kódování frekvencí nad 16 kHz;
  • flexibilnější režim stereo kódování, který umožňuje nezávisle přepínat do režimu M/S („společné stereo“) v různých frekvenčních pásmech;
  • další funkce standardu, které zvyšují efektivitu komprese: technologie generování šumu v časové doméně (TNS), dlouhodobá predikce koeficientů MDCT, režim parametrického stereo kódování, substituce percepčního šumu, frekvence technologie vysokorychlostní obnovy (SBR).

Díky těmto vlastnostem je standard AAC schopen dosáhnout flexibilnějšího a efektivnějšího, a tedy i kvalitnějšího kódování zvuku. V důsledku rozšířeného používání formátu MP3 si standard AAC zatím nezískal popularitu srovnatelnou s MP3. Přesto je AAC hlavním formátem v oblíbeném internetovém obchodě iTunes Store, přehrávačích iPod, iTunes, telefon iPhone, PlayStation 3, Nintendo Wii a digitální vysílání DAB+/DRM.

Pojďme se blíže podívat na hlavní rysy AAC.

Banka filtrů

Stejně jako ostatní psychoakustické audio kodéry funguje AAC podle následujícího schématu. Vstupní signál prochází bankou filtrů - transformací, která převádí signál z časové oblasti do časově-frekvenční oblasti (podobně jako při konstrukci spektrogramu). Paralelně psychoakustický model analyzuje signál a určuje prahy psychoakustického maskování. Dále se kvantují spektrální koeficienty signálu na výstupu banky filtrů tak, aby spektrum šumu, pokud je to možné (pokud to bitová rychlost dovoluje), bylo pod maskovacími prahy a nebylo slyšitelné. Kvantované koeficienty jsou bezeztrátově komprimovány do výstupního souboru AAC. Banka filtrů tedy sama signál nekomprimuje, pouze jej převede do formy vhodnější pro kompresi.

Vlastností každé banky filtrů je její frekvenční rozlišení, tedy počet frekvenčních pásem, do kterých rozděluje spektrum signálu. Většina bank filtrů používaných pro kompresi zvuku má několik set pásem. To znamená, že v důsledku vztahu nejistoty mají takové banky filtrů časové rozlišení v řádu několika desítek milisekund. Když jsou spektrální koeficienty signálu kvantovány, zavedená kvantizační chyba při dekódování signálu je distribuována v čase po celé délce okna banky filtrů. V některých případech to vede k nežádoucímu efektu zvanému pre-echo. Projevuje se, když se kvantizační chyba z přechodného děje (prudký výboj energie v signálu) šíří v čase do časového úseku předcházejícího přechodnému jevu a stává se slyšitelným (obr. 1). Ke snížení tohoto efektu se používají banky filtrů s proměnným časově-frekvenčním rozlišením. Například MP3 používá přepínání časového rozlišení banky filtrů mezi 26 a 9 ms. U stacionárních signálů se používají okna 26 ms pro dosažení dobrého frekvenčního rozlišení a pro přechodové jevy se používají okna 9 ms pro snížení efektu předozvěny (viz obr. 1).

Algoritmus AAC také používá přepínání velikosti okna MDCT. Rozdíl ve velikosti oken je přitom osminásobný: 6 a 48 ms (256 a 2048 vzorků). Díky tomu je algoritmus schopen se přizpůsobit širšímu rozsahu signálů a dosáhnout lepšího stupně komprese.

Technologie TNS - tvorba amplitudové obálky šumu

Jedním z problémů moderních psychoakustických audio kodérů je práce s přechodnými jevy (přechodové procesy v audio signálu). Pro dosažení transparentního kódování musí kvantizační šum spadat do časově závislého maskovacího prahu. V praxi je však tento požadavek obtížné uspokojit téměř přechodné procesy, protože Kvantizační šum generovaný během kódování se šíří v čase během dekódování po celé délce MDCT okna. To může mít za následek kvantizační šum výrazně překračující časové prahy maskování.

Technologie TNS (temporal noise shaping) ve standardu AAC umožňuje řídit šíření časového kvantovacího šumu v rámci každého okna MDCT. Technologie TNS je založena na podobnosti (časově-frekvenční dualitě) amplitudové obálky signálu a obálky jeho spektra a také na použití lineární predikce (LPC) ve frekvenci při kvantování spektra.

Je dobře známo, že u signálů se spektrem, které se velmi liší od bílé (například tóny), použití lineární predikce (LPC) v časové oblasti může spektrum účinně „vybělit“ a zakódovat takové signály jejich rozložením na predikční koeficienty a relativně malá chyba predikce amplitudy (zbytková). Během dekódování generuje filtr lineární predikce chybové spektrum podle spektra původního signálu.

AAC kodér používá lineární predikci opačným způsobem: k predikci spektrálních vzorků ve frekvenční doméně. Rozdíl mezi původními a predikovanými MDCT koeficienty je kvantován podle maskovacích prahů (v tradičních kodérech jsou kvantovány původní MDCT koeficienty). Koeficienty lineární predikce jsou také zapsány do výstupního souboru. Při dekódování signálu vytváří lineární predikční filtr aplikovaný na rozdílový signál ve frekvenční doméně (včetně kvantizační chyby) amplitudovou obálku původního signálu (a kvantizační chybu) v časové oblasti. Tím se obálka amplitudy kvantizačních chyb přiblíží obálke amplitudy původního signálu (obr. 2).

Technologie TNS snižuje vliv pre-echa a znatelnost kvantizačních chyb u některých harmonických signálů s pulzním charakterem zvukové produkce (řeč, některé dechové a smyčcové nástroje). Na Obr. 2 porovnává chyby kvantizace zavedené do hlasového signálu algoritmy AAC a MP3 se stejnými datovými toky. Spolu s obecným poklesem kvantizační chyby (v důsledku větší účinnosti AAC) je pozorován vznik amplitudové obálky časové kvantizační chyby podle obálky původního signálu.

Ve standardu AAC lze technologii TNS aplikovat na jednotlivá frekvenční pásma spektra samostatně nebo zcela vypnout.

Technologie SBR - vysokofrekvenční obnova

Spolehlivý přenos širokého frekvenčního rozsahu je důležitým požadavkem pro vysoce kvalitní kódování. Přenos každé následující oktávy zvukového rozsahu však zvyšuje požadavky na přenosovou rychlost pro tradiční zvukový kodér jeden a půl až dvakrát. Chcete-li snížit přenosovou rychlost a přesto zachovat vysoké frekvence v kódovaném materiálu byla vytvořena technologie umělé syntézy vysokých frekvencí SBR (spektrální pásmová replikace).

Technologie je založena na skutečnosti, že náš sluch analyzuje vysoké frekvence s menší přesností než střední a nízké frekvence. Pro vytvoření efektu přítomnosti vysokých frekvencí není nutné matematicky přesně rekonstruovat průběh, ale spíše pouze obnovit některé zásadní psychoakustické parametry signálu na vysokých frekvencích. Mezi tyto podstatné parametry patří časově-frekvenční rozložení (obálka) energie signálu a stupeň jeho tonality/šumu.

Myšlenka algoritmu je taková. Při kódování jsou analyzovány vysoké frekvence v původním audio signálu a extrahovány jejich parametry: především obálka amplitudy v několika (obvykle osmi) frekvenčních pásmech. Dále se ze záznamu odstraní vysoké frekvence a zakódují se pouze zbývající nízké a střední frekvence. Současně je do výstupního souboru přidán také relativně malý proud informací o parametrech ztracených vysokých frekvencí.

Během přehrávání je nejprve dekódován signál nízké a střední frekvence. Poté (pokud je v přehrávači přítomen) začne fungovat dekodér SBR. Prvním krokem je syntetizovat vysokofrekvenční signál transpozicí (přesněji frekvenčním posunem) stávajících středních frekvencí. Protože stupeň tonality/šumu spektra na středních a vysokých frekvencích je přibližně stejný, výsledkem tohoto kroku je vysokofrekvenční signál s věrohodnou strukturou spektra. Ve druhém kroku používá dekodér SBR dodatečné uložené vysokofrekvenční informace, aby mu poskytl požadovanou amplitudovou obálku v každém frekvenčním pásmu. Výsledkem je signál, ve kterém jsou vysoké frekvence kompletně syntetizovány ze středních frekvencí, ale zároveň si zachovávají zvuk původních vysokých frekvencí.

Technologie SBR může být aplikována na mnoho existujících metod kódování zvuku. Například SBR v kombinaci s MP3 se nazývá MP3 PRO a SBR v kombinaci s AAC se nazývá HE-AAC (vysoká účinnost AAC). SBR se v zásadě používá při kódování s relativně nízkými datovými toky: 64 kbit/s a méně. Technologie umožňuje výrazně rozšířit frekvenční rozsah audio signálu s minimálním zvýšením bitrate (několik kbit/s).

Parametrická stereo technologie

Přenos stereo signálu obvykle vyžaduje, aby kodér měl téměř 2krát vyšší přenosovou rychlost než u mono signálu. V tomto případě lze stereo kanály kódovat jak nezávisle, tak po M/S konverzi. V druhém případě má S-kanál často nižší přenosovou rychlost než M-kanál. Tento režim kódování se také nazývá společné stereo. Ve standardu AAC lze tento režim zapínat a vypínat kodérem nezávisle pro každé frekvenční pásmo.

Pro efektivnější kódování stereo signálů při velmi nízkých bitratech (16...32 kbit/s) byla vyvinuta technologie parametrického stereo kódování. Spočívá v tom, že stereo signál je před kódováním redukován na mono, ale do výstupního souboru je přidán malý stream (2...3 kbit/s) obsahující informace o stereo panoramatu původního stereo souboru. Tento proud obsahuje (v komprimované podobě) jakousi „panorámovou mapu“ pro časovou a frekvenční rovinu.

Ve fázi dekódování je na výsledný mono signál aplikován frekvenčně závislý panning. To lze provést současně s dekódováním aplikací vhodných amplitudových násobičů na původně stejné MDCT koeficienty levého a pravého kanálu.

Parametrická stereo technologie dává dobrý dojem z původního stereo zvuku za cenu jen mírného zvýšení bitrate oproti mono kódování. Neumožňuje vám však dosáhnout zcela transparentního zvuku, protože není schopen zohlednit všechny nuance stereo panorama, například fázové posuny mezi stereo kanály.

Parametrická stereo technologie byla zahrnuta do standardu HE-AAC v2.

Technologie PNS - generování šumu

Pro další zvýšení účinnosti kódování šumových signálů poskytuje standard AAC technologii PNS (perceptual noise substitution) pro syntézu šumu. Je známo, že naše ucho je citlivější na amplitudové spektrum signálu než na fázové spektrum. Proto namísto kódování MDCT koeficientů původního signálu v oblastech šumu můžete přenášet pouze parametry šumu: jeho výkon v závislosti na frekvenci a čase.

Takto funguje technologie PNS. Během kódování jsou identifikovány oblasti spektra, které představují šum, a odpovídající skupiny MDCT koeficientů jsou vyloučeny z procesu kódování. Frekvenční pásmo je označeno jako šum a ukládá se pro něj celková energie šumu.

Při dekódování jsou pseudonáhodné MDCT koeficienty s požadovaným celkovým výkonem dosazeny do frekvenčních pásem označených jako šum. V důsledku toho v uvedeném frekvenční rozsahy je syntetizován šum, který se zvukově blíží původnímu šumu.

Technologie dlouhodobé predikce - časová predikce

Psychoakustické kódování tónových signálů vyžaduje vyšší poměr místního signálu k šumu než kódování šumových signálů (např. 20 dB a 6 dB, v tomto pořadí). A to zase vyžaduje zvýšený datový tok. Koeficienty MDCT tónů jsou však v čase předvídatelné. Tato okolnost umožňuje využít jejich časovou závislost ke snížení bitrate.

Standard AAC poskytuje režim dlouhodobé predikce, ve kterém jsou MDCT koeficienty navíc zakódovány v čase pomocí lineární predikce. Termín „dlouhodobý“ znamená, že předpověď není provedena ze sousedních vzorků, ale ze vzorků oddělených nejpravděpodobnější periodou tónu na dané frekvenci.

Kvantování a komprese MDCT koeficientů

Podobně jako standard MP3 využívá AAC nelineární kvantování MDCT koeficientů a kompresi pomocí Huffmanovy metody. Koeficienty MDCT jsou kvantovány po zvýšení na výkon 0,75, což umožňuje zvýšení kvantizační chyby pro silné signály a snížení pro slabé signály v každém frekvenčním pásmu. Tímto způsobem se provádí dodatečné implicitní vytváření spektra šumu.

Po kvantování jsou MDCT koeficienty komprimovány pomocí sady pevných Huffmanových tabulek. Ve standardu AAC je těchto tabulek více než v MP3 a jsou zde širší možnosti pro seskupování koeficientů. To má za následek další zvýšení komprese.

Kvalita zvuku

Při posuzování kvality zvuku audio kodérů se obvykle používají subjektivní testy. Posluchačům jsou předkládány fragmenty nahrávek komprimované různými kodéry a čistotu zvuku každého fragmentu hodnotí na stupnici od 1 do 5. Za nejlepší kodek je považován ten, který je schopen dosáhnout vyšší kvality zvuku ve srovnání s konkurencí při daném datovém toku.

Docela směrodatným internetovým zdrojem, který poskytuje výsledky takových testů, je stránka http://www.rjamorim.com/test/ Představuje testy různých kodeků při různých bitratech. Prezentované výsledky jsou obecně v dobré shodě s jinými zdroji. Zde jsou některé výsledky pro kodéry MP3 a AAC, které vám pomohou porovnat jejich kvalitu.

Nejlepší MP3 kodér je bezplatný Lame. U většiny datových toků je však kvalitativně horší než novější standardy komprese. Při vysokých datových tocích (nad 128 kbps) je toto zpoždění malé a lídrem je kodér Ogg Vorbis.

Při datovém toku 64 kbps je již výhoda AAC znatelná. Ve variantě HE-AAC získá algoritmus skóre 3,68. To zhruba odpovídá Lame s datovým tokem 96 kbps a znamená, že AAC je asi 1,5krát lepší než MP3. Lameho skóre při 128 kbps je 4,29.

Při datovém toku 32 kbit/s má kodér AAC od Nero výrazné zlepšení kvality ve srovnání s MP3: skóre 3,23 a 1,72. AAC je však jen mírně před formátem MP3PRO, který získal skóre 3,08. To naznačuje, že technologie SBR výrazně zlepšuje kvalitu při nízkých přenosových rychlostech.

závěry

Díky novým technologiím používaným ve standardu AAC má tento formát znatelnou výhodu oproti MPEG-1 Layer 3 (MP3), což mu umožňuje dosáhnout nejlepší kvalita zvuk se stejnými datovými toky. Zvláště silný zisk je pozorován v oblasti nízkých datových toků: 96 kbit/s a méně. To potvrzuje příslib formátu AAC pro digitální vysílání.

Popularita AAC pro distribuci hudby na internetu dnes zůstává ve srovnání s formátem MP3 nízká. Uživatelé nadále preferují lepší přenositelnost MP3 před silnější kompresí AAC. Významná část hudebních archivů na stránkách, které distribuují hudbu, je již zpočátku ve formátu MP3 a poskytovatelé nemají přístup k nekomprimovaným nahrávkám. To znamená, že překódování takových nahrávek do formátu AAC nemá smysl – kvalita se často již ztrácí. Nicméně nové kapesní hráči a některé internetové obchody již formát AAC podporují, často s ověřením legálnosti obsahu (což také odrazuje uživatele, kteří se raději neomezují v kopírování hudby).

Přestože je formát AAC velmi slibný, není jediným vysoce kvalitním formátem komprese zvuku. Při vysokých datových tocích (nad 128 kb/s) má AAC často horší kvalitu než kodéry Ogg Vorbis a Musepack. Při nejnižších datových tocích (méně než 32 kbit/s) může být AAC horší než parametrické audio kodéry, včetně specializovaných kodérů pro kompresi řeči. Ve středně nízkém datovém toku je však AAC zapnuto tento moment drží dlaň.

Alexej Lukin
Časopis "Zvukový inženýr" 2008 #1

Oba formáty používají stejný kontejner, ale s ALAC nedochází ke ztrátě informací.

AAC (Advanced Audio Coding) byl původně vytvořen jako nástupce MP3 s vylepšenou kvalitou kódování. Formát AAC, oficiálně známý jako ISO/IEC 13818-7, byl vydán v roce 1997 jako sedmý člen rodiny MPEG-2. Existuje také formát AAC známý jako MPEG-4 Part 3.

Jak AAC funguje?

  1. Složky signálu, které lidé nevnímají, jsou odstraněny.
  2. Redundance v kódovaném audio signálu je odstraněna.
  3. Signál je následně zpracován metodou MDCT podle jeho složitosti.
  4. Jsou přidány interní kódy pro opravu chyb.
  5. Signál je uložen nebo přenášen.
  • .m4a - Standardní prodloužení;
  • .m4b - Soubor AAC, který podporuje záložky; používá se pro audioknihy a podcasty;
  • .m4p - chráněný soubor AAC; používá se k ochraně souboru před zkopírováním při legálním stahování hudby chráněné autorskými právy z internetových obchodů, jako je iTunes Store;
  • .m4r je soubor vyzváněcího tónu používaný v Apple iPhone.

viz také

Napište recenzi na článek "Pokročilé kódování zvuku"

Poznámky