Digitaalinen audio: huhtikuuta 2008

tiistai 29. huhtikuuta 2008

Oppitunnit 8 & 9: Audiokoodaus

Audiosignaalin bittinopeus

riippuu näytetaajuudesta, bittimäärästä, kanavamäärästä sekä synkronointi- ja virheenkorjausmenetelmästä
bittinopeus ilman pakkausta = kanavamäärä * bittimäärä (+ mahd. lisäbitit) * näytetaajuus

Audiosignaalin pakkaaminen

tarve bittimäärän pienentämiseen
häviötön pakkaus

vähennetään bittimäärää muuttamatta signaalia
alkuperäinen signaali palautettavissa
perustuu koodikirjan rakentamiseen

usein esiintyville näytteille lyhyt koodi, harvoin esiintyville pitkä

pakkaussuhde yleensä vaatimaton

häviöllinen pakkaus

signaalin huononeminen sallitaan
käytetään hyväksi ihmiskorvan ominaisuuksia: mitä ei ihminen kuule, sitä ei tarvitse ottaa mukaan
pakkaussuhde jopa 1:10
käytetään paljon, yleisimpänä mp3 ja digi-tv

Erot puheenkoodaukseen

puheenkoodauksessa signaalin luonno tunnetaan (ihmisääntä)
audiokoodauksessa äänimateriaali voi olla mitä tahansa
audiokoodauksessa ei riitä puhekoodauksen laatu (musiikissa koodausvirheet eivät saa kuulua)

Psykoakustiikka

poistetaan se mitä ei kuulla
psykoakustiset ilmiöt

kriittiset kaistat

taajuusalueet jotka kuulo käsittelee kokonaisuuksina

kuulokynnys

äänenpaine jonka alle jäävää ääntä ihminen ei kuule

peittoilmiö

voimakas ääni peittää hiljaisemmat

MPEG-standardit

tunnetuimmat standardit MPEG-1 ja MPEG-2
lisäksi MPEG-4, MPEG-7 ja MPEG-21
MPEG-1 layer 3 eli MP3

yleinen tapa lähes CD-tasoisen äänen tehokkaassa pakkauksessa
kehittyneempi psykoakustinen malli, kuin layer 1:ssä ja 2:ssa
lopullisen bittivirran Huffman-koodaus
CD-laadun bittinopeus alle 10% alkuperäisestä

MPEG-2 AAC

"seuraavan sukupolven audiokoodekki"
mp3:n äänenlaatu 30% pienemmällä bittinopeudella
monikanavaääni (1-48 kanavaa, 0-16 efektikanavaa)
parempi taajuusresoluutio
monen symbolin Huffman-koodaus
siistimpi kehysten vaihto
aika-alueen kohinanmuokkaus

Muita standardeja

AC-3 eli Dolby Digital

5.1-elokuvaääni (left, center, right, left-surround, right-surround ja LFE)

Dolby E
Sony ATRAC
Microsoft WMA
RealNetworks G2 Music Codec
Lucent PAC ja EPAC

Oppituntien aihe oli ehkä muita tutumpi jo valmiiksi joten tässä ei niin paljon uutta tullut kuin edellisissä. Bittinopeudet ja muut on näin puhelintekniikkaa opiskelleelle jo tuttua puuhaa, kuten puheen pakkaaminenkin. MPEG-standardit olivat taas tuttuja multimediateknologian puolelta. Myös ihmiskorvan heikkouksien hyväksikäyttö on jo tullut tutuksi. Tällä kertaa meni siis aika paljon vanhoja kerratessa. Hyvä kertausta silti. Tärkeitä asioita nämä pakkaamiset.

Oppitunti 7: Digitaaliset kaikualgoritmit

Jäljitellään äänen käyttäytymistä huonetilassa
Käyttötarkoitukset:

Tilantunnun lisääminen äänitteisiin

Tilan akustiikan simulointi

Huoneen impulssivaste

1. vaihe: Suora ääni

viive yleensä 20-200 ms
simulointi: viive ja vaimeneminen

2. vaihe: Varhaiset heijastukset

n. 50-100 ms suoran äänen jälkeen
simulointi: harva FIR-suodin (suurin osa kertoimista nollia), erittäin pitkä viivelinja

3. vaihe: Jälkikaiunta

simulointi: IIR-suodin, takaisinkytkentää ja pitkiä viiveitä

Digitaalinen levykaiku

erityisesti laulajille käytetty

analoginen versio oli rautalevy, jonka toisella puolella kaiutin ja toisella mikrofoni
kokopäästökampasuotimia sarjassa, aikamuuttuvia viivelinjoja ja takaisinkytkentöjä

Viive

viivepiirejä rinnankytkettynä
useamman viiveen saamiseksi lisätään viivepiirejä

Kaikualgoritmit ovat myös hyvin yleisiä kaikessa audiossa mutta erityisesti musiikissa. Oppitunti auttoi oppimaan, että kaikki kaiku ei ole suinkaan samaa vaan on useita eri kaikulajeja. Ehkä tulee nyt kuunneltua musiikkiakin eri tarkkuudella. Sinänsä nuo algoritmit meni vähän "ohi", mutta yleisesti tekniikoista tuli opittua jonkin verran.

maanantai 28. huhtikuuta 2008

Oppitunti 6: Digitaaliset äänitehosteet

Lisäävät vaihtelua ja elävyyttä sähköisiin ääniin
Käytetään joka puolella arkisessa äänessä (radio, TV, elokuvat, musiikki...)
Esimerkkejä tehosteista:

Flanger

soitetaan kahta samanlaista nauhaa samanaikaisesti ja hidastetaan toista
digitaalisesti signaali syötetään aikamuuttuvaan viivelinjaan ja summataan alkuperäisen kanssa
viivelinjan pituutta moduloidaan matalataajuusoskillaattorilla
saattaa kadottaa äänen

Phaser

vähän niinkuin flanger, mutta ei viivelinjaa vaan vaihesiirto
kokopäästösuodatettu signaali yhdistetään alkuperäiseen
ei kadotusvaaraa

Chorus

tehdään yhdestä äänestä monta
esim. useita myötäkytkentöjä eri viiveillä ja vahvistuksilla

Muita tehosteita:

Vibrato

ei alkuperäistä ääntä läpi eikä takaisin kytkentää --> vibrato

Tuplaus
Kaiku

pitkä viive (> 50 ms)

Stereotehosteet

moduloidaan viiveitä eri vaiheissa eri stereokanaviin

Kompressio & ekspandointi

ei oikeastaan tehoste vaan työkalu
pienennetään/suurennetaan dynaaminen alue

Vokooderi

robottiääni

Taajuusmuunnin

muutetaan perustaajuutta muuttamatta äänen tempoa

Wah-wah

käytetään yleisesti kitaran soiton yhteydessä
korkeita ja matalia ääniä lisätään vuoronperään

Enhancer

lisätään harmonista säröä

Särö

signaalitasosta riippuva vahvistus (aaltomuotoilu kulmikkaaksi)

Puhelinsoundi

kaistanpäästö- ja alipäästösuodatus

"Cher"

perustaajuuden kvantisoitu korjaus

Tehosteet ovat ehkä nykyisin jo niin arkipäivää ettei niitä tule edes ajatelleeksi sen tarkemmin. Lähes aina kun nykyisin vain digitaalista ääntä kuulee on mukana jonkun sortin efekti. Siksi onkin tärkeä muistaa että kunkin efektin takana on joku tietty tekniikka eikä kyseessä ole vain napin painaminen äänenmuokkausohjelmassa. Hyvä paketti tehosteista ja tekniikoista.

maanantai 14. huhtikuuta 2008

Tehtävä 3: Q-arvojen laskentaa

Ekvalisaattorin asetusten Q-arvo (hyvyysluku) saadaan laskettua jakamalla näytteen keskitaajuus kaistanleveydellä.

a) Keskitaajuus 200, -3 dB taajuudet 150 ja 250

Q = 200/(250-150) = 2 ,(okt. = 1,4144)

b) Keskitaajuus 2000, -3 dB taajuudet 1500 ja 2500

Q = 2000/(2500-1500) = 2 ,(okt. = 1,4144)

c) Keskitaajuus 1000, -3 dB taajuudet 200 ja 1800

Q = 1000/(1800-200) = 0.625 ,(okt. = 0,442)

Oppitunti 5: Digitaalinen äänisynteesi

Tämä oppitunti käsittelee digitaalisen äänisynteesin historiaa ja eri tekniikoita. Tässä pieniä huomioita aiheesta:

digitaalisen äänen tuottamista laskennallisesti, keinotekoisesti
tavoite: musikaalisen äänen tuottaminen tyhjästä
äänisynteesin perusongelmat

äänen laskeminen tehokkaasti

luonnonmukainen äänisynteesi vaatii monimutkaisen järjestelmän
ohjelmointi hankalaa

synteettisen äänen soittaminen

synteettinen ääni tylsää ilman ohjausta

vanha luokittelu

lineaariset menetelmät

aaltotaulukkosynteesi

ensimmäinen digitaalinen synteesimenetelmä
talletetaan yksi periodi ääntä ja toistetaan sitä
usean aaltotaulukon tekniikat

aaltomuotojen ristiinhäivytys
aaltopinotekniikka

additiivinen synteesi

tuotetaan ääntä yhdistämällä siniaaltoja
Fourier-analyysin käänteisoperaatio

edut:

kaikkien äänten tekeminen mahdollista

haitat:

datan suuri määrä
kohinaisen äänen tuottaminen vaikeaa

vähentävä synteesi

käytettiin alunperin analogisissa syntetisaattoreissa
edut:

laskennallisesti halpa tapa tuottaa paljon harmonisia
verhokäyrän säätely helppoa

haitat:

epäharmonisten äänten tuottaminen hankalaa
yksittäisten harmonisten amplitudia ei voi säätää

raesynteesi

epälineaariset menetelmät

FM-synteesi

sekä kantoaalto että modulaatioaalto ovat äänitaajuusalueella
laskennallisesti halpa tapa tuottaa paljon harmonisia
siniaaltoon tuotetaan nopea vibrato

aaltomuotoilu synteesi
diskreetit summalausekkeet
kehämodulointi
vaihemodulaatio

uusi luokittelu

abstraktit algoritmit

FM-synteesi, aaltomuotoilu, vähentävä synteesi...
laskennallisia temppuja, joilla saadaan aikaan ääntä
usein yksinkertaisia tekniikoita, joilla saadaan kiinnostavia ääniä

äänitteiden käsittely

Musique concréte, aaltotaulukkosynteesi, sämpläys...
talletetaan digitaalisesti jotain ääntä, muokataan sitä ja toistetaan
nykyisin sämpläys suosituin äänisynteesimenetelmä

spektrimallit

formanttisynteesi, sinimallit, sinikohinamallit...
keskittyvät äänen spektrin jäljittelyyn
laskennallisesti raskasta

soitinmallit

digitaalinen aaltojohtosynteesi yms.
jäljitellään jonkin soittimen äänentuottoperiaatetta

Oppitunnin asiat olivat osin vaikeita ymmärtää ja olisikin jossain kohtaa kaivannut pientä lisätietoa. Kuvat tekniikoista varsinkin kaipaisivat lisäselityksiä.

torstai 10. huhtikuuta 2008

Tehtävä 2: Bittinopeuden vähentäminen

CD-laatuisen äänisignaalin bittinopeus on 1,4 Mbit/s (näytetaajuus 44,1 kHz, bittimäärä 16, 2 kanavaa). Tehtävänä oli pienentää äänisignaalin bittinopeutta yhdistämällä kaksi menetelmää: näytteiden bittimäärän ja näytetaajuuden pienentämisellä. Menetelmiä piti testata musiikkisignaalilla ja selvittää, millä tekniikoiden yhdistelmällä saadaan paras tulos, kun tavoiteltu keskimääräinen bittinopeus on noin kymmenesosa alkuperäisestä.

Valitsin musiikiksi kappaleen, joka sisälsi hentoa kitaran näppäilyä, laulua, rumpuja ja bassoa, jotta kaikkien näiden käyttäytyminen tulisi testattua. Valitsin taajuudelle ja bittimäärälle erilaisia yhdistelmiä, joiden kaikkien keskinäinen tulo oli n. 128kb/s ( n. 1/10 alkuperäisestä bittinopeudesta). 1 bitti vastaa 6 dB tehosuhteena, joten yhden bitin poistamiseksi äänenvoimakkuuden pitää laskea 6 dB (tehollisesti voimakkuus on siis poiston jälkeen 1/4 alkuperäisestä).

Testien perusteella muokatun kappaleen laatu on sitä parempi, mitä suurempi näytteenottotaajuus on. Kuitenkin näytetaajuudeltaan suurimmissa kappaleissa bittejä pitää vähentää niin paljon että vaimennus nousee todella suureksi, jos meinataan saavuttaa 128kb/s bittinopeus. Kahden taajuudeltaan suurimman näytteen kohdalla vaimennus on jo sitä luokkaa että nupit kaakkoon kääntämälläkään ei juurikaan kunnolla kappaletta kuule. Verrattuna saman kappaleen 128kb/s nopeuksiseen mp3-pakattuun muotoon kaikki kokeilut jäävät kuitenkin todella kauas laadullisesti.

maanantai 7. huhtikuuta 2008

Oppitunti 4: Digitaaliset suotimet audiossa

Oppitunti 4 käsittelee digitaalisia suotimia audiossa, sekä esimerkkejä ja toimitatapoja niistä:

Digitaalinen suodatin

laskentamenetelmä, jolla poistetaan tai vahvistetaan joitain taajuuksia digitaalisesta signaalista
kaksi päätyyppiä:

myötäkytketyt eli FIR-suotimet
takaisinkytketyt eli IIR-suotimet

FIR-suotimet

impulssivaste on suotimen vaste, kun heräte on yksikköimpulssi
impulssivaste on aina äärellisen pituinen

IIR-suotimet

impulssivaste yleensä äärettömän pitkä
suodin voi olla epästabiili
stabiiliusehto:

yksinapainen suodin ei saa olla vahvistava (vahvistus kerroin täytyy olla <1)

Digitaalinen resonaattori

Resonanssi: formantti tai värähtelymoodi

resonanssin kaistanleveys

luonnehtii resonanssin terävyyttä
niiden taajuuksien ero, joilla huippu on vaimentunut 3 dB

Q-arvo

keskitaajuus/kaistanleveys

niillä toteutetaan mm. ekvalisaattorit, vähentävä synteesi, formanttisynteesi jne.

Kokopäästösuodin

amplitudivaste on tasan 1 joka taajuudella!
käytetään hyllykorjaimissa ja ekvalisaattoreissa sekä kaikualgoritmeissä
hyllykorjain

basso- tai diskanttisäädin
tarkoitus säätää vain matalien tai korkeiden taajuuksien osuutta

ekvalisaattori

muuttaa audiojärjestelmän amplitudivastetta

Murtoviivesuodin

murtoviive = viive, joka on pienempi kuin näyteväli
käytetään ongelmissa, joissa tarvitaan interpolointia

näytetaajuuden tai -hetkien hienoviritys
epätasavälisen näytejonon palautus tasaväliseksi

sovelluksia mm. näytetaajuusmuunnos, keilanmuodostus mikrofonijonolla yms.

Oppitunnilla käsiteltiin eri suotimia digiaudiossa, mutta aihe ei sinänsä herättänyt suurta mielenkiintoa minussa. Luulen että tämän oppitunnin hyöty tulisi esille vasta jos alkaisi enemmänkin touhuamaan digiaudion parissa, mutta näin "tavikselle" oli jotenkin raskasta opittavaa. Enpä silti tiedä voiko suotimista nyt mitään riemukasta oppituntia saadakaan. :D

Tehtävä 1: Näytteistys ja dither

Äänenä tehtävässä käytin wav-muotoista musiikkikappaletta. Muuttamalla näytteistyksen taajuutta suuremmaksi (44100Hz --> 48000Hz) ilman uudelleennäytteistystä ääni nopeutui ja taas pienemmäksi (44100Hz --> 8000Hz) muuttamalla se hidastui. Kun taas uudelleennäytteistämistä käyttämällä (--> 8000 Hz) kappale ei hidastunut, mutta laatu laski huomattavasti. Ditherin käytöllä uudelleennäytteistämisen yhteydessä en huomannut olevan merkistystä lopputulokseen.

Digitaalinen audio