tiistai 29. huhtikuuta 2008

Oppitunnit 8 & 9: Audiokoodaus

  • Audiosignaalin bittinopeus
    • riippuu näytetaajuudesta, bittimäärästä, kanavamäärästä sekä synkronointi- ja virheenkorjausmenetelmästä
    • bittinopeus ilman pakkausta = kanavamäärä * bittimäärä (+ mahd. lisäbitit) * näytetaajuus
  • Audiosignaalin pakkaaminen
    • tarve bittimäärän pienentämiseen
    • häviötön pakkaus
      • vähennetään bittimäärää muuttamatta signaalia
      • alkuperäinen signaali palautettavissa
      • perustuu koodikirjan rakentamiseen
        • usein esiintyville näytteille lyhyt koodi, harvoin esiintyville pitkä
      • pakkaussuhde yleensä vaatimaton
    • häviöllinen pakkaus
      • signaalin huononeminen sallitaan
      • käytetään hyväksi ihmiskorvan ominaisuuksia: mitä ei ihminen kuule, sitä ei tarvitse ottaa mukaan
      • pakkaussuhde jopa 1:10
      • käytetään paljon, yleisimpänä mp3 ja digi-tv
  • Erot puheenkoodaukseen
    • puheenkoodauksessa signaalin luonno tunnetaan (ihmisääntä)
    • audiokoodauksessa äänimateriaali voi olla mitä tahansa
    • audiokoodauksessa ei riitä puhekoodauksen laatu (musiikissa koodausvirheet eivät saa kuulua)
  • Psykoakustiikka
    • poistetaan se mitä ei kuulla
    • psykoakustiset ilmiöt
      • kriittiset kaistat
        • taajuusalueet jotka kuulo käsittelee kokonaisuuksina
      • kuulokynnys
        • äänenpaine jonka alle jäävää ääntä ihminen ei kuule
      • peittoilmiö
        • voimakas ääni peittää hiljaisemmat
  • MPEG-standardit
    • tunnetuimmat standardit MPEG-1 ja MPEG-2
    • lisäksi MPEG-4, MPEG-7 ja MPEG-21
    • MPEG-1 layer 3 eli MP3
      • yleinen tapa lähes CD-tasoisen äänen tehokkaassa pakkauksessa
      • kehittyneempi psykoakustinen malli, kuin layer 1:ssä ja 2:ssa
      • lopullisen bittivirran Huffman-koodaus
      • CD-laadun bittinopeus alle 10% alkuperäisestä
    • MPEG-2 AAC
      • "seuraavan sukupolven audiokoodekki"
      • mp3:n äänenlaatu 30% pienemmällä bittinopeudella
      • monikanavaääni (1-48 kanavaa, 0-16 efektikanavaa)
      • parempi taajuusresoluutio
      • monen symbolin Huffman-koodaus
      • siistimpi kehysten vaihto
      • aika-alueen kohinanmuokkaus
  • Muita standardeja
    • AC-3 eli Dolby Digital
      • 5.1-elokuvaääni (left, center, right, left-surround, right-surround ja LFE)
    • Dolby E
    • Sony ATRAC
    • Microsoft WMA
    • RealNetworks G2 Music Codec
    • Lucent PAC ja EPAC

Oppituntien aihe oli ehkä muita tutumpi jo valmiiksi joten tässä ei niin paljon uutta tullut kuin edellisissä. Bittinopeudet ja muut on näin puhelintekniikkaa opiskelleelle jo tuttua puuhaa, kuten puheen pakkaaminenkin. MPEG-standardit olivat taas tuttuja multimediateknologian puolelta. Myös ihmiskorvan heikkouksien hyväksikäyttö on jo tullut tutuksi. Tällä kertaa meni siis aika paljon vanhoja kerratessa. Hyvä kertausta silti. Tärkeitä asioita nämä pakkaamiset.

Oppitunti 7: Digitaaliset kaikualgoritmit

  • Jäljitellään äänen käyttäytymistä huonetilassa
  • Käyttötarkoitukset:
    • Tilantunnun lisääminen äänitteisiin
    • Tilan akustiikan simulointi
  • Huoneen impulssivaste
    • 1. vaihe: Suora ääni
      • viive yleensä 20-200 ms
      • simulointi: viive ja vaimeneminen
    • 2. vaihe: Varhaiset heijastukset
      • n. 50-100 ms suoran äänen jälkeen
      • simulointi: harva FIR-suodin (suurin osa kertoimista nollia), erittäin pitkä viivelinja
    • 3. vaihe: Jälkikaiunta
      • simulointi: IIR-suodin, takaisinkytkentää ja pitkiä viiveitä
  • Digitaalinen levykaiku
    • erityisesti laulajille käytetty
    • analoginen versio oli rautalevy, jonka toisella puolella kaiutin ja toisella mikrofoni
    • kokopäästökampasuotimia sarjassa, aikamuuttuvia viivelinjoja ja takaisinkytkentöjä
  • Viive
    • viivepiirejä rinnankytkettynä
    • useamman viiveen saamiseksi lisätään viivepiirejä
Kaikualgoritmit ovat myös hyvin yleisiä kaikessa audiossa mutta erityisesti musiikissa. Oppitunti auttoi oppimaan, että kaikki kaiku ei ole suinkaan samaa vaan on useita eri kaikulajeja. Ehkä tulee nyt kuunneltua musiikkiakin eri tarkkuudella. Sinänsä nuo algoritmit meni vähän "ohi", mutta yleisesti tekniikoista tuli opittua jonkin verran.

maanantai 28. huhtikuuta 2008

Oppitunti 6: Digitaaliset äänitehosteet

  • Lisäävät vaihtelua ja elävyyttä sähköisiin ääniin
  • Käytetään joka puolella arkisessa äänessä (radio, TV, elokuvat, musiikki...)
  • Esimerkkejä tehosteista:
    • Flanger
      • soitetaan kahta samanlaista nauhaa samanaikaisesti ja hidastetaan toista
      • digitaalisesti signaali syötetään aikamuuttuvaan viivelinjaan ja summataan alkuperäisen kanssa
      • viivelinjan pituutta moduloidaan matalataajuusoskillaattorilla
      • saattaa kadottaa äänen
    • Phaser
      • vähän niinkuin flanger, mutta ei viivelinjaa vaan vaihesiirto
      • kokopäästösuodatettu signaali yhdistetään alkuperäiseen
      • ei kadotusvaaraa
    • Chorus
      • tehdään yhdestä äänestä monta
      • esim. useita myötäkytkentöjä eri viiveillä ja vahvistuksilla
    • Muita tehosteita:
      • Vibrato
        • ei alkuperäistä ääntä läpi eikä takaisin kytkentää --> vibrato
      • Tuplaus
      • Kaiku
        • pitkä viive (> 50 ms)
      • Stereotehosteet
        • moduloidaan viiveitä eri vaiheissa eri stereokanaviin
      • Kompressio & ekspandointi
        • ei oikeastaan tehoste vaan työkalu
        • pienennetään/suurennetaan dynaaminen alue
      • Vokooderi
        • robottiääni
      • Taajuusmuunnin
        • muutetaan perustaajuutta muuttamatta äänen tempoa
      • Wah-wah
        • käytetään yleisesti kitaran soiton yhteydessä
        • korkeita ja matalia ääniä lisätään vuoronperään
      • Enhancer
        • lisätään harmonista säröä
      • Särö
        • signaalitasosta riippuva vahvistus (aaltomuotoilu kulmikkaaksi)
      • Puhelinsoundi
        • kaistanpäästö- ja alipäästösuodatus
      • "Cher"
        • perustaajuuden kvantisoitu korjaus

Tehosteet ovat ehkä nykyisin jo niin arkipäivää ettei niitä tule edes ajatelleeksi sen tarkemmin. Lähes aina kun nykyisin vain digitaalista ääntä kuulee on mukana jonkun sortin efekti. Siksi onkin tärkeä muistaa että kunkin efektin takana on joku tietty tekniikka eikä kyseessä ole vain napin painaminen äänenmuokkausohjelmassa. Hyvä paketti tehosteista ja tekniikoista.

maanantai 14. huhtikuuta 2008

Tehtävä 3: Q-arvojen laskentaa

Ekvalisaattorin asetusten Q-arvo (hyvyysluku) saadaan laskettua jakamalla näytteen keskitaajuus kaistanleveydellä.

a) Keskitaajuus 200, -3 dB taajuudet 150 ja 250

Q =
200/(250-150) = 2 ,(okt. = 1,4144)

b)
Keskitaajuus 2000, -3 dB taajuudet 1500 ja 2500

Q = 2000/(2500-1500) = 2 ,(okt. = 1,4144)

c)
Keskitaajuus 1000, -3 dB taajuudet 200 ja 1800

Q = 1000/(1800-200) = 0.625 ,(okt. = 0,442)

Oppitunti 5: Digitaalinen äänisynteesi

Tämä oppitunti käsittelee digitaalisen äänisynteesin historiaa ja eri tekniikoita. Tässä pieniä huomioita aiheesta:

  • digitaalisen äänen tuottamista laskennallisesti, keinotekoisesti
  • tavoite: musikaalisen äänen tuottaminen tyhjästä
  • äänisynteesin perusongelmat
    • äänen laskeminen tehokkaasti
      • luonnonmukainen äänisynteesi vaatii monimutkaisen järjestelmän
      • ohjelmointi hankalaa
    • synteettisen äänen soittaminen
      • synteettinen ääni tylsää ilman ohjausta

  • vanha luokittelu
    • lineaariset menetelmät
      • aaltotaulukkosynteesi
        • ensimmäinen digitaalinen synteesimenetelmä
        • talletetaan yksi periodi ääntä ja toistetaan sitä
        • usean aaltotaulukon tekniikat
          • aaltomuotojen ristiinhäivytys
          • aaltopinotekniikka
      • additiivinen synteesi
        • tuotetaan ääntä yhdistämällä siniaaltoja
        • Fourier-analyysin käänteisoperaatio
        • edut:
          • kaikkien äänten tekeminen mahdollista
        • haitat:
          • datan suuri määrä
          • kohinaisen äänen tuottaminen vaikeaa
      • vähentävä synteesi
        • käytettiin alunperin analogisissa syntetisaattoreissa
        • edut:
          • laskennallisesti halpa tapa tuottaa paljon harmonisia
          • verhokäyrän säätely helppoa
        • haitat:
          • epäharmonisten äänten tuottaminen hankalaa
          • yksittäisten harmonisten amplitudia ei voi säätää
      • raesynteesi
    • epälineaariset menetelmät
      • FM-synteesi
        • sekä kantoaalto että modulaatioaalto ovat äänitaajuusalueella
        • laskennallisesti halpa tapa tuottaa paljon harmonisia
        • siniaaltoon tuotetaan nopea vibrato
      • aaltomuotoilu synteesi
      • diskreetit summalausekkeet
      • kehämodulointi
      • vaihemodulaatio
  • uusi luokittelu
    • abstraktit algoritmit
      • FM-synteesi, aaltomuotoilu, vähentävä synteesi...
      • laskennallisia temppuja, joilla saadaan aikaan ääntä
      • usein yksinkertaisia tekniikoita, joilla saadaan kiinnostavia ääniä
    • äänitteiden käsittely
      • Musique concréte, aaltotaulukkosynteesi, sämpläys...
      • talletetaan digitaalisesti jotain ääntä, muokataan sitä ja toistetaan
      • nykyisin sämpläys suosituin äänisynteesimenetelmä
    • spektrimallit
      • formanttisynteesi, sinimallit, sinikohinamallit...
      • keskittyvät äänen spektrin jäljittelyyn
      • laskennallisesti raskasta
    • soitinmallit
      • digitaalinen aaltojohtosynteesi yms.
      • jäljitellään jonkin soittimen äänentuottoperiaatetta

Oppitunnin asiat olivat osin vaikeita ymmärtää ja olisikin jossain kohtaa kaivannut pientä lisätietoa. Kuvat tekniikoista varsinkin kaipaisivat lisäselityksiä.

torstai 10. huhtikuuta 2008

Tehtävä 2: Bittinopeuden vähentäminen

CD-laatuisen äänisignaalin bittinopeus on 1,4 Mbit/s (näytetaajuus 44,1 kHz, bittimäärä 16, 2 kanavaa). Tehtävänä oli pienentää äänisignaalin bittinopeutta yhdistämällä kaksi menetelmää: näytteiden bittimäärän ja näytetaajuuden pienentämisellä. Menetelmiä piti testata musiikkisignaalilla ja selvittää, millä tekniikoiden yhdistelmällä saadaan paras tulos, kun tavoiteltu keskimääräinen bittinopeus on noin kymmenesosa alkuperäisestä.

Valitsin musiikiksi kappaleen, joka sisälsi hentoa kitaran näppäilyä, laulua, rumpuja ja bassoa, jotta kaikkien näiden käyttäytyminen tulisi testattua. Valitsin taajuudelle ja bittimäärälle erilaisia yhdistelmiä, joiden kaikkien keskinäinen tulo oli n. 128kb/s ( n. 1/10 alkuperäisestä bittinopeudesta). 1 bitti vastaa 6 dB tehosuhteena, joten yhden bitin poistamiseksi äänenvoimakkuuden pitää laskea 6 dB (tehollisesti voimakkuus on siis poiston jälkeen 1/4 alkuperäisestä).


Testien perusteella muokatun kappaleen laatu on sitä parempi, mitä suurempi näytteenottotaajuus on. Kuitenkin näytetaajuudeltaan suurimmissa kappaleissa bittejä pitää vähentää niin paljon että vaimennus nousee todella suureksi, jos meinataan saavuttaa 128kb/s bittinopeus. Kahden taajuudeltaan suurimman näytteen kohdalla vaimennus on jo sitä luokkaa että nupit kaakkoon kääntämälläkään ei juurikaan kunnolla kappaletta kuule. Verrattuna saman kappaleen 128kb/s nopeuksiseen mp3-pakattuun muotoon kaikki kokeilut jäävät kuitenkin todella kauas laadullisesti.

maanantai 7. huhtikuuta 2008

Oppitunti 4: Digitaaliset suotimet audiossa

Oppitunti 4 käsittelee digitaalisia suotimia audiossa, sekä esimerkkejä ja toimitatapoja niistä:

Digitaalinen suodatin
  • laskentamenetelmä, jolla poistetaan tai vahvistetaan joitain taajuuksia digitaalisesta signaalista
  • kaksi päätyyppiä:
    • myötäkytketyt eli FIR-suotimet
    • takaisinkytketyt eli IIR-suotimet
FIR-suotimet
  • impulssivaste on suotimen vaste, kun heräte on yksikköimpulssi
  • impulssivaste on aina äärellisen pituinen
IIR-suotimet
  • impulssivaste yleensä äärettömän pitkä
  • suodin voi olla epästabiili
  • stabiiliusehto:
    • yksinapainen suodin ei saa olla vahvistava (vahvistus kerroin täytyy olla <1)
Digitaalinen resonaattori
  • Resonanssi: formantti tai värähtelymoodi
    • resonanssin kaistanleveys
      • luonnehtii resonanssin terävyyttä
      • niiden taajuuksien ero, joilla huippu on vaimentunut 3 dB
    • Q-arvo
      • keskitaajuus/kaistanleveys
  • niillä toteutetaan mm. ekvalisaattorit, vähentävä synteesi, formanttisynteesi jne.
Kokopäästösuodin
  • amplitudivaste on tasan 1 joka taajuudella!
  • käytetään hyllykorjaimissa ja ekvalisaattoreissa sekä kaikualgoritmeissä
  • hyllykorjain
    • basso- tai diskanttisäädin
    • tarkoitus säätää vain matalien tai korkeiden taajuuksien osuutta
  • ekvalisaattori
    • muuttaa audiojärjestelmän amplitudivastetta
Murtoviivesuodin
  • murtoviive = viive, joka on pienempi kuin näyteväli
  • käytetään ongelmissa, joissa tarvitaan interpolointia
    • näytetaajuuden tai -hetkien hienoviritys
    • epätasavälisen näytejonon palautus tasaväliseksi
  • sovelluksia mm. näytetaajuusmuunnos, keilanmuodostus mikrofonijonolla yms.
Oppitunnilla käsiteltiin eri suotimia digiaudiossa, mutta aihe ei sinänsä herättänyt suurta mielenkiintoa minussa. Luulen että tämän oppitunnin hyöty tulisi esille vasta jos alkaisi enemmänkin touhuamaan digiaudion parissa, mutta näin "tavikselle" oli jotenkin raskasta opittavaa. Enpä silti tiedä voiko suotimista nyt mitään riemukasta oppituntia saadakaan. :D

Tehtävä 1: Näytteistys ja dither

Äänenä tehtävässä käytin wav-muotoista musiikkikappaletta. Muuttamalla näytteistyksen taajuutta suuremmaksi (44100Hz --> 48000Hz) ilman uudelleennäytteistystä ääni nopeutui ja taas pienemmäksi (44100Hz --> 8000Hz) muuttamalla se hidastui. Kun taas uudelleennäytteistämistä käyttämällä (--> 8000 Hz) kappale ei hidastunut, mutta laatu laski huomattavasti. Ditherin käytöllä uudelleennäytteistämisen yhteydessä en huomannut olevan merkistystä lopputulokseen.