De Zwarte Steen

15-delige serie over Digitale Audiosignaalverwerking

Verschenen in Music Maker (jan. 2000 - apr 2001)

@ RutgerTeunissen

 

 

 

Aflevering 14 (feb 2001)

Donald Duck en Darth Vader

 

Een spook waart rond in elke sampler, het spook van de formantverschuiving. Nu eens neemt het de gedaante aan van een dwerg met een piepstemmetje, dan weer van een moloch met een vulkaandiepe strot. Een DSP-techniek die bekend staat onder de naam LPC (Linear Predictive Coding) schiet te hulp als exorcist.

 

Laatst in VPRO's muziekmagazine Lola Da Musica viel het weer te beluisteren. Een popkunstenaar die met trillende stem verkondigt dat de sampler dient te worden beschouwd als het 'belangrijkste muziekinstrument Aller Tijden'. Hmm. Altijd gedacht dat dat de stem was. Precies een jaar geleden viel het tweede deel van deze serie de eer te beurt om als cover story van Music Maker te fungeren. Dat hield ongetwijfeld verband met het onderwerp dat er onder de titel: 'Sampling: de Grote Doorbraak' in werd besproken. Het verhaal trachtte duidelijk te maken dat de samplingtechniek de voorwaarde schept voor een heel nieuwe ontwikkeling in audio en muziek, namelijk de toepassing van DSP op geluidsignalen. Daarom is sampling echt een grote doorbraak. Maar dat is niet hetzelfde als beweren dat de sampler als muziekinstrument het slimste jongetje van de klas is. Er pleit eerlijk gezegd nogal wat voor om de sampler, ondanks allerlei belangrijke nieuwe functies en effecten, toch nog steeds als een vrij beperkt apparaat te beschouwen dat, bij de huidige stand van techniek, veel expressiever en flexibeler zou kunnen zijn dan het op dit ogenblik nog is.

Een sampler is, zoals bekend, een apparaat waarmee je afzonderlijke (digitale) geluidsfragmenten kunt toewijzen aan de afzonderlijke toetsbereiken van een keyboard (of, wat op hetzelfde neerkomt, aan groepen van Midi Note nummers). Dat is om twee redenen te beschouwen als een doorbraak: je kunt er zowel akoestische instrumenten mee nabootsen en je kunt er 'Musique Concrète' mee maken, dat wil zeggen willekeurige geluiden tot compositie verwerken.

Een van de meest kenmerkende klankeigenschappen van de sampler wordt duidelijk aan de hand van een voorbeeld. Maak een Sample van een toon die gezongen wordt met de mond in de "A"-stand ( de "A" van "dak") en op een frequentie van 110 Hz (dat is de a-snaar van de gitaar). Je kunt de sampler zo instellen dat je deze toon te horen krijgt als je de op één na laagste a-toets op een Midi-keyboard aanslaat. Als je nu vervolgens toets voor toets een toonladder omhoog speelt, klinkt steeds dezelfde opname van de "A"-klank, steeds een toontje hoger. Daarbij doet zich een raar effect voor: niet alleen de toonhoogte verandert stapsgewijs, maar ook de klankkleur. Eigenlijk als bij de eerste halvetoons verhoging, de bes, begint de "A"-klank te vervormen; een octaaf hoger is-ie al zo goed als onherkenbaar, bijna een kinderstemmetje. Het is precies hetzelfde effect als wat je te horen krijgt als je een band of een plaat op te hoge snelheid afspeelt. Het werd al door Walt Disney gebruikt om Donald Duck een "eendenstem" te geven. Ook als je vanuit de a-toets een toonladder omlaag speelt treedt zo'n klankvervorming op, dit maal geen kinderstemmetje, maar een soort reuzenstrot, die eveneens in de film goed van pas komt, denk maar aan Darth Vader uit Star Wars.

Zowel bij het Donald Duck- als bij het Darth Vader-effect is de oorspronkelijke "A"-klank van de Sample op een of andere manier aangetast. Als je een sampler gebruikt om akoestische instrumenten en zangstemmen mee te imiteren, dan is dit effect eerst wel even grappig, maar begint het al gauw knap irritant te worden, te meer omdat je ertoe veroordeeld bent: je kunt het effect niet aan- of uitzetten, het is er gewoon, of je het leuk vindt of niet. Het meest storend is nog wel dat je juist door dit effect altijd onmiddellijk de herkomst van het geluid weet: 'dit is een sampler'. Voor akoestische instrumenten is herkenbaarheid nooit probleem. Een popjournalist zal na een concert van Candy Dulfer niet vlug schrijven: 'Het was overduidelijk te horen dat Dulfer op een saxofoon speelt.' Maar voor electronische instrumenten ligt 't toch een beetje anders. Het is heel goed denkbaar dat je in een CD-recensie leest: 'Het is overduidelijk te horen dat die vioolklanken uit een sampler komen.'

Nu is de vraag: wat is de oorzaak van dat Donald Duck - Darth Vader effect? Het begin van het antwoord komt eigenlijk al direct in zicht bij de technische benaming van het effect: formantverschuiving. De laatste jaren duikt de term formant steeds vaker op bij synthesizers en allerei plug-ins. Het gaat dan meestal om (digitale) spraak- en zangsimulatie. Om er achter te komen hoe die formanten aan het schuiven kunnen raken, lijkt het geen slecht idee om eerst eens uit te vogelen wat een formant precies is.

 

 

Formanten

In Figuur 1, links boven is in rood de "A"-Sample weergegeven waar we het zojuist over hadden. Van dit signaal hebben we het amplitudespectrum berekend met behulp van de FFT en een Hann-tijdvenster van maar liefst 8192 (macht van 2) samples (zie Afl. 12). Dit spectrum is rechts boven te zien, eveneens in rood. Onmiddellijk wordt zichtbaar dat het signaal harmonisch is, want de spectrale pieken liggen op regelmatige afstanden van elkaar. Bovendien kun je aan de hand van de frequentie-aanduidingen onder de spectrum-as een vrij nauwkeurige schatting maken van de toonhoogte: de zevende harmonische ligt in de buurt van 770 Hz, dus de grondtoon zal ongeveer 110 Hz zijn (dat is inderdaad de a-snaar op een gitaar). Verder valt in het spectrum op dat vanaf ongeveer 1200 Hz de harmonische pieken plotseling veel kleiner worden.

 

Ook het groene signaal in figuur 1 representeert een gezongen "A"-klank, ook al kun je dat niet direct aan de golfvorm aflezen. Blijkbaar bestaat er dus niet zoiets als een vaste "A"-klankgolfvorm! De toonhoogte van de groene toon is hoger dan die van de rode. Dat is links te zien aan de kortere periodetijd, en rechts aan de pieken in het groene spectrum. Die liggen verder uit elkaar dan bij de rode toon. De vijfde groene piek ligt ongeveer bij 780 Hz, en dus is de grondtoon bij benadering 156 Hz.

Net als bij het rode spectrum valt hier op dat vanaf ongeveer 1200 Hz de pieken snel kleiner worden. Beide spectra komen dus goed met elkaar overeen qua globale vorm. Om de overeenkomsten van de beide spectra beter te kunnen zien, zijn ze in de grote grafiek onder in Figuur 1 nog eens over elkaar heen gelegd. Let wel: deze grafiek brengt precies dezelfde spectrale informatie in beeld als de twee spectra rechts boven, alleen nu weergegeven in een dB-schaal (Afl. 8). Daardoor worden de dynamische verschillen veel beter zichtbaar en komen met name de zachte harmonischen beter naar voren. Wat je uit dit plaatje kunt aflezen is dat de beide spectra sterk in vorm overeenkomen. Hoeveel "A"-klanken je ook zingt, op welke toonhoogte dan ook, en hoeveel verschillen ook te zien zijn in de golfvormen, de spectra ervan vertonen allemaal dezelfde soort glooiing, die in de figuur is aangegeven als een zwarte kromme. Zo'n kromme heet een 'omhullende', een term die je in elke synthesizerhandleiding aantreft. Hier gaat het om een spectrale omhullende die een golvende vorm heeft, met verschillende, hoger of lager gelegen toppen. Die toppen worden aangeduid als formanten. In de figuur zijn vier formanten aangegeven. De eerste twee zijn het sterkst. Ze liggen bij ongeveer 700 en 1000 Hz. De formanten 3 en 4 zijn een stuk zwakker en liggen bij 2500 en 3500 Hz. Deze formantstructuur is kenmerkend voor een "A"-achtige klinker.

In figuur 2 zijn de formantstructuren van nog enkele andere klinkers te zien, namelijk die van "AA", "EE", "OO" en "UU".

Opvallend is dat in de "AA"-klank de eerste twee formanten bij ongeveer 800 en 1300 Hz liggen. Dat komt omdat het hier om de "AA" van "spaak" gaat, en niet, zoals in Figuur 1, om de "A" van "dak". Daaruit is af te leiden dat de klankverandering van "A" naar "AA" gepaard gaan met verschuivingen in de formantstructuur. Soortgelijke verschuivingen en verzakkingen in de formantstructuur doen zich voor als je de stand van je mond verandert van bijvoorbeeld "AA" naar "EE", of van "OO" naar "UU". Dus veranderingen van klinker worden in het spectrum zichtbaar als veranderingen in formantstructuur. Onder andere op dat gegeven zijn spraakherkenning en spraaksynthese gebaseerd. Ook de meeste muziekinstrumenten hebben elk hun kenmerkende formantstructuren en ook die zijn zeer belangrijk voor herkenning en synthese.

 

Formantverschuiving

Nu terug naar de Donald Ducks en de Darth Vaders die zich in elke sampler schuil houden. De enige manier die de sampler kent om een Sample hoger of lager dan de oorspronkelijke toonhoogte weer te geven bestaat domweg uit het sneller of langzamer afspelen ervan, net zoals dat bij een band of plaat gebeurt. In figuur 3 boven is een "AA"-Sample te zien van 110 Hz (blauw).

Rechts ervan is het spectrum afgebeeld; de harmonischen passen precies onder de paraplu van de omhullende "AA"-formantstructuur.

Als je nu die Sample drie maal zo snel afspeelt, wordt de frequentie drie maal zo hoog, dus je krijgt een toon van 330 Hz, die links in het midden van Figuur 3 in rood is weergegeven. Het is duidelijk een samengeperste versie van de oorspronkelijke Sample. Rechts is, eveneens in rood, het bijbehorende spectrum te zien. Zoals verwacht bij een toon die drie keer zo hoog is, liggen de harmonischen ook drie keer zo ver uit elkaar, tot zover niets nieuws. Maar de formantstructuur ervan ligt niet meer mooi binnen en onder de "AA"-formantstructuur, maar is een heel eind naar rechts verschoven en uitgewaaierd. Als je er even over nadenkt is dat volkomen logisch. Zoals inmiddels overbekend is, kun je elk signaal opvatten als een mix van sinustonen.. Als je het blauwe signaal drie maal zo snel afspeelt, krijgen alle sinussen ervan een drie maal zo hoge frequentie, maar ze behouden natuurlijk hun sterkten. Dat is precies wat het rode spectrum te zien geeft: de formantstructuur is als elastiek uitgerekt en daardoor is een heel nieuw timbre ontstaan dat niets meer met een "AA"-klank te maken heeft.

De conclusie is duidelijk: als je de toonhoogte van een gegeven Sample te horen wilt krijgen in een verhoogde of verlaagde versie, dan kun je niet lompweg volstaan met het veranderen van de afspeelsnelheid. De blauwe Sample had zo aangepast moeten worden dat de groene Sample in Figuur 3 (onder) ontstaat. Die heeft net als de rode, een drie maal zo hoge frequentie, en net als de blauwe een "AA"-formantstructuur. Dus je krijgt een normale "AA"-klank te horen die drie maal zo hoog is, zonder Donald Duck-toestanden.

 

LPC

De enige remedie die een sampler tegen formantverschuiving heeft, is het probleem te omzeilen via multi-sampling: je maakt eenvoudigweg een opname van elke toon op het instrument. Maar het apparaat voorziet niet in de mogelijkheid om het blauwe signaal om te rekenen tot het groene. En dat is eigenlijk toch wat vreemd, want er zijn vandaag de dag allerlei prachtige vocoder-achtige technieken beschikbaar die simpel te implementeren zijn en goed passen in het concept van een sampler. Bijvoorbeeld de techniek die in Figuur 3 gebruikt is voor die transformatie van het blauwe naar het groene signaal. Al in de eerste aflevering van deze serie bleek dat je daarmee de klankkleur van een kort muziekfragment kunt omzetten in een filter. Die techniek heet LPC (Linear Predictive Coding) en wordt al vele jaren in digitale audio gebruikt, zowel in muziek als in spraakherkenning en -synthese.

In de vorige aflevering bleek een zaal beschouwd te kunnen worden als een filter. Datzelfde geldt natuurlijk ook voor mond- en keelholten. Ook zagen we dat een impuls alle eigenschappen van een filtersysteem aan het licht brengt. Ook het geluid dat de stembanden geven is nogal puls-achtig: je brengt je stembanden in trilling door ze samen te knijpen en tegelijkertijd voor overdruk in je longen te zorgen. Zo vindt er een min of meer regelmatige reeks van kleine 'explosies' plaats; de spleet tussen je stembanden wordt ten gevolge van de overdruk telkens met kracht opengeslagen en sluit tijdens de drukvereffening weer geleidelijk. Die stembandplofjes zijn wel geen zuivere impulsen, maar leveren niettemin een zeer boventoonrijke toon op, waarvan de golffronten op hun weg naar de lippen voortdurend tegen de wanden van mond- en keelholten kaatsen, net als reflecties in een zaal. Het reflectiepatroon dat daardoor ontstaat en dat je uiteindelijk te horen krijgt als spraak of zang, is niets anders dan de convolutie (Afl. 13) van de stembandtrillingen en de impulsresponsie van mond- en keelholten.

Nu is LPC een sluwe methode waarmee uit deze convolutie de impulsresponsie is los te peuteren. Daarmee heb je dan een filter dat niets anders is dan een model van de vorm die mond- en keelholten aannemen bij het uitspreken van een bepaalde klank!! Maar LPC doet nog meer. Het algoritme produceert ook een signaal waarin de stembandtrillingen zijn teruggebracht tot een heel zacht klinkend mengsel van ruisjes, spuugjes, sisjes en een ratelende, flutterende impulstrein. Dit signaal noemen ze het restsignaal; je mag het gerust op de manier van een sampler hoger of lager afspelen, zonder dat er formantverschuiving zal optreden, om de doodeenvoudige reden dat dit restsignaal geen enkele spectrale bult, formant, bevat! Die zijn er allemaal uitgewalst door de LPC-truc. Als je nu dat versnelde of vertraagde LPC-restsignaal door het LPC-filter trekt, krijg je een verhoogde of verlaagde toon zonder formantverschuiving. Zo is het groene signaal in Figuur 3 tot stand gekomen. Ook die contourlijnen van formantstructuren in de drie figuren zijn de amplitudekarakteristieken van filters die via LPC werden berekend.

Het mooie van LPC is dat je een digitaal filter aanmaakt. Dat filter is dan het uitgangspunt voor waanzinnige hussel- en knutselpartijen. Je kunt bijvoorbeeld het LPC-filter omrekenen tot een serie Digitale Toonbollen (Afl. 6), waarbij elke bol precies één formant voor z'n rekening neemt, zodat je elke formant afzonderlijk kunt aansturen! Daar zijn heel coole klinkertjes en rolklanken mee te fabriceren, gelooft u mij.

Daarnaast zijn er nog een heleboel andere DSP-methodes waarmee je die formantverschuiving te lijf zou kunnen gaan of heel precies naar je hand zetten. Zo heb je de beroemde, inmiddels klassieke Fasevocoder, en de snel in aanzien stijgende SMS-methode (Spectral Modeling Synthesis) die ontwikkeld werd op hetzelfde instituut in Barcelona als waar dat karaokeprogramma met de bekjestrekkende Elvis vandaan komt (zie ICMC, MM 23-11, pag 33).

Al met al blijft het de grote vraag waarom zulke technieken niet allang beschikbaar zijn in samplers. Wie het weet mag het zeggen. Het is des te vreemder als je bedenkt hoeveel andere leuke dingen je daar in een sampler mee kunt doen.

 

Sample en sample

Het woord 'sample' wordt in de muziek in twee totaal verschillende betekenissen gebruikt. Daarom nog eens even een paar sample-termen op een rijtje.

Sampling (zie Afl. 2) is de techniek waarbij een analoog signaal wordt gerepresenteerd door een aantal meetwaarden, meestal samples genoemd, die samen een digitaal signaal vormen.

Een sampler is een toets- of Midi-instrument, waarmee geluidsfragmenten kunnen worden 'gesampeld' en aan verschillende toetsen toegewezen. Die geluidsfragmenten worden door muzikanten om begrijpelijke redenen vaak 'samples' genoemd. Om verwarring te voorkomen met 'samples' in de zin van 'losse meetwaarden', zullen we de gesampelde geluidsfragmenten die muzikanten bedoelen aanduiden met 'Sample', met een hoofdletter dus.

Kortom, de Sample van een saxofoontoon omvat vele duizenden samples.