
Drömmen om maskiner som liknar oss människor, till exempel genom att tala, är gammal.
Även om det finns flera förhistoriska källor som berättar om munkar som konstruerat "talande" huvuden,
så är daterar sig den första väldokumenterade talmaskinen till 1791.
Den konstruerades av Wolfgang von Kempelen (1734-1804) som
var en skicklig ungersk uppfinnare och mekanikkonstruktör.
Figuren visar inte talmaskinen i orginal, utan en rekonstruktion som senare byggdes av Whetstone (1835).
Den mekaniska talmaskinen försökte imitera människokroppens talorgan. En bälg ersatte lungorna, ett vibrerande rör (från ett träblåsinstrument) ersatte stämbanden. Ett läderrör användes som "ansatsrör". Genom att handmanövrera läderröret kunde olika vokaljud produceras. Konsonanterna erhölls genom att släppa ut luften genom fyra olika handmanövrerade passager.
Om nu en maskin kunde låta som en talande människa - kunde man då inte även bygga mekanisk konstgjord intelligens?
von Kempelen besvarade denna fråga med "ja!" och byggde den schackspelande automaten "the turk"
som uppvisades offentligt i många städer.
Napoleon I sägs ha spelat mot automaten - och det schackpartiet förlorade han!
Som man nog kan gissa var den maskinen en bluff, men detta är en helt annan historia ...
[ the Turk ]
Under 1830-talet konstruerade en tysk immigrant den "talande maskinen Euphonia".
Maskinen "spelades" med ett klaviatur (som en orgel).
Efter tio års arbete med att att förfina det mekaniska instrumentet
så lät många av de talade orden och meningarna bra
(med en tränad operatör vid tangenterna).
Tyvärr väckte maskinen inget större intresse hos allmänheten,
trots att den även kunde sjunga "God Save the Queen" (1846).
Under 1930-talet började mekaniken att ersättas med elektronik i talmaskinerna.
Vodern var den första elektriska talsyntesmaskinen.
Den bestod av en brusgenerator och en tongenerator och 10 inkopplingsbara resonanskretsar
(jämförbart med en förstärkare med "equaliser"). Den manövrerades med ett tangentbord.
Vodern demonstrerades av en tränad operatör vid världsutställningen i New York 1939.
Även om det krävdes relativt lång träning (ett år eller mer)
för att hantera instrumentet så kunde operatörerna "spela" på maskinen och producera begripligt tal.
Ett ljudprov med "Vodern" från ett radioprogram vid världsutställningen 1939 kan höras på webbsidan Klatt's "History of speech synthesis

Talsyntes är ett internationellt forskningsområde.
Även om mycket är gemensamt för alla talade språk,
så är det ju ändå mycket mer som skiljer dem åt.
Om man vill att det ska finnas svenskt syntetiskt tal,
så behövs det svensk forskning om talsyntes.
Gunnar Fant vid KTH är den som startat och
byggt upp forskningen om tal och talsyntes i sverige.
Bilden visar den elektroniska talsyntesmaskinen "Ove" från som fanns i olika
"generationer" från 1953 och framåt.
Talmaskinen manövrerades med en hand över ett "koordinatbord".
Ett ljudprov med "Ove" från 1953 kan höras på webbsidan Klatt's "History of speech synthesis
Från och med 1970-talet har datorerna varit så utvecklade att all talsyntesforskning därefter utgått från att använda datorn som verktyg för att tala och förstå tal. Datorerna gjorde talsyntesen praktiskt användbar, och många program som översatte från text till tal utvecklades. Tekniken fick komersiell användning.

Kring 1980 introducerades talsynteskretsar, sk. speech-chips. SP0256 från Data Instruments användes i hobbydatorer och i TV-spel. Kretsen kunde uttala alla engelska fonem (vokaler och konsonanter) med några olika varianter (s.k.allofoner) totalt 59 st. Därigenom kunde den säga allt som kan sägas på det engelska språket.
Chippet SP0256 har slutat tillverkas för länge sedan,
och har numera "kultstatus" och betingar därmed ett högt pris vid internetauktioner.
Till vår lab the speeking processor använder vi därför i stället en
billig PIC-processor (16F628) och ett seriellt minne med 64Kbyte
allofoner som "spelats in" från just ett SP0256-chip.

Speech-chip SP0256 blockdiagram.
Inside SP0256 (reverse engineering)
Ett annat speech-chip från en annan tillverkare, Texas Instruments, återfanns i läromedlet/leksaken Speak & Spell som övade barn i stavning ungefär som man gör inför ett rättstavningsförhör.
Ett ljudprov med "Speak and Spell" från 1980 kan höras på webbsidan Klatt's "History of speech synthesis
Att avgöra vilken följd av allofoner som ger det bästa uttalet av ett engelskt ord är tidsödande. Man får pröva sig fram bland allofonerna i tabellform.
Vid "text till tal" syntes krävs det ett datorprogram som översätter till allofoner automatiskt. Det behövs då en uppsättning regler, som tex. "the Naval Research Labs TTS algorithm" (från Amerikanska flottans forskning på 1970-talet).
Skriftspråkets bokstäver motsvaras av talspråkets fonem. Vi är alla bekanta med denna princip eftersom vi försökt lära oss att läsa genom att "ljuda" orden. Om man "ljudar" hör man "på ett ungefär" hur ordet låter och kan då gissa vad som står. Sambandet mellan bokstäverna och fonemen finns således, men detta är långt ifrån hela sanningen om talet!
Allofonteorin säger att ett fonem har alternativa uttal beroende på var i ordet det står (tex. i början, i mitten eller på slutet). Att det skulle räcka med 59 allofoner för att tala engelska är dock önsketänkande, i varje fall om man vill att det ska låta naturligt! Denna sanning valde man att blunda för på 1980-talet, eftersom dåtidens kretsteknologier ändå inte kunde räcka till så mycket mer.
Vill man göra en syntesröst idag, spelar man in difoner vilket är fonemen två och två. Teoretisk finns det i svenska språket 43*43 = 1849 vanliga difoner ( alla kombinationer av före och efter varandra ) + 86 fonem-paus kombinationer. En del kombinationer kan uteslutas men ändå återstår c:a 1658 st.

En inspelning kan gå till så att man sitter vid datorn med ett headset och säger efter "nonsensord".
Inspelningen tar c:a 20 minuter och den som är intresserad kan läsa om hela processen i talforskaren
Adina Svenssons D-uppsats
"Ofelia - kvinnlig syntesröst med västsvensk dialekt".
MBROLA-projektet försöker samla och dokumentera syntesröster från hela världen,
och här kan man lyssna på resultatet av Adina Svenssons syntesröst
"sw2 female voice".
Ett nytt forskningsområde är multimodal talforskning. Genom att både syntetisera röst och ansiktsrörelser ökar man uppfattbarheten av syntestalet. Målet är att skapa nya former för interaktion mellan människa och dator.

http://www.speech.kth.se/multimodal/
© William Sandqvist william@kth.se