Kärki on kapea mutta kärjen tuntumassa ollaan - puheteknologiaa suomalaisittain

Antti Arppe

Puheteknologian tutkimusta on tehty Suomessa jo niinkin varhain kuin 1960-luvulla. Joillakin suomalaisilla tutkimustuloksilla on ollut kansainvälistä merkitystä ja tunnettuutta, kuten kannettavalla Synte 2 -puhesyntetisaattorilla 1970-luvulla ja foneettisella kirjoituskoneella 1980-luvulla. Kaupallisilla markkinoilla on myös ollut saatavilla joitakin yksittäisiä puheteknologiatuotteita 1990-luvun alusta lähtien, mutta näiden kohdeasiakaskunta on kuitenkin rajoittunut erityisryhmiin kuten näkövammaisiin. Vuosituhannen vaihteessa on kuitenkin voitu havaita selkeä muutos - sekä julkisella että yksityisellä puolella on käynnistetty merkittäviä puheteknologian tutkimus- ja kehitysprojekteja, jotka ovat alkaneet vähitellen kantaa hedelmää. Tällä hetkellä onkin saatavilla useita perusteknologiaratkaisuja sekä suomen kielen puheentunnistusta että puhesynteesiä varten, mitkä eivät jää jälkeen muiden kielten vastaavista ratkaisuista. Samanaikaisesti on viime vuoden aikana voitu nähdä merkittävä lisäys uusien loppukäyttäjätuotteiden lanseerauksessa, joista jotkin on kohdistettu suurelle yleisölle.

Puheteknologia esittäytyy suurelle yleisölle ensi kertaa elokuvateattereissa

Suomalaisen kieliteknologia-alan jonkinasteisena sisäpiiriläisenä olin hieman hämmästynyt tänä keväänä etsiessäni paikkaani elokuvateatterissa alkumainosten aikana. Nopeatahtisten, MTV-henkisten mainosten välissä tajusin yht'äkkiä, että olinkin seuraamassa reaaliaikaista demonstraatiota automatisoidusta puhelinnumeropalvelusta, jossa hyödynnettiin suomen kielen puheentunnistusta ja -synteesiä. Suomessa oltiin viimeinkin tosissaan tuomassa markkinoille suurelle yleisölle suunnattua, aidosti puheteknologian käyttöön perustuvaa tuotetta tai palvelua. Kyseessä ei ollut työn alla olevan prototyypin demonstraatio - kaikkien demoefektien kera - akateemisille tutkijoille tieteellisessä konferenssissa tai riskisijoittajille ohjelmistoalan messuilla. Kyseessä oli valmis, kenen tahansa käytettävissä oleva tuote. Yritys palvelun takana oli Fonecta, joka on nykyisin itsenäinen, Soneran entinen tytäryhtiö. Suomalaisten puheteknologian tutkijoiden terveestä varautuneisuudesta oman alansa kaupallistamismahdollisuuksiin kertoo kenties se, että yksi kollegoistani, tutkija Martti Vainio Helsingin yliopistosta, sanoi mainoksesta jälkikäteen luulleensa sitä ensi näkemältä vitsiksi: "Meille jotka työskentelemme siinä maailmassa [so. puheteknologian parissa] mainos oli inherentisti niin koominen, koska elämme peilin toisella puolella." Voisiko tämän uuden palvelun lanseeraaminen suurelle yleisölle vaimentaa puheteknologian tutkijoiden ennakkoluuloja?

Fonecta on palvelussaan yhdistänyt Suomen kaikki puhelinnumerotiedot sisältävän tietokantansa - mukaan lukien sekä lankapuhelin- että kännykkätiedot - israelilais-amerikkalaisen Phonetic Systemsin toimittaman puheentunnistusteknologian ja kotimaisen Timehousen toimittaman puhesynteesiteknologian kanssa. "Phoneticsin järjestelmä oli viritetty erityisesti käsittelemään erittäin suuria nimimääriä aina kymmeniin miljooniin asti, mikä on ehdoton etukäteisvaatimus tällaisen järjestelmän kehittämisessä. Tästä johtuen useita muita potentiaalisia, vakavasti otettavia toimittajia tippui pois pelistä.", kertoo tuotekehityspäällikkö Timo Mattero Fonectalta. Fonectan palvelun peitto oli maanlaajuinen heti marraskuussa 2001 tapahtuneesta lanseerauksesta lähtien, ja se sisälsi noin 5.5 miljoonaa numerotietoa. Näin se oli yksi ensimmäisiä, ellei ensimmäinen tämänlaajuinen telepalvelu maailmassa.

"Nykyisenlaatuisena tällä automatisoidulla palvelulla tuskin on vaikutusta puhelinnumerotietomarkkinoihin kokonaisuudessaan, sillä se on integroitu perinteiseen palveluun - jos automatisoitu palvelu epäonnistuu, soitto ohjautuu ihmisoperaattorille. Lisäksi Suomi on ylipäänsä vaikea maa lanseerata automatisoituja tuotteita," tarkentaa tuotepäällikkö Leo Rantanen. Hän lisää kuitenkin, ettei palvelu ole pelkästään teknologinen leikkikalu, vaan sillä tähdätään selkeään markkinasegmenttiin: "Koska palvelu maksaa vain murto-osan ihmispalvelun hinnasta, se on kohdistettu pääsääntöisesti niille, jotka maksavat puhelinlaskunsa omasta taskustaan, esimerkiksi nuorille, jotka ovat todennäköisesti muutenkin halukkaampia ja kyvykkäämpiä uusien teknologioiden käytössä niiden mahdollisista toiminnallisista rajoituksista riippumatta. Tästä huolimatta näyttää siltä että palvelua käyttävät hyvin eri-ikäiset ja -taustaiset ihmiset." Palvelu vaikuttaa ohittaneen lanseerausvaiheen, sillä Rantanen toteaa tyytyväisenä: "Meillä on jo joitakin suurkäyttäjiä kuten pienyrityksiä, jotka ovat ilmeisesti havainneet palvelun varsin edullisen hinnan."

Uusia palveluja ja tuotteita lanseerataan lopultakin tasaiseen tahtiin pitkän kuivan kauden jälkeen

Fonectan loppuasiakkaille suunnattu puheteknologiaa sisältävä tuote ei ole enää ainutlaatuinen Suomessa. Kaupallisella rintamalla on ollut varsin hiljaista sen jälkeen kun Timehouse toi markkinoille suomen puhesynteesimoduulinsa vuonna 1991. Tämä tuote oli kehitetty yhteistyössä Teknillisen korkeakoulun (TKK) Akustiikan ja äänenkäsittelyn laboratorion ja Näkövammaisten keskusliiton kanssa. Myöhemmin, erityisesti tämän vuosikymmenen alussa useat sekä koti- että ulkomaiset yritykset ovat ryhtyneet tarjoamaan puheteknologian peruspalikoita suomea varten - Babel Infovox (1993) ja Fonix ovat lanseeranneet ratkaisuja suomen puhesynteesiä varten ja Philips, Lingsoft ja IBM suomen puheentunnistusta varten.

Näyttää todellakin siltä, että puheteknologian hyödyntämiselle on hitaasti kehkeytymässä markkinat Suomessa, kuten Lingsoftin toimitusjohtaja Jaakko Happonen toteaa: "Olemme viimeinkin näkemässä kehityksen ensiaskeleita kohti markkinoiden rakennetta, joka on jo syntynyt suuremmilla markkina-alueilla kuten Yhdysvalloissa. Markkinoilla on viimeinkin useita puheteknologian peruskomponenttien tarjoajia sekä suomen puheentunnistusta että puhesynteesiä varten. Vaikkakaan teknologian laatu ei ole vielä lähelläkään riittävän hyvää harjoittamatonta jatkuvan puheen tunnistusta varten, se riittää rajattuihin käyttötarkoituksiin kuten puheohjaukseen tai erityisryhmien, kuten näkö- ja kuulovammaisten, lääkärien sekä hammaslääkärien tarpeisiin. Näin ollen olemmekin viime aikoina voineet nähdä lehdistötiedotteita uusista puheteknologiaa sisältävistä tuotteista joka toinen kuukausi."

Suurelle yleisölle kohdennetut loppuasiakastuotteet loistivat poissaolollaan aina 2000-luvun alkuun saakka, mutta silloin markkinoilla alkoikin tapahtua. Jo ennen Fonectan palvelun lanseerausta Konttorityö Oy toi markkinoille vuoden 2000 lopulla suomenkielisen version Philipsin kehittämästä FreeSpeech Vivasta , joka on PC-koneiden tavallisille koti- ja työkäyttäjille suunnattu puheentunnistusohjelma. Seuraavana vuonna Lingsoft lanseerasi Lingsoft Parrotin , joka lukee ääneen tietokoneen ruudulla hiirellä osoitettua suomen-, ruotsin ja englanninkielistä tekstiä. Tämän vuoden alkupuolella pohjoiskarjalainen teleoperaattori Tikka Communications toi markkinoille PT ControlNetin kanssa kehittämänsä Puhesähköpostin , joka muuntaa sähköpostit puheeksi siten, että ne voidaan kuunnella puhelimitse.

Puheteknologiaa käytetään edelleen myös parantamaan erityisryhmille kohdistettujen tuotteiden ominaisuuksia. Entteri, suomalainen hammaslääkäreille potilastietojärjestelmiä toimittava yritys, on lanseeraamassa tänä syksynä uuden version AssisDent -tuotteestaan, johon tulee nyt sisältymään suomenkielinen puherajapinta, eli ohjelmistoa voidaan ohjata suomenkielisillä puhekomennoilla. Viimeisimpänä TietoEnator, yksi johtavia pohjoismaisia ohjelmistoyrityksiä, ilmoitti aloittavansa vuoden 2002 lopulla Haukiputaan terveyskeskuksessa perus- ja erityisterveydenhuoltoa varten kehittämänsä Effica -järjestelmän uusimman version beetatestauksen. Kyseinen versio tulee sisältämään Philipsiltä lisensoidun suomenkielisen puheohjausrajapinnan, joka kattaa sanaston suhteen perusterveydenhuollon kaikki osa-alueet.

TietoEnator Terveystoimen toimialajohtajan Hannu Puurosen mukaan kyseessä on ensimmäinen kerta, kun puheentunnistusteknologiaa integroidaan terveydenhuollon ohjelmistomarkkinoilla. Hän näkee puheteknologian hyödyntämisen selkeänä kilpailuetuna ja odottaa että "kun puheentunnistus on liitetty täysin toimivaksi komponentiksi potilastietokantajärjestelmäämme, minkä odotamme toteutuvan pilottivaiheen päättymisen mennessä vuonna 2003, uskon että kaikki terveyskeskus- ja sairaala-asiakkaamme siirtyvät käyttämään tätä uutta järjestelmää." Puuronen uskoo, että tämä tuotekonsepti voitaisiin kansainvälistää, mutta hän huomauttaa samalla, että "ollakseen uskottava vastaavankaltaisen [puheentunnistuksen sisältävän] ratkaisun toimittaja muissa maissa, yrityksellä tulisi jo valmiiksi olla asema perusratkaisun toimittajana, mikä on tällä hetkellä TietoEnatorin kohdalla tilanne muissa Pohjoismaissa [eli Ruotsissa, Norjassa ja Tanskassa.]"

Puhesynteesin kaupallistamisesta saadun kymmenen vuoden kokemuksen perusteella Timehousen toimitusjohtaja Kristian Töyrä painottaa laadun merkitystä, kun halutaan saada jalansijaa yleisillä kuluttajatuotemarkkinoilla: "Puhesyntetisaattorimme MikroPuheen asiakaskunta on käytännössä rajautunut näkövammaisiin. Olemme yrittäneet vuosien saatossa käynnistää yhteistyötä useiden teleoperaattorien kanssa, mutta yhdessäkään tapauksessa ei ole päästy pitkälle ennen äskeistä Fonecta -tapausta siitä syystä, ettei puhesynteesin laatua ole koettu riittävän hyväksi. Motivoimaton käyttäjä, eli sellainen joka ei tarvitse puhesyntetisaattoria esimerkiksi Internetin selailuun, ei yksinkertaisesti halua kuulla syntetisoitua puhetta. Uskomme että parantamalla tuotteemme laatua voimme laajentaa markkinoitamme nykyisestä rajatusta markkinasegmentistä yleisemmille kuluttajamarkkinoille."

Mitä suomen kielen perusteknologiaa eri sovelluksissa käytetään?

Sovellus Sovelluksen toimittaja Teknologia Teknologian toimittaja
Free Speech Viva Konttorityö Philips High Speed and High Accuracy (HSA II) Philips
Effica TietoEnator Speech Magic Philips
Assisdent Entteri LSSR Lingsoft
020200 Fonecta Voice Search Engine VSE (tunnistus) + MikroPuhe (synteesi) Phonetic Systems, TimeHouse
näkövammaisten apuvälineitä Kuulolaitekeskus/Oriola Infovox 330/Infovox Desktop Infovox
kännykät Nokia - Nokia Research Center (tunnistus)
kännykät Benefon - VoiceSignal (tunnistus)

Miltä teknologian toimittajilta eri sovellusten kehittäjät ovat lisensoineet suomen puheentunnistus- tai puhesynteesiteknologian?

Sovelluskehittäjä Teknologia Teknologian toimittaja
Siebel/US FAAST (synteesi) Fonix/US
PipeBeach/Sweden FAAST (synteesi) Fonix
Nuance/US FAAST (synteesi) Fonix
- ETI-Eloquence (synteesi) Speechworks/US
- Voximizer (tunnistus & synteesi = puheohjaus) Voxi/Sweden (tulossa)
- DirectTalk (tunnistus) IBM/US

Taaksejäämisen pelkoa puheteknologian kehityksessä ja tutkimuksessa?

Vaikka Suomen markkinat eivät ole vielä pullollaan puheteknologiatuotteita, niitä näyttää viimeinkin tulevan markkinoille tasaiseen tahtiin. Tämä tilanne eroaa melkoisesti joistakin varsin yleisistä 1990-luvulla esitetyistä näkemyksistä, joiden mukaan Suomi ja suomen kieli olisivat vaarassa jäädä teknologisessa kehityksessä jälkeen maailman valtakielistä. Vain vuonna 1999 Pohjoismainen ministerineuvosto antoi julkilausuman, jossa pelättiin että pohjoismaiset kielet suomi mukaan lukien olivat marginalisoitumassa puheteknologian suhteen, koska koettiin että niiden prioriteettitaso kansainvälisissä tietotekniikkayrityksissä olisi matala. Ministerineuvoston asiantuntijat suosittelivat tämän johdosta systemaattista puheaineistojen keruuta, jotta puheteknologian kehittämistä näitä kieltä varten voitaisiin edistää ja helpottaa. Samankaltaisessa syrjäytymisen torjunnan hengessä Teknologian edistämiskeskus (TEKES) nosti kieliteknologian ja erityisesti puheteknologiset sovellukset yhdeksi painopistealueeksi monitieteisessä teknologiaohjelmassaan Uusi käyttäjäkeskeinen tietotekniikka (USIX), joka toteutettiin vuosina 1999-2002. Suomen kielen puheentunnistuksen puute (mikä oli asian laita vielä 1999) nähtiin "merkittävänä kieliteknologian sovellusten pullonkaulana [Suomessa]" (lähde).

Kun katsotaan taaksepäin muutaman vuoden kartuttaman jälkiviisauden avulla, Lingsoftin Happonen uskoo, että TEKESin julkisella rahoituksella on ollut tärkeä rooli, ja tämä tulee jatkumaan. Hän huomauttaa, että kaupallisten yritysten näkökulmasta "suomen kielen puheentunnistus- ja synteesiteknologia olisi varmasti kehitetty ilmankin TEKES -rahoitusta, vaikkakin yritykset ovat tottuneet hyödyntämään tätä rahoitusta kun sitä vain on tarjolla, mutta paljon perustutkimusta olisi jäänyt tekemättä ilman TEKESin tukea." Monet muut haastateltavat mainitsivat myös EU-rahoituksen tässä valossa. Esimerkiksi Assistant Research Manager Péter Boda Nokian tutkimuskeskuksesta totesi, että "EU-rahoitus on tehnyt meille mahdolliseksi tutkia ja kokeilla uusia ideoita puhe- ja kieliteknologiassa yhteistyökumppanien kanssa, jotka ovat omien alojensa asiantuntijoita."

Puheteknologisten sovellusten kehittäminen edellyttää, että tarvittava perustutkimus on jo tehty aiemmin. Jotta lisäksi pysytään samalla tasolla muiden kielten kehityksen kanssa, tätä perustutkimusta on jatkettava keskeytymättä. Mikä on sitten suomalaisen puheteknologian tutkimuksen taso tällä hetkellä? Professori Unto K. Laine Teknillisen korkeakoulun Akustiikan ja äänenkäsittelyn laboratoriosta toteaa ensinnäkin, että alan suomalaisella tutkimuksella on pitkät ja kunnioitettavat, aina 1960-luvulle ulottuvat perinteet. Erityisenä virstanpylväänä hän mainitsee kannettavan Synte 2 tekstistä-puheeseen -syntetisaattorin, jota hän oli kehittämässä yhdessä professori Matti Karjalaisen kanssa 1970-luvun lopulla. Laineen mukaan Synte 2 oli ensimmäinen laatuaan millekään kielelle, ja jatkaa: "Karjalaisen saatua professuurinsa täällä TKK:lla 1980-luvun alussa yksikkömme on ollut aktiivinen lukuisilla eri puheteknologian alueilla."

Suomenkielisen puheteknologisen tutkimuksen nykytilannetta tarkasteltaessa Laine toteaa omalta osaltaan, että "keskeistä on tiedostaa, että suomi eroaa foneettisesti merkittävästi kaikista indoeurooppalaisista kielistä kuten englannista ja saksasta. Ensinnäkin suomi on kestokieli, eli äänteiden kestot ovat sanoja erottava piirre: takka /tak:a/ ja takaa /taka:/ eroavat siis merkitykseltään. Toinen suomen piirre on, että substantiiveilla ja verbeillä on erittäin suuri määrä eri taivutusmuotoja. Sanaston suhteen rajoittamattomassa puheentunnistuksessa ydinsanaston on kuitenkin oltava kooltaan rajattu, mistä johtuen kehittämistämme kielimalleista tulee erittäin monimutkaisia. Tämänhetkinen puheentunnistusteknologia on pitkälti kehitetty kielille, joissa ei esiinny näitä yllä mainittuja suomen piirteitä, mikä on meille todellinen haaste." Tällä hetkellä Laine johtaa USIXin STT puheesta-tekstiksi -projektia, jonka tavoitteena on sanastoltaan rajoittamaton suomen puheentunnistus. Kun Laineen ryhmä keskittyy puheen akustiikkaan, analyysiin ja koodaukseen sekä auditoriseen mallintamiseen, toinen ryhmä TKK:n Neuroverkkojen tutkimusyksikössä erikoistuu kieliteknologiaan ja uusiin tietojenkäsittelyteoreettiseen menetelmiin, joita voitaisiin käyttää automaattisessa puheentunnistuksessa (Automatic Speech Recognition eli ASR).

Neuroverkkojen tutkimusyksikön vt. professorin ja puheentunnistusyksikön vetäjän Mikko Kurimon mielestä suomalaiset tutkijat eivät ole kansainvälisessä perspektiivissä mitenkään jälkijunassa puheentunnistuksen algoritmien tutkimuksessa ja kehityksessä. Suomessa tutkimuksen painopiste on erityisesti kieliriippumattomien algoritmien kehityksessä, mikä on jossain määrin ongelmallista suomen kaltaisen pienehkön kielen kannalta. Kurimon mukaan "oman tutkimuksen kansainvälisen hyväksynnän perusedellytys on, että omia tutkimustuloksia voidaan verrata muiden tutkijoiden vastaaviin. Tässä syntyy ongelma, jos yhteistä testimateriaalia ei ole käytettävissä - vertailussa sekä kehitys- että testausmateriaalin tulisi olla täysin samoja ja luonnollisesti samankielisiä. Jos haluaa verrata omaa paranneltua algoritmiaan toiseen vastaavaan, joka on julkaistu ja testattu aikaisemmin englanninkielisellä testimateriaalilla - mikä on erittäin usein asian laita - on itsekin käytännössä pakotettu käyttämään samaa englanninkielistä testimateriaalia. Tämä tilanne korostaa englannin kielen asemaa puheentunnistuksen tutkimuksessa. Näin ollen on selvää, että suomen foneettisia piirteitä on tutkittu vähemmän kuin esimerkiksi englannin."

Suomalaisella puheentunnistuksen tutkimuksella on kuitenkin ollut vaikutusta kansainvälisellä tasolla. Koska suomen ääntäminen on huomattavasti systemaattisemmin lähempänä kirjoitusta kuin esimerkiksi englannin, suomalaisille tutkijoille on ollut luonnollista kokeilla foneettisia ratkaisumalleja. Näin ollen akateemikko Teuvo Kohosen vuonna 1988 kehittämästä foneettisesta kirjoituskoneesta on todennäköisesti tullut maailmalla parhaiten tunnettu puheentunnistuksen suomalainen innovaatio. Tässä prototyypissä neuraaliverkkoperiaatetta sovellettiin sanojen tunnistamiseen foneemi foneemilta, mikä Kurimon mukaan osoittautui "tutkimuksen piristysruiskeeksi monien suomen kanssa samankaltaisten kielten kohdalla, missä englannista peräisin ollut, kokonaisten sanojen tunnistamiseen perustuva lähestymistapa oli sillä hetkellä tullut tiensä päähän." Kurimo jatkaakin, että "vielä tänäkin vuonna ulkomaiset tutkijat ottavat minuun yhteyttä saadakseen Kohosen alkuperäistä artikkelia koskevia lisätietoja." Tämän aiemman tutkimuksen yleisempänä seuraamuksena suomalaiset jatkuvan puheen tunnistuksen tutkijat ovat päätyneet käyttämään foneemipohjaisia tunnistusmalleja aikaisemmin kuin englantiin keskittyneet kollegansa, missä kokonaisiin sanoihin keskittyvä puheentunnistus oli paradigma vielä varsin äskettäin. Tällaisen foneettisen tutkimustradition esimerkki on yllämainittu USIX STT-projekti.

Merkittävää puheteknologista tutkimusta on myös tehty yksityisellä puolella, missä edistysaskeleita on saavutettu esimerkiksi robustissa ja monikielisessä puheentunnistuksessa Nokia tutkimuskeskuksen Speech and Audio Systems -laboratoriossa. "1990-luvun puolivälissä meitä pidettiin vain yhtenä puheteknologian tutkimustulosten soveltajana," huomauttaa Senior Research Manager Olli Viikki. Hän kuitenkin jatkaa: "tällä hetkellä uskon, että omalla tutkimusalallamme eli upotetuissa puheentunnistusjärjestelmissä olemme nyt yksi maailman johtavista tutkimusyksiköistä - viimeisten parin vuoden aikana meitä on pyydetty pitämään plenaariesitelmiä tieteellisissä konferensseissa tai osallistumaan työpajoihin lukuisia kertoja." Toisaalta Viikki myöntää, että heidän tutkimuksensa painopiste on varsin kapea ja keskittyy muutaman kymmenen tai sadan sanan rajoitettujen sanastojen tunnistamiseen, mutta hän lisää että tämä on jossain määrin puheteknologian yleisesti ottaen epätäydellisen luonteen seurausta: "Olemme keksineet ja kokeilleet mitä villeimpiä konsepteja, mutta simulaation avulla näkee varsin nopeasti, ettei suurta osaa niistä kannata lähteä toteuttamaan." Kännykät ovat Viikin mielestä kuitenkin yksi sovellusalue, missä puheteknologiasta on eniten selkeää hyötyä käyttäjille, ja hän toteaakin varovaisella suomalaisella ylpeydellä: "Kun tietää Nokian markkinaosuuden kännykkämarkkinoilla, uskaltaisin sanoa, että täällä Nokialla Suomessa kehittämämme puheohjattu numerovalinta (voice dialing) on todennäköisesti yksi maailman laajimmalle levinneitä puheteknologiasovelluksia."

Suomalainen puhesynteesin tutkimus on viime vuosina pitkälti pyörinyt suomenkielisen puheteknologian kehittämiseen tähtäävässä SuoPuhe -yhteisprojektissa, johon on osallistunut useita suomalaisia yliopistoja, korkeakouluja ja yrityksiä ja jota on rahoittanut TEKES USIX -puiteohjelman sisällä. Tämän projektin merkittävä aikaansaannos on suomenkielinen puhesyntetisaattori, joka perustuu difooniperiaatteen yhdistämiseen prosodisen tiedon kanssa. Projektiin osallistunut tutkija Martti Vainio Helsingin yliopistosta sanookin: "Tämä lähestymistapa edustaa tällä hetkellä alan tutkimuksen kansainvälistä kärkeä - ydinteknologioiden hallinnassa olemme tällä hetkellä maailman valtakielten kanssa samalla tasolla, vaikkakaan emme aina ole ehtineet kokeilemaan viimeisimpiä villityksiä kuten lausekeleikkaussynteesiä (unit selection). Tämä ei kuitenkaan ole aina haitaksi, kun resurssit ovat rajallisia ja pitää keskittyä olennaiseen eli yleisesti toimiviksi tunnettuihin ratkaisuihin." Vainio itse asiassa huomauttaa, että jotkut tässä suomen puhesyntetisaattorissa toteutetut piirteet asettavat sen aivan alansa eturintamaan. Näitä piirteitä ovat esimerkiksi epästandardien sanojen kuten numeroiden laventaminen, missä suomen kohdalla numeroista lavennettujen sanojen tulee olla samassa sijamuodossa kuin pääsanansa (esim. 10 sanaa -> kymmenen sanaa; 10 sanassa -> kymmenessä sanassa, 10. sanaa -> kymmenennettä sanaa). Tällaista ominaisuutta ei tarvitse paljoakaan kehitellä indoeurooppalaisia kieliä varten. Suunnitteilla on jo nykyisen sanaluokkaluokittimen korvaaminen markkinoilta saatavalla syntaktisella analysaattorityökalulla, jotta puheen painotusta ja taukoja voitaisiin ennustaa nykyistä paremmin.

Vainio uskoo, että SuoPuhe -projektin onnistumisessa suomen ja muiden kielten välisen juovan kiinnikuromisessa pitää osittain kiittää Festival -ohjelmistokehitysalustan saatavuutta. Kyseinen open source -ohjelmisto on kehitetty Edinburghin yliopiston Puheteknologian tutkimuskeskuksessa (Centre for Speech Technology Research). Festivalin ansiosta suomalaisen tutkimusprojektin ei tarvinnut itse kehittää teknologiaa akustisen signaalin käsittelyä varten, jolloin aina vähiä resursseja voitiin kohdistaa nimenomaan suomeen liittyviin kehitysongelmiin. Vainio näkee tulevaisuuden kannalta ongelmallisena sen, että nykyinen puhesynteesiin perehtyneiden tutkijoiden joukko ei riitä sekä perustutkimuksen jatkamiseen että nykyisten tutkimustulosten kehittämiseen kaupallisiksi tuotteiksi.

Mitkä ovat suomalaisen puheteknologian tulevaisuuden näkymät?

Haastateltujen suomalaisten puheteknologian tutkijoiden parissa vallitsi konsensus, että sekä puheentunnistuksen että puhesynteesin suhteen nykyiset suomen kielelle kehitetyt tutkimusprototyypit sekä meneillään oleva suomea koskeva tutkimus ovat samalla tasolla nykyisen kansainvälisen tutkimuksen kärjen kanssa. Kaikkien mielestä suomalaisilla tutkijoilla ei ole mitään hävettää ulkomaisiin kollegoihinsa verrattuna - itse asiassa osa suomalaisesta tutkimuksesta ja sovelluksista on edelläkävijän asemassa maailmassa. Tästä tilanteesta huolimatta Martti Vainio Helsingin yliopistosta kokee, että suomalainen puheteknologian tutkimusyhteisö on liian suppea - "yksittäiset tutkijat, vaikka olisivatkin maailmanluokkaa, voivat keskittyä samanaikaisesti vain muutamiin tutkimusalueisiin. Puheteknologia, kuten puheentunnistus, kattaa niin monia erilaisia alueita ydinalueitten - jatkuvan akustisen signaalin prosessoinnin ja symbolisten kielimallien - välillä, että tarvittaisiin huomattavasti enemmän tutkijoita, jotta näiden napojen välinen juopa voitaisiin kunnolla kattaa. Tämä siis siinä tapauksessa, jos halutaan kiihdyttää kehitystä eikä olla riippuvaisia yksittäisten lahjakkaiden tutkijoiden tutkimuskiinnostuksista." Tässä suhteessa Mikko Kurimo TKK:sta kuitenkin varoittaa omien kokemustensa pohjalta: "resurssien ja tutkijoiden lisääminen voi pahimmassa tapauksessa johtaa yhä lisääntyvään erikoistumiseen ja alan sirpaloitumiseen, jolloin kokonaisuus ei välttämättä ole suurempi kuin osiensa summa."

Koskien puheteknologian tutkimuksen organisointia Suomessa Nokian tutkimuskeskuksen Olli Viikki näkee, että "tutkimuspuolella on tällä hetkellä selkeä ongelma, ettei alalla ole Suomessa omaa professuuria. Puheteknologia on nykyisellään pitkälti eri teknologioiden kuten neuraalilaskennan ja signaaliprosessoinnin sovellusalue kuin oma itsenäinen tutkimusalansa. Tässä suhteessa ala hyötyisi suuresti tilanteesta, missä itse puhe ja sen prosessointi olisi keskeinen lähtökohta."

Vaikka suomalaiset kieliteknologiayritykset ovat tarjonneet puheteknologiatuotteita jo yli vuosikymmenen ja viimeinkin näyttää siltä, että ala on saamassa ilmaa siipiensä alle, ilmassa on pikemminkin varautuneen odotuksen tunnetta kuin suurimittaisia toiveita nopeista voitoista, kasvusta ja kansainvälistymisestä. Kuten Leo Rantanen Fonectasta sanoo: "Ensimmäiselle yritykselle tämä on vain pitkä ja kivinen tie. Kun jokaisen soiton hinta on viisikymmentä senttiä, voit vain kuvitella milloin investointi maksaa itsensä takaisin. Mutta ainakin tulee raivattua tietä muille." Omalta osaltaan Jaakko Happonen Lingsoftista asettaa puheteknologiamarkkinat - erityisesti pienen teknologiayrityksen näkökulmasta - laajempaan perspektiiviin: "Alussa on aina paljon periaatteellista kiinnostusta, mutta kun ruvetaan puhumaan bisnestä, niin kiinnostus yhtäkkiä katoaa. Informaatioteknologian kaupankäynnin yleiset lainalaisuudet hidastavat myös puheteknologian läpimurtoa Suomessa. Kukaan ei halua maksaa pilottiprojekteista, etenkin kun teknologian laatu ei vielä ole niin hyvää kuin odotetaan, mutta toisaalta kukaan ei halua jäädä rannalle kun muut ryhtyvät ostamaan. Eli jälleen kerran vanha tuttu Kuoleman laakson periaate." Happonen jatkaa pohdiskelemalla "mikä mahtaisi olla puheteknologia-alan tähtiloppukäyttäjätuote? Jotain mitä ihmiset tarvitsevat päivittäisessä elämässään, mutta mitä he eivät karsastaisi. Määritelmä on varsin abstrakti. Mutta kuka tiesi, että tekstiviesteistä tulisi niin suuri hitti, kuin on tapahtunut Suomessa?" Aivan kuin vastauksena tähän Kurimo huomauttaa, että joskus innovatiivinen, hyvin suunniteltu käyttöliittymä, jonka takana on mitä yksinkertaisinta kieliteknologiaa, voi tyystin peitota viimeisimpiin teknologisiin "läpimurtoihin" perustuvat ratkaisut. Nykyisestä tilanteesta voikin tehdä johtopäätöksen Viikin sanoin: "puheteknologia ylipäänsä on tällä hetkellä tutkimus- ja kehitysvaiheessa, minkä johdosta tutkimusmielessä on vielä todella paljon tehtävää. Tämä ymmärrettävästi rajoittaa sitä, mitä tällä hetkellä voidaan menestyksellisesti kaupallistaa."

Kiitokset:

Kirjoittaja kiittää seuraavia henkilöitä, jotka ovat keskeisesti edistäneet tämän artikkelin syntyä suostumalla haastateltaviksi tai täydentämällä, tarkentamalla sekä kommentoimalla artikkelia, mistä avusta kirjoittaja on erittäin kiitollinen: Péter Boda, Nokian tutkimuskeskus; Mickel Grönroos, CSC Tieteellinen laskenta; Jaakko Happonen, Lingsoft; Matti Karjalainen, Teknillinen korkeakoulu; Kimmo Koskenniemi, Helsingin yliopisto; Seppo Koskenniemi, IBM Suomi; Mikko Kurimo, Teknillinen korkeakoulu; Unto K. Laine, Teknillinen korkeakoulu; Erkki Lumivirta, IBM Suomi; Katri Luostarinen, CSC Tieteellinen laskenta; Timo Mattero, Fonecta; Manne Miettinen, CSC Tieteellinen laskenta; Jyrki Mäki-Laurila, Konttorityö Oy; Hannu Puuronen, TietoEnator; Leo Rantanen, Fonecta; Kristian Töyrä, Timehouse; Martti Vainio, Helsingin yliopisto; Olli Viikki, Nokian tutkimuskeskus; ja Nicholas Volk, Helsingin yliopisto.