Puhesynteesi

Kaavio "Voder" Homer Dudley (1940)

Alle puhesynteesi tarkoittaa keinotekoinen tuotantoa ihmisen puheäänen . Teksti puheeksi järjestelmä ( TTS ) (tai lukeminen kone ) muuntaa juoksevaa tekstiä akustisiksi puhe .

Pohjimmiltaan voidaan erottaa kaksi lähestymistapaa puhesignaalien tuottamiseen. Toisaalta äänitallenteita ( näytteitä ) voidaan käyttää ns. Signaalimallinnuksen avulla . Toisaalta signaali voidaan myös tuottaa kokonaan tietokoneessa niin kutsutulla fysiologisella (artikulatiivisella) mallinnuksella. Vaikka ensimmäiset järjestelmät perustuivat formanttisynteesiin , tällä hetkellä teollisessa käytössä olevat järjestelmät perustuvat pääasiassa signaalimallinnukseen.

Erityinen puhesynteesin ongelma on luonnollisen puhemelodian ( prosodian ) luominen .

tarina

Kopio "puhuvan koneen" Wolfgang von Kempelen (2009)
Kopio Hermann von Helmholtzin (1865) rakentamisesta
"Voderin" esittely vuonna 1939

Kauan ennen elektronisen signaalinkäsittelyn keksimistä tutkijat yrittivät rakentaa koneita, jotka voisivat tuottaa ihmisen puhetta. Gerbert von Aurillacille (1003) on myönnetty pronssista tehty ”puhuva pää”, josta kerrottiin voivansa sanoa ”kyllä” ja “ei”. Albertus Magnuksen (1198–1280) ja Roger Baconin (1214–1294) laitteet kuuluvat enemmän legendojen kenttään .

Vuonna 1779 Kööpenhaminassa työskennellyt saksalainen tiedemies Christian Kratzenstein rakensi Pietarin akatemian järjestämän kilpailun perusteella "puurut", joka pystyi syntetisoimaan viisi pitkää vokaalia (a, e, i, o ja u ) käyttämällä vapaasti heiluvia kielellisiä putkia ihmisen äänikanavan kanssa . Wolfgang von Kempelen kehitti puhujan jo vuonna 1760 , jonka hän esitteli vuonna 1791 julkaisussaan "Ihmisten kielen mekanismi ja sen puhekoneen kuvaus". Kuten Kratzensteinin, tämä synteesi perustui palkeen keuhkojen vastineeksi, mutta todellinen stimulaatio oli paljon lähempänä yhden, silmiinpistävän kielellisen pilli. Tämä teki mahdolliseksi joitakin vokaaleja ja plosiveja. Lisäksi joukko frikatteja voitaisiin esittää eri mekanismeilla. Ääninauhoihin kiinnitettiin nahkaputki, joka saattoi vääntyä yhdellä kädellä, mikä simuloi äänikanavan vaihtelevaa geometriaa ja resonanssikäyttäytymistä. Von Kempelen kirjoitti:

"Saavuta ihailtava taito pelata kolmen viikon aikana, varsinkin jos vaihdat latinaksi, ranskaksi tai italiaksi, koska saksa on paljon vaikeampaa [usein toistuvien konsonanttien takia] ."

Charles Wheatstone rakennettu puhuvan koneen perustuu tähän suunnitteluun vuonna 1837 , kopio voi löytyä Deutsches Museum . Vuonna 1857 Joseph Faber rakennettu Euphonia , joka myös seuraa tätä periaatetta.

1800 -luvun lopulla kiinnostus kehittyi ihmisen puheelinten lisääntymisestä (geneettinen puhesynteesi) kohti akustisen tilan simulointia (genematic puheen synteesi). Esimerkiksi Hermann von Helmholtz syntetisoi ensimmäistä kertaa vokaalit virityshaarukoiden avulla, jotka viritettiin äänikanavan resonanssitaajuuksille tietyissä vokaaliasennoissa. Näitä resonanssitaajuuksia kutsutaan formanteiksi . Puhesynteesi yhdistämällä formantteja oli tekninen valtavirta 1990-luvun puoliväliin saakka.

Vocoder , näppäimistön ansiosta elektroniset puhesyntetisaattori sanottiin olevan selvästi ymmärrettävää, kehitettiin Bell Labs 1930-luvulla . Homer Dudley paransi tämän koneen Voderiksi , joka esiteltiin vuoden 1939 maailmannäyttelyssä . Voder käytti sähköoskillaattoreita formanttitaajuuksien luomiseen.

Ensimmäiset tietokonepohjaiset puhesynteesijärjestelmät kehitettiin 1950-luvun lopulla, ja ensimmäinen täydellinen teksti puheeksi -järjestelmä valmistui vuonna 1968. Fyysikko John Larry Kelly, Jr. kehitti puhesynteesin IBM 704 : llä Bell Labsissa vuonna 1961 ja pyysi häntä laulamaan kappaleen Daisy Bell . Ohjaaja Stanley Kubrick oli niin vaikuttunut siitä, että hän sisällytti sen osaan 2001: A Space Odyssey .

läsnäolo

Vaikka varhaiset sähköiset puhesynteesit kuulostivat edelleen hyvin robottisilta ja joskus vaikeasti ymmärrettäviltä, ​​vuosituhannen vaihteesta lähtien ne ovat saavuttaneet laadun, jota on joskus vaikea erottaa ihmispuhujista. Tämä johtuu pääasiassa siitä, että tekniikka on kääntynyt pois puhesignaalin todellisesta synteesistä ja keskittyy tallennettujen puhesegmenttien optimaaliseen yhdistämiseen.

synteesi

Puhesynteesi edellyttää ihmiskielen analyysiä foneemien , mutta myös prosodian osalta, koska lauseella voi olla eri merkityksiä pelkästään lauseen melodian kautta.

Mitä tulee synteesiprosessiin, on olemassa erilaisia ​​menetelmiä. Kaikilla menetelmillä on yhteistä se, että ne käyttävät tietokantaa, johon on tallennettu kielisegmenttejä koskevia tietoja. Tämän inventaarin elementit linkitetään haluttuun lausekkeeseen. Puhesynteesijärjestelmät voidaan luokitella tietokannan inventaarion ja erityisesti linkitysmenetelmän perusteella. Signaalisynteesi on yleensä sitä yksinkertaisempi mitä suurempi tietokanta, koska se sisältää jo elementtejä, jotka ovat lähempänä haluttua lauseketta, ja tarvitaan vähemmän signaalinkäsittelyä. Samasta syystä luonnollisempi kuulostava synteesi on yleensä mahdollista suurella tietokannalla.

Yksi vaikeus synteesissä on inventaariolementtien yhdistämisessä. Koska nämä ovat peräisin eri lausunnoista, ne eroavat myös äänenvoimakkuudeltaan, perustaajuudeltaan ja muotoilijoiden asemalta. Kun esikäsitellään tietokantaa tai yhdistetään inventaarioelementtejä, nämä erot on tasapainotettava mahdollisimman hyvin (normalisointi) , jotta synteesin laatu ei heikkene.

Yksikön valinta

Mittayksiköt tarjoaa parasta laatua, etenkin rajoitettu verkkotunnus . Synteesi käyttää suurta kielitietokantaa, johon jokainen tallennettu lausunto on segmentoitu osaksi tai kaikki seuraaviksi yksiköiksi:

Nämä segmentit tallennetaan hakemistoon, joka sisältää useita akustisia ja foneettisia ominaisuuksia, kuten perustaajuuskäyrä, kesto tai naapurit.

Synteesiä varten käytetään erityisiä hakualgoritmeja , painotettuja päätöspuita , määrittämään useita mahdollisimman suuria segmenttejä, jotka ovat mahdollisimman lähellä syntetisoivaa lausuntoa näiden ominaisuuksien suhteen. Koska tämä sarja lähetetään vähän tai ei ollenkaan signaalinkäsittelyä, puhutun kielen luonnollisuus säilyy niin kauan kuin tarvitaan vain vähän yhdistämispisteitä.

Diphonisynteesi

21. vuosisadan alussa tehdyt kokeet ovat osoittaneet, että äänen siirtymien oikea toistaminen on olennaista puhesynteesin ymmärrettävyyden kannalta. Tietokantaa, jossa on noin 2500 merkintää, käytetään kaikkien äänisiirtymien tallentamiseen. Siihen tallennetaan kiinteän osan, foneemin foneemikeskuksen, ajanjakso aina seuraavan foneemin kiinteään osaan asti. Synteesiä varten tiedot kootaan ( ketjutetaan ) vastaavasti .

Muut kielen luonnollisuuteen vaikuttavat lisäartikulaatiovaikutukset voidaan ottaa huomioon laajemmissa tietokannoissa. Yksi esimerkki on Hadifix , Ha lbsilben, Di phone ja Suf fix e.

Signaalin luominen

Signaalin luominen toistaa halutut segmentit tietokannasta määritetyllä perustaajuuskäyrällä. Tämä perustaajuuskäyrän ilmaisu voidaan tehdä eri tavoilla, joissa seuraavat menetelmät eroavat toisistaan.

Lähdesuodattimen malli

Synteeseissä, joissa käytetään lähde-suodatin-erottelua, käytetään signaalilähdettä, jolla on jaksollinen aaltomuoto. Niiden jakson pituus on asetettu vastaamaan syntetisoitavan lausunnon perustaajuutta. Foneemityypistä riippuen tähän kohinaan lisätään lisäkohinaa. Lopullinen suodatus käsittelee äänelle ominaiset spektrit. Tämän menetelmäluokan etuna on lähteen yksinkertainen perustaajuuden säätö. Haitta johtuu tietokantaan tallennetuista suodatinparametreista, joita on vaikea määrittää puhenäytteistä. Suodattimen tyypistä tai puhumisen taustan mukaan seuraavat menettelyt erotetaan toisistaan:

Formanttien synteesi

Formanttisynteesi perustuu havaintoon, että vokaalien erottamiseksi riittää toistaa kaksi ensimmäistä formanttia tarkasti. Jokaista formanttia simuloi kaistanpäästö , toisen asteen polarisoiva suodatin, jota voidaan ohjata keskitaajuuden ja laadun suhteen . Formanttisynteesi voidaan toteuttaa suhteellisen helposti käyttämällä analogisia elektronisia piirejä.

Akustinen malli

Akustinen malli toistetaan koko resonanssi ominaisuudet ääniväylän käyttäen sopivaa suodatinta. Tätä tarkoitusta varten äänitietä pidetään usein yksinkertaistettuna putkena, jonka poikkileikkaus on vaihteleva, ja poikittaiset moodit jätetään huomiotta, koska äänikanavan sivusuunta on pieni. Poikkileikkausmuutoksia arvioidaan edelleen poikkileikkaushyppyjen ollessa yhtä kaukana toisistaan. Suodatintyyppi, joka valitaan usein, on ristikytkentäketjusuodatin , jossa poikkileikkauksen ja suodatinkerroimen välillä on suora yhteys.

Nämä suodattimet liittyvät läheisesti lineaariseen ennakoivaan koodaukseen (LPC), jota käytetään myös puhesynteesissä. LPC ottaa myös huomioon kaikki resonanssiominaisuudet, mutta suodatinkerroimen ja äänikanavan poikkileikkauksen muodon välillä ei ole suoraa yhteyttä.

Artikulaarinen synteesi

Verrattuna akustiseen malliin artikulatiivinen synteesi muodostaa suhteen artikulaattoreiden asennon ja tuloksena olevan äänikanavan poikkileikkauksen muodon välillä. Aikadiskreettisten ristisilloitusketjujen suodattimien lisäksi resonanssiominaisuuksien simulointiin käytetään jatkuvan ajan Horn-yhtälön ratkaisuja, joista aikasignaali saadaan Fourier-muunnoksella .

Päällekkäisyys Lisää

Pitch Synchronous Overlap Add, lyhennettynä PSOLA, on synteesiprosessi, jossa puhesignaalin tallenteet ovat tietokannassa. Jos signaalit ovat jaksollisia, niille annetaan tietoja perustaajuudesta (piki) ja kunkin jakson alku merkitään. Synteesin aikana nämä jaksot katkaistaan ​​tietyssä ympäristössä käyttämällä ikkunatoimintoa ja lisätään syntetisoitavaan signaaliin sopivassa kohdassa: Riippuen siitä, onko haluttu perustaajuus suurempi tai pienempi kuin tietokantamerkinnän, ne ovat vastaavasti tiheämpi tai vähemmän tiheä kuin alkuperäisessä yhdessä. Äänen keston säätämiseksi pisteitä voidaan jättää pois tai antaa kaksi kertaa. Tämä menetelmä tunnetaan myös nimellä TD-PSOLA tai PSOLA-TD (TM), jossa TD tarkoittaa aikatunnusta ja korostaa, että menetelmät toimivat aikatunnuksella.

Jatkokehitys on Multi Band Resynthesis OverLap Add -prosessi tai lyhyesti MBROLA . Tässä tietokannan segmentit esikäsitellään tasaiselle kantataajuudelle ja harmonisten vaiheasento normalisoidaan. Segmentin siirtymisen synteesin aikana seurauksena on vähemmän havaittavia häiriöitä ja saavutettu puheen laatu on parempi.

Nämä synteesiprosessit liittyvät rakeiseen synteesiin , jota käytetään äänen tuottamisessa ja vieraantumisessa elektronisen musiikin tuotannossa.

Parametrinen puheen synteesi piilotetuista Markov -malleista (HMM) ja / tai stokastisista Markov -kaavioista (SMG)

Parametrinen puhesynteesi on ryhmä stokastisiin malleihin perustuvia menetelmiä. Nämä mallit ovat joko piilotettuja Markov -malleja (HMM) , stokastisia Markov -kaavioita (SMG) tai viime aikoina näiden kahden yhdistelmää. Perusperiaate on, että tekstin esikäsittelystä saadut symboliset foneemisekvenssit kulkevat tilastollisen mallinnuksen kautta jakamalla ne ensin segmenteiksi ja määrittämällä sitten tietyn mallin olemassa olevasta tietokannasta kullekin segmentille. Kukin näistä malleista on puolestaan ​​kuvattu useilla parametreilla, ja ne liittyvät lopulta muihin malleihin. Käsittely keinotekoiseksi puhesignaaliksi, joka perustuu mainittuihin parametreihin, suorittaa sitten synteesin loppuun. Jos käytetään joustavampia, stokastisia Markov -kaavioita, tällainen malli voidaan jopa optimoida siltä osin kuin se voidaan opettaa etukäteen ja lisäämällä esimerkkejä luonnollisesta kielestä tiettyyn perusluonteisuuteen. Tämäntyyppiset tilastolliset menetelmät ovat peräisin päinvastaisesta puheentunnistuskentästä, ja ne perustuvat tietoon tietyn puhutun sanasekvenssin todennäköisyyden ja odotettavan puhenopeuden välisestä suhteesta tai sen prosodiasta.

Tekstistä puheeksi -ohjelmiston mahdolliset käyttötavat

Puhesynteesiohjelmiston käytön ei tarvitse olla itsetarkoitus. Näkövammaiset - esim. B. Kaihi tai ikään liittyvä silmänpohjan rappeuma - käytä TTS -ohjelmistoratkaisuja, jotta tekstit luetaan ääneen suoraan näytölle. Sokeat voivat käyttää tietokonetta näytönlukuohjelmistolla, ja heille kerrotaan ohjauselementteistä ja tekstisisällöstä. Mutta luennoitsijat käyttävät myös puhesynteesiä luentojen tallentamiseen. Tekijät käyttävät myös TTS -ohjelmistoa tarkistamaan itse kirjoittamiensa tekstien virheet ja selkeyden.

Toinen sovellusalue on ohjelmisto, joka mahdollistaa MP3 -tiedostojen luomisen . Tämä tarkoittaa, että puhesynteesi ohjelmistoa voidaan käyttää tuottamaan yksinkertaisia podcasteja tai äänen blogeja . Kokemus on osoittanut, että podcastien tai ääniblogien tuottaminen voi olla hyvin aikaa vievää.

Kun työskentelet yhdysvaltalaisen ohjelmiston kanssa, on huomattava, että käytettävissä olevat äänet ovat eri laatuisia. Englantilaiset äänet ovat laadukkaampia kuin saksa. Tekstien 1: 1-kopiota TTS-ohjelmistossa ei suositella, jälkikäsittely on joka tapauksessa tarpeen. Kyse ei ole vain lyhenteiden korvaamisesta, vaan myös välimerkkien lisäämisestä - vaikka ne olisivat kieliopillisesti virheellisiä - voi olla vaikutusta lauseasteeseen. Saksankieliset "käännökset" anglicismien kanssa ovat yleensä ylitsepääsemätön ongelma puhesynteesissä.

Usein käytetyt sovellukset ovat ilmoituksia puhelin- ja navigointijärjestelmissä.

Puhesynteesiohjelmisto

Amiga SoftVoice puhesynteesi
  • AnalogX SayIt
  • Aristech
  • Audiodizer
  • Balabolka (Freeware, 26 kieltä, SAPI4 ja SAPI5 )
  • BOSS, kehitetty Bonnin yliopiston viestintäopiston instituutissa
  • Selaa tekstistäHELP
  • Cepstral teksti puheeksi
  • CereProc
  • DeskBot
  • espeak (avoin lähdekoodi, monia kieliä, SAPI5)
  • festivaali
  • Festvox
  • FreeTTS (avoin lähdekoodi)
  • GhostReader
  • Gnuspeech
  • Infovox
  • IVONA teksti puheeksi
  • Linguatec -äänilukija 15
  • Logox -leikkeenlukija
  • Loquendo TTS
  • MacinTalk ja narrator.laite SoftVoicesta
  • MARY Text-to-Speech, jonka on kehittänyt DFKI Language Technology Lab
  • MBROLA
  • Moduloi äänimuunnosohjelmisto, joka käyttää Generative Adversarial Networksia
  • Mozilla TTS
  • NaturalSoftin NaturalReader
  • OnScreenVoices tom weber -ohjelmistosta
  • ReadSpeaker: verkkosivustojen lukeminen ja podcastien lähettäminen
  • Realspeak Nuance (aiemmin ScanSoft), nyt Kobaspeech 3
  • Älä kysy ohjelmistoa
  • SpeechConcept
  • Puhekone
  • SVOX
  • Synkronoi 2
  • Synkronoi 3
  • SYNVO
  • Tacotron (Google)
  • Teksti ääneen MP3
  • Toshiba ToSpeak
  • TTS -robotti
  • virsyn CANTOR -vokaalisynteesi
  • Virtuaalinen ääni

Puhesynteesilaitteisto

  • Votrax
    • SC-01A (analoginen formantti)
    • SC-02 / SSI-263 / "Arctic 263"
  • General Instrument puheprosessori
    • SP0250
    • SP0256-AL2 "Puhuja" (CTS256A-AL2)
    • SP0264
    • SP1000
  • Mullard MEA8000
  • National Semiconductor DT1050 Digitalker (Mozer)
  • Silicon Systems SSI 263 (analoginen formantti)
  • Texas Instruments
  • Oki Semiconductor
    • MSM5205
    • MSM5218RS (ADPCM)
  • Toshiba T6721A C²MOS Voice Synthesizing LSI

Katso myös

kirjallisuus

  • Karlheinz Stöber, Bernhard Schröder, Wolfgang Hess: Tekstistä puhuttuun kieleen. Julkaisussa: Henning Lobin , Lothar Lemnitzer (Toim.): Text Technologie. Näkymät ja sovellukset. Stauffenburg, Tübingen 2004, ISBN 3-86057-287-3 , s.295-325.
  • Jessica Riskin: Kahdeksastoista vuosisadan märkäohjelmisto. Julkaisussa: Edustukset. Vuosikerta 83, nro 1, 2003, ISSN  0734-6018 , s. 97-125, doi : 10.1525 / rep.2003.83.1.97 .
  • James L. Flanagan: Puheanalyysi, synteesi ja havainto (= viestintä ja kybernetiikka yksittäisissä esityksissä. Vuosikerta 3). 2. painos. Springer, Berlin et ai., 1972, ISBN 3-540-05561-4 . Ensimmäinen painos 1965, kolmas painos 2008
  • Ville Pulkki, Matti Karjalainen : Viestintäakustiikka: johdanto puheeseen, ääneen ja psykoakustiikkaan. John Wiley & Sons, 2015, ISBN 978-1-118-86654-2 .

nettilinkit

Wikisanakirja: Puhesynteesi  - selitykset merkityksille, sanojen alkuperälle, synonyymeille, käännöksille
Commons : Puhesynteesi  - kokoelma kuvia, videoita ja äänitiedostoja

tarina

Järjestelmät

Web -käyttöliittymät

Alaviitteet

  1. Dennis Klatt n historia Speech Synthesis ( Memento of alkuperäisen heinäkuussa 4 vuonna 2006 tehdyn Internet Archive ) Info: arkisto yhteys oli lisätään automaattisesti, ei ole vielä tarkastettu. Tarkista alkuperäinen ja arkistolinkki ohjeiden mukaisesti ja poista tämä ilmoitus. @1@ 2Malli: Webachiv / IABot / www.cs.indiana.edu
  2. Sami Lemmetty: Puhesynteesin historia ja kehitys. Julkaisussa: Review of Speech Synthesis Technology. HELSINKI TECHNOLOGY UNIVERSITY, 1. kesäkuuta 1999, katsottu 14. maaliskuuta 2019 .
  3. Arne Hoxbergen: Puhesynteesin historia muutamien valittujen esimerkkien perusteella (PDF; 490 kB). Berliini 2005.
  4. Karl Schnell: puheputken putkimallit. Frankfurtissa 2003.
  5. http://www.patent-de.com/20010927/DE10040991C1.html
  6. Sivu ei ole enää käytettävissä , etsi verkkoarkistoista : Diplomarbeit_Breitbuecher@1@ 2Malli: Toter Link / www.ims.uni-stuttgart.de
  7. kopiosta ( Memento of alkuperäisen heinäkuussa 21, 2014 Internet Archive ) Info: arkisto yhteys oli lisätään automaattisesti, ei ole vielä tarkastettu. Tarkista alkuperäinen ja arkistolinkki ohjeiden mukaisesti ja poista tämä ilmoitus. @1@ 2Malli: Webachiv / IABot / www.ias.et.tu-dresden.de
  8. Moduloi: Avaa äänesi. Haettu 14. maaliskuuta 2019 .
  9. Teknologiakatsaus: Puhu kuten Barack Obama. 14. maaliskuuta 2019, käytetty 14. maaliskuuta 2019 .
  10. mozilla / TTS. Mozilla, 7. helmikuuta 2021, käytetty 7. helmikuuta 2021 .
  11. https://simulationcorner.net/index.php?page=sam
  12. Sebastian Grüner: Tacotron 2: Googlen puhesynteesi saavuttaa lähes ihmisen laadun - Golem.de. Julkaisussa: golem.de. 21. joulukuuta 2017. Haettu 14. maaliskuuta 2019 .
  13. http://vesta.homelinux.free.fr/wiki/le_synthetiseur_vocal_mea_8000.html
  14. Sisällysluettelo (pdf)