Talesyntese

Talesyntese er kunstig produksjon av tale . Det datastyrte systemet som brukes til dette formålet kalles en taledatamaskin eller talesyntese og kan implementeres i programvare eller maskinvareprodukter . Et tekst-til-tale-system (TTS) konverterer normalt tekstspråk til tale; andre systemer gjenskaper språklig symbolsk representasjon som fonetiske transkripsjoner i tale. [ 1 ]

Syntetisert tale kan opprettes gjennom sammenkobling av innspilte talefragmenter som er lagret i en database . Systemene er forskjellige i størrelsen på taleenhetene som er lagret; et system som lagrer telefoner og difoner gir et større utvalg av lyder, men mangler klarhet. For spesifikk bruk gir lagringsstørrelsen til hele ord eller setninger høyere lydkvalitet. Alternativt kan en synthesizer inkludere en modell av vokalkanalen eller andre trekk ved den menneskelige stemmen for å gjenskape en "syntetisk" stemme fullt ut. [ 2 ]

Kvaliteten til en talesyntese bedømmes ut fra dens likhet med den menneskelige stemmen og dens evne til å bli klart forstått. Et forståelig tekst-til-tale-program lar personer med synshemninger eller lesevansker lytte til tekst på en datamaskin. Mange operativsystemer har innebygde talesynthesizere siden tidlig på 1990-tallet.

Et tekst-til-tale (TTS) system eller "motor" består av to deler: [ 3 ] en front-end og en back-end . Front-end har to hovedoppgaver. Konverter først teksten med tegn, tall, symboler og forkortelser til tilsvarende i skrevne ord. Denne prosessen kalles "tekstnormalisering", "forbehandling" eller "tokenisering", hvoretter grensesnittet tildeler en fonetisk transkripsjon til hvert ord, markerer og deler teksten inn i prosodiske enheter , for eksempel fraser, klausuler og setninger . Prosessen med å tilordne fonetiske transkripsjoner til ord kalles "tekst-til-fonem" eller " grafem -til-fonem" konvertering. Informasjonen til fonetiske eller prosodiske transkripsjoner forbereder informasjonen til den språklige symbolske representasjonen som er resultatet av front-end. Back-end, ofte referert til som "synthesizer", konverterer den språklige symbolske representasjonen til lyd. I noen systemer inkluderer denne delen beregningen av "prosodisk intensjon" (profilhøyde, fonemvarighet), [ 4 ] som er implementert i utgangstalen.

Historikk

Før elektronisk signalbehandling ble oppfunnet, var det de som prøvde å bygge maskiner for å etterligne menneskelig tale. Noen av de tidligste legendene om "Brazen Heads"-eksistensen involverte Sylvester II (d. 1003 e.Kr.), Albert den store (1198–1280) og Roger Bacon (1214–1294).

I 1779 bygde den danske vitenskapsmannen Christian Kratzenstein, mens han jobbet ved det russiske vitenskapsakademiet , modeller av den menneskelige stemmekanalen som kunne gjengi lydene til alle fem vokalene (i det internasjonale fonetiske alfabetet for engelsk er de [aː] , [eː ] ] , [iː] , [oː] og [uː] ). [ 5 ] Dette ble fulgt av den belgdrevne "Wolfgang von Kempelens talemaskin" laget av Wolfgang von Kempelen fra Bratislava , Ungarn , beskrevet i en tekst i 1791. [ 6 ] Denne maskinen integrerte modeller av lepper og tunge, slik at det ble mulig å produsere konsonanter . samt vokaler. I 1837 produserte Charles Wheatstone en "snakkemaskin" basert på Von Kempelens design, og i 1857 bygde M. Faber "Euphonia"-maskinen. Wheatstones design ble brukt av Paget i 1923. [ 7 ]

På 1930-tallet utviklet Bell Laboratories vocoder , som automatisk analyserte tale gjennom grunnnoten og resonansene. Fra sitt arbeid med vokoderen utviklet Homer Dudley en tastaturdrevet synthesizer kalt The Voder, som ble stilt ut på verdensutstillingen i New York i 1939. [ 8 ]

"Mønsteravspilling" ble konstruert av Dr. Franklin S. Cooper og hans kolleger ved Haskins Laboratories på slutten av 1940-tallet og fullført på 1950-tallet. Det har vært flere versjoner av denne maskinvareenheten, men bare én finnes. Maskinen konverterer bilder av akustiske talemønstre (spektrogrammer) til lyd. Ved å bruke denne enheten klarte Alvin Liberman og hans kolleger å oppdage akustiske indikatorer for oppfatningen av fonetiske segmenter (vokaler og konsonanter). [ 9 ]

De dominerende systemene på 1980- og 1990-tallet var DECtalk-systemet, basert på arbeidet til Dennis Klatt ved MIT, [ 10 ] og Bell Labs-systemet; [ 11 ] som senere skulle bli et av de første flerspråklige uavhengige systemene, og gjorde utstrakt bruk av naturlige språkbehandlingsmetoder .

Tidlige talesynthesizere hadde en robotlyd og dårlig forståelighet. Kvaliteten på syntetisert tale har blitt forbedret, men utgangslyden fra moderne talesyntese kan fortsatt skilles fra menneskelig tale.

På grunn av kostnads-ytelse-forholdet har talesyntese blitt stadig billigere og mer tilgjengelig for folk, flere vil ha nytte av bruken av tekst-til-tale-programmer. [ 12 ]

Elektroniske enheter

De første datasystemene basert på talesyntese ble opprettet på 1950-tallet. Det første generelle tekst-til-tale engelske systemet ble utviklet av Noriko Umeda et al. i 1968 ved Electrotechnical Laboratory i Japan. [ 13 ] I 1961 brukte fysikeren John Larry Kelly, Jr og hans kollega Louis Gerstman [ 14 ] en IBM 704 -datamaskin for å syntetisere tale, en betydelig begivenhet i Bell Laboratories historie . Kellys stemmesynthesizer ( vocoder ) spilte sangen " Daisy Bell " med musikalsk akkompagnement av Max Mathews. Tilfeldigvis var Arthur C. Clarke på besøk hos sin venn og kollega John Pierce på Bell Laboratories i Murray Hill. Clarke var så imponert over demoen at han brukte den i klimaksscenen for sin roman 2001: A Space Odyssey , [ 15 ] der HAL 9000 -datamaskinen synger den samme sangen som den får astronauten David Bowman til å sove . [ 16 ] Til tross for suksessen med ren elektronisk talesyntese, pågår fortsatt forskning på mekaniske talesyntese. [ 17 ]

Elektroniske mobile enheter inkludert talesyntese begynte å dukke opp på 1970-tallet. En av de første var Speech+ -kalkulatoren for blinde fra Telesensory Systems Inc. (TSI) i 1976. [ 18 ] [ 19 ] Andre enheter ble produsert for pedagogiske formål som "Speak & Spell", laget av Texas Instruments i 1978 [ 20 ] Fidelity ga ut en snakkende versjon av deres elektroniske sjakk i 1979. [ 21 ] Det første videospillet som inkluderte stemmesyntese var Sunsofts arkade Martian Killer , Stratovox . [ 22 ] Et annet tidlig eksempel er Berzerks arkadeversjon fra samme år. Det første elektroniske flerspillerspillet som brukte stemmesyntese var "Milton" av Milton Bradley Company , [ 23 ] som produserte enheten i 1980.

Synthesizer-teknologier

De viktigste egenskapene til talesyntesesystemer er "naturlighet" og "forståelighet". Naturlighet beskriver hvor nær utgangslyden er den menneskelige stemmen, mens forståelighet er hvor forståelig lyden er. Den ideelle talesyntesen er både naturlig og forståelig. Talesyntesesystemer prøver vanligvis å maksimere disse funksjonene. [ 24 ]

De to primære teknologiene som genererer talesyntetiske bølgeformer er "konkatenativ syntese" og " formantsyntese ". Hver teknologi har sine styrker og svakheter, avhengig av bruken vil det være mulig å bestemme hvilken tilnærming som skal brukes. [ 25 ]

Konkatenativ syntese

Konkatenativ syntese er basert på sammenkobling (eller sammenføyning) av segmenter av en innspilt stemme. Vanligvis produserer konkatenativ syntese den mest naturlige lyden av en syntetisert stemme. Forskjeller mellom naturlige variasjoner i tale og karakteren til automatiserte bølgeformsegmenteringsteknikker resulterer imidlertid noen ganger i hørbare feil i utgangslyden. Det er tre undertyper av konkatenativ syntese.

Enhetsvalgsyntese

Enhetsvalgsyntese bruker databaser med innspilte stemmer. Under opprettelsen av databasen segmenteres hver innspilte ytring i: telefoner , difoner , halvtelefoner, stavelser , morfemer , ord , setninger og setninger . Normalt gjøres segmenteringen ved hjelp av et modifisert talegjenkjenningssystem , ved bruk av visuelle representasjoner som en bølgeform og et spektrogram . [ 26 ] En indeks over stemmeenhetene i databasen lages basert på segmentering og akustiske parametere som grunnfrekvens ( pitch ), varighet, stavelsesposisjon og nabofonem. Ved kjøretid opprettes den ønskede setningen ved å bestemme størst mulig enhetskjede (enhetsvalg). Denne prosessen utføres ved hjelp av et beslutningstre .

Enhetsvalg gir større naturlighet fordi mindre digital signalbehandling (DSP) brukes på innspilt tale. Digital signalbehandling får vanligvis tale til å høres mindre naturlig ut, selv om noen systemer bruker en liten mengde signalbehandling ved sammenkoblingspunktet for å justere bølgeformen. Utgangslyden fra det beste utvalget av enheter kan vanligvis ikke skilles fra ekte menneskestemmer, spesielt i sammenhenger med TTS-systemer. Større naturlighet krever imidlertid svært store enhetsutvalgsdatabaser, i noen systemer når de gigabyte med registrerte data, som representerer dusinvis av timer med tale. [ 27 ] Også enhetsvalgalgoritmer er kjent for å velge segmenter fra et mindre enn ideelt sted (f.eks. er små ord ikke klare) selv når det finnes et bedre alternativ i databasen. [ 28 ] Nylig har forskere foreslått flere automatiserte metoder for å oppdage unaturlige segmenter i enhetsvalgsyntesesystemer. [ 29 ]

Difonsyntese

Difonsyntese bruker en minimal taledatabase som inneholder alle difoner (overganger mellom lyder) som forekommer i språket. Antall difoner avhenger av språkets fonotaktikk : for eksempel er det omtrent 800 difoner på spansk og 2500 på tysk. I difonsyntese lagres bare ett eksempel av hver difon i stemmedatabasen. . Under kjøretid legges målprosodien til en setning over disse minimale enhetene gjennom digitale signalbehandlingsteknikker som lineær prediktiv koding , PSOLA [ 30 ] eller MBROLA [ 31 ] eller nyere teknikker som tonehøydekoding i kildedomenet som bruker den diskrete cosinus transformasjon . [ 32 ] Difonsyntese lider av lydfeilene ved sammenhengende syntese og den robotlydende naturen til formantsyntese og har få fordeler i forhold til noen annen tilnærming enn størrelsen. Bruken i kommersielle applikasjoner har gått ned, selv om den fortsatt er under etterforskning på grunn av antallet applikasjoner i fri programvare.

Domenespesifikk syntese

Domenespesifikk syntese setter sammen forhåndsinnspilte ord og fraser for å lage komplette ytringer. Den brukes i applikasjoner der rekkevidden av systemtekster er begrenset til lydutgang i et bestemt domene, for eksempel kunngjøringer i en trafikkkalender eller værmeldinger. [ 33 ] Teknologien er veldig enkel å implementere og har vært brukt kommersielt i flere år i enheter som kalkulatorer eller talende klokker. Naturlighetsnivået til disse systemene kan være svært høyt fordi variasjonen av setningstyper er begrenset og de klarer å være svært nær prosodien og intonasjonen til originalopptakene.

Fordi disse systemene er begrenset av ordene og setningene i databasene deres, brukes de ikke til generelle formål og kan bare syntetisere kombinasjoner av ord og setninger som de er programmert til. Ordenes overholdelse av språkets naturlighet kan skape problemer, med mindre variasjonene tas i betraktning. For eksempel, i ikke-rotiske dialekter av engelsk, blir r -ord som " klar " /ˈklɪə/ vanligvis uttalt når det følgende ordet har en vokal i den første bokstaven (f.eks. " clear out " uttales som /ˌklɪəɾˈʌʊt/ ). Som i det franske språket er flere av de siste konsonantene ikke stille hvis de følges av et ord som begynner med en vokal, effekten kalles Liaison. Denne vekslingen kan ikke reproduseres av et enkelt sammenkoblingssystem, som krever en ekstra kompleks kontekstsensitiv grammatikk .

Formantsyntese

Formantsyntese bruker ikke menneskelige stemmeprøver under kjøring. I stedet lages utgangslyden fra additiv syntese og en akustisk modell (fysisk modelleringssyntese). [ 34 ] Parametre som grunnleggende frekvens , fonasjon og støynivåer varieres over tid for å skape en kunstig stemmebølgeform. Denne tilnærmingen kalles noen ganger regelbasert syntese ; Det finnes imidlertid sammenkoblingssystemer som også har regelbaserte komponenter.

Flere systemer basert på formant-synteseteknologi genererer en robotlydende kunstig stemme som ikke kan forveksles med den menneskelige stemmen. Maksimal naturlighet er imidlertid ikke målet for talesyntesesystemer, formantsyntesesystemer har fordeler fremfor andre sammenkoblingssystemer. Tale gjennom formantsyntese kan gjøres forståelig, selv ved høye hastigheter, og unngår akustiske feil som er vanlige i sammenkoblingssystemer. Høyhastighets syntetisert tale brukes av synshemmede til å navigere jevnere på datamaskiner ved hjelp av en skjermleser . Formantsynthesizere er små programmer sammenlignet med sammenkoblingssystemer fordi de ikke har en database med taleprøver. De kan brukes i innebygde systemer der minne og mikroprosessorkraft er begrenset. Fordi formantbaserte systemer har full kontroll over alle aspekter av utgangslyden, kan en lang rekke prosodier og intonasjoner genereres, for å formidle ikke bare spørsmål eller utsagn, men en rekke følelser og intonasjoner i stemmen.

Noen eksempler på formantsyntese, ikke i sanntid, men med stor presisjon i intonasjonskontroll, finnes i verk fra slutten av syttitallet av Texas Instruments med leketøyet "Speak & Spell" og på slutten av åttitallet i arkader til SEGA -selskapet [ 35 ] og andre Atari arkadespill [ 36 ] som bruker TMS5220 LPC-brikker fra Texas Instrument. Det var vanskelig å lage riktig intonasjon, og resultatene måtte matches i sanntid med tekst-til-tale-grensesnitt. [ 37 ]

Artikulatorisk syntese

Artikulatorisk syntese refererer til beregningsteknikker for talesyntese basert på modeller av den menneskelige stemmekanalen og artikulasjonsprosessene som oppstår. Den første artikulatoriske synthesizeren som ofte ble brukt i laboratorieeksperimenter ble utviklet ved Haskins Laboratories på midten av 1970-tallet av Philip Rubin, Tom Baer og Paul Mermelstein. Denne synthesizeren, kjent som ASY, var basert på modeller av vokalkanalen utviklet ved Bell Laboratories på 1960- og 1970-tallet av Paul Mermelstein, Cecil Coker og deres kolleger.

Nylig hadde ikke artikulatoriske syntesemodeller blitt innlemmet i kommersielle talesyntesesystemer. Et bemerkelsesverdig unntak er det NeXT -baserte systemet , opprinnelig utviklet og utgitt av Trillium Sound Research, en avdeling av University of Calgary-selskapet, hvor mye av forskningen ble utført. Etter bortfallet av NeXT (startet av Steve Jobs på slutten av 1980-tallet og fusjonert med Apple Computer i 1997), ble Trillium-programvaren utgitt under GNU General Public License , og arbeidet hans fortsatte som gnuspeech. Systemet, utgitt i 1994, muliggjør full artikulasjonsbasert tekst-til-tale-konvertering ved bruk av en bølgeleder eller analog overføringslinje for den menneskelige stemmen og nesepassasjene kontrollert av den "distinkte regionmodellen" til Carre.

HMM modellbasert syntese

HMM-basert syntese er en syntesemetode basert på skjulte Markov-modeller , også kalt paramedisinsk statistisk syntese. I dette systemet er frekvensspekteret (vokalkanalen), den grunnleggende frekvensen (stemmekilden) og varigheten ( prosodi ) av tale samtidig modellert av HMM. Talebølgeformer genereres av HMM-er basert på et maksimalt sannsynlighetskriterium . [ 38 ]

Syntese av sinusbølger

Sinusbølgesyntese er en teknikk for talesyntese gjennom erstatning av formanter (store energibånd) med rene toner. [ 39 ]

Utfordringer

Utfordringer med tekstnormalisering

Tekstnormaliseringsprosessen er sjelden enkel. Tekstene er fulle av heteronomier, tall og forkortelser som krever en utvidelse i en fonetisk representasjon. Det er mange ord på engelsk som uttales forskjellig basert på konteksten deres. For eksempel, « Mitt siste prosjekt er å lære hvordan jeg kan projisere stemmen min bedre » på engelsk inneholder ordet project to uttaler.

De fleste tekst-talesystemer (TTS) genererer ikke semantiske representasjoner av inputtekster, så prosessene deres kan være feilaktige, misforståtte og beregningsmessig ineffektive. Som et resultat brukes forskjellige heuristiske teknikker for å forutsi den riktige måten å disambiguere homografier på, for eksempel å undersøke nærliggende ord ved å bruke statistikk om bruksfrekvensen.

Nylig har TTS-systemer begynt å bruke HMM for å generere " grammatisk tagging " for å hjelpe å disambiguere homografier. Denne teknikken er til en viss grad effektiv for forskjellige tilfeller av hvordan "lest" skal uttales som "rødt", noe som antyder en fortidskonjugering. Typiske feilrater ved bruk av HMM på denne måten er under fem prosent. Disse teknikkene fungerer også for de fleste europeiske språk, selv om opplæring på det språklige korpuset ofte er vanskelig på disse språkene.

Å bestemme hvordan tall skal konverteres er et annet problem som TTS-systemer står overfor. Det er en enkel programmeringsutfordring å konvertere et tall til ord (i det minste på engelsk), som "1325" blir "ett tusen tre hundre og tjuefem". Tallene forekommer imidlertid i ulike sammenhenger; "1325" kan leses som "en tre to fem", "tretten tjuefem" eller "ett tre hundre og tjuefem". Et TTS-system kan vanligvis utlede hvordan man utvider et tall basert på nærliggende ord, tall og tegnsetting, noen ganger tillater systemet en måte å spesifisere konteksten hvis den er tvetydig. [ 40 ] Romertall kan leses på forskjellige måter avhengig av konteksten.

Tilsvarende kan forkortelser være tvetydige. For eksempel kan forkortelsen "in" for "lopper" differensieres med ordet "in" eller i den engelske adressen "12 St John St." bruker samme forkortelse for "gate" og "helgen". TTS-systemer med smarte grensesnitt kan gi korrekte spådommer om uklarheten i forkortelser, mens andre gir samme resultat i alle tilfeller, og gir useriøse (og noen ganger komiske) resultater som "samarbeid" tolket som "selskapsdrift".

Tekst-til-fonem-utfordringer

Talesyntesesystemer bruker to grunnleggende tilnærminger for å bestemme uttalen av et ord basert på dets stavemåte, en prosess som ofte kalles tekst-til-fonem eller grafem - til-fonem-konvertering ( fonem er begrepet som brukes i lingvistikk for å beskrive de særegne lydene på språket ). Den enkleste tilnærmingen til tekst-til-fonem-konvertering er gjennom ordbøker, der en omfattende ordbok som inneholder alle ordene i et språk og deres korrekte uttale lagres av programmet. Å bestemme riktig uttale av hvert ord er et spørsmål om å sjekke hvert ord i ordboken og erstatte det med uttalen spesifisert av ordboken. En annen tilnærming er gjennom regler, der uttaleregler brukes på ord for å bestemme riktig uttale basert på stavemåten deres.

Hver tilnærming har sine fordeler og ulemper. Den ordbokbaserte tilnærmingen er rask og nøyaktig, men feiler fullstendig når et ord ikke finnes i den. Etter hvert som ordboken vokser, øker også størrelsen på minnet som kreves for systemsyntese. På den annen side fungerer den regelbaserte tilnærmingen med alle typer inputtekst, men kompleksiteten til reglene øker betydelig når systemet oppdager uregelmessige stavemåter eller uttaler. (Tenk på det engelske ordet "of", som er det eneste der "f" uttales.) Som et resultat bruker nesten alle talesyntesesystemer en kombinasjon av disse tilnærmingene.

Språk med fonetisk stavemåte har et vanlig skrivesystem, og prediksjonen av uttalen av ord basert på stavemåten deres er vellykket. Syntesesystemer for språk der det er vanlig å bruke regelmetoden i stor utstrekning, og ty til ordbøker for noen ord, for eksempel utenlandske navn og lånord , hvis oversettelser ikke er åpenbare fra skrivingen. På den annen side har talesyntesesystemer for språk som det engelske språket , som har ekstremt uregelmessige skrivesystemer, en tendens til å falle tilbake på ordbøker og bruke regelmetoder bare for ord som er uvanlige eller ikke i ordbøkene deres.

Utfordringsvurdering

Den konsekvente evalueringen av talesyntesesystemer kan være vanskelig på grunn av manglende aksept av et universelt evalueringskriterium. Ulike organisasjoner bruker vanligvis forskjellige taledata. Kvaliteten på talesyntesesystemer avhenger også av graden av kvalitet i produksjonsteknikken (som kan involvere digitale eller analoge opptak) og dens lette å gjengi talen. Evalueringen av talesyntesesystemer har blitt kompromittert av forskjellene mellom produksjons- og reproduksjonsteknikker.

Siden 2005 har imidlertid noen forskere begynt å evaluere talesyntese ved å bruke et felles taledatablad. [ 41 ]

Prosodi og emosjonelt innhold

Se også: Prosodi

En studie i tidsskriftet Speech Communication av Amy Drahota og hennes kolleger ved University of Portsmouth i Storbritannia rapporterer at folk som lytter til stemmeopptak kan avgjøre, på ulike nivåer, om avsenderen smilte eller ikke. [ 42 ]​ [ 43 ]​ [ 44 ]​ Det har blitt foreslått at identifisering av vokalegenskaper som viser emosjonelt innhold kan bidra til å få talesyntese til å høres mer naturlig ut. En av de relaterte problemene er tonen i setningene, avhengig av om den er bekreftende, spørrende eller en utropssetning. En av teknikkene for tonehøydemodifikasjon [ 45 ] bruker den diskrete cosinustransformasjonen i kildedomenet (lineær prediksjonsrest). Slike teknikker for synkronisert tonehøydemodifikasjon krever forutgående tonehøydesignalering i talesyntesedatabasen ved bruk av teknikker som epokeekstraksjon ved bruk av en stoppkonsonantindeks anvendt på gjenværende integrert lineær prediksjon av taleregioner . [ 46 ]

Dedikert maskinvare

Tidlige teknologier (ikke tilgjengelig)

  • ikontelefon
  • Votrax
    • SC-01A
    • SC-02 / SSI-263 / "Artic 263"
  • Generelt instrument SP0256-AL2 (CTS256A-AL2)
  • National Semiconductor DT1050 Digitalker (Mozer - Forrest Mozer)
  • Silicon Systems SSI 263
  • Texas Instruments LPC-stemmebrikker
    • TMS5110A
    • TMS5200
    • MSP50C6XX - Solgt til Sensory, Inc. i 2001 [ 47 ]

Nåværende (i 2013)

  • Magnevation SpeakJet (www.speechchips.com) TTS256 Hobby og eksperimenter.
  • Epson S1V30120F01A100 (www.epson.com) IC DECTalk-basert stemme, robot, engelsk og spansk.
  • Textspeak TTS-EM (www.textspeak.com)

Mattel

Mattels Intellivision videospillkonsoll , som er en datamaskin som mangler et tastatur, aktiverte en talesyntesemodul kalt Intellivoice i 1982. Den inkluderte SP0256 Narrator talesyntesebrikke på en kassett. Fortelleren hadde 2KB med Read-Only Memory (ROM) og ble brukt til å lagre en database med generiske ord som kunne kombineres for å lage setninger i Intellivision-spill. Siden Orator-brikken kan akseptere data fra eksternt minne, kan eventuelle ekstra ord eller setninger som kreves, lagres i kassetten. Dataene består av analoge filterkoeffisienttekststrenger for å endre oppførselen til brikkens stemmekanalmodell, i stedet for digitale prøver.

S.A.M.

Også utgitt i 1982, Software Automatic Mouth var den første kommersielle talesynthesizer-programvaren. Det ble senere brukt som grunnlag for Macintalk . Programmet var ikke tilgjengelig for Apple Macintosh-datamaskiner (inkludert Apple II og Lisa), men for modellene Atari og Commodore 64. Apple-versjonen krevde ekstra maskinvare for digital-til-analog konvertering, selv om det var mulig å bruke lydutgangen fra datamaskin (med forvrengning) hvis kortet ikke var til stede. Atari brukte en POKEY-lydbrikke. Stemmeavspilling på Atari deaktiverte normalt avbruddsforespørsler og slått av ANTIC-brikken under lydutgang. Utgangen var ekstremt forvrengt når skjermen var på. Commodore 64 brukte SID-lydbrikken.

Atari

Det første talesyntesesystemet integrert i et operativsystem var for 1400XL/1450XL-datamaskiner designet av Atari ved bruk av Votrax SC01-brikken i 1983. 1400XL/1450XL-datamaskinene brukte Finite State Machine til å utføre talesyntese på engelsk. [ 48 ] ​​1400XL/1450XL-datamaskiner var imidlertid sjeldne.

Atari ST -datamaskiner ble solgt med "stspeech.tos" på en diskett.

Apple

Den første talesyntesen innebygd i et operativsystem var Apples MacInTalk . Programvaren ble lisensiert av tredjepartsutviklere som Joseph Katz og Mark Barton (senere SoftVoice, Inc.) og den første versjonen ble utgitt under introduksjonen av Macintosh-datamaskinen i 1984. Demoen ble utgitt i januar, som brukte talesyntesebasert på SAM-programvare krevde det 512KB RAM-minne. Som et resultat kunne den ikke kjøre på 128KB ]49[RAM-minnet som ble funnet på tidlige Mac-maskiner. På begynnelsen av 1990-tallet utvidet Apple sine muligheter ved å tilby et system med omfattende støtte for tekst-til-tale med introduksjonen av raskere PowerPC-baserte datamaskiner, inkludert høyere kvalitet på reprodusert stemme. Apple introduserte også talegjenkjenning til systemene sine som muliggjorde et sømløst sett med kommandoer. Nylig har Apple inkorporert stemmeprøver. Startet som en kuriositet, har Apples Macintosh - talesystem utviklet seg til et fullverdig program, PlainTalk, for personer med synsrelaterte problemer. VoiceOver ble introdusert i Mac OS X Tiger (10.4). I løpet av 10.4 (Tiger) og tidlige utgivelser av 10.5 (Leopard) var det bare én stemme på Mac OS X. Siden 10.6 (Snow Leopard) kan brukeren velge fra et bredt spekter av flere stemmer. VoiceOver har funksjoner som pustelyder mellom setninger, samt klarhet ved høyere hastigheter sammenlignet med PlainTalk. Mac OS X inkluderer også "si"-programvare, et kommandolinjeprogram som konverterer tekst til tale. Standardtilføyelser til AppleScript inkluderer si programvare som lar et skript bruke de installerte stemmene og kontrollere tonehøyden, hastigheten og moduleringen av den talte teksten.

Apples iOS - operativsystem , brukt på iPhone, iPad og iPod Touch, bruker VoiceOver-talesyntese for tilgjengelighet. [ 50 ] Noen applikasjoner bruker også talesyntese for å lette navigering, lese nettsider eller oversette tekst.

AmigaOS

Det andre operativsystemet som inkluderer avanserte talesyntesefunksjoner var AmigaOS , introdusert i 1985. Talesyntese ble lisensiert av Commodore International fra SoftVoice, Inc., som også utviklet MacinTalk tekst-til-tale-systemet. Det inkluderte et fullt amerikansk stemmeemuleringssystem for det engelske språket, med kvinnelige og mannlige stemmer og "stress"-markører, det ble gjort mulig gjennom Amiga - brikkesettet . [ 51 ] Syntesesystemet ble delt inn i et fortellerapparat, som var ansvarlig for å modulere og sammenkoble fonemer, og et oversettelsesbibliotek som oversatte den engelske teksten til fonemer gjennom et sett med regler. AmigaOS inkluderte også en taleprosessor på høyt nivå som tillot brukere å reprodusere tekst gjennom kommandolinjer. Talesyntese ble noen ganger brukt av tredjepartsprogrammer, spesielt tekstbehandlere og pedagogisk programvare. Synteseprogramvaren forble intakt fra den første utgivelsen av AmigaOS og Commodore ville til slutt fjerne talesyntese fra og med AmigaOS 2.1.

Til tross for begrensningen av fonemene til amerikansk engelsk, ble det utviklet en uoffisiell versjon med stemmesyntese av flere språk. Dette gjorde bruk av en utvidet versjon av oversetterens bibliotek som kunne oversette til en rekke språk, basert på reglene for hvert språk. [ 52 ]

Microsoft Windows

Se også: Microsoft Agent

Moderne skrivebordssystemer for Windows kan implementere SAPI 1-4 og SAPI 5 -komponenter for å støtte talesyntese og talegjenkjenning . SAPI 4.0 ble gjort tilgjengelig som et tilleggsalternativ for Windows 95 og Windows 98 . Windows 2000 la til Microsoft Narrator, et tekst-til-tale-verktøy for personer med synshemming. Tredjepartsprogrammer som CoolSpeech, Textaloud og Ultra Hal kan utføre ulike tekst-til-tale-oppgaver som å lese tekst fra en bestemt nettside, e-post, tekstdokument, brukerinntastet tekst osv. Ikke alle programmer kan bruke talesyntese direkte. [ 53 ] Noen programmer kan bruke utvidelser for å lese tekst.

Microsoft Speech Server er en serverbasert talegjenkjennings- og syntesepakke. Den er designet for nettverksbruk med nettapplikasjoner og kundesentre .

Tekst-til-tale ( TTS ) refererer til datamaskiners evne til å lese tekst. En TTS Engine konverterer skrevet tekst til en fonetisk representasjon, og konverterer deretter representasjonen til lydbølger som kan høres. TTS-motorer med forskjellige språk, dialekter og spesialiserte vokabularer er tilgjengelige gjennom tredjeparter. [ 54 ]

Android

Android versjon 1.6 la til støtte for talesyntese (TTS). [ 55 ]

Internett

For tiden finnes det en rekke applikasjoner , plug-ins og gadgets som kan lese meldinger direkte fra en e-postklient og nettsider fra en nettleser eller Google Toolbar , for eksempel Text to Voice som er et Firefox -tillegg . Noen spesialisert programvare kan fortelle RSS . På den annen side forenkler RRS-fortellere informasjonen som sendes ved å la brukere lytte til favorittnyhetskilder og gjøre dem om til podcaster . Det er RSS-lesere på nesten alle PCer som er koblet til Internett. Brukere kan laste ned genererte lydfiler til bærbare enheter, f.eks. ved hjelp av en podcast -mottaker og lytt til dem mens du går, løper osv.

Et voksende felt innen det TTS-baserte internett er hjelpeteknologier som "Browsealoud" fra et britisk selskap og Readspeaker. De tillater TTS-funksjonalitet til alle (av hensyn til tilgjengelighet, overtalelse, underholdning eller informasjon) med tilgang til en nettleser. Pediaphon - prosjektet ble opprettet i 2006 for å muliggjøre nettsurfing som ligner på det TTS-grensesnittbaserte på Wikipedia . [ 56 ]

Annet arbeid er under utvikling i sammenheng med W3C gjennom W3C Audio Incubator Group med støtte fra BBC og Google Inc.

Andre

  • Etter den kommersielle feilen til Intellivoice-maskinvaren, brukte videospillutviklere talesynteseprogramvare sparsomt for fremtidige spill. Et kjent eksempel er den innledende fortellingen for Nintendos Super Metroid -videospill for Super Nintendo Entertainment System . Andre tidlige systemer for å bruke programvaresyntese i videospill inkluderer Atari 5200 (Baseball) og Atari 2600 (Quadrun og Open Sesame).
  • Noen e-boklesere , for eksempel Amazon Kindle , Samsung E6, PocketBook eReader Pro, enTourage eDGe og Bebook Neo.
  • BBC Micro inkorporerte Texas Instruments TMS5220 talesyntesebrikke.
  • Noen modeller av Texas Instruments-datamaskiner produsert i 1979 og 1981 ( Texas Instruments TI-99/4 og TI-99/4A ) var i stand til tekst-fonem-syntese eller resitere hele ord og setninger (tekst-ordbok), ved å bruke den populære perifere talen Synthesizer. TI brukte en proprietær kodek for å fullføre genererte setninger i applikasjoner, først og fremst spill. [ 57 ]
  • IBMs OS/2 Warp 4 inkluderte VoiceType , en forløper til IBM ViaVoice.
  • Gratis og åpen kildekode-operativsystemer inkludert Linux er varierte og inkluderer åpen kildekode- programmer som Festival Speech Synthesis System, som bruker diphone-basert syntese (kan bruke et begrenset antall MBROLA-stemmer) og gnuspeech som bruker diphone-basert syntese. artikulatorisk [ 58 ] av Free Software Foundation .
  • GPS -enheter produsert av Garmin , Magellan, TomTom og andre bruker talesyntese for bilnavigasjon.
  • Yamaha produserte en synthesizer i 1999, Yamaha FS1R som inkluderte formantsynteseevner. Sekvenser på opptil 512 individuelle vokal- og konsonantformanter kan lagres og spilles av, noe som tillater korte syntetiserte fraser.

Markeringsspråk for talesyntese

Det er etablert en rekke markup-språk for å tolke tekst som tale i et XML -kompilert format . Den nyeste er Speech Synthesis Markup Language (SSML), som ble en W3C -anbefaling i 2004. Eldre talesyntese markup-språksystemer inkluderer Java Speech Markup Language (JSML) og SABLE. Selv om hver av disse ble foreslått som en standard, har ingen av dem blitt bredt adoptert.

Markeringsspråk for talesyntese skilles fra markeringsspråk for dialogbokser. VoiceXML inkluderer for eksempel tagger relatert til talegjenkjenning, dialoghåndtering og markering, samt talesynteseoppmerking.

Applikasjoner

Talesyntese har vært et av de viktige hjelpeteknologiske verktøyene , og dens anvendelse på dette området er betydelig og mye brukt. Det gjør at miljøbarrierer kan fjernes for mennesker med ulike funksjonshemminger. Den mest brukte applikasjonen har vært skjermlesere for synshemmede, men tekst-til-tale-systemer brukes nå ofte av personer med dysleksi og andre lesevansker, så vel som barn. De er også ofte ansatt for å hjelpe de med kommunikasjonsvansker, vanligvis gjennom en stemme til hjelp.

Talesynteseteknikker brukes i underholdningsprodukter som spill eller animasjoner. I 2007 kunngjorde Animo Limited utviklingen av en programvareapplikasjon basert på FineSpeechs talesyntese, eksplisitt rettet mot forbrukere i underholdningsindustrien, slik at fortellerstemme og djevellinjer kan genereres etter brukerspesifikasjoner. [ 59 ] Applikasjonen ble myndig i 2008 da NEC Biglobe annonserte en webtjeneste som tillot brukere å lage sitater fra stemmene til karakterer fra Code Geass: Lelouch of the Rebellion R2 , [ 60 ]

Tekst-til-tale har funnet nye applikasjoner utenfor markedet for å hjelpe funksjonshemmede. For eksempel muliggjør talesyntese, kombinert med talegjenkjenning , interaksjon med mobile enheter gjennom naturlig språkbehandlingsgrensesnitt . Det har også blitt brukt som et andre tilegnelsesspråk. Voki, for eksempel, er et pedagogisk verktøy laget av Oddcast som lar brukere velge sin egen avatar ved å bruke forskjellige aksenter. De kan sendes via e-post eller legges ut på nettsteder eller sosiale nettverk.

API

Flere selskaper tilbyr TTS APIer til forbrukere for å fremskynde utviklingen av nye applikasjoner som bruker TTS-teknologi. Selskaper som tilbyr TTS APIer inkluderer AT&T , IVONA, Neospeech, Readspeaker og YAKiToMe!. For mobilapplikasjonsutvikling har Android -operativsystemet tilbudt en TTS API i lang tid. Nylig, med iOS7, har Apple også begynt å tilby en TTS API.

Se også

Referanser

  1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). Fra tekst til tale: MITalk-systemet . Cambridge University Press . ISBN  0-521-30641-8 . 
  2. Rubin, P.; Baer, ​​T.; Mermelstein, P. (1981). "En artikulatorisk synthesizer for perseptuell forskning". Journal of the Acoustical Society of America 70 (2): 321-328. doi : 10.1121/1.386780 . 
  3. van Santen, Jan PH; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Fremgang i talesyntese . Springer. ISBN  0-387-94701-9 . 
  4. ^ Van Santen, J. (16. april 1994). "Tildeling av segmentell varighet i tekst-til-tale-syntese". Datamaskintale og språk 8 (2): 95-128. doi : 10.1006/csla.1994.1005 . 
  5. History and Development of Speech Synthesis , Helsinki University of Technology, Hentet 4. november 2006
  6. Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine ("Mekanisme av den menneskelige tale med beskrivelse av dens talemaskin," JB Degen, Wien). (på tysk)
  7. Mattingly, Ignatius G. (1974). "Talesyntese for fonetiske og fonologiske modeller" . I Sebeok, Thomas A., red. Current Trends in Linguistics (Mouton, Haag) 12 : 2451-2487. Arkivert fra originalen 12. mai 2013 . Hentet 1. juli 2015 . 
  8. ^ Lawrence, J. (2007). "2" . Speech Science Primer: Fysiologi, akustikk og oppfatning av tale . s. 24. 
  9. ^ "Mønsteravspillingen " . Hentet 3. juli 2015 . 
  10. Klatt, Dennis (16. april 1987), "How Klattalk ble DECtalk: An Academic's Experiences in the Business World" , Den offisielle saksgangen til Speech Tech '87 (New York: Media Dimensions Inc./Penn State): 293- 294 og overflødig ( hjelp ) .   |obra=|periódico=
  11. Sproat, Richard W. (1997). Flerspråklig tekst-til-tale-syntese: Bell Labs-tilnærmingen . Springer. ISBN  0-7923-8027-4 . 
  12. [[Raymond Kurzweil Raymond Kurzweil|Kurzweil, Raymond]] (2005). Singulariteten er nær . Penguinbøker . ISBN  0-14-303788-9 . 
  13. Klatt, D. (1987) "Review of Text-to-Speech Conversion for English" Journal of the Acoustical Society of America 82 (3):737-93
  14. Lambert, Bruce (21. mars 1992). "Louis Gerstman, 61, en spesialist i taleforstyrrelser og -prosesser" . New York Times . 
  15. ^ "Arthur C. Clarke Biografi" . Arkivert fra originalen 11. desember 1997 . Hentet 11. desember 1997 . 
  16. ^ "Hvor "HAL" først talte (nettstedet for Bell Labs Speech Synthesis)" . Bell Labs. Arkivert fra originalen 2011-04-29 . Hentet 17. februar 2010 . 
  17. Antropomorfisk snakkende robot Waseda-Talker-serien
  18. TSI Speech+ og andre talende kalkulatorer
  19. Gevaryahu, Jonathan, "TSI S14001A Speech Synthesizer LSI Integrated Circuit Guide" Feil bruk av mal for ødelagte koblinger ( ødelagt lenke tilgjengelig på Internet Archive ; se historikk , første og siste versjon ).
  20. Breslow, et al. USAs patent 4326710: "Talking electronic game" 27. april 1982
  21. Voice Chess Challenger
  22. Gamings viktigste utvikling , GamesRadar
  23. " Fjerne fonemer ." Popular Mechanics (Tech Front Lines). juni 1981
  24. Gahlawata, M., Malika, A., Bansalb, ​​P. Natural Speech Synthesizer for blinde Persons Using Hybrid Approach''. Proceeded Computer Science, 2014, s. 86
  25. Schröder, M., Emotional Speech Synthesis: A Review''. Universitetet i Saarland, 2001, s.1
  26. Alan W. Black , Perfekt syntese for alle mennesker hele tiden. IEEE TTS Workshop 2002.
  27. John Kominek og Alan W. Black . (2003). CMU ARCTIC databaser for talesyntese. CMU-LTI-03-177. Language Technologies Institute, School of Computer Science, Carnegie Mellon University.
  28. Julia Zhang. Språkgenerering og talesyntese i dialoger for språklæring , masteroppgave, avsnitt 5.6 på side 54.
  29. William Yang Wang og Kallirroi Georgila (2011). Automatisk gjenkjenning av unaturlige segmenter på ordnivå i talesyntese for enhetsvalg , IEEE ASRU 2011.
  30. ^ "Pitch-Synchronous Overlapp and Add (PSOLA) Synthesis" . Arkivert fra originalen 22. februar 2007 . Hentet 28. mai 2008 . 
  31. ^ T. Dutoit, V. Pagel, N. Pierret, F. Bataille, O. van der Vrecken. MBROLA-prosjektet: Mot et sett med høykvalitets talesyntese til bruk for ikke-kommersielle formål. ICSLP Proceedings , 1996.
  32. R Muralishankar, AGRamakrishnan og P Prathibha. Modifisering av tonehøyde ved hjelp av DCT i kildedomenet. "Talekommunikasjon", 2004, bind 42/2, s. 143-154.
  33. LF Lamel, JL Gauvain, B. Prouts, C. Bouhier, R. Boesch. Generering og syntese av kringkastede meldinger, prosedyrer ESCA-NATO Workshop og Applications of Speech Technology , september 1993.
  34. ^ Dartmouth College: Music and Computers , 1993.
  35. som Astro Blaster , Space Fury og Star Trek: Strategic Operations Simulator
  36. som Star Wars , Firefox , Return of the Jedi , Road Runner , The Empire Strikes Back , Indiana Jones and the Temple of Doom , 720° , Gauntlet , Gauntlet II , APB , Paperboy , RoadBlasters , Vindicators Part II , Escape from the Planet av robotmonstrene
  37. John Holmes og Wendy Holmes (2001). Talesyntese og -gjenkjenning (2. utgave). CRC. ISBN  0-7484-0856-8 . 
  38. ^ "Det HMM-baserte talesyntesesystemet" . Hts.sp.nitech.ac.j . Hentet 22. februar 2012 . 
  39. Remez, R.; Rubin, P.; Pisoni, D.; Carrell, T. (22. mai 1981). "Taleoppfatning uten tradisjonelle talesignaler" . Science 212 (4497): 947-949. PMID  7233191 . doi : 10.1126/science.7233191 . 
  40. ^ "Talesammendrag" . World Wide Web Organization. 
  41. "Blizzard Challenge" . Festvox.org . Hentet 22. februar 2012 . 
  42. ^ "Smil - og verden kan høre deg" . University of Portsmouth. 9. januar 2008. Arkivert fra originalen 17. mai 2008. 
  43. "Smil - og verden kan høre deg, selv om du gjemmer deg" . ScienceDaily . 16. januar 2008. 
  44. ^ Drahota, A. (2008). «Den vokale kommunikasjonen av forskjellige typer smil» . Talekommunikasjon 50 (4): 278-287 . doi : 10.1016/j.specom.2007.10.001 . Arkivert fra originalen 3. juli 2013. 
  45. Muralishankar, R.; Ramakrishnan, AG; Prathibha, P. (16. februar 2004). "Endring av tonehøyde ved hjelp av DCT i kildedomenet" . Talekommunikasjon 42 (2): 143-154 . doi : 10.1016/j.specom.2003.05.001 . Hentet 7. desember 2014 . 
  46. Prathosh, AP; Ramakrishnan, AG; Ananthapadmanabha, TV (16. desember 2013). "Epokeekstraksjon basert på integrert lineær prediksjonsrest ved bruk av plosjonsindeks" . IEEETrans. Audio Speech Language Processing 21 (12): 2471-2480. doi : 10.1109/TASL.2013.2273717 . Hentet 19. desember 2014 . 
  47. EE Times. " TI vil gå ut av dedikerte talesyntesebrikker, overføre produkter til Sensory Archived 16. januar 2013, på Wayback Machine .." 14. juni 2001.
  48. ^ "1400XL/1450XL Speech Handler External Reference Specification" (PDF) . Hentet 22. februar 2012 . 
  49. "Det er sikkert flott å komme ut av den posen!" . folklore.org . Hentet 24. mars 2013 . 
  50. ^ "iPhone: Konfigurere tilgjengelighetsfunksjoner (inkludert VoiceOver og Zoom)" . Apple . Hentet 2011-01-29 . 
  51. Miner, Jay et al. (1991). Amiga Hardware Reference Manual (3. utgave). Addison-Wesley Publishing Company, Inc. ISBN  0-201-56776-8 . 
  52. Devitt, Francesco (30. juni 1995). "Oversetterbibliotek (flerspråklig taleversjon)" . Arkivert fra originalen 2012-02-26 . Hentet 9. april 2013 . 
  53. "Tilgjengelighetsveiledninger for Windows XP: Bruke Forteller" . Microsoft. 29. januar 2011 . Hentet 2011-01-29 . 
  54. "Hvordan konfigurere og bruke tekst-til-tale i Windows XP og i Windows Vista" . Microsoft. 7. mai 2007 . Hentet 17. februar 2010 . 
  55. Jean-Michel Trivi (23. september 2009). "En introduksjon til tekst-til-tale i Android" . android-developers.blogspot.com . Hentet 17. februar 2010 . 
  56. Andreas Bischoff, The Pediaphon - Speech Interface to the free Wikipedia Encyclopedia for Mobile Phones , PDA-er og MP3-spillere, Proceedings of the 18th International Conference on Database and Expert Systems Applications, Sider: 575-579 ISBN 0-7695-2932-1 , 2007
  57. ^ "Smithsonian Speech Synthesis History Project (SSSHP) 1986-2002" . Mindspring.com. Arkivert fra originalen 3. oktober 2013 . Hentet 17. februar 2010 . 
  58. ^ "gnuspeech" . gnu.org . Hentet 17. februar 2010 . 
  59. "Talesynteseprogramvare for anime annonsert" . Anime News Network. 2. mai 2007 . Hentet 17. februar 2010 . 
  60. "Code Geass Speech Synthesizer-tjeneste tilbys i Japan" . Animenewsnetwork.com. 9. september 2008 . Hentet 17. februar 2010 .