sciencetalk

Als ik het goed begrijp
dan zijn er meer mensen zoals S. Hawking
met iets als ALS-ziekte.
Het lukte S. Hawking om de computer
te gebruiken om toch te kunnen praten.

Ik zou wel beter willen weten
hoe die Stephen Hawking dat kan ...

Stephen gebruikt een 'Text to speech' generator. Hier wordt geschreven tekst ingevoerd. Die tekst wordt met een lexicon vergeleken waaruit de fonetische uitspraak van die tekst volgt. Op basis van deze gevonden uitspraak worden fonemen (spraakfragmenten) aan elkaar geregen zodat verstaanbare spraak ontstaat.
Ik vermoed dat die fonemen afkomstig zijn van zijn eigen stem toen hij nog kon spreken. Voor de wijze van het invoeren van de tekst zal een methode zijn gevonden die is aangepast aan zijn ziektebeeld.

Olof Bosma schreef: Ik vermoed dat die fonemen afkomstig zijn van zijn eigen stem toen hij nog kon spreken.

Nee, die fonemen zijn synthetisch. Toen hij zijn stem verloor in de jaren 80, was dat de beste technologie die bestond. Sindsdien heeft hij zijn stem niet meer aangepast, omdat zijn naaste omgeving die stem gewoon is. Stel je voor dat je man/vrouw plots van stem zou veranderen, dan zou je daar waarschijnlijk moeilijk aan kunnen wennen, welnu, bij hem is dat niet anders.

Voorzover ik weet gebruikt Stephen Hawking de allofoon-synthese van DECTALK, zie https://en.wikipedia.org/wiki/DECtalk

Kan nog aanvullen dat de andere methode met (eigen) spraakfragmenten difoon-synthese heet.

Bij de difoon-synthese, wat we altijd de "ingenieurs-oplossing" noemden, werd een grote verzameling opnamen in zeer kleine stukjes spraak van 20-50ms gesegmenteerd in halve fonemen, of kern-fonemen en overgangen tussen fonemen, ook wel difonen genoemd.

Voorbeeld van verfijning in difonen:

houw in tekst.. hAUu (hou-oe) fonetisch is hA|AUW|Uw in difonen, dus h initieel met overgang naar A, overgang AW, uitloop oe-w, waarvoor bij de samenstelling fragmenten van de woordjes haast en au kunnen worden gebruikt, als houw niet in het corpus aanwezig is. De samenvoeging van de samples is de grote uitdaging. De vroege difoon-synthese kraakte door slechte blendings en amplitude-problemen. Alles werd met de hand gesegmenteerd, het was een enorm werk.

Bij allofoonsynthese zal het woordje houw eerst fonetisch worden vertaald als hAUw. Met deze foneem-string als invoer wordt vervolgens een beregeling aangestuurd van een ruisgenerator (consonant h), een golf voor de stemband (vocaal AU) en een set van 6 bandfilters. Het idee achter deze vocoder-oplossing is, dat de golfvorm aan de ingang zo goed mogelijk op die van de glottis (stembanden) moet lijken.. en dat de filters zo worden ingesteld, dat de frequenties de resonantie in de menselijke mondholte benadert. Daarom is de allofoon-synthese een wetenschappelijke oplossing. Het is alleen bijna niet te doen om het op een echte menselijke stem te laten lijken.

Allofoonsynthese vraagt veel minder geheugenopslag dan difoonsynthese en was daarom in de jaren 70-80 de leading technologie. Tegenwoordig is alles difoonsynthese (uit een database) en heel netjes geblend en van klemtonen voorzien (!), zodat je het verschil met de oorspronkelijke spreker soms bijna niet meer hoort. Indertijd waren de pioniers van difonen werkzaam in Eindhoven (IPO) en een Nederlandse allofoon-synthese is in Nijmegen ontwikkeld, aan de KUN.

sciencetalk

Stephen Hawking en de pratende computer?

Stephen Hawking en de pratende computer?

Re: Stephen Hawking en de pratende computer?

Re: Stephen Hawking en de pratende computer?

Re: Stephen Hawking en de pratende computer?