Talegenkendelsesteknologi

Talegenkendelse, enheds evne til at svare på talte kommandoer. Talegenkendelse muliggør håndfri kontrol af forskellige enheder og udstyr (en særlig velsignelse for mange handicappede), giver input til automatisk oversættelse og skaber udskrivningsklar diktering. Blandt de tidligste applikationer til talegenkendelse var automatiserede telefonsystemer og software til medicinsk diktat. Det bruges ofte til diktat, til forespørgsel til databaser og til at give kommandoer til computerbaserede systemer, især i erhverv, der er afhængige af specialiserede ordforråd. Det muliggør også personlige assistenter i køretøjer og smartphones, såsom Apples Siri.

Inden en maskine kan fortolke tale, skal en mikrofon oversætte vibrationerne i en persons stemme til et bølgelignende elektrisk signal. Dette signal konverteres igen af systemets hardware - for eksempel en computers lydkort - til et digitalt signal. Det er det digitale signal, som et talegenkendelsesprogram analyserer for at genkende separate fonemer, de grundlæggende byggesten for tale. Foneme rekombineres derefter til ord. Imidlertid lyder mange ord ens, og for at vælge det passende ord, skal programmet stole på konteksten. Mange programmer opretter kontekst gennem trigramanalyse, en metode, der er baseret på en database med hyppige tre-ord-klynger, hvor sandsynligheder er tildelt for, at to ord bliver fulgt af et givet tredje ord. For eksempel, hvis en taler siger "hvem er jeg", genkendes det næste ord som pronomenet "jeg" snarere end det lignende klingende, men mindre sandsynlige "øje." Ikke desto mindre er menneskelige indgreb undertiden nødvendigt for at rette fejl.

Programmer til genkendelse af et par isolerede ord, såsom telefonstemmenavigationssystemer, fungerer for næsten enhver bruger. På den anden side skal kontinuerlige taleprogrammer, såsom dikteringsprogrammer, trænes til at genkende den enkeltes talemønstre; træning indebærer, at brugeren læser højteksempler på tekst. I dag med den voksende styrke fra personlige computere og mobile enheder er nøjagtigheden af talegenkendelse forbedret markant. Fejlfrekvensen er blevet reduceret til ca. 5 procent i ordforråd, der indeholder titusinder af ord. Endnu større nøjagtighed opnås i begrænsede ordforråd til specialiserede applikationer såsom diktering af radiologiske diagnoser.