De, der loathe taler i telefonen til automatiserede talegenkendelse systemer kan tage trøst i, at forskere arbejder for at gøre sådanne systemer mere livagtige og mindre irriterende at bruge. "
" Fra forbrugeroplevelse finder folk disse systemer meget frustrerende, "sagde James Allen, som er formanden for datalogi ved University of Rochester, talte før SpeechTEK-konferencen 2010, der blev afholdt i New York denne uge.
De fleste computeriserede talegenkendelsessystemer kan forstå, hvad et menneske siger op til 98 procent af tiden, og alligevel bliver folk stadig ved at bruge automatiserede telefonhjælpesystemer. Nøglen til at gøre disse systemer mindre frustrerende at bruge ville være at give dem en dybere forståelse af sprog og gøre dem mere interaktive, sagde Allen.
[Yderligere læsning: Din nye pc har brug for disse 15 gratis, fremragende programmer]På nuværende tidspunkt tilbyder kundeserviceafdelinger i de fleste store organisationer automatiserede telefonbaserede hjælpesystemer. En bruger ringer til hjælpnummeret, og en kunstig stemme spørger opkalderen en række spørgsmål. De fleste af disse systemer er baseret på rammer, der stort set er store beslutningstræer. Med sådanne systemer "kan du ikke finde ud af, hvad personen ønsker, du følger et script," sagde han.
Systemerne er faktisk sammensat af en række forskellige teknologier. Den ene er talegenkendelse eller evnen til en computer til at forstå eller med succes oversætte til tekst, hvad højttaleren siger.
Den anden teknologi, NLP (Natural Language Processing), forsøger at enten konvertere højttalerens besked til en kommando at computeren kan udføre, eller som kan opsummeres til en menneskelig operatør.
Der er sket store fremskridt inden for både stemmegenkendelse og NLP i de sidste par årtier, men de har tilsyneladende bragt mest frustration over for deres brugere. "Jeg kalder kun banken, når jeg har et problem og kæmper for disse systemer. [Jeg spørger], hvad jeg kan svare for at komme igennem til en person så hurtigt som muligt," sagde Allen.
Allens akademiske forskningsarbejde har været at finde måder at "vi kan tale med en maskine på samme måde som vi kan tale med en person," sagde han.
samtaler mellem to personer kan være præcise på måder, hvor computere har svært ved at matche. Allen pegede på noget tidligt arbejde, han gjorde som en kandidatstuderende, hvor han indspillede samtaler på en togstation informationsskranke. I en interaktion går en passager op til standen og siger "8:50 til Windsor", og ledsageren svarer "Gate 10, 20 minutter for sent." Mens ledsageren vidste præcis, hvilke oplysninger forespørgeren søgte, ville edb-systemer finde passagerens første sætning befultling.
Som Allen ser det, mangler to elementer fra de moderne systemer: Evnen til at analysere, hvad højttalerne siger og evne til at tale med højttaleren for at lære mere om, hvad højttaleren har til hensigt at sige.
"Masser af hylde-NLP har tendens til at være lavt. Vi har ingen teknologi, der giver dig mening om sætningerne" han sagde. Statistiske værktøjer og orddefinitionsservice som WordNet kan hjælpe med at definere et ord, men også et ords forhold, så et system vil vide, at for eksempel et "datterselskab" er en del af et "firma".
Mere tovejskommunikation mellem brugerne og computerne er også nødvendig. Når man taler om deres behov, kan folk give oplysninger i en bestemt rækkefølge. Det skal være op til computeren at sammenlægge disse oplysninger og ikke byrde brugeren med spørgsmål, hvis svar allerede er givet.
"Dette er fremtiden, det er virkelig det, du vil have systemer til at gøre, og kan vi opbygge dialog systemer, der kan understøtte denne kompleksitet, "sagde han.
For at illustrere denne ide designet Allen og et forskergruppe et program kaldet Cardiac, der kunne efterligne de spørgsmål, en sygeplejerske ville stille til en patient med hjertesygdom. Programmet blev oprettet med finansiering fra U.S. National Institutes of Health. Med dette system, når en bruger leverer oplysninger, ville systemet ikke bede om det igen, sagde Allen. Systemet ville begrunde, hvad der allerede var tilvejebragt, og hvad der stadig var nødvendigt.
Et andet program designet af Allen og hans team, kaldet Plough, kan lære at udføre almindelige opgaver på en computer. "Dette er et system, der giver dig mulighed for i det væsentlige at bruge dialog til at træne dit system, hvordan du gør ting for dig," sagde han.
Som et eksempel demonstrerede Allen programmet at lære at finde nærliggende restauranter ved hjælp af en browser. Brugeren vil åbne en browser, navigere til et restaurant locator site, indtaste den ønskede restauranttype og placeringen og derefter skære og indsætte resultaterne i en tom side. Brugeren beskrev hvert trin som det blev udført.
I processen skulle Plough optage hvert trin og reagere lydløst, når trinnet forstås. Senere, når brugeren gerne vil kigge op på en anden restaurant, vil programmet gennemgå alle de samme træk og producere en anden liste med restauranter automatisk. US Defense Advanced Research Projects Agency finansierede udviklingen af dette program.
Flere data er nøglen til mere menneskelige sprogbehandlingssystemer, aftalt Microsoft-chefforsker for tal Larry Heck, i en anden samtale på konferencen. "Hvis du ikke har dataene, er det ligegyldigt, hvor avancerede dine algoritmer er," sagde han.
Et sted at finde flere data ville være i søgemaskinens forespørgsler, foreslog han. Søgemaskineydelser får massive antal forespørgsler, som alle får forbindelse til svar. "Jeg ser søgning som en nærfætter til sprogbehandlingsteknologi," sagde Heck.
I dag er folk uddannet til at strukturere deres forespørgsler som et sæt søgeord. I stedet for, hvis brugerne skulle skrive i fuld sætninger, der beskriver, hvad de har brug for, kan det resulterende datasæt gå langt for at hjælpe systemer bedre med at forstå, hvad folk søger.
Heck forudsagde, at som flere mennesker bruger voice-aktiverede søgetjenester fra Microsoft og Google vil de blive vant til at strukturere deres forespørgsler som fuldstraf, som over tid kan hjælpe NLP-systemer bedre forudse brugernes behov.
Joab Jackson dækker firmware og generel teknologi, der bryder nyheder til IDG News tjeneste. Følg Joab på Twitter på @Joab_Jackson. Joabs e-mail-adresse er [email protected]
Netflix-tjenesten kan blive smartere
Konkurrencen er forbi: Brugernes team har bidraget til at forbedre Netflix's anbefalingssystem.
I et uventet træk siger Nintendo, at det planlægger at lancere en jumbo-størrelse version af sin DS-håndholdte i Japan med tvillingskærme, der næsten er dobbelt så stor som dem, der findes i de nuværende modeller. Det nye system, der hedder DSi LL, slår i gaderne den 21. november og sælger for 20.000 kr. Eller omkring 220 USD. Specifikke tidsplaner blev ikke tilbudt på andre markedsførsler, men en talsmand for virksomheden siger, at enheden vil blive sat til salg i udlandet (det hedder DSi XL) i
[Yderligere læsning: Den bedste Android telefoner til ethvert budget. ]
Sociale medier er populære, men skal tages i små doser. Ingen ønsker at blive bombarderet med mange og mange statusopdateringer og fotos alle på samme tid. Når du sender dine varer til et socialt mediewebsted, er det god praksis at sprede alt ud over en 24-timers periode. Tjenester som TweetDeck hjælper os med at gøre dette til Twitter, men Pinterest er et andet spørgsmål. Men medmindre du er verdens største insomniac, skal du bruge en tjeneste som f.eks. Pingrafi til at hjælpe dig.
Pingraphy er en webservice, der giver dig mulighed for at logge ind på din Pinterest-konto og planlægge billeder til automatisk at blive bogført på en sæt skema i fremtiden. Der er endda en bogmærke, du kan bruge, som når du klikker, vil trække alle billederne fra en webside og derefter sende dem til Pingraphy for dig.