Car-tech

Puheentunnistusjärjestelmien on oltava järkeviä, professori sanoo

Anonim

"Kuluttajakokemuksesta ihmiset löytävät nämä järjestelmät erittäin turhaisilta", sanoi James

Useimmat tietokonepohjaiset puheentunnistusjärjestelmät voivat ymmärtää, mitä ihminen sanoo jopa 98 prosenttia ajasta, ja silti ihmisiä vielä chafe käyttää automaattisia puhelin help-desk-järjestelmät.

[Lue lisää: Uusi PC tarvitsee näitä 15 ilmaista, erinomaista ohjelmaa]

Nykyisin useimpien suurten organisaatioiden asiakaspalveluosastot tarjoavat automatisoituja puhelinpohjaisia ​​tukijärjestelmiä. Käyttäjä soittaa avun numeroon ja keinotekoinen ääni kysyy soittajalta useita kysymyksiä. Suurin osa näistä järjestelmistä perustuu puitteet, jotka ovat periaatteessa suuria päätös puita. Tällaisilla järjestelmillä "et saa selville, mitä henkilö haluaa, noudatat käsikirjoitusta", hän sanoi.

Järjestelmät ovat todellakin monien erilaisten teknologioiden yhdistelmä. Yksi on puheentunnistus tai tietokoneen kyky ymmärtää tai tulkita menestyksellisesti tekstiä, mitä puhuja sanoo.

Toinen tekniikka, luonnollisen kielen käsittely (NLP), yrittää joko muuntaa puhujan viestin komennoksi että tietokone voi suorittaa tai että se voidaan tiivistää ihmisen toimijalle.

Äänentunnistuksessa ja NLP-tekniikassa on viime vuosikymmeninä tehty suuria edistysaskeleita, mutta ne ovat ilmeisesti tuoneet käyttäjilleen enimmäkseen turhautumista. "Minä soitan pankille vain, kun minulla on ongelma ja taistelevat näitä järjestelmiä vastaan ​​[kysyn], mitä voin vastata päästäkseen ihmiselle mahdollisimman nopeasti", Allen sanoi.

Allenin akateemista tutkimustyötä on löytää keinoja, joiden mukaan "voimme puhua koneelle samalla tavoin kuin voimme puhua ihmiselle", hän sanoi.

Kaksi ihmisen välistä keskustelua voi olla tarkka, millä tavoin tietokoneilla on vaikeuksia sovittaa yhteen. Allen viittasi joihinkin varhain töihin, jotka hän teki jatko-opiskelijana, jossa hän äänitti keskustelut rautatieasemalta. Yhdessä vuorovaikutuksessa matkustaja kävelee kelloon ja sanoo "8:50 Windsorille" ja vastaajien vastaukset "Gate 10, 20 minuuttia myöhässä". Vaikka järjestäjä tietäisi täsmällisesti mitä tietoja kyselyn tekijä kysyi, tietokoneistetut järjestelmät löytäisivät matkustajan ensimmäisen lausuman hämmentävän.

Kuten Allen näkee, modernista järjestelmistä puuttuu kaksi elementtiä: kyky analysoida mitä puhuja sanoo ja kyky keskustella puhujan kanssa saadakseen tietää lisää siitä, mitä puhuja aikoo sanoa.

"Paljon NLP: tä on vähän matalaa. Meillä ei ole tekniikkaa, joka antaa sinulle lauseiden merkityksen." hän sanoi. Tilastolliset työkalut ja sananmäärityspalvelu kuten WordNet voivat auttaa määrittelemään sanaa, mutta myös sanaa, joten järjestelmä tietää, että esimerkiksi "tytäryhtiö" on osa "yritystä".

Enemmän tarvitaan myös kaksisuuntaista viestintää käyttäjien ja tietokoneiden välillä. Puhuessaan heidän tarpeistaan ​​ihmiset voivat antaa tietoja missään erityisessä järjestyksessä. Tietokoneen pitäisi olla mukana koota nämä tiedot eikä rasittaa käyttäjää sellaisilla kysymyksillä, joiden vastauksia on jo annettu.

"Tämä on tulevaisuus, tämä on todella mitä haluat järjestelmiltä, ​​ja voimme luoda dialogin järjestelmät, jotka voivat tukea tätä monimutkaisuutta, "hän sanoi.

Tämän ajatuksen havainnollistamiseksi Allen ja tutkijaryhmä loivat Heartiac-nimisen ohjelman, joka voisi jäljitellä kysymyksiä, joita sairaanhoitaja kysyy sydänsairauspotilaille. Ohjelma luotiin rahoituksella Yhdysvaltain kansallisista terveyslaitoksista. Tämän järjestelmän avulla, kun käyttäjä toimittaa tietoja, järjestelmä ei kysy sitä uudelleen, Allen sanoi. Järjestelmä ymmärtäisi, mitä materiaalia jo tarjottiin ja mitä tarvittiin vielä.

Toinen Allenin ja hänen tiiminsä, Ploughin, suunnittelemat ohjelmat voivat oppia tekemään tavallisia tehtäviä tietokoneessa. "Tämä on järjestelmä, jonka avulla voit periaatteessa käyttää dialogia kouluttaa järjestelmääsi, miten voit tehdä asioita sinulle", hän sanoi.

Esimerkkinä Allen esitteli ohjelmaa oppimalla lähialueen ravintoloita selaimen avulla. Käyttäjä avaa selaimen, siirtyy ravintoloitsijan sivustoon, kirjoita haluamasi ravintolan tyypin ja sijainnin ja leikkaa ja liittää tulokset tyhjään sivuun. Käyttäjä kuvailikin jokaisen vaiheen, kun se toteutettiin.

Prosessissa Plough rekisteröi jokaisen vaiheen ja kuulisi kuuluvasti, kun vaihe on ymmärretty. Myöhemmin, kun käyttäjä haluaisi etsiä toisen ravintolan, ohjelma menisi läpi kaikki samat liikkuvat, tuottaen automaattisesti toisen ravintoliston automaattisesti. Yhdysvaltain puolustusalan Advanced Research Projects -virasto rahoitti tämän ohjelman kehittämistä.

Lisää tietoa on avain ihmisen kaltaisille kielenkäsittelyjärjestelmille, sovittiin Microsoftin huippututkijan puheesta Larry Heck, toisessa puheessa konferenssissa. "Jos sinulla ei ole tietoja, ei ole väliä kuinka hienostunut algoritmit ovat", hän sanoi.

Yksi paikka löytää lisää tietoja olisi hakukoneiden kyselyissä, hän ehdotti. Hakukoneisiin liittyvät palvelut saavat runsaasti kyselyjä, joista kaikki liitetään vastauksiin. "Tarkastelen hakua läheiseksi serkuksi kielenkäsittelytekniikalle", Heck sanoi.

Nykyään ihmiset ovat koulutettuja jäsentämään kyselyjään avainsanojen joukoksi. Sen sijaan, jos käyttäjien pitäisi kirjoittaa täydellisiä lauseita, jotka kuvaavat mitä he tarvitsevat, tuloksena oleva tietojoukko voisi menestyä pitkälle auttaa järjestelmät ymmärtämään paremmin, mitä ihmiset etsivät.

Heck ennusti, että yhä useammat ihmiset käyttävät puheaktivoituja hakupalveluita Microsoftista ja Googlesta ne ovat tottuneet jäsentämään kyselyjään täydellisinä lauseina, jotka ajan myötä voisivat auttaa NLP-järjestelmiä paremmin ennakoimaan käyttäjien tarpeita.

Joab Jackson kattaa yrityssovellukset ja yleiset teknologiat uusimmat uutiset

IDG News Huolto. Seuraa Joab Twitterissä osoitteessa @Joab_Jackson. Joabin sähköpostiosoite on [email protected]