Az első számítógép, amely megfelel az embereknek a társalgási beszédfelismerés terén

Sorra kerülnek a gépek rovatába azok a készségek, amelyek elválasztanak minket a gépektől. Először sakk volt, aztán Veszély! , majd a Go, majd a tárgyfelismerés, az arcfelismerés és általában a videojátékok. Megbocsátható, ha azt gondolja, hogy az emberek elavultak.

De próbáljon ki bármilyen hangfelismerő szoftvert, és az emberiségbe vetett hit gyorsan helyreáll. Bár jók és egyre jobbak, ezek a rendszerek semmiképpen sem tökéletesek. Fagylaltot rendel, vagy azt mondja, hogy sikítok? Valószínűleg mindkettő, ha egy gépről beszél.

Megnyugtatónak kell tehát lennie annak tudatában, hogy a hétköznapi társalgási beszédfelismerés olyan dolog, amivel a gépek még mindig küzdenek – hogy az emberek még mindig mesterei saját nyelvüknek.



Ennek a nézetnek meg kell változnia. Gyorsan. Ma Geoff Zweig és a Microsoft Research munkatársai (redmondi, Washington) azt mondják, hogy feltörték ezt a fajta beszédfelismerést, és gépi tanulási algoritmusaik most először teljesítenek jobban az embereknél a hétköznapi társalgási beszéd felismerésében.

A beszédfelismerés kutatásának hosszú története van. Az 1950-es években a korai számítógépek akár 10, egyetlen beszélő által tisztán kimondott szót is felismertek. Az 1980-as években a kutatók olyan gépeket építettek, amelyek 1000 szóból álló szókészlettel egyszerű beszédet tudtak átírni. Az 1990-es években olyan felvételek felé haladtak, amelyeken egy személy olvassa a Wall Street Journal , majd a sugárzott hírbeszédre.

Ezek a forgatókönyvek mind egyre ambiciózusabbak. De egyszerűbbek is, mint a hétköznapi beszéd a különféle korlátok miatt. A szókincs a Wall Street Journal az üzleti életre és a pénzügyekre korlátozódik, a mondatok jól felépítettek és nyelvtanilag helyesek, ami nem feltétlenül igaz a hétköznapi beszédre. A sugárzott hírbeszéd kevésbé formális, de még mindig jól strukturált és egyértelműen kifejezett. Mindezeket a példákat végül meghódították a gépek.

a plútó új távlatokban van

De a legnehezebb feladat – a hétköznapi társalgási beszéd átírása – rendületlenül ellenállt a támadásnak.

A közönséges beszéd lényegesen nehezebb a szókincs mérete, valamint a beszéd közben a szavakon kívüli zajok miatt. Az emberek egy sor zajt használnak a beszélgetés során a fordulatok átvételének kezelésére, a kommunikáció egy olyan típusára, amelyet a nyelvészek backchannelnek neveznek.

Például, UH Huh a beszélő nyugtázására és annak jelzésére szolgál, hogy tovább kell beszélnie. De uh habozás, ami azt jelzi, hogy a beszélőnek még több mondanivalója van, figyelmeztetés arra, hogy még több lesz. A menedzsment viszont uh ellentétes szerepet játszik UH Huh .

Az embereknek nem jelent nehézséget ezeknek a hangoknak a értelmezése és a beszélgetésben betöltött szerepük megértése. De a gépek mindig is küzdöttek velük.

2000-ben a Nemzeti Szabványügyi és Technológiai Intézet kiadott egy adatkészletet, amely segít a kutatóknak a probléma kezelésében. Az adatok hétköznapi telefonos beszélgetések felvételeiből álltak. Ezek egy része beszélgetések voltak egyének között egy kijelölt témában. A többi beszélgetés volt barátok és rokonok között bármilyen témában.

A legtöbb adat egy gépi tanulási algoritmus beszédfelismerésére való betanítására szolgált. A többi teszt volt, amit a gépeknek át kellett írniuk.

A teljesítmény mértéke a gép által elhibázott szavak száma volt, és a végső cél az volt, hogy a feladatot az embereknél jobban elvégezzék.

Szóval mennyire jók az emberek? Az általános konszenzus az, hogy amikor az átírásról van szó, az emberek hibaaránya körülbelül 4 százalék. Vagyis minden százból négy szót rosszul írnak át. A múltban a gépek közel sem érték el ezt a mércét.

Most a Microsoft azt állítja, hogy végre megfelelt az emberi teljesítménynek, bár egy fontos kitétellel. A Microsoft kutatói azzal kezdték, hogy újraértékelték az emberi teljesítményt az átírási feladatokban. Ezt úgy tették, hogy a NIST adatsorában lévő telefonfelvételeket elküldték egy professzionális átíró szolgálatnak, és megmérték a hibaarányt.

Meglepetésükre azt találták, hogy ennek a szolgáltatásnak a hibaaránya 5,9 százalék volt az egyének közötti beszélgetéseknél egy kijelölt témáról, és 11,3 százalék a barátok és családtagok közötti beszélgetéseknél. Ez sokkal magasabb, mint gondolták.

Ezután Zweig és társai optimalizálták saját mélytanulási rendszereiket, amelyek konvolúciós neurális hálózatokon alapulnak, változó számú réteggel, amelyek mindegyike a beszéd más-más aspektusát dolgozza fel. Ezután a betanítási adatkészlettel megtanították a gépet a közönséges beszéd megértésére, és szabadon engedték a tesztadatkészleten.

Az eredmények: összességében a Microsoft beszédfelismerő rendszerének hibaaránya hasonló az emberekhez, de a hibák típusai meglehetősen eltérőek.

A Microsoft gép által elkövetett leggyakoribb hiba az, hogy összezavarja a hátsó csatorna hangjait uh és uh-huh . Ezzel szemben az emberek ritkán követik el ezt a hibát, és inkább összekeverik az olyan szavakat, mint pl nak nek és a vagy uh és nak nek .

Elvileg semmi ok arra, hogy miért ne lehetne egy gépet betanítani a backchannel hangok felismerésére. Zweig és társai úgy gondolják, hogy a gépnek ezekkel a nehézségei valószínűleg abból fakadnak, ahogy ezek a zajok fel vannak címkézve a képzési adatkészletben. Az automata rendszer viszonylag gyenge teljesítménye itt egyszerűen a képzési adatok annotációiban előforduló zavaroknak tudható be, mondják.

Összességében azonban a gép megfelel az 5,9 százalékos emberi hibaaránynak a kijelölt témáról folytatott beszélgetéseknél, de 11,1 százalékos hibaaránnyal felülmúlja az embereket a baráti és családi beszélgetések átírásában. Most először jelentünk olyan automatikus felismerési teljesítményt, amely egyenrangú az emberi teljesítménnyel ebben a feladatban, mondja Zweig és társai.

Ez érdekes munka. Lehet, hogy a Microsoft elmozdította a kapufákat a gépei győzelmének rögzítésekor, de az írás egyértelműen a falon van. A gépek egyre jobbak a beszédfelismerésben, mint az emberek. Ez jelentős hatással lesz a gépekkel való együttműködésünkre, nem utolsósorban a fagylaltrendelésre.

Ref: arxiv.org/abs/1610.05256 : Az emberi paritás elérése a társalgási beszédfelismerésben

elrejt

Tényleges Technológiák

Kategória

Nincs Kategorizálva

Technológia

Biotechnológia

Technikai Politika

Klímaváltozás

Ember És Technológia

Szilícium-Völgy

Számítástechnika

Mit News Magazin

Mesterséges Intelligencia

Tér

Okos Városok

Blockchain

Feature Story

Alumni Profil

Öregdiák Kapcsolat

Mit News Funkció

1865

Az Én Nézetem

77 Mass Ave

Ismerje Meg A Szerzőt

Profilok A Nagylelkűségben

Az Egyetemen Látható

Öregdiák Levelei

Hírek

Mit News Magazine

Választások 2020

Indexszel

A Kupola Alatt

Tűzoltótömlő

Végtelen Történetek

Pandémiás Technológiai Projekt

Az Elnöktől

Fedősztori

Képgaléria

Ajánlott