IT-Extreme - A gépek füle

A gépek füle

Érdekességek

MaxRay - 2005-07-07

Orosz tudósok korszakalkotóan új ötletet dolgoztak ki a számítógépek beszédértésének megoldására. Segítségével a legegyszerûbb mobiltelefo

Egy ember képes felismerni egy ismerős szót az intonációtól vagy a hangerőtől függetlenül. A „hat” vagy a „nyolc”, hat vagy nyolc marad akkor is, ha hangosan vagy suttogva, izgatottan vagy nyugodtan ejtik ki, öregember vagy gyerek, nő vagy férfi mondja. Az emberi agy képes azonnal elkülöníteni a szemantikai részt, a jelentést a háttérhangoktól.
Egy gépnek minden hangvariáns önálló entitást képez, ezért is kell a beszédfelismerő programokat először tanítani. A tanítási folyamat eredményeképpen óriási könyvtár jön létre a szilikon agy memóriájában, ugyanazon szavak több ezer kiejtési variációjával. Miután „hallott” egy szót, a számítógép átnézi a könyvtárat és valami hasonlót szinte biztosan találni fog benne.
Az Orosz Tudományos Akadémia Rádió és Elektromérnöki Intézetének megközelítése inkább emberi, mint gépi: a kutatók iránymutatása mellett a számítógép kiszûri az egyéni jellegzetességeket, vagyis az alapokat szúrja ki. Ennek eredményképpen a számítógép képessé válik különálló hangok „meghallására” és ismerős szavak összerakására a hallott hangokból. Így mindössze egy kilobájtnyi memória elégséges a

processzor

számára, hogy minden számot felismerjen és még néhány egyszerû parancsot is, noha egyelőre csak oroszul.
Sok tucatnyi ember, férfiak és nők, megismételhetetlen és az optimálistól elég távol eső artikulációval, izgalomtól reszkető vagy éppen suttogó hangon beszélve próbálta összezavarni számokat kiejtve a gyorsan kapcsoló programot. A gép azonban az érzelmi frekvenciákat anyagtalannak értékelte és ejtette.
„Az adat- és menedzsment-parancsok szóbeli megértésére, a szakértőink által kifejlesztett

szoftver

interfész prototípus a tömeggyártású mobiltermékek részére készült” - nyilatkozta Vyacheslav Anciperov projektvezető. Elmondása szerint, talán a legforradalmibb és a legfontosabb a munkájukban, hogy sikerült szintetizálniuk a beszéd lényeges elemeit a hierarchikus nyelvi struktúra elmélete alapján.
„Akár egy zenei mûben, felismerhetünk többé-kevésbé magas szintû szervezettséget - ritmus, főtéma, elrendezés -, így megtanultuk szintetizálni a beszédfolyam frekvenciatartományait is, ami a fő szemantikai töltetet hordozza. Így hát a végtelenségig egyszerûsítettük a folyamatot a számítógép számára. És még egy dolog: megtanítottuk a számítógépet egyszerû elkülönült hangok felismerésére, ami gyakran nehéz feladatnak tûnt. Végeredményben rendszerünk nyerőnek bizonyul mûveleti sebesség, processzoridő, memóriaterhelés tekintetében a hasonló rendszerekkel összehasonlítva. Ez az út vezet a hatékony beszédprocesszorok irányába, melyen előttünk még senki sem járt.” - tette hozzá a szakértő.