HTML

Honlapkészítés, keresőopitmalizálás és online-marketing



A blogot a Seologik munkatársai írják.

Kérdése van? Írjon nekünk!
------------------------- Facebook
Twitter

Beszédtechnológia ma és holnap

2010.03.06. 00:06 repalaki edomer

A beszédtechnológia a nyelvtechnológia egyik legfontosabb és talán legdinamikusabban fejlődő ága.  A beszédtechnológia – mint a mesterséges intelligencia része – a beszéd alapú alkalmazások fejlesztésével és létrehozásával foglalkozik. A beszédtechnológia alapvetően interdiszciplináris tudomány – tehát kutatási és vizsgálati módszereit több tudományterületről veszi. A beszédtechnológiai kutatásokban így helyet kapnak a számítástechnikai, valamint az általános nyelvészeti ismeretek alkalmazása, ez főleg a fonetikai és kis részben fonológia nézpontot jelent (az előbbi a beszédhangok fizikai tulajdonságával foglalkozik, míg az utóbbi a hangok viselkedésének szabályszerűségeit vizsgálja).  

Az automatikus szövegfeldolgozás, szövegfelolvasás, gépi beszéd-előállítás és beszédazonosítás óriási jelentőséggel bírnak majd a következő 2-5 év kommunkációs módszereinek kialakításában, mégis aránylag kevés olyan népszerű szolgáltatás van, melyek igénybe veszik a beszédtechnológia által nyújtott lehetőségeket (A KeresőVilág összeállítása beszédtechnológiai alkalmazásokról). Mint minden fejlődésben lévő tudományterületnek, a beszédtechnológiának is megoldást kell találnia néhány jelentős problémára.
 
A mindennapi világban, noha nem is gondolnánk, elképzelhetetlen mennyiségű zaj vesz körül minket.
A zaj olyan hangadathalmaz, mely a beszédfelismerés során nem rendelkezik értékes információval a kutatás szempontjából. A zaj jelenléte nehezíti a céladat feldolgozását, és így rontja a felismerés hatékonyságát.
Egy beszédfelismerő alkalmazás – aminek célja a beszélő hangsorainak, tehát a beszéd szöveggé vagy más automatikusan feldolgozható adattá való konvertálása - több problémába is ütközik a zaj kapcsán. Először is meg kell különböztetnie a számára fontos beszélő hangját, a számára nem fontos emberi hangoktól. Ezen felül ki kell szűrnie minden olyan nem emberi hangot is, mely teljesen felesleges és csak zavarja a felismerést. A probléma persze elszigetelthetnek tűnhet, ám teljesen életszerű eset a következő szituáció: telefonunkon keresztül szeretnénk utasítást adni bankunknak egy átutalás végrehajtására, ám a környezetből beszűrődő hangok közül egy másik személy hangját érzékeli a felismerő és a nem kívánt személy bankszámláján kerül elvégzésre a tranzakció.
 
A gépi beszéd előállítás során a számítógép egy előre meghatározott adatot, gyakori esetben egy szöveget kap bemenetül, melyet hangokká és ami talán fontosabb, emberi beszéddé kell alakítania. A mesterséges beszédelőállítás során több probléma is felmerülhet: kialakítható-e egy minden természetes nyelvet kezelő rendszer, mely tartalmaz minden létező beszédhangot, és a bevitt adatok felolvasását csak a hangok ”összeragasztásával” éri el. Természetesen korántsem ilyen könnyű a helyzet: a különböző nyelvek különböző fonológiai, szintaktikai (mondanttani) és szemantikai (jelentéstani) szabályok alapján épülnek fel. A magyar a hang egy hátul képzett, nyílt és kerekített magánhangzó, ami a világ nyelveiben csak nagyon kis százalékban található meg, a oxfordi standart angolban például ilyen magánhangzóval ejtik a ’hot’ és ’lot’ szavakat, ezt az akcentust azonban csak az angolok mindösszesen 2%-a beszéli. Nyilvánvalóan felesleges lenne így azt feltételeznünk, hogy ez a hang szerepet játszhat a maradék 98% szóképzésében. A bevitelre szánt adatokból így csak nagy munka árán – az összes hang összes tulajdonságának megjelentetésével – lennénk képesek olyan beszédet előállítanunk, mely akár 80-90% is hasonlítana az adott nyelvet anyanyelvként beszélő beszédéhez. A problémás munkafolyamat teljes automatizációjának megoldása a cél, ennek elérése azonban még sok kutatást igényel.
 
A beszédtechnológiai kutatásoknak noha számos akadálya van, mégis egyre nyilvánvalóbb az, hogy a most még csak kísérleti alkalmazásokban teret kapó lehetőségek előbb-utóbb teret nyernek a szélesebb piacon, és így kezdetét veheti egy sokak által jósolt nyelvtechnológiai, beszédtechnológiai forradalom. 

Szólj hozzá!

Címkék: seologik fonológia beszédtechnológia fonetikai


A bejegyzés trackback címe:

https://seologik.blog.hu/api/trackback/id/tr671812891

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.