Ahogy a közelmúltban szaporodtak a különböző fordítási szolgáltatások – google translate folyamatos térnyerése az egzotikus nyelvek fordításának területén is –, egyre inkább nyilvánvaló válik, hogy az automatizált nyelvi feldolgozás erőteljes fejlődési folyamat elé néz. Ezek az automatizált keresési és fordítási szolgáltatások, noha még gyakran erősen kísérleti szakaszban léteznek, mégis fontosak lehetnek, hiszen olyan technikai és elméleti megoldásokat alkalmaznak, melyek a jövő automatizált keresési szolgáltatásainak tulajdonságait vetítik előre.
Korpuszbányászat – avagy a statisztika mindenek felett?
A probléma az, hogy a felhasználó nyelvtanilag helyes mondatokat vár a fordítóprogramtól, ám a program ezt nem tudja számára biztosítani. Ennek oka a fordítóprogramok felépítésében rejlik. A ma működő automatikus fordítóalkalmazások többsége korpuszokból, természetes nyelvi adatokat tartalmazó adathalmazokból dolgozik. A szakemberek által megírt algoritmusok alapján ebből a nagy adathalmazokból a program kiválasztja a számára jónak tűnő mintákat, egységeket, és az egymáshoz khasonló elemeket összekapcsolja, így egy angol mondat fordításául megkapunk egy magyar mondatot. A program nem ismeri a természetes nyelv szabályait, csupán statisztikai alapú elemzéseket végez.
A megfelelő számítások eredményeként előálló formulát a felhasználó elé tárja. Az ilyen típusú működés előnye kétségkívül az, hogy ma már óriási korpuszok állnak rendelkezésünkre, melyek pillanatok alatt elemezhetőek, így általánosságban véve jól működnek. A program képes jó szabályokat levonni a nagy adathalmazokból és képes jó megoldásokat visszaadni. A korpusz azonban sokszor nagyon sok helytelen adatot, szemetet tartalmaz, ezek zavarják az elemzés pontosságát. A nagyobb hátrány azonban az, hogy ezzel az eljárással a természetes nyelvi szövegek 70-80%-át képesek vagyunk olyan formába önteni, melyről egy anyanyelvi beszélő azt állítja, hogy helyes. A fennmaradó 20-30% százalék azonban olyan jelenségeket tartalmaz, melyek értelmezését még képtelenek megoldani. Hogy mik ezek a jelenségek, és mi jelentheti a megoldást a fordító és keresőszolgáltatások intelligenssé tételé során, arról sorozatunk következő tagjában olvashat.
Ajánlott bejegyzések:
A bejegyzés trackback címe:
Kommentek:
A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.