Tanuljunk nyelveket? (1. rész)

2010.01.15. 23:25 repalaki edomer

Ahogy a közelmúltban szaporodtak a különböző fordítási szolgáltatások – google translate folyamatos térnyerése az egzotikus nyelvek fordításának területén is –, egyre inkább nyilvánvaló válik, hogy az automatizált nyelvi feldolgozás erőteljes fejlődési folyamat elé néz. Ezek az automatizált keresési és fordítási szolgáltatások, noha még gyakran erősen kísérleti szakaszban léteznek, mégis fontosak lehetnek, hiszen olyan technikai és elméleti megoldásokat alkalmaznak, melyek a jövő automatizált keresési szolgáltatásainak tulajdonságait vetítik előre.

A keresési és automatizált szövegfeldolgozási rendszerek elmelétével foglalkozó írásunk első részében a statisztikai alapú értelmezési és keresési rendszerekkel foglalkozunk.

Korpuszbányászat – avagy a statisztika mindenek felett?

Tegyük fel, hogy szeretnénk lefordítani egy szöveget angolról magyar nyelvre. Ilyen gyakran megesik velünk, főleg ha nem tudunk angolul. Ellátogatunk a google translate oldalára és megkérdezzük az okos géptől, hogy milyen fordítást javasol A parkban sikoltozó gyerekeket és anyukákat láttam mondatra. Az eredmény – In the park I saw mothers and screaming children – láttán elszomorodunk, hiszen mi nem ezt a mondatot kerestük, hanem azt amiben az anyukák és a gyerekek egyaránt sikítoznak. Ez a magyar mondat kétértelmű, de ahogy láthatjuk a google translate nem képes kezelni a kétértelműséget, és aki már valaha is használta a szolgáltatást, tudhatja, ennél sajnos rosszabb fordításokkal is lehet találkozni.

A probléma az, hogy a felhasználó nyelvtanilag helyes mondatokat vár a fordítóprogramtól, ám a program ezt nem tudja számára biztosítani. Ennek oka a fordítóprogramok felépítésében rejlik. A ma működő automatikus fordítóalkalmazások többsége korpuszokból, természetes nyelvi adatokat tartalmazó adathalmazokból dolgozik. A szakemberek által megírt algoritmusok alapján ebből a nagy adathalmazokból a program kiválasztja a számára jónak tűnő mintákat, egységeket, és az egymáshoz khasonló elemeket összekapcsolja, így egy angol mondat fordításául megkapunk egy magyar mondatot. A program nem ismeri a természetes nyelv szabályait, csupán statisztikai alapú elemzéseket végez.

A megfelelő számítások eredményeként előálló formulát a felhasználó elé tárja. Az ilyen típusú működés előnye kétségkívül az, hogy ma már óriási korpuszok állnak rendelkezésünkre, melyek pillanatok alatt elemezhetőek, így általánosságban véve jól működnek. A program képes jó szabályokat levonni a nagy adathalmazokból és képes jó megoldásokat visszaadni. A korpusz azonban sokszor nagyon sok helytelen adatot, szemetet tartalmaz, ezek zavarják az elemzés pontosságát. A nagyobb hátrány azonban az, hogy ezzel az eljárással a természetes nyelvi szövegek 70-80%-át képesek vagyunk olyan formába önteni, melyről egy anyanyelvi beszélő azt állítja, hogy helyes. A fennmaradó 20-30% százalék azonban olyan jelenségeket tartalmaz, melyek értelmezését még képtelenek megoldani. Hogy mik ezek a jelenségek, és mi jelentheti a megoldást a fordító és keresőszolgáltatások intelligenssé tételé során, arról sorozatunk következő tagjában olvashat.

Facebook Tumblr Tweet Pinterest Tetszik

Szólj hozzá!

Címkék: seo keresés nyelvészet korpusz

A bejegyzés trackback címe:

https://seologik.blog.hu/api/trackback/id/tr881675880

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Honlapkészítés, keresőopitmalizálás és online-marketing

Feedek

Keresés

Archívum