A Google Translate és a magyar nyelv

Ha felmegyünk a Google Translate oldalára, azt láthatjuk, hogy a választható nyelvek között még nincs ott a magyar. Ugyanakkor ha a "detect language" funkciót használjuk, észrevehetjük, hogy a fordítógép ennek ellenére nagyon sok magyar szót felismer. Tegyünk egy próbát:

Láthatjuk tehát, hogy a Google Translate bár hivatalosan még nem tartalmazza a magyar nyelvet, a háttérben működő rendszer már képes felismerni viszonylag sok szóról azt, hogy magyarul van-e.

Mikor megláttam, hogy a Google Translate képes felismerni egy szóról azt, hogy magyar-e vagy sem, eszembe jutott, hogy a Google.hu oldalon is van egy olyan funkció, melynek segítségével csak a magyar nyelvű oldalakat kapjuk meg találatnak.

Nos, megkerestem a Google-t, hogy magyarázzák el nekem, miként is működik ez a funkció. A következő választ kaptam:

A beállítással a magyar nyelvűként azonosított oldalak között kereshet a felhasználó (a domain lehet bármi, .com is). Ezt pedig algoritmikus nyelvészleléssel (language detection) tesszük meg. A Google Translate-ben is képesek vagyunk automatikusan felismerni egy nyelvet. Egyébként van is egy webhely-tulajdonosoknak szánt API, ami a Google-nak ezt a képességét használja erőforrásként.

Épp azt válaszolták tehát, amire számítottam. A Google.hu magyar nyelvű oldalakra szűkített találati listája mögött valószínűleg ugyanaz a nyelvelemző rendszer működik, amit a Google Translate-ben is láthatunk.

A Google Translate mögött működő fordítógép statisztikai alapon dolgozik. Sok milliárd szót elemeznek a Google algoritmusai, s a nyelvközi szóelemzésekből statisztikai módszerekkel próbálják megtudni, hogy egy adott szó (és egy adott szó adott kontextusban) mit jelent egy másik nyelven.

A statisztikai alapú automatikus fordításhoz persze nagy mennyiségű releváns szöveg kell. Valószínűleg ezért van az, hogy a Google azt tanácsolja a netezőknek, hogy töltsenek fel minél nagyobb mennyiségű kétnyelvű szöveget az internetre. (Elsősorban angol-magyar kétnyelvű szövegek a jók, hiszen a Google fordítási módszere két nem angol nyelv esetében úgy működik, hogy a nyelv#1-et lefordítják angolra, és angolról fordítanak nyelv#2-re.)

Az algoritmus nyilván a kétnyelvű szövegek nagymennyiségű statisztikai kiérétkeléséből  jobb minőségű fordítási eredményeket tud elérni. Ugyancsak a Google Translate oldalán láthatjuk, hogy a felhasználók megadhatnak fordítási javaslatokat. Nyilvánvalóan ez a funkció is arra hivatott, hogy növelje a fordítások minőségét.

Oké, mondhatnánk, de akkor miért van az, hogy a magyar még nincs benne a Google Translate-ben? Nyilván a nyelvi sajátosságok és a nyelvtan, valamint a nem elegendő mennyiségű kétnyelvű online szöveg miatt nem sikerült hamarabb a magyart is betenni a listába.

Amúgy a "parittya" szavunkra a Google valamivel több mint 60 ezer találatot ad. A "tölgy" szóra viszont - érthető okokból - sokkal többet, több mint 400 ezret. Viszont a Google Translate erről a szóról nem képes megállapítani, hogy milyen nyelvű.

Mindebből pedig talán arra következtethetünk, hogy a Google-nál már projektszinten működik a magyar nyelv elemzése a Google Translate számára. És bár egyelőre semmi jelét nem tapasztalom annak, hogy a magyar nyelv előbb fog bekerülni a fordítóprogramba, mint mondjuk a máltai vagy az észt, azért úgy tűnik, ez is csak idő kérdése.

A magyar nyelv integrálása a Translate-be elsősorban azért lenne fontos, mert sajnálatos módon egy olyan országban élünk, ahol a megbízható idegennyelv-ismeret továbbra is kuriózumnak számít. De legalábbis jóval kevésbé magától értetődő tudás, mint sok nyugat európai országban.

Címkék: google fordítóprogram google translate
2008.11.16. 15:11. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Itt van a lista, hogy melyik nyelveket ismeri fel:
code.google.com/apis/ajaxlanguage/documentation/#SupportedLanguages

Alatta meg, hogy melyek között tud fordítani:
code.google.com/apis/ajaxlanguage/documentation/#SupportedPairs

És ami még jobb a Translateben, hogy van hozzá API, teljesen automatizálható (lenne magyarról is) a fordítás.
Ha jol emlekszem viszont tamogatja az osszes kornyezo orszag nyelvet (kiveve talan a szlovakot, de azt a csehbol nem lesz annyira nehez legeneralniuk szerintem), valamint mintha tamogatna finnt es esztet is (ami a masik ket elterjedt finnugor (ergo viszonyragozos, vagy forditoprogramozasilag szivasos) nyelv.. magyarul le vagyunk sz.rva.

Ize... most nezve: esztet nem tamogat meg, szlovakot viszont mar igen.
"egy olyan országban élünk, ahol a megbízható idegennyelv-ismeret továbbra is kuriózumnak számít. "

Mondjuk a Translate csak rövid szövegeknél segítene, mert nem hiszem, hogy bárki is szívesen olvasna tanulási/szórakozási céllal hosszú szövegeket, amiket géppel fordítottak le...
A www.webforditas.hu/ már régóta üzemel, és elég sok nyelvről tud "fordítani" magyarra. Sőt, a visszafelé irányt is tudja.
Ez is valami, hogy ilyen kis ország létünkre vesz valaminek minket a világóriás.
Elég durva, hogy kétnyelvű szövegek alapján fordítana a Google, viszont mi alapján dönti el hogy minek jó a fordítása? Semmi alapján, mert a statisztika nem válogat. Vagyis a fordítógép, ha elkészül, úgy fog majd fordítani, ahogy a nagy netező magyar átlag, vagyis silányul.
Egyébként is Isten ments, hogy lehessen még egy felületen automatizálni a fordítást. Már így is eléggé felhígult a fordítói szakma, és már így is épp eléggé tele vagyunk olyan termékekkel, amiknek fordítógéppel készült a szövege.
@XYBeR, a webforditas.hu -nak sajnos nem a legjobb a minosege...
zolij: azért az idézőjel a "fordítani" kifejezésnél :) de a google translate sem lesz/lehet sokkal jobb, mert a magyar nyelv elég kacifántos. a webforditas.hu mögött álló cég nem ma kezdte a szakmát, lám, mégis csak idáig jutottak
A latin nyelvcsaládok között még érthető amit fordít, a többi szinvonalát viszont egy szavankénti magyar fordító is megüthetné már.
A cseh utan jelent meg nem sokkal a szlovak forditas is benne.
webforditas.hu teszt:
4 hét alatt angolul
Stabil alapok, beszédrutin. 80 órás alapozó tanfolyam. => Under 4 weeks in English
Stable main reason, speech routine. 80 clockmaker are preparatory courses.

Pedig egyszerű jelenidejű kijelentő mondatok... És itt jól jönne a statisztika alapu számolgatás, hogy pl. egy szám után (80) az "órás" kifejezés nem az órásmesterekre utal...
A magyarról ill. magyarra fordítás katasztrófa: én még nem találkoztam olyan szoftverrel, ami legalább buta nyersfordítás szintjén megbirkózott volna a feladattal (ellentétben pl. a német-angollal, azt rendszeresen használom, és általában sikerül megértenem, hogy mi lehetett az eredetinémet szöveg).

Kis ország, kis pénz, kis foci... Ráadásul a magyar egy meglehetősen logikátlan, bonyolult nyelv.

@all:
A Google Translate abban különbözik a többi "nagy tudású", "a szakmát nem ma kezdő" cégtől, hogy ott te is belejavíthatsz a szövegbe. A "szakmát nem ma kezdő" cégek tíz, talán száz fővel dolgoznak, a Google meg potenciálisan 10 millióval.

Persze ha Magyarországon van 100 000 ember, aki életében egyszer belejavít a Translate szövegébe, akkor nagyot mondok, de nagyságrendileg ennyi lehet, a Wikipédiának is 75 000 regisztrált szerkesztője van, ez a nagyságrend lehet az, aki hajlandó egy hibát kijavítani.
Én használom rendszeresen, de eléggé oda kell figyelni meg sokszor vissza is javítok hogy elkerüljem a "Piros Kalap Linux műtő felszerelése" vagy "Elektromos csellentyűcske"-hez hasonlókat netán esetleg direktben beégjünk mondjuk egy chaten. :D
"Piros Kalap Linux" :-))

Ez olyan, mint az Agyag Fényképbolt, meg a PiciPuha Ablakok.
"A Google.hu magyar nyelvű oldalakra szűkített találati listája mögött valószínűleg ugyanaz a nyelvelemző rendszer működik, amit a Google Translate-ben is láthatunk."

Hát felismerni egy nyelvet nagyon nem ugyanaz, mint lefordítani. Felismerés például az, ha ráfuttatjuk minden nyelv helyesírásellenőrzőjét, és amelyikre a legkevesebb hiba jön ki, az a nyelve a szövegnek. Magyar nyelvre már van nyílt forráskódú helyesírás-ellenőrző (hunspell), azt pl használhatják.

Fordítóprogram van zárt forráskódú, amit megvásárolhat akár a gugli, de nincsenek illúzióim a minőségével kapcsolatban. Olyan jól, mint ahogy mondjuk a spanyol-->angol fordítójuk biztos nem fog működni.

Úgyhogy szerintem a nyelv felismerése nem jelenti, hogy egy picivel is közelebb lennének a fordításhoz. Persze bármikor bevásárolhatnak a meglévő fordítókból, vagy előugorhatnak egy eddig titkos saját fejlesztéssel is.
"a magyar nyelv logikátlan, kacifántos" (előző 2 hozzászóló megjegyzése)

Ez szerintem nem igaz. Az angol nyelv phrasal verb-jeiben vajon mennyi logika van? Ugyanannyi, mint a magyar toldalékokban, tehát semennyi. Inkább arról van szól, hogy egy tizenegynéhány milliós nyelvre nem fognak olyan intenzitással fejleszteni, mint egy fél világ által beszélt angolra.
A Morphologic (webforditas.hu is az övéké) foglalkozik régóta, komolyabban ezzel és anno nem sikerült megegyezniük a Google-lel, szerintem érthető okokból: ők az évtizedes fejlesztéseket nem akarják csak úgy kiadni, hogy utána mindenki ingyenesen használhassa. Jöhet a kérdés ilyenkor, de hát a webforditas.hu ingyenes. Igen ingyenes, de reklámokat el tudnak helyezni.

És ilyenkor jön, hogy megbízhatatlan. Ennek két oka: Az egyik, hogy nagyon kevés ember küld vissza visszajelzéseket, helytelen fordításokat, így a fejlesztők nem tudnak mindennel foglalkozni, mivel nem tudják, hogy statisztikailag mik a problémás szövegek, más dolog, hogy naponta milyen sokan használják, de ezeket a fordításokat nem tudják visszanézni. A másik ok, hogy a magyar nyelv ragozása és maga az egész rendszer annyira bonyolult, hogy egy gép számára komoly fejtörést okoz, hogy valójában mire is kéne, hogy gondoljon az ember és ezt egy sima webes alapú szövegfordító nem tud megtenni csak akkor, ha egy mondatra máris legalább egy másik fordítási változatot felajánl, de onnantól kusza az egész, tehát mai technikával a magyar nyelvet lehetetlen lefordítani. Egy latin alapú nyelvnél azért más a helyzet ott van egy szabály, pár kivétel azt beprogramozod és máris fordít, de a magyarnál van egy szabály, de az egész nyelvünk érzésre épül. Megbízható ázsiai (japán, kínai, karakterírásos)-angol fordítót sem fogsz találni, mert szintén bonyolult. Amíg egy külföldi egyszerűbben tanul meg egy angol vagy latin alapú (francia, olasz, spanyol... stb.) nyelvet mint egy magyart addig egy megbízható magyar fordítóprogramot írtó nehéz lesz készíteni.

Próbáljátok ki a MobiCat-et azt mondom, ha mindenáron fontos a fordítás, az felajánl jó pár lehetőséget fordításra (általában 2-3-at is és az egyik biztos, hogy nagy százalékban megfelelő) és máris megkönnyíti a munkátokat.

A Morphologic fejlesztőinek meg ajánlom, hogy csináljanak egy értékelő rendszert a webfordítás alatt, hogy mennyire érthető a szöveg vagy mennyire pontos a fordítás, akkor könnyebb statisztikailag megfigyelni a hibás mondatokat. Régen rendszeresen küldtem be a helytelen fordításokat és mindig(!) visszajeleztek e-mailben, hogy köszönik ráadásul magyarázatot is kaptam sokszor, gondolom nem sokan küldték be már akkor sem :) A végén szóltam, hogy ne reagáljanak a visszajelzésre, mert nem azért küldöm :D Egy idő után viszont elmúlt a kedv is a beküldözgetésre, ezért érzem azt, h a webforditas.hu-ra szerintem egy nagyon jó megoldás lehetne egy értékelő rendszer.
Azért nem csak felismeri a Google, hogy magyar az adott nyelv, hiszen a Gmailben már elég régóta működik a magyar helyesírás-ellenörző.
Én kínaiból szoktam visszafordítani a Google Translate-tal angolra.

Na az azután zseniális. A "Csodálatos Csehszlovákia" bemutatta az elképesztő tigris nevű autót és társait. Hát igen, szójelekből elég nehéz statisztikai alapon fordítani. Mindegy, mankónak azért elmegy
Ez azért szomorú, hogy ennyire nem becsüli senki a Morphologic-ot. Egy nagyon korrekt magyar cég, nagyon korrekt célokkal, és akkor azt írják egyesek, hogy nem tud megbírkózni szimpla mondatokkal...melyik automatikus fordító is képes erre?

Inkább azt kellene megkérdezni magunktól, hogy a Google miért nem integrálja a Webforditas.hu-t, miközben egy nagyon ígéretes gárda van mögötte.
Igenis respect a Morpho-nak és a Prószéky csapatának.
A fordítóprogram fejlesztési projekt vezetője vagyok a MorphoLogicnál. Nagyon köszönjük az elismerő szavakat, de a kérdést is: miért nem akar együttműködni velünk a Google? Amit biztosan tudunk az az, hogy a Google a saját megoldásában hisz. Még nem állt elő a magyar fordítóval, ami mögött nyelvi nehézségek állhatnak. Ma két módszer versenyzik egymással a kevés munkával járó, gyors megoldást jelentő statisztikai (Google) és a sok munkát igénylő nyelvészeti alapú (MorphoLogic). A megoldás nyilvánvalóan a mindkettőt egyesítő hibrid megoldás lesz. A statisztikai módszert a nyelvészeti alapokon álló rendszerek gyorsan integrálhatják, de fordítva nem működik a dolog. Úgy gondoljuk, hogy a Google látva azt, hogy a gyors megoldással nem tudta megközelíteni a webforditas.hu minőségét, inkább nem állt elő a magyar fordítóval. Ugyanakkor nem hisszük, hogy a felhasználói visszajelzések segítségével fejlődő rendszer gyorsabban fejlődne mint a miénk. Ilyen nálunk is működik, illetve ha lenne érdemleges mennyiségű és minőségű visszajelzés, akkor komolyabb rendszert fejlesztettünk volna ezeknek az adatoknak a felhasználására. Mi felajánlottuk az együttműködésünket a Google-nek és a webforditas.hu oldalon barátságunk jeléül fixen megjelenítjük a Google hirdetési felületét. A Google vagy valamilyen új eddig ismeretlen fejlesztés bevetésére vár, vagy nem akar saját maga ellen dolgozni (a google.translate.com-on nincsenek hirdetések).

Néhány előző megjegyzést is kommentálnék:

DobayAdam: A gépi fordítást csak nagyon ritkán használják termékleírások fordításához, hiszen arra egyelőre alkalmatlan, a termékeket pedig el szeretnék adni. A gépi fordítás ma egyáltalán nem jelent veszélyt a fordítókra, sőt reméljük, hogy ha megfelelő minőséget ér el, akkor a fordító memóriába integrált fordítóprogram éppen az ő munkájukat fogja segíteni.

XYBeR: Ma az interneten egy adott nyelvről a legtöbb másikra a translate.google.com es a webforditas.hu oldalon lehet fordítani, ez 33 nyelvet jelent. (vigyázat felületesség félrevezető lehet pl. TranExp)
2. hely: www.lec.hu 21 nyelv. 3 hely: www.systransoft.com 13 nyelv . Fontos különbség, hogy mi csak magyar fordítást engedünk meg, náluk viszont éppen ilyen nincs.

dark future: A angol és német rokon germán nyelvek, könnyebb a feladat. Kevesebb munkával állítható elő egy adott minőség, vagy másképpen adott mennyiségű munkával jobb minőség állítható elő. Ha tovább dolgozunk, a mai jónak tartott német-angol minőség is messze meghaladható. A magyar nyelv nem logikátlanabb vagy bonyolultabb mint más nyelvek, csak nem az indoeurópai nyelvcsalád tagja ezért jobban eltér a többi európai nyelvtől.

amondó: Mások is gyakran esnek abba a hibába, hogy tévesen ítélik meg a magyar nyelv jelentőségét. A tíz milliónál magasabb népességünk és az internet használati mutatók alapján a gazdaságilag fontos nyelvek közé tartozunk. Konkrétan ebben az esetben erre jó bizonyíték, hogy a Google Translate 33 nyelvében már ezek a nálunk lélekszámban mindenképpen kisebb nyelvek is szerepelnek: lett, litván, szlovák, szerb, szlovén, stb.