Ha felmegyünk a Google Translate oldalára, azt láthatjuk, hogy a választható nyelvek között még nincs ott a magyar. Ugyanakkor ha a "detect language" funkciót használjuk, észrevehetjük, hogy a fordítógép ennek ellenére nagyon sok magyar szót felismer. Tegyünk egy próbát:
Láthatjuk tehát, hogy a Google Translate bár hivatalosan még nem tartalmazza a magyar nyelvet, a háttérben működő rendszer már képes felismerni viszonylag sok szóról azt, hogy magyarul van-e.
Mikor megláttam, hogy a Google Translate képes felismerni egy szóról azt, hogy magyar-e vagy sem, eszembe jutott, hogy a Google.hu oldalon is van egy olyan funkció, melynek segítségével csak a magyar nyelvű oldalakat kapjuk meg találatnak.
Nos, megkerestem a Google-t, hogy magyarázzák el nekem, miként is működik ez a funkció. A következő választ kaptam:
A beállítással a magyar nyelvűként azonosított oldalak között kereshet a felhasználó (a domain lehet bármi, .com is). Ezt pedig algoritmikus nyelvészleléssel (language detection) tesszük meg. A Google Translate-ben is képesek vagyunk automatikusan felismerni egy nyelvet. Egyébként van is egy webhely-tulajdonosoknak szánt API, ami a Google-nak ezt a képességét használja erőforrásként.
Épp azt válaszolták tehát, amire számítottam. A Google.hu magyar nyelvű oldalakra szűkített találati listája mögött valószínűleg ugyanaz a nyelvelemző rendszer működik, amit a Google Translate-ben is láthatunk.
A Google Translate mögött működő fordítógép statisztikai alapon dolgozik. Sok milliárd szót elemeznek a Google algoritmusai, s a nyelvközi szóelemzésekből statisztikai módszerekkel próbálják megtudni, hogy egy adott szó (és egy adott szó adott kontextusban) mit jelent egy másik nyelven.
A statisztikai alapú automatikus fordításhoz persze nagy mennyiségű releváns szöveg kell. Valószínűleg ezért van az, hogy a Google azt tanácsolja a netezőknek, hogy töltsenek fel minél nagyobb mennyiségű kétnyelvű szöveget az internetre. (Elsősorban angol-magyar kétnyelvű szövegek a jók, hiszen a Google fordítási módszere két nem angol nyelv esetében úgy működik, hogy a nyelv#1-et lefordítják angolra, és angolról fordítanak nyelv#2-re.)
Az algoritmus nyilván a kétnyelvű szövegek nagymennyiségű statisztikai kiérétkeléséből jobb minőségű fordítási eredményeket tud elérni. Ugyancsak a Google Translate oldalán láthatjuk, hogy a felhasználók megadhatnak fordítási javaslatokat. Nyilvánvalóan ez a funkció is arra hivatott, hogy növelje a fordítások minőségét.
Oké, mondhatnánk, de akkor miért van az, hogy a magyar még nincs benne a Google Translate-ben? Nyilván a nyelvi sajátosságok és a nyelvtan, valamint a nem elegendő mennyiségű kétnyelvű online szöveg miatt nem sikerült hamarabb a magyart is betenni a listába.
Amúgy a "parittya" szavunkra a Google valamivel több mint 60 ezer találatot ad. A "tölgy" szóra viszont - érthető okokból - sokkal többet, több mint 400 ezret. Viszont a Google Translate erről a szóról nem képes megállapítani, hogy milyen nyelvű.
Mindebből pedig talán arra következtethetünk, hogy a Google-nál már projektszinten működik a magyar nyelv elemzése a Google Translate számára. És bár egyelőre semmi jelét nem tapasztalom annak, hogy a magyar nyelv előbb fog bekerülni a fordítóprogramba, mint mondjuk a máltai vagy az észt, azért úgy tűnik, ez is csak idő kérdése.
A magyar nyelv integrálása a Translate-be elsősorban azért lenne fontos, mert sajnálatos módon egy olyan országban élünk, ahol a megbízható idegennyelv-ismeret továbbra is kuriózumnak számít. De legalábbis jóval kevésbé magától értetődő tudás, mint sok nyugat európai országban.
gcsapo 2008.11.16. 15:30:03
code.google.com/apis/ajaxlanguage/documentation/#SupportedLanguages
Alatta meg, hogy melyek között tud fordítani:
code.google.com/apis/ajaxlanguage/documentation/#SupportedPairs
És ami még jobb a Translateben, hogy van hozzá API, teljesen automatizálható (lenne magyarról is) a fordítás.
Aadaam 2008.11.16. 16:05:53
Ize... most nezve: esztet nem tamogat meg, szlovakot viszont mar igen.
agyvihar · http://agyvihar.blog.hu/ 2008.11.16. 16:24:24
Mondjuk a Translate csak rövid szövegeknél segítene, mert nem hiszem, hogy bárki is szívesen olvasna tanulási/szórakozási céllal hosszú szövegeket, amiket géppel fordítottak le...
XYBeR 2008.11.16. 17:06:15
amitlatok (törölt) · http://amitlatok.blog.hu/ 2008.11.16. 17:06:55
DobayAdam · http://www.dobayadam.hu 2008.11.16. 17:15:07
Egyébként is Isten ments, hogy lehessen még egy felületen automatizálni a fordítást. Már így is eléggé felhígult a fordítói szakma, és már így is épp eléggé tele vagyunk olyan termékekkel, amiknek fordítógéppel készült a szövege.
zolij 2008.11.16. 17:19:39
XYBeR 2008.11.16. 17:26:44
gabest1 2008.11.16. 17:44:35
.Adrián. 2008.11.16. 17:55:34
cadix · http://www.blog.hu 2008.11.16. 18:14:04
4 hét alatt angolul
Stabil alapok, beszédrutin. 80 órás alapozó tanfolyam. => Under 4 weeks in English
Stable main reason, speech routine. 80 clockmaker are preparatory courses.
Pedig egyszerű jelenidejű kijelentő mondatok... És itt jól jönne a statisztika alapu számolgatás, hogy pl. egy szám után (80) az "órás" kifejezés nem az órásmesterekre utal...
dark future · http://www.andocsek.hu 2008.11.16. 18:19:27
Kis ország, kis pénz, kis foci... Ráadásul a magyar egy meglehetősen logikátlan, bonyolult nyelv.
KGyST · http://repules.tumblr.com 2008.11.16. 18:28:37
A Google Translate abban különbözik a többi "nagy tudású", "a szakmát nem ma kezdő" cégtől, hogy ott te is belejavíthatsz a szövegbe. A "szakmát nem ma kezdő" cégek tíz, talán száz fővel dolgoznak, a Google meg potenciálisan 10 millióval.
Persze ha Magyarországon van 100 000 ember, aki életében egyszer belejavít a Translate szövegébe, akkor nagyot mondok, de nagyságrendileg ennyi lehet, a Wikipédiának is 75 000 regisztrált szerkesztője van, ez a nagyságrend lehet az, aki hajlandó egy hibát kijavítani.
Gobbi Hinta 2008.11.16. 18:37:38
dark future · http://www.andocsek.hu 2008.11.16. 19:18:21
Ez olyan, mint az Agyag Fényképbolt, meg a PiciPuha Ablakok.
amondó (törölt) 2008.11.16. 19:27:46
Hát felismerni egy nyelvet nagyon nem ugyanaz, mint lefordítani. Felismerés például az, ha ráfuttatjuk minden nyelv helyesírásellenőrzőjét, és amelyikre a legkevesebb hiba jön ki, az a nyelve a szövegnek. Magyar nyelvre már van nyílt forráskódú helyesírás-ellenőrző (hunspell), azt pl használhatják.
Fordítóprogram van zárt forráskódú, amit megvásárolhat akár a gugli, de nincsenek illúzióim a minőségével kapcsolatban. Olyan jól, mint ahogy mondjuk a spanyol-->angol fordítójuk biztos nem fog működni.
Úgyhogy szerintem a nyelv felismerése nem jelenti, hogy egy picivel is közelebb lennének a fordításhoz. Persze bármikor bevásárolhatnak a meglévő fordítókból, vagy előugorhatnak egy eddig titkos saját fejlesztéssel is.
amondó (törölt) 2008.11.16. 19:30:26
Ez szerintem nem igaz. Az angol nyelv phrasal verb-jeiben vajon mennyi logika van? Ugyanannyi, mint a magyar toldalékokban, tehát semennyi. Inkább arról van szól, hogy egy tizenegynéhány milliós nyelvre nem fognak olyan intenzitással fejleszteni, mint egy fél világ által beszélt angolra.
Re-D 2008.11.16. 20:01:52
És ilyenkor jön, hogy megbízhatatlan. Ennek két oka: Az egyik, hogy nagyon kevés ember küld vissza visszajelzéseket, helytelen fordításokat, így a fejlesztők nem tudnak mindennel foglalkozni, mivel nem tudják, hogy statisztikailag mik a problémás szövegek, más dolog, hogy naponta milyen sokan használják, de ezeket a fordításokat nem tudják visszanézni. A másik ok, hogy a magyar nyelv ragozása és maga az egész rendszer annyira bonyolult, hogy egy gép számára komoly fejtörést okoz, hogy valójában mire is kéne, hogy gondoljon az ember és ezt egy sima webes alapú szövegfordító nem tud megtenni csak akkor, ha egy mondatra máris legalább egy másik fordítási változatot felajánl, de onnantól kusza az egész, tehát mai technikával a magyar nyelvet lehetetlen lefordítani. Egy latin alapú nyelvnél azért más a helyzet ott van egy szabály, pár kivétel azt beprogramozod és máris fordít, de a magyarnál van egy szabály, de az egész nyelvünk érzésre épül. Megbízható ázsiai (japán, kínai, karakterírásos)-angol fordítót sem fogsz találni, mert szintén bonyolult. Amíg egy külföldi egyszerűbben tanul meg egy angol vagy latin alapú (francia, olasz, spanyol... stb.) nyelvet mint egy magyart addig egy megbízható magyar fordítóprogramot írtó nehéz lesz készíteni.
Próbáljátok ki a MobiCat-et azt mondom, ha mindenáron fontos a fordítás, az felajánl jó pár lehetőséget fordításra (általában 2-3-at is és az egyik biztos, hogy nagy százalékban megfelelő) és máris megkönnyíti a munkátokat.
A Morphologic fejlesztőinek meg ajánlom, hogy csináljanak egy értékelő rendszert a webfordítás alatt, hogy mennyire érthető a szöveg vagy mennyire pontos a fordítás, akkor könnyebb statisztikailag megfigyelni a hibás mondatokat. Régen rendszeresen küldtem be a helytelen fordításokat és mindig(!) visszajeleztek e-mailben, hogy köszönik ráadásul magyarázatot is kaptam sokszor, gondolom nem sokan küldték be már akkor sem :) A végén szóltam, hogy ne reagáljanak a visszajelzésre, mert nem azért küldöm :D Egy idő után viszont elmúlt a kedv is a beküldözgetésre, ezért érzem azt, h a webforditas.hu-ra szerintem egy nagyon jó megoldás lehetne egy értékelő rendszer.
MoxNox 2008.11.16. 20:31:55
pnegyesi 2008.11.16. 20:42:16
Na az azután zseniális. A "Csodálatos Csehszlovákia" bemutatta az elképesztő tigris nevű autót és társait. Hát igen, szójelekből elég nehéz statisztikai alapon fordítani. Mindegy, mankónak azért elmegy
andzol 2008.11.18. 00:51:28
Inkább azt kellene megkérdezni magunktól, hogy a Google miért nem integrálja a Webforditas.hu-t, miközben egy nagyon ígéretes gárda van mögötte.
Igenis respect a Morpho-nak és a Prószéky csapatának.
tihanyi · http://www.webforditas.hu 2008.11.20. 08:17:07
Néhány előző megjegyzést is kommentálnék:
DobayAdam: A gépi fordítást csak nagyon ritkán használják termékleírások fordításához, hiszen arra egyelőre alkalmatlan, a termékeket pedig el szeretnék adni. A gépi fordítás ma egyáltalán nem jelent veszélyt a fordítókra, sőt reméljük, hogy ha megfelelő minőséget ér el, akkor a fordító memóriába integrált fordítóprogram éppen az ő munkájukat fogja segíteni.
XYBeR: Ma az interneten egy adott nyelvről a legtöbb másikra a translate.google.com es a webforditas.hu oldalon lehet fordítani, ez 33 nyelvet jelent. (vigyázat felületesség félrevezető lehet pl. TranExp)
2. hely: www.lec.hu 21 nyelv. 3 hely: www.systransoft.com 13 nyelv . Fontos különbség, hogy mi csak magyar fordítást engedünk meg, náluk viszont éppen ilyen nincs.
dark future: A angol és német rokon germán nyelvek, könnyebb a feladat. Kevesebb munkával állítható elő egy adott minőség, vagy másképpen adott mennyiségű munkával jobb minőség állítható elő. Ha tovább dolgozunk, a mai jónak tartott német-angol minőség is messze meghaladható. A magyar nyelv nem logikátlanabb vagy bonyolultabb mint más nyelvek, csak nem az indoeurópai nyelvcsalád tagja ezért jobban eltér a többi európai nyelvtől.
amondó: Mások is gyakran esnek abba a hibába, hogy tévesen ítélik meg a magyar nyelv jelentőségét. A tíz milliónál magasabb népességünk és az internet használati mutatók alapján a gazdaságilag fontos nyelvek közé tartozunk. Konkrétan ebben az esetben erre jó bizonyíték, hogy a Google Translate 33 nyelvében már ezek a nálunk lélekszámban mindenképpen kisebb nyelvek is szerepelnek: lett, litván, szlovák, szerb, szlovén, stb.