Google Translate vs. Webforditas.hu - Küzdelem hat menetben

HH posztja után kíváncsi voltam, vajon jobb-e a most indult Google Translate a Morphologic régóta fejlesztett, sokmilliós K+F támogatásokkal megsegített fordítószoftverének webes verziójánál, a webforditas.hu-nál. A teszt eredménye (számomra) meglepő lett.

Első tesztpéldának egy, a Homáron megjelent posztból vettem egy szövegrészletet. A poszt egy lift segélyhívójának használati útmutatóját taglalja, ahol egyebek közt az "A beszélgetést rögzítjük!" mondatot "We fix the talk"-nak fordították. Nosza, kipróbáltam:

Google Translate: The conversation recorded.
Webforditas.hu: We fix the talk.


1 : 0 a Translate-nek, és már meg is tudtuk honnan származik az ominózus liftbéli szöveg fordítása.

Második tesztpélda egy index cikk címe: Filmben vetkőzik a polgármester felesége.

Google Translate: Movie strip off the mayor's wife.
Webforditas.hu: The mayor's wife undresses in a film.


1 : 1 ezt benézte a Google. Versenyen kívül alakítgattam kicsit a szövegen, hogy hogyan értené meg jobban a Translate:

A polgármester felesége filmben vetkőzik. -- The mayor's wife movie strip off.

Még mindig nem az igazi. Egy utolsó apró módosítás:

A polgármester felesége vetkőzik egy filmben. -- The mayor's wife strip off in a movie.

Végre tökéletes. De azért bukta a pontot.

Harmadik tesztpélda HH egy másik posztjának címe: "Keressük a legszebb magyar webdizájnt".

Google Translate: Search for the best English webdizájnt.
Webforditas.hu: We are looking for the most beautiful Hungarian Web design.


1 : 2 a Webfordítás javára. Nem vágom miért fordítja mindig english-nek a magyar-t a Google, és egyelőre nyilván a szleng is távol áll tőle.

A három magyar-angol után következzen három angol-magyar fordítás. Először egyszerűbb mondatokkal próbálkoztam, de mindkét program kábé ugyanúgy 70-80%-os pontossággal hozta őket, úgy látszik ez a terület jobban megy, mint magyarról fordítani. Ezért egy összetettebb mondatot választottam egy CNN cikkből: "As Americans get used to watching video on their computers, Web sites are popping up to offer free movies and TV shows."

Google Translate: Ahogy az amerikaiak szokni figyeli videó a számítógépek, webhelyek durrantó akár ingyenes filmek és TV show.
Webforditas.hu: Ahogy az amerikaiak hozzászoknak ahhoz, hogy videót néznek a számítógépeiken, internetes oldalak bukkannak elő hogy szabad filmeket és TV show műsorokat ajánljanak.


1 : 3 A gördülékenység miatt a Webfordításnak adom a pontot, a free=szabad az egyetlen tévedése, a többi kiváló.

Következik az utolsó lehetőség, hogy a Translate behozza a lemaradást. Egy mondat találomra egy TechCrunch cikkből: "At around 5 PM EST today the site went down with a notice stating that it was undergoing an update."

Google Translate: A mintegy 5 EST ma az oldalon lement egy nyilatkozat arról, hogy ez alatt a frissítés.
Webforditas.hu: Az USA keleti államai időszámítása szerint du. körülbelül 5 órakor ma a helyszín lement egy értesítéssel, ami kijelenti, hogy ez keresztülment egy frissítésen.


1 : 4  És ezzel el is dőlt. Az egyetlen furcsaság, hogy a Webfordítás többedszerre rossz értelemben fordít egy szót site=helyszín míg a többi fordítóprogram helyesen. De egyébként a pont vitathatatlan.

Jöjjön az utolsó mondat, persze már kevesebb a tétje, mint Erdei meccsének Barasjan ellen, de a szépítés lehetőségét adjuk meg a guglinak. Lássuk egy miniszterelnöki tájékoztatót angolul a meh.hu-ról: "Whereas the grey and black economies make up, on average, 8-10 percent of the GDP in the European Union, it is as high as 20 percent in Hungary, stressed Ferenc Gyurcsány."

Google Translate: Mivel a szürke és a fekete gazdaságok teszik ki, átlagosan 8-10 százalékos GDP-je az Európai Unióban, ez olyan magas, mint 20 százalék, Magyarországon hangsúlyozta Ferenc Gyurcsány.
Webforditas.hu: Míg a szürke és fekete gazdaságok gyártmány fent átlagban az az európai unióban, ebben levő, GDP 8-10 százaléka olyan magas, mint 20 százalék Magyarországon, hangsúlyozott Ferenc Gyurcsány.


Nehéz helyzet, mindkét program inkább ferdített mint fordított. De mivel a Google fordításából jobban érthető miről van szó, és tétje már úgysincs, legyen a végeredmény

2 : 4 a Webfordítás javára.

Amint a profi bokszban is gyakran előfordul, hogy a pontozók egyenlő menetek esetén inkább azt a felet próbálják győztesnek kihozni, amelyikben nagyobb a potenciál, érdekesebb a nézők számára, úgy próbáltam én is az elején a Google-nak kedvezni. Egyszerűen azért, mert a Webfordítás.hu lassú, nem felhasználóbarát, és rettentő idegesítő, hogy 2-3 fordításonként captcha kódot kell megadnom, hogy lefordítsa a mondatot. Mégis, egyelőre veri a Translate-et.

 

Talán a Google közösségi újítása, a "Javaslat jobb fordításra" segítségével egy idő után pontosabbak lesznek a fordítások (részemről ugyan kétlem, hogy a magamfajtákon kívül sokan dolgoznának vele), és érdemes lesz megismételni ezt a versenyt, de egyelőre nyert a Webforditas.hu.

Címkék: teszt fordítóprogram google translate
2009.02.08. 21:23. írta: Vén Márton

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Mielőtt elkészült volna a magyar translate történt velem, hogy a gugli egy angol kifejezésre egy francia oldalt dobott be az első oldalra. A legfurcsább az volt, hogy a címe és a kiragadott szöveg is angol volt. Akkor esett le, hogy francia, amikor ráklikkeltem és várni kellett a fordításra. Volt benne 1-2 furcsa szófordulat, de a lényeg érthető volt (szakmai blog), és nagyon hasznos.
Remélem egyszer a magyar is eljut oda, hogy egy angol egy angol kifejezésre releváns magyar találatot kapjon.
Vigyázz, nehogy a magyar versenyzőnek szurkolj, mert még nem leszel menő srác...
A magam részéről örülök és jónak tartom, hogy ez az eredmény.
Attól mert Google, még nembiztos, hogy jobb is, mint minden más!

Mindenesetre azért tényleg elégsokat fejlesztgették a Webfordítás.hu-t, úgyhogy nekem az itt tapasztalt eredmény eddig sem volt kétséges.
ezzel bazinagy reklámfelületet szerzett a google. a lefordított weboldalakat tele lehet tenni linkekkel...
egy humor kulondijat viszont siman megerdemelt volna a google a popupot durrantonak forditaser...
Szerintem a Google translate egy-két év múlva sokkal jobb lesz mint a webforditas.hu A közösségi funkció és a hatalmas tőke+tapasztalat miatt gondolom így. A webforditas.hu a legjobban akkor járna, ha felvásárolná őket a Google :)
"Végre tökéletes. De azért bukta a pontot."

Nem tudom mikor készítetted a tesztet, de a post írásának dátumától számított ~12 óra múlva már javítva volt. Hiába, a Google gyors és minőségi.

A második:
We are looking for the most beautiful Hungarian Web design.

beküldve helyesen.

"As Americans get used to watching video on their computers, Web sites are popping up to offer free movies and TV shows."

beküldve helyesen.

Itt van közösségi erő, a Webfordításon meg csak panaszkodni lehet, e-mail címet megadni, nyilván, hogy gyűjtsék a spameknek, 2 hét múlva válaszolnak és nem javítják az ősrégi hibákat sem: prog.hu/tarsalgo/?op=view&fid=67208

A Google ingyenes, reklámmentes és gyors, a Webfordítás meg másodpercek után jön be, reklám is van rajta és pofátlanul csak 512 karaktert enged fordítani, egy idő után captcha-s és még fizetős termék is ráadásul, aminek magasan jobb minőségűnek kéne lenni. De úgyse sokáig lesz már, pár év és a Google jön ki győztesen.

"Egy mondat találomra egy TechCrunch cikkből"

Tegyük hozzá, ennél és a CNN-es idézetnél egyik sem győzött, mert ezzel az erővel egy kici kínai is fordíthatna, hogy "én lenni kínai". A down ezesetben nem "lement", hanem átmenetileg szünetelt, vagy ilyesmi.

@NJoco: "Vigyázz, nehogy a magyar versenyzőnek szurkolj, mert még nem leszel menő srác..."

Ébresztő, globalizáció van. A végén annyit magyarkodsz, hogy úgymaradsz. :)))
Figyeltétek, hogy a Webisztán bal sávjába betette HH a fordítés gadgetet? :)

Én szurkolok a Guglinak, biztos jobb lesz.
A Google mért feka bokszoló? :D
én is a googlinak szurkolok :)
Gyakran elhangzik, h ezek a "fordítók" valójában csak megértés-támogatást nyújtanak - ez így igaz, a tényleges fordítástól (még?) messze van a nyelvtechnológia.
A Google fordítójával viszont rendszeresen előfordul, hogy az eredetivel épp ellentétes értelmű mondatot ad ki - nem jöttem még rá, milyen logika lehet mögötte, de nagyon fura.
Pl: translate.google.hu/translate?hl=hu&sl=en&u=http://people.csail.mit.edu/paulfitz/spanish/script.html&ei=Aj-QSd2ZN5LO0gW9jeSdCw&sa=X&oi=translate&resnum=1&ct=result

Chapman: *I* don't know - Mr Wentworth just told me to come in here and say that there was trouble at the mill, that's all - I didn't expect a kind of Spanish Inquisition.

Chapman: * * Én nem tudom - Mr. Wentworth csak azt mondta, hogy jöjjek ide, és azt mondják, hogy nem volt gond a malom, az összes - nem is vártam egyfajta spanyol Inquisition.

(hogyhogy NEM volt gond!?)


Nobody expects the Spanish Inquisition. In fact, those who do expect -

Ugyanis azok, akik _nem_ várnak --


Stb.
Én a webforditas.hu-nak, de a gugli előbb-utóbb úgyis lekörözi.
Érdekes teszt volt, kösszi szépen!


Szerintem is az lenne a legjobb, ha a gugli felvásárolná a webforditast, de az előző, Translate-ről szóló posztban mintha kifejtette volna valaki (talán valaki hivatalos a webforditastol), hogy teljesen eltérőek a módszereik, amikkel megközelítik a gépi fordítás fogalmát. A gugli kizárólag statisztikai alapon működik, és nem alkalmaz egyéb szabályokat, ez előny lehetne a webforditas.hu-nak, és épp ezért nem hiszem, hogy a gugli megvenné őket.

Potenciálisan tehát inkább a versenyre kéne koncentrálni. Láthatjuk, h mi a jó a gugliban - ingyenesség, no captcha, gadgetek, web2-es közösségi funkciók -, de azt is tudjuk, h kurvára nem találták fel a spanyolviaszt. Ez a meccs rohadtul nincs eldöntve, és szerintem a jóságok átvételével, a kesztyű felvételével a webforditas elegánsan legyalázhatná a guglit. Nagyszerű lehetőség, nem igaz?

Globalizáció ide vagy oda, azért mégiscsak logikusabb, hogy egy helyi cég többet konyítson a saját nyelvéhez, és sikeresebb legyen a magyar nyelv fordításában, mint egy Mountain View-i vállalat.

És még két gondolat: szerintem a gugli leggyengébb pontja az, hogy két, nem angol nyelvről történő fordítás esetén is először angolra fordít, és angolból fordít utána a célnyelvre. Ezt a weforditas hogy oldotta meg szerintetek?
Lehetne egy olyan összehasonlító teszt poszt is, ahol nem angolról fordítunk magyarra, hanem egzotice nyelvekről.
+1 ráadás tesztmondat :)

"A Google Translate hülyeségeket fordít és félrevezeti a külföldi olvasót, mert a magyar nyelv az nem angol nyelv, a magyar kultúra pedig kurvára nem azt jelenti, hogy angol kultúra!"

by Translate:

Google Translate and misleading nonsense turn to foreign readers, because the English language is not English, the English culture is not fucking mean that the English culture!

by webforditas:

Google Translate translates stupidities and misleads the foreign country reader, because it is the Hungarian language not an English language, the Hungarian culture do not mean it bloody though, that English culture!

@subVito: "és nem alkalmaz egyéb szabályokat, ez előny lehetne a webforditas.hu-nak"

Miért? Egy ragozó nyelvvel szemben szerinted miért előny, ha a hajlító nyelvtipussal szemben nem alkalmaz szabályokat? Ebből jönnek ki olyan baromságok, mint free = szabad, amikor a szókörnyezet meghatározza, hogy szabad, vagy ingyenes. Meg a "down" sem mindig egyenlő "lement". :D
Szabályokat erre nem lehet csinálni. Vagyis igen. Hivatalos irodalmi nyelv szerinti írásmódból beletáplálhatnak több milliárd szabályt a szókörnyezet szerint, de a szlenggel akkor sem fog 100%-ig boldogulni.

"de azt is tudjuk, h kurvára nem találták fel a spanyolviaszt."

Azért azt is láthatjuk, hogy csak azért mert egy cég nagy, még nem biztos, hogy bizonyos szolgáltatásaiban hasonló szinten áll (mivel pár napja/hete lett elérhető benne a magyar nyelv), mint egy évek óta fejlesztett, csak magyar piacra szánt, magyarnyelv központú fordító program.

Hasonlítsuk össze mondjuk 1-2 év múlva, akkor mindketten hasonló erővel indulnak.

"Globalizáció ide vagy oda, azért mégiscsak logikusabb, hogy egy helyi cég többet konyítson a saját nyelvéhez, és sikeresebb legyen a magyar nyelv fordításában, mint egy Mountain View-i vállalat."

Igen, éppen ezt mondtam én is, hogy szégyen. De hát ez a magyar szokás, mindent leszarnak. Ebből is látszik, hol tartunk úgy globálisan. A lényeg az volt, hogy miért szurkoljak egy olyan cégnek, ami annak ellenére, hogy erősen profitorientált még hasra sem esem a fordítási képességeitől, mert csak hajszálnyival jobb a Guglitól, ami még egy hónapja sincs, hogy elkezdte támogatni a magyar nyelvet, ami ráadásul náluk nem is központi szereplő, hanem csak egy a sok közül még a románoktól is lejjebb.

Ezzel azt akartam mondani, hogy győzzön a jobb és kit érdekel, hogy amerikai, vagy kínai vagy tökömtudjamilyen cég, ha jobb, korrektebb és/vagy több benne a potenciál, akkor annak fogok szurkolni, mert látom az esélytelenebb cég bukását és a felesleges fejlesztésekbe ölt pénzt, amikor pár év múlva úgyis megbukik.

Csinálhatnak bármit, a Google egy kereső adatbázisával gazdálkodik, amiből olyan statisztikájuk van, amivel nem lehet versenybe szállni. Ez van, ha olyan dolgot kezdesz el fejleszteni, amit később egy multi is elkezd. Kijöhetsz belőle jól, ha eladod a cuccod, mint a YouTube vagy a DoubleClick.com, vagy kijöhetsz belőle rosszul, ha széllel szemben hugyozol, mint az MS a 2%-os keresőjével, pedig ő még hasonló súlycsoportban is van.
a webforditas nehany esetben jobb eredmenyt ad, de csak angolrol fordit, es ott is neha olyan kurvalassan hogy a vegen timeoutol az egesz oldal sajna
szoveg meg 512 karakterig
LOL
fizessen erte akinek nem jo a google

nekem jo
jaja, elejen tenyleg probalt a googlenek kedvezni, ezert a sportszeruseg jegyeben eltekintett a torok-magyar, magyar-szlovak, kinai-magyar stb versenyszamoktol :) es szinten a sportszeruseg jegyeben dugjuk el a stopperorat is merthat "oregember nem gyorsvonat" mint tudjuk :)

Szerintem az volna a legjobb ha a google megvenne a webforditas.hu -t, belegyogyitana okosan a sajat algoritmusaiba, a webforditas.hu fejlesztoi meg nekialnanak egy googlemagyar-magyar forditonak :)
Én napi rendszerességgel használom a webforditas.hu-t, és minden nap meglep, hogy milyen kis ügyes.
A webforditason tenyleg eleg nagy elony latszik, de hat van is nekik 10 ev. Kerdes, hogy meddig tul feljonni a google modszere. De a webforditas jelenleg tenyleg latvanyosan ertelmesebb mondatokat szerkeszt, mint a gugli, most eleg jol latszik a mogottuk levi modszerbeli kulonbseg. Viszont a webforditas is felrelo rendesen, ami talan annal nagyobb baj, minel eszrevehetetlenebb a hiba: a negyedik mondatban idoegyeztetesi hibat vetett, ami eleg furi (mondhatjuk akar sulyosnak is), leven ez egy siman felismerheto, jol dokumentalt :) szabaly.

> "At around 5 PM EST today the site
> went down with a notice stating that
> it was undergoing an update."

> Webforditas.hu: Az USA keleti államai
> időszámítása szerint du. körülbelül 5
> órakor ma a helyszín lement egy
> értesítéssel, ami kijelenti, hogy ez
> keresztülment egy frissítésen.

Nem 'kijelenti, hogy keresztulment', hanem 'kijelentette hogy keresztul megy'. (Persze nem kijelentette, de ez tenyleg aprosag.)

@fingerbangs: nem csak angolrol. Az irjak, hogy 40 idegen nyelvet tamogatnak.
@penge™: Én nem bánom ha így maradok...
Figyeljünk azért az arányokra, hogy ki miből hozta ki azt, amit kihozott.

Ettől függetlenül jó lenne, ha itthon (pl. a webforditsnál is) tovább látnának az orruknál és el lehetne felejteni a mindenféle akadályozását a felhasználónak, amiről azt gondolják, hogy ettől lesz pénzük.
régen segítettem a morphologic webfordításban a hibák küldésével és nem kapok spameket arra a mail címemre amivel megkerestem őket. Utóbbi időben emaileket sem adok meg mivel régebben rengetegszer volt, hogy amit beküldtem válaszoltak rá egy köszönömmel, sőt, olykor részletes magyarázatot is kaptam miért értette félre a fordítómotor. Mindkét motoronak amúgy megvan a maga erőssége, de én a Morphologicnak azt javaslom, hogy építsen be egy google-hoz hasonló statisztikán alapuló rendszert amit ők külön tudnak ellenőrizni, mintsem az emberek beküldjék az észrevételt. Én mindkét rendszernek szurkolok, de a google-nak inkább azért, hogy a külföldiek is elmélyülhessenek a magyar gondolatokban a webfordításban viszont több potenciált látok. Remélem, most hogy kiéleződik a verseny a Morpho kicsit rágyúr a rendszerre. Amúgy a MobiCat programjuk több fordítási megoldást is felajánl amiben azért könnyebb mazsolázgatni.
nem az a kérdés, hogy kinek a logoja van a tetején, hanem hogy ki kapja a fizetést a melóért hátul. a McDonald's hiába amcsi,a krumplit itthon termesztik, a marhát itthon nevelik, a bolti eladók magyarok. a profit ezek után nem érdekes.

viszont ha a webforditást bedönti a Google, akkor magyar állások vesznek el, magyar emberek lesznek munkanélküliek. ezért nem mindegy, hogy a Kiat azt a szlovákoknál gyártják, vagy nálunk, pedig az autószalonban ugyanaz az autó.
A polgármester feleségénél pedig kijön az az alap probléma, hogy az angolban viszonylag kötött a szórend, a ragozást meg a Google nem látja, mert ő az elöljárószót keresi legfeljebb, az meg nincs. A szórendet ha rendbe teszed, akkor érti meg a Google, de akkor sem a ragozásból. Kb. ezt fordította:
Polgármester felesége (vajon a nem személyes birtoklást is tudja-e, mert ott fordul a szórend) vetkőzés (valamiben) film.
Szerintem meg talán arról is szó lehet, hogy nem kéne eltemetni a szabályalapú rendszerek fejlesztőit. Különösen, ha azt látjuk, hogy a lehető legnagyobb kétnyelvű korpusz feldolgozásával is csak ilyen szahara eredmények születnek, pedig a gugli mögött oldalmilliók állnak. A webford pedig egy magyar mikro/kisvállalkozás műve.

Szóval, lehet itt hasonlítgatni, de soha a büdös életbe egzakt eredményt nem kaptok, mert ha eleget költök rá, halakkal fogok fordíttatni, és azok is 4:2-re kapnak majd ki a webford ellen. Képzeljük el a verseny állását mondjuk úgy, hogy a Webfordítás fejlesztői megkapják a Gugli fordítási költségvetésének és erőforrásainak 10%-át. Vajon, mi lesz az állás?

Meg sem merem jósolni... :) de valahol ez lenne a korrekt összevetés. Ebből az látszik, hogy a statisztikai gépi fordítás sehol sincs a szabályalapúhoz képest.