reCAPTCHA - Leletmentéssel a spammerek ellen

Osztály vigyázz. Szakszerűtlen helyettesítés van.

Aki már korrektúrázott szkennelt, OCR-ezett szöveget, az tudja, hogy kevés lélekölőbb munka van ennél, és mindet szállítószalag mellett kell végezni. Az amerikai Carnegie Mellon egyetemen rájöttek, hogy ezt a feladatot nagyszerűen lehet elosztottan végezni. Nem teljesen automatizálva, ahogy ufókat és rákgyógyszer keresnek a hivatali gépek üres perceikben, hanem egy-egy felismeretlen szót captchaként felhasználva.

Az ötlet köré épülő szolgáltatás a reCAPTCHA nevet viseli, és az Internet Archive-on fellelhető könyveket segít digitalizálni. Regisztráció után jár hozzáférés az API-hoz, publikus és privát kulcs, pluginek az elterjedtebb CMS-ekhez, programrészletek, pénz, paripa, fegyver.

Azonosításhoz a reCAPTCHA két begépelendő szót ad. Az egyik megfejtése ismert, ezzel igazoljuk ember (vagy nagyon okos spambot) voltunkat, a másik pedig a világ haszna, egy morzsa egy nélkülünk eltűnő irodalmi műből.

Mondanom sem kell, hogy a bennem lakó infóhippi határtalanul boldog. Még akkor is, ha a lassú külső szerverről töltődő captcha rendszert ebben a formában nem valószínű, hogy sokan fogják használni. Várjuk a v2.0-t.

(via TechCrunch)

Címkék: spam kommuniti elosztott rendszer
2007.09.17. 20:55. írta: Szedlák Ádám

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Na és honnan tudják, hogy mi van a képen, ha ők se tudják? :)
hupsz, most látom, hogy 2 szót ad .. eheh, sry :)

Viszont akkor is, néha tényleg nagyon gány a szkennelt dolog :/
szerintem egy nagyon okos spambot sem tud ajax hívást csinálni(ezt 99%-ra állítom, lehet lehet..), tehát ha ajaxos a reg, akkor szvsz kép sem kell. ha viszon esetleg valami betanított emberke regel, de akkor a CAPTCHA is felesleges....
Oh, neaggodj... megy az neki, hidd el.. Amiota a spidermonkey (pl. Snapz vagy mifene) elterjedt lett, a spambotok olyan lazan futtatnak ajaxot hogy orom nezni. Meg talan a szukseges mezoket is felismerik.

(Segitseg: spidermonkey: firefox grafikus kepernyo nelkuli, makrozhato valtozata gyakorlatilag)

A recaptcha egyebkent nem uj otlet, es foleg a konyvek hajtasainal levo szovegek feldolgozasarol szol (probaltal mar jo szorosan bekotott konyvet fenymasolni?). Nem hulyebiztos egyebkent, mert egyreszt feltetelezi, hogy az OCR program, ami az "ismert szot" scannelte, nem tevedett, masreszt hogy nem eresztenek ra egy masik OCR-t, ami az egyik szot felismeri (hiszen azt az eredeti is felismerte), a masikra meg ad egy random valaszt, elvegre ugyis csak az az ellenorzes targya, ami felismerheto.

Sz'al az otlet jo, csak gyakorlatban megvalosithatatlan: ha egy robot fel tud ismerni egy szot, egy masik robot is kepes lesz ra, authoritas meg nuku... :(
még valami:

"egy-egy felismeretlen szót captchaként felhasználva."

ha jól értem, akkor velünk "javítanának". ha igen, akkor azt jelenti, hogy nem ismerik a szót, ezért íratják ki nekünk. ha nem ismerik, akkor honnan tudja, hogy jót írok be? vagy félreértek valamit?
ja, most olvasom, amit írtál, már értem hogy műxik. :D
de ha a robot fel tudja ismerni az "ismert szót" és utána estleg a másikat javítja ugye, mert felismeri azt is, akkor miért nem olyan robottal javítják a könyveket ami ennyire tud?

két szót kibogarászni meg sokkal jobb mint egyet, amikor így is alig lehet már elolvasni néha a captcha-kat
off: meglepő, hogy Techcrunchon/Webisztánon ez most jelent csak meg. Legalább 3 hónapja már láttam. Sőt, rákeresve még sg.hu is lehozta május végén.
Vagyis: máskor el vagyunk kényeztetve újdonságokkal :)
Szerintem kiraly otlet. Azt, hogy jo-e a javitas pedig onnan lehet tudni, hogy ugyanazt a szot tobbszor is ki kell osztani (termeszetesen). A botokon meg (meglepo modon) ugy lehet kifogni, hogy eltorzitod mindket szot (ahogy egyebkent a kepen is latszik)...
Kedves human_insect (lehet, hogy ismerjük egymást?)! Nekem k.va nagy átverés-szaga van a dolognak. Eléd tol két CAPTCHA-t. Te beírsz valamit, majd megköszöni. Tippem: keresek egy CAPTCHA-s oldalt, és ha valaki odatéved erre a "jótékonysági" oldalra, akkor a megcélzott CAPTCHA-s oldalon megjelenő ábrát odatolja elé a robot, a válaszodat meg betolja a megtámadott oldalra. A robot nem ismer fel a CAPTCA-n levő szöveget, viszont te igen, és ha sikerül a robotnak bemenni az általad beírt szöveggel, akkor megköszöni, hogy ügyes vagy...

Nem tűnik fel, hogy a linkelt oldalon a felismerendő szövegek egyike sem néz ki scannelt szövegnek!?
A külső szerver miatt én sem használom. Viszont ha valami ötletes mashup épülne a dologból, a reggeli kávé közben szívesen kitalálgatnék szavakat. Vmi addikt játék, vagy közösségis izé.
atleta.hu megmondta: a szkennelt szót mindkét képen eltorzítják, így a bot egyiket se találja ki.

Amúgy a dolog az eddigi captcha-k helyett működne és ebben ki is merülne a funkciója. Tehát nem öncélúan használnák az önkéntesek, mint pl. a Google Image Labelert.
Még egy: a cikk első mondata kifejezetten tetszik, váratlan a fordulata.
softcore: ugyanarra gondolunk (2 typo is van benne)?

a kihasználás (beírt CAPTHCA megy a másik oldalra) lehetséges, de ezen túl javítok: az ismert szót NEM a scannelt szövegből adják, hanem a saját szótárukból (vlsz. az a szám, amit on-the-fly is lehet generálni).

érdekes, nekem a poszt képén a reprisals bizony scanneltnek tűnik (r-ben festékkarika, a jobb szára homályos, p talpa festékhiányos stb.)
Technikai kérdés: amikor a spambot rátalál az oldalamra és monnyuk regelni akar, akkor neki is generálódik session id? Az is 1 konkrét látogatásnak számít a szerver szemszögéből?
meroving: persze. A szerverrel a kommunikáció nyílt szabványok alapján történik, ha valaki betartja a protokoll szabályait akkor a szerver "nem foghat gyanut".
@horvath_jano

My bad, nem rémlett, hogy ezt már egyszer körbejárta a sajtót.

@zsolti

Szótalálgatós mashup még nincs, van viszont - igaz, csak IE alatt működő - digitalizált Váradi Regestrum borzalmas minőségben:
www.rfmlib.hu/digitkonyvtar/dok/vr/index.html

Pedig intellektuális kalandnak megtenné.
egyszerűen csak emberi módon kellene regisztrálni, a meghívózni, jelöld meg ismerősnek, mondd el mit gondolsz, dobj egy e-mail-t, szólj ha valami furcsát látsz, stb.

emberibbé kell tenni a kommunikációt a közösségi szolgáltatások építésekor. és akkor nem kell captcha. a fizetős szolgáltatásokra meg nem buknak a botok.

a könyvekben a javítgatást sem kell túlbonyolítani. oda kell adni a népeknek, akár a spambotnak, h nesze olvasd, itt az eredeti, itt az ocr változat, aztán ha gondolod javítsd ki. ha sokat javítottál kapsz egy pólót, meg még a csajodnak is adunk egyet, ezt a hirdetések árából fedezzük aztán szevasz. vagy össze kell kapcsolni olvasói klubbal, stb, stb.
ugyan nem lehet garantálni de mindenképpen érdemes lenne kipróbálni, hogy a szpemmereket nyilvánosan szépen lassan felszeletelik ÉS a soronkövetkezővel megetetik... persze ezt is lehetne automatizálni, mint a szpemmelést magát :|

valószínűleg a szpemmerek is emberek, csak szeretnénk azt hinni, hogy kicsit mégse :C
kutacs_: igazad van, nyilvan lelkesedesbol is sokan javitanak. Foleg, nagyon sokan olvasnanak el egy-ket szot, ha tudjak, hogy ezzel hasznalnak. De a nagy otlet itt ebben az, hogy szinte nem is vegzel plusz munkat (persze de, mert 2 captcha-t fejtesz egy helyett, de az nem lenyegesen tobb ido). Ugyis meg kene fejtened. Es azt se feljetsuk el, hogy sokan gondolkozunk kozossegben, javitgatjuk az elirasokat a wiki oldalakon, de messze nem mindenki. Szerintem ez csak nehany - max 10 - szazalek. Ezzel be lehet vonni a tobbieket is.
atleta,
tök jó dolog ez a recaptha. a carnegie mellon egyetemen ültek a srácok és a lányok aztán és ez jutott eszükbe. csináltak egy weboldalt, szóltak, h írja már meg valaki a techcrunchba, és akkor ez hh által eljut ide. ez teljesen rendben van.

csak nézzük már meg, h mi a probléma. vannak olyan könyveink, folyóirataink, amelyek nincsenek meg elektronikus változatban, és jó volna ezeket digitalizálni. a könyvek többsége ugye ma már nincs kereskedelmi forgalomban, nem a harry potterről van szó, tehát senkinek az érdekeit nem sérti, ha ezeket a könyvtárak digitalizálják. a könyvekhez venni kell egy rakás v alakú scannert, a folyóiratokhoz jó a lapos. majd rá kell ereszteni egy ocr olvasót, majd a az olvasót. akik majd a meglévő szöveget kijavítják. nyilván az összes verziót meg kell őrizni, ha valaki véletlenül vagy szándékosan rongál, akkor visszaállítható legyen egy korábbi verzió. nem hiszem, h eddig bármi újat mondtam volna a blog olvasói 100%-ának. tehát nem kell hülyének lenni, ehhez nem kell recaptha. lehet az is, de ettől várni idehaza a nagy eredményt hülyeség. először is hány captcha szerverünk van.

másrészt errefelé a népek nem nagyon lelkesek, illetve akik lelkesek, azokat régebben üldözte a rendőrség, ezért valami egyszerű hirdetési felületet is kell csinálni, h az olvasók érdekeltek legyenen a javítgatásban. itt már csak 10%-os egyetértés van. mert ilyenkor a többség azt mondja, h nehogy már a közkönyvtárak oldalain célzottan hirdessenek, jaj, jaj, mi lesz. nem lesz semmi, meg lehet fizetni a könyvtárost, és az olvasót. meg kell egy főszponzor, h legyen egy induló alap. nyilván azonnal szponzorálna egy ilyen projektet az adobe, h mondjuk pdf-be menjen már minden.

és egy harmadik gondolat. mivel errefelé most liberális demokrácia van, ami szintén tök jó dolog. és innentől kezdve már csak 1%-os egyetértés szokott lenni. ezek a dolgok akkor fognak megvalósulni, amikor az irodalmi és a techno közösség bemondja, és minden fórumon megírja a megoldást, az és-ben, az index-en, az origo-n, a kultúrházban, tudom is még hol. h ezt a problémát így és így kell megoldani.

amíg csak csapkodjuk a térdünket, ha valamit látunk a techcrunchban, vagy bárhol, addig történik semmi. nem lesz párthatározat. gyurcsány és orbán nem kádár, hiller és magyar bálint nem aczél györgy. szerencsére. vagy a fene se tudja.
kutacs: megint elkapott a gepszij :). Igazad van, latszik, hogy egyetemi projekt, de oket azert tartjuk, higy egy csomo 'hulyeseget' meg 'haszontalan' dolgot is kitalaljanak. Nincs azzal semmi baj. Az is lehet, hogy haszontalan, nekem tetszik az otlet, es a hatasfokat lehet ugyan becsulgetni papiron (szerintem te sem tetted meg ;) ), de az ilyen dolgokat ki kell probalni. Pont.

Abban is igazad lehet, hogy ha sok konyvet scannelsz, akkor erdemes specko scannert hasznalni, ami sokkal kevesebb hibat fog eredmenyezni (bar megint kerdes, hogy az mekkora befektetes - en nem tudom).

Abban mar nem ertunk egyet, hogy bescanneljuk, aztan majd az olvaso javitja. Ahogy mondtam, az kevesebb emberre terhelne tobb munkat, lassabb lenne a haladas. Es az OCR lenyege nem csak az, hogy kevesebb helyet foglaljon az a konyv, hanem az is, hogy _keresni_ lehessen. Minel elobb, annal tobben fogjak latni. (Jo reszben igy is lehet, mert nyilvan csak nehany szo hianyzik oldalankent.)

Azt viszont vegleg nem ertem, hogy attol miert szar az otlet, mert szerinted nalunk nem mukodne jol (sztem sem tul valoszinu). Ott mukodhet jol, ettol meg tetszhet, kesz ennyi. A vilagon tobben beszelik az angolt, ebbol kovetkezoen sokkal tobb embert lehet ebbe felig onkentesen bevonni. Magyarul is meg lehetne porbalni egyebkent. Meg kell becsulni, hogy hany captcha-t oldanak meg magyar oldalakon, es abbol kiderulne, hogy van-e ertelme (hogy van-e ra szukseg, az mas kerdes). Ha nincs capctha szerver hat majd csinal(nanak) egyet a cel erdekeben. De tenyleg nem letom be, hogy egy kulfoldon kiprobalt jopofa otletet miert kell leszarozni azert, mert talan itthon nem mukodne.
atleta,
még 1x. nem azzal van a bajom ami van, hanem azzal ami nincs.

nem szar az ötlet, csak azt gondolom, h itt a megoldás középszinten van. ebben a témában arról kellene írni, h a könyvtárasok a kereslet függvényében scanneljenek, az olvasók meg a kínálat függvényében javítsanak az eredményen.

ehhez semmiféle különösebb ötletelés nem kell, hanem némi pénz, pénz ami ösztönzi a könyvtárost és az olvasót. és ennek a pénznek a piacról kell jönnie, részben a helyi hirdetési piacról, részben a globális szoftverpiacról. itt az adobe lehet az elsőszámú partner, mert akkor mehet minden pdf-be. vagy a google, a gbooks projektbe bekapcsolódni. vagy a ms aki állítólag tudástársadalmat akar, ezt reklámozzák, vagy az oracle aki a könyvekre, folyóiratokra vonatkozó metaadatokat tárolja. erről kellene beszélni, azt mondani, h itt egy probléma, és akkor ez a megoldás. aztán még kellenek eszközök, mert azokat a szkennereket, meg a terrabájtokat meg kell vásárolni, erre van kitalálva a nemzetközösség, az unió, és akkor ők megvennék az eszközöket szívesen, ha mondjuk a magyar kulturális és techno szakma csinálna valamit. csak ugye ez a szakma itt nagyjából úgy működik, mint a többi, várja, h történjen valami.

szerintem ez a dolog sokkal egyszerűbben is működik, vagy működne, minden tiszteletem a carnegie melloné. nyilván a két felfogás nem zárja ki egymást.

amúgy ha itt tartunk, a captcha-t lehetne módosítani úgy, h kitesz egy szót valamelyik könyvből, aztán olvasd el, és ha nem sikerül eltalálni, akkor kapsz egy újabb másik lehetőséget. feljegyzi a választ, aztán ha külön ip-kről egybehangzóan állítják, h oda mégsem az van írva, hogy "bokréta", hanem h "atleta", akkor elfogadja, h oké, legyen "atleta".

de lehet ilyen repatcha is, amelyik így kipárosítja a biztost és a bizonytalant, és mindkét szót jól behullásmosítja, teleszemeteli, és áthúzza, nehogy felismerje a gép. szerintem ez a megoldástól való eltávolodás, és egyszerűbb megoldások léteznek. persze mennél bővebb az eszköztár, annál jobb.
> ebben a témában arról kellene írni, h a könyvtárasok a kereslet függvényében

De hat az tok masoknak a feladata! Meg infrastrukturalisan macerasabb is, lassuk be. ettol fuggetlenul igen, az tok jo lenne. De ahogy te is irod lentebb, ezek nem zarjak ki egymast. Nyilvan ha az altalad javasolt megoldas mar mukodne, akkor nem talaljak ezt ki a CMU-n. Talan oket is zavarta, hogy nem igy van, es ez adta az osztonzest :)

> de lehet ilyen repatcha is, amelyik így kipárosítja a biztost
> és a bizonytalant, és mindkét szót jól behullásmosítja,

Kenytelen, hogy kiszurje a tippelo botokat. Ha csak emberek fejtenek, akkor nem kene ketto, eleg lenne egy. De ha nem lennenek botok, nem kene CAPTCHA sem :)

> teleszemeteli, és áthúzza, nehogy felismerje a gép. szerintem
> ez a megoldástól való eltávolodás, és egyszerűbb megoldások
> léteznek. persze mennél bővebb az eszköztár, annál jobb.

Ez eleg egyszeru. Nem kell hozza unios penz, meg uj szkennert venni, meg konyvtarosokat pluszban tornaztatni. Par egyetemista osszedobja nagyhaziban a mukodo megoldast. Nekem pont a partizan jellege tetszik az otletnek. Meg persze a pigybacking, hogy alig ad plusz munkat a tarsadalomnak, szinte ingyen van. Ez egyszeru. Az, hogy egy szamitogep hullamosit meg athuzogat nehanymillio kepet, az nem tema, nem komplikacio.

Ha meg kel gyozni nehany illetekest, hogy nem ugy kene, hanem igy, na _az_ a macera :). Es ahogy irtad, ettol meg ugyanugy lehet lobbizni erte, mint eddig. A ket dolog fuggetlen egymastol. Ha nem lesz erre szukseg, az csak jo lesz. Amig meg van, addig ez egy olcso megoldas.