Hogyan működik a Google keresője?

Sok cikket, postot írtak már a Google keresőalgoritmusáról, de kevés az olyan írás, mely plasztikus példákkal, történeti kontextusba emelve mesél a Google legféltettebb kincséről.

Steven Levy, a Wired munkatársa a mostani márciusi számban egy nagyobb lélegzetvételű írásban foglalja össze a Google-misztikumot. A "How Google’s Algorithm Rules the Web" című exkluzív betekintés egyben helyszíni riport is.

Levy a kaliforniai Googleplexből tudósít: épp egy olyan meetingen ül, ahol a Google fejlesztői, termékmenedzserei, vezetői beszélik át, hogy milyen változtatások lennének szükségesek a kereső algoritmusában. Csak idén közel 500 kisebb-nagyobb változtatást terveznek, és mindegyikről ilyen meetingeken fognak dönteni.

Nem fogom végigvenni az egész cikket. Akit érdekel, úgyis elolvassa. Csupán néhány érdekesebb témára térnék ki. Az egyik mindjárt az új konkurenset, a Microsoft Bingjét illeti.

A cikk szerint a Microsoft valamit nagyon jól csinál ebben a témakörben. És ez pedig a speciális tartalmakat szállító webszájtok felvásárlása, és belegyúrása a Bing találati listáiba. Az olcsó repjegyekre és az árak trendkövetésére szakosodott Farecast felvásárlásárlásával például jobb találatokat tudnak mutatni ebben a témakörben, mint a Googe algoritmusa. Ugyanakkor a Google jobban teljesít az általános keresésekben. Na de hogy sikerült ezt elérni az elmúlt tíz évben? 

A megfejtés, hogy a Google nem csak jól keres, de jól is interpretálja a kereséseket. És a keresés értelmezése kulcsfontosságú a jó találati lista összeállításában.

A cikk ezen a ponton történeti áttekintésbe csap át, és az 1997-es PageRank nagy ötletének leírásába kezd. A nagy ötlet ugye az volt, hogy a webszájtokat a Google keresője aszerint értékelte ki, hogy mennyi és milyen minőségű a linkeltsége.

A keresőalgoritmus legértékesebb része ugyanakkor nem ez, hanem a rengeteg interpretációs szabály, amit az évek során beleépítettek a fejlesztői. Jelenleg több mint 200 tulajdonság alapján rangsorolódnak a weboldalak a Google találati listáiban.

Ugyancsak fontos felismerés volt, hogy nem csak a weboldalak linkhálói és egyéb tulajdonságai az értékesek, hanem maguk a felhasználói keresési szokások is. Vagyis egy találati lista nem csak annak alapján áll össze, hogy az algoritmus mely weboldalakat talál a legrelevánsabbnak, hanem azalapján is, hogy a netezők milyen típusú kereséseket indítanak, és azok hogyan függenek össze a találatokkal, vagyis a kiértékelt weboldalakkal.

A Google ennek a filozófiának részeként fejlesztette ki a személyre szabott keresőt, mely az adott felhasználó kereséseire historikus szempontból is tekintettel van. Ugyanakkor az algoritmus tökéletesítgetésével néhány zavaró probléma is napvilágra került.

Az egyikre példa egy egyszerű szinonima-elemzés. Ha valaki a "dog"-ra keres, akkor valószínűleg számára ugyanolyan jó találat a "puppy" is. És ha valaki a "boiling water"-re keres, valószínűleg számára a "hot water" is releváns lesz. Ugyanakkor a "hot dog" nem szinonimája a "boiling puppynak". Ezt a problémát még 2002-ben oldották meg a Google fejlesztői Wittgenstein nyelvelméleti teóriája alapján, mely arról szól, hogy hogyan definiálhatók szavak azok kontextusa révén.

(Ha jól gondolom, a Wittgenstein Tractatus című főművében szereplő kontextus-elvről van szó, mely valami olyasmit mond ki, hogy csak az adott kifejezésről szóló leíró kijelentésnek van értelme, és csupán ebből leíró kijelentésből, vagyis a kontextusból származik az adott szó jelentése.)

A kontextualitás-vizsgálatból aztán már világossá vált, hogy a "hot dog" kifejezés körül rendszeresen jelennek meg olyan kifejezések, melyek a "boiling puppy" esetében nem. Ergo, a két kifejezés nem feleltethető meg egymásnak. Jelentésük nem azonos. Legalábbis az esetek döntő többségében.

A cikk részletesen taglal olyan problémákat, mint például, hogy az algoritmus miként oldja meg, hogy a "new york", "new york times" és "new york times square" keresésekre mást és mást kell dobnia találatként. Akit érdekelnek ezek a példák, és summázot megfejtéseik, fussák át a cikket.

Ami a lényeg, és amire az írás jól rávilágít az az a tény, hogy a Google algoritmusa egy folyamtosan változó, folyamatosan alakuló és egyre bonyolultabb összefüggésket feltáró gépezet. És hogy a Google igazi knowhow-ja nem is feltétlenül abban áll, hogy mindig jobb ötletekkel tudják kiegészíteni saját kerresőalgoritmusukat, mint a konkurensek, hanem abban, hogy ezeket a módosításokat, fejlesztéseket rendszeresen és szisztematikusan végzik.

És ebben nem ismernek lehetetlent. Ahogy a cikkben megszólaló egyik vezető mérnök mondja: olyan a munkájuk, mintha 10 ezer méter magasan egy 1000 km/órával száguldó utasszállítón kellene rendszeresen motort cserélniük.

(Ja, és brilliáns az illusztrációja az írásnak.)

Címkék: google keresők
2010.02.23. 23:13. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

nem rossz google villantás, de nekem ez a verzió sokkal jobban tetszett:)

www.insideyoursearch.com/
Összehasonlításként jöhetne mondjuk a Szörcs is. Azaz hogyan gondolkoznak ők a google-al ellentétben.
Érdekes, szerintem a felvásárlás pont arra utal, hogy valamit reménytelenül képtelenek megoldani a Bingnél.
"És ebben nem ismernek lehetetlent. Ahogy a cikkben megszólaló egyik vezető mérnök mondja: olyan a munkájuk, mintha 10 ezer méter magasan egy 1000 km/órával száguldó utasszállítón kellene rendszeresen motort cserélniük."

Ez annyira jellemző náluk. Mintha kötelező érvényű lenne. És rohadt lojálisak is. Ezért tartanak ott ahol. De persze a Bing még tartogat meglepetéseket. Hihetetlen erőforrásokat és szakmai zsenialitásokat pumpálnak a Bingbe. Mióta Bill barátunk "kivonúlt" felpezsdült a Microsoft onlájn játszótere.
Jah apropó ha már szóba került a szörcs. Próbáltam ezelőtt 2-3 hónappal, és próbáltam a minap. Észrevehető a fejlődés. Én drukkolok nekik, azért is mert a keresők mindig közel álltak hozzám. Kettőben részem is volt, tehát hajrá szörcs. Ha eltünnek a rikító színek még szeretni is fogom. A kutyás forma aranyos. :)
Nyilván nagyon-nagyon bonyolult a keresőalgoritmusuk, aminek a paramétereit folyamatosan hangolni kell, de én ezzel együtt a találatokon nem érzem a tíz éves fejlesztőmunkát...
(És hajrá szörcs, bár a neten való keresés egyet jelent a google-val.)
Meggúgliztam, hogy mi az a szörcs, első hely. Megszörcsöltem, hogy mi az a gúgli: Ajjaj, nincs találat. Akkor ezt így hogy? A Binget persze ismeri.
Az én magánvéleményem az, hogy bárki próbál mostmár a google ellen konkurálni a netres keresésben, az alulmarad. Még a dizájnját is lopják (ahogy az Indexnek a többi újság????), továbbá az emberek annyira hozzászoktak a google-hoz, hopghya ki is próbálnak egy másikat, nem vonzza őket annyira, hogy kilépjenek a mindennapi rutinból.

Persze a Bing 1-2 dologban felülemelkedett, de összesítettben képtelenség legyőzni a guglit...
Nekem az a durva, hogy a SEO (ami az esetek jelentős részében "GO"-t jelent) mennyire megváltoztatta az utóbbi években a webfejlesztést.
Ha nem vagy az első oldalon a Google találati listájában, nem is létezel - és ezzel a Google számára könnyen fogyasztható website-kialakítás alapkövetelmény lett. Szerencsére az alapkövetelmények nagy része (emészthető URL-ek, duplikált domain-ek hanyagolása, megfelelően kitöltött metaadatok, a megjelenés és a tartalom szétválasztása, stb.) mind fejlesztői, mind végfelhasználói oldalról pozitív hozadékkal járnak. Úgy is mondhatnánk, a Google kicsit megnevelte a nagyon elkanászodni kezdő webfejlesztői szakmát. :)
Ez a levegőben történő repülőgép-szerelés már más cégnek is eszébe jutott :
www.youtube.com/watch?v=L2zqTYgcpfg

(egész véletlenül ennél a cégnél dolgozom :), pontosabban a HP-nál ami megvette nemrég)
HETI OFF: Ha valakinek új lenne. A Google beolvashatja a Facebook status üzeneteit. surl.hu/F5D8Bl
A "Wittgenstein Tractatus című főműve" kcsit olyan, mint "Mozart szimfónia c. műve". Amire te gondolsz, az valószínűleg a Logikai-filozófiai értekezés.
@Ver Sacrum: igen, a Logikai-filozófiai értekezés című műről van szó, amit röviden Tractatusnak szokás nevezni.
@Emmet Ray: a webisztán keresőjét használtad mi, ami alapból csak a webisztánon keres?
Annyit tudok mondani az egészhez, hogy nekem teljesen megfelel, amit a Google tesz. Az én igényeimnek tökéletes! Nem vagyok számítógép zseni, de nem is akarok az lenni...eddig sokat segített, én elégedett vagyok a munkájukkal.