Google-keresés: hogyan vegyük figyelembe a szóalakokat és szinonimákat?

Régi probléma, hogy a Google nem keres a magyar szavak esetében a különböző szóalakokra és szinonimákra. Bár a Google-nak megvan a technológiája, ezt egyelőre csak az angol, német és francia keresőjébe implementálta. Nyilván túl kicsi piac Magyarország ahhoz, hogy egyhamar fejlesszenek a keresőmotor magyar verzióját.

Az ügy nincs elvesze. Befújt a szél egy mailt a postaládánkba, mely arról tájékoztat, hogy elindult a Kutat.hu keresőoldal. A Kutat valójában egy előkereső, mely az adott keresőkifejezés szóalakjait és szinonimáit is figyelembe véve indít automatikus keresést a Google adatbázisában. Még egyszerűbben: ha rákeresünk arra, hogy fa, megtalálja nekünk a Google indexelt oldalai közt a fák, fái, fákkal, stb alakokat is.

A Google keresője tudja azt, hogy egyszerre több kifejezésre is indít keresést. Ezt használja ki a Kutat, és indít a feltételezett szóalakokra és szinonimákra összetett keresést.
Címkék: google keresők mashup
2006.11.27. 12:09. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Szeretnék én is egy komplex magyar szótár (ragozottalak/melléknéviigenév/főnéviigenévjelzős/szenvedő/birtokos...) DB-t. Eladnám a Googlénak. :)

Ha viszont a magyar állam lennék, és volna egy ilyenem, freeware-ben kiraknám a webre - 'garázsfejelsztések megtámogatása alap/közadattal'-jeligével.
Ehhez is van nyelvi elemzés (MorphoLogic):
www.polymeta.hu/
Jano,

Ez eddig nem volt meg, köszönöm.
Ezt is nézzétek meg ...

Halácsy Péter 2006.11.27. 20:32:32

Csináltam egy táblázatot, amiből 135159 különböző magyar szó gyakori (emberek által használt) toldalékolt alakjait ki lehet keresni. Most már mindenki csinálhat ilyet.

ftp.mokk.bme.hu/Language/Hungarian/Freq/Web2.2/suffixed-forms.README

ftp.mokk.bme.hu/Language/Hungarian/Freq/Web2.2/suffixed-forms.txt.gz
Nekem a polymeta nagyon zavaros, ez a kutat.hu elsőre jobbnak tűnik, de még tesztelem
Szegény sztaki kimaradt, pedig nem lehet rossz : "A közel 100,000 sor C++ kód lényegében teljesen saját fejlesztés,..."

IME: kereso.sztaki.hu/
Kedves feri,

Nagyon kiváncsi vagyok pontosan mit találtál zavarosnak a polymeta.hu-n. Segítenél ha vissazjeleznél. Az oldalunkon találsz email címet.

Endre