A címkefelhő jövője

Mire jó egy multilevel (többszintű) címkefelhő, amiben a címkék nagysága előfordulásuk gyakoriságát, színárnyalatuk pedig frisseségüket mutatja? Vegyünk egy példát.

Ha például rendelkezésünkre állna az összes amerikai elnöki beszéd, és valami okos szoftverrel a beszéd szövegéből címkéket gyárthatnánk (kiválogathatná a szövegekből az értékes kifejezéseket, megfeleltethetnénk egymásnak a különböző ragozott alakokat). Majd a kinyert értékes fogalmakat (címkéket) felvinnénk frisseség és előfordulásuk gyakorisága szerint egy ilyen multilevel címkefelhőbe. Na az klassz lenne.

Valahogy úgy nézne ki, hogy minden elnök minden beszéde egy-egy címkefelhőt adna ki, a címkék a beszéd főbb fogalmai lennének. A gyakran előfordult fogalmak nagyobb betűvel, és a frissebb fogalmak világosabb betűkkel jelennéne kmeg. Ugyan, ki csinálna ilyet?

Hát Chirag Mehta csinált. Annyival még megbolondította az egészet, hogy egy csúszkán nézhetjük végig, hogy az amerikai elnökök évenként tartott beszédeikben mit tartottak fontosnak, s mit kevésbé. Érdemes elidőzni az oldalon.



S világos lesz számunkra, hogy nem csak kiváló oktatóanyagokat lehetne készíteni ezzel a módszerrel, de egyben nagyon gyorsan, nagyon látványosan közölhetünk összetett információkat. Nem túlozzuk el, ha azt mondjuk, a címkefelhő újjászületését láthatjuk...
Címkék: címke
2006.11.04. 19:40. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

ügyes.

Már csak egy olyan szover kellene, ami egyszerűen legyártja nekünk ezeket az infókat (akár offline szövegeinkből is)
úgy tűnik, neki van. de egyébként ilyen mennyiségű szövegnél még az elolvasás során egyenként is ki lehet gyűjteni az értékes fogalmakat. én szívesen látnék egy ilyen magyar verzióban is. mondjuk ehhez első lépésként be kellene szerezni az összes magyar miniszterelnök éves beszédét. az amerikai elnököké megvan online. tartok tőle, hogy a magyarokat nehezebb lenne összeszedni. de ez a kisebbik baj...
csak írni kell egy scriptet, ami kigyűjti a szövegből a szavakat gyakoriság szerint, pl az 50 leggyakoribbat, kiszűrni olyanokat, mint "a", "az", "egy", aztán megjeleníteni a maradék szóhalmazt.

Lehet,h megvalósítás közben további problémákba ütköznénk, de alapelméletnek megteszi.
miért, alapvetően nem így csoportosítunk címkéket egyébként is?
Egyebkent ezt "hirszures"-re is lehetne hasznalni, mondjuk van valakinek 500 RSS feedje, es megadja az ot erdeklo kulcsszavakat (amit hasonlo modszerrel banyaszna ki az olvaso a szovegbol) es attol fuggoen h. menyyi megfeleles volt, lenne ertekesebb az olvasnivalo.
kell egy olyan szoftver, ami viszonylag nagy hatékonysággal kiválasztja az értékelhető kifejezéseket. pl. kiszűri a névelőket, ragokat, stb.. és ha ez megvan, már lehetne ezt tesztelni egy ilyen többszintű dinamikus címkefelhővel.
még egy ötlet: ajaxszal valós idejűvé tenni a kiértékelést.
mondjuk a nagy politikai hírszájtokra vetítve milyen szépen lehetne látni, ahogy a média rákap egy-egy politikus által kimondott szóra, meg úgy általában is: hogy mi a közbeszéd tárgya. érdekes lenne.
tessék, az alapváltozat röpke 40 perc alatt megvolt és még zenét is kerestem közben:

blogter.hu/user_files/2296/hhtags.gif

tehát bekopizol egy szövget, megadod,h miylen írásjeleket és szavakat ne vegyen figyelembe, a maradékot pedig kitolja.
ja, szuper, de automatizálni kéne. merhogy egy nagyobb mennyiségű, ráadásul változó szövegnél nem csinálnád meg ezt a kigyűjtést percenként.
a frisseség mutatását hiányolom ebből a felhőből... attól lenne többszintű...
ha rárakjuk egy cronjob-ra, hogy percenként olvasson be egy szöveget, pl az index címlapját, akkor percenként frissülne, akár ajaxosan.

Amit most mutattam, az csak egy alap. Pl egy téged érdeklő szöveget bemásolsz és látod a tageket, mint érdekesség. Tovább isfejleszthető akár:)
No igen, az automatizálással csak az a baj, hogy nem feltétlenül arról szól egy szöveg, ami szavanként gyakran megjelenik benne.
Pl. szólhat egy teljes beszéd a fegyverkezésről úgy, hogy a "fegyverkezés" kétszer, a "nemzetközi helyzet", "fenyegetés" meg mondjuk ötvenszer fordul elő benne.
HH: ilyesmire gondoltal: benjamin.hu/tagcloud.php ?

ha get-el meghivod vagy mas domainen levo url-t adsz meg akkor nullazza az adatokat, ha folyamatosan masolsz be egy oldalrol linkeket akkor dolgozza fel oket (idored + gyakorisag)
Benjamin: hat ez eleg fasza, most csinaltad, vagy mar egy ideje butykolod?
Hát ha valaki megcsinálni rendesen ezt a dolgot, akkor az (pl.: nekem) nagyon jó lenne...

(Muszáj "élősködnöm, mert nem tudok programozni...)

Benjamin kezdő lépései nekem tetsznek. (a benjamin.hu-n nem tudtam kommentelni)
Szindbad: most :) most hallottam eloszor errol a "multilevel cimkefelhorol" es kivancsi tipus vagyok :)

gbrk: mar lehet "kommentelni", a kapcsolat alatt megtalalod az elerhetosegem, keress meg, ird meg h. mire lennejo neked!
Egy picit hosszúra sikerült a kommentem, ezért bejegyzéssé nyílvánítottam: :-)
users.atw.hu/pairg/?p=181
Nem csak a technológián, de a lehetséges alkalmazási területeken is el lehetne gondokodni. Az oktatás és a hírmédia mellett milyen területeken lenne még értelme használni egy ilyen többszintű, dinamikus címkefelhőt?
Beirtam az index.hu oldalt benjamin az oldalra es eleg erdekes lett a cimkefelho :) Lehet ekezet problemai vannak.
Sajnos azt kell mondjam annyira nem egyszeru megoldani. A magyar nyelv nehezsegei igen sok fennakadast okoznanak a kivitelezes soran. A ragok, kepzok, stb eltavolitasa nem egyszeru feladat.
Amennyiben valaki komolyan neki akar allni mindenfelekepp vegye fel a kapcsolatot a magyar helyesiras ellenorzo fejlesztoivel. (ispell) emlekim szeirnt.
Szótövezés témában elég jó megoldások vannak már a magyar nyelvre, köztük ingyenesek is, pl. a szószablya mokk.bme.hu/projektek/szoszablya

Nem itt van szerintem a kutya elásva. Automatikus tageléshez a relevancia becslését komolyabb statisztikai módszerekkel végzik, ami nem csak szavakat, hanem szókapcsolatokat is elemez. Jó tagekhez ismerni kell a forrás műfaját, jellemző szókészletét. A hierarchizálás sem jut túl messzire humán nélkül. Végül a tagelés ereje abban van, hogy a felhasználó szabadsága, a saját relevancia-struktúráit alkalmazza. Van akinek a hírolvasó szeme színe a fontos, és van akinek az amit mond. Nincs egyszerű recept, minden feladatra más hibrid kombót kell alkalmazni a tag és névtér logika keverésével.
még egy javaslat: a címkefelhőben található címkék nagysága mutatja az előfordulás csakoriságát. a szín sötétsége jelzi, hogy mennyire releváns az adott címke, és a halványsága pedig a korát, vagyis hogy mikor keletkezett az adott címke alatti utolsó tartalom.
ebben a felfogásban világosan látható lenne: a nagy, sötét és élénk címkék sokat hivatkozott, friss és releváns címkék.

meg akarom tudni, hogy mik a friss, egyelőre nem annyira felkapott, de releváns tartalmak?
nincs más dolgom, mint a pici, minél sötétebb és élénkebb címkéket szemügyre venni...
Magyarul azért nem lenne ennyire egyszerű a dolog, mint angolban, a ragozás miatt...
Nekem ez jutott eszembe a témáról:

kritikustomeg.org/szines_szagos_kulcsszavak.html

A cimkék nagyság mutatja, hogy hány ilyen film van (minél nagyobb, annál több), a színárnyalat pedig, hogy átlagosan milyen régiek a filmek (minél sötétebb, annál régebbiek).

Az például szépen látszódik, hogy a WTC mennyivel frissebb valami, mint a western. :-)

Sebesség okokból ez a multilevel cimkefelhő csak le lett generálva egyszer, a linkek pedig sima unilevel (rész)cimkefelhőkre mutatnak.
#2: zseniális ötlet volt ez tőlem, most jöttem rá, hogy teljesen ugyanazt vázoltam fel, mint ami az eredeti postban volt...megyek kávézni.
tagcloud mar nem csak utf-8-at eszik meg.
Ez nekem az ékezetek helyén hülyeséget ír. A linkfelho.amon.hu -n próbáltam.