210 ezer új blogbejegyzés született a magyar weben januárban

A Szörcs.hu ma publikálta első statisztikáit. Az adatok a magyar web januári állapotát tükrözik. Eszerint 720 ezer új hír és 210 ezer új blogbejegyzés publikálódott a hazai weben egy hónap leforgása alatt. Szóval körülbelül egymillió szöveges tartalom jön össze 30 nap alatt. Ami azért nem rossz teljesítmény. Ha a fórumokat, egyéb szájtok frissülő tartalmait is idevesszük, akkor kb. 2 millió új szöveges tartalom jöhet létre havonta a magyar weben.

Az online hírek nagyobb része ugyanakkor hírügynökségi jelentések és egyéb anyagok újraközlései. A Szörcs.hu statisztkái szerint egy átlagos hírügynökségi anyagot 31 alkalommal publikálnak újra a különböző hírszájtok.

Ha ezeket az újrapublikált tartalmakat nem számítjuk, akkor a hírportálokon összesen kb. 280 ezer cikk születik egy hónap alatt. Vagyis mindössze 70 ezerrel több eredeti cikk jelenik meg a magyar weben egy hónap alatt, mint blogbejegyzés.

Legnépszerűbb témák az új tartalmakban (a keletkezett tartalmak száma szerint):

  1. Haiti (411 ezer)
  2. Bkv (405 ezer)
  3. Avatar (280 ezer)
  4. Vagyonadó (165 ezer)
  5. iPad, Apple Tablet (105 ezer)
  6. Sherlock (88 ezer)
  7. Kiss koncert (81 ezer)
  8. PPO (60 ezer)
  9. Vidám park (45 ezer)
  10. Szmog (19 ezer)
Címkék: stat magyar szörcs
2010.02.09. 16:14. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Mennyiségileg igen és minőségileg ebből mennyi olyan, hogy egy év múlva is érdemes legyen olvasni?
a statisztika nem pontos, nem egyértelmű, hogy a "Kiss koncert" mekkora része szól a népszerű Makkai-Kiss Band (vagymi) koncertjéről.
"egy átlagos hírügynökségi anyagot 31 alkalommal publikálnak újra a különböző hírszájtok"

Engem leginkább az érdekelne, hogy mi alapján azonosították az újraközléseket:
szó szerinti egyezés alapján?
forrás jelzése alapján?
a némileg átírt, rövidített anyag ugyanannak számít-e?
mi van a külföldi anyagok fordításaival? azok is újrapublikálásnak számítanak? Ott miként állapítható meg az azonosság?
@Asszem: ezek kiszűrésére sajnos még nincs algoritmus, pedig jó lenne :P
@agyvihar: csodálkozom is, miért nem ruházták még fel az ORTT-t a blogok erkölcsi-tartalmi nívójának ellenőrzésére szolgáló jogkörrel...
"Az adatok a magyar web januári állapotát tükrözik. "

Mármint annak a részének amit a szörcs.hu lát belőle.
ez a szörcs.hu ez ilyen új dolog? vagy én vagyok ennyire lemaradva?
@Pivoblog:
azoknak találták ki, akik nem tudják kimondani a guglit :)
@agyvihar: Van. Nemcsak algoritmus, kész termék is, csak utána kellene nézni.
vang_so: az ujra publikalt anyagokat egyszeru felismerni es osszecsoportositani az un. Jaccard-egyutthato segitsegevel.

en.wikipedia.org/wiki/Jaccard_index

Egy par honapja egy magyar Google srac errol tartott eloadast a BME-n.

Ha mar mediafigyeles, ld. mediafilter.hu

Legjobbakat. =)
Hol kezdődik és hol végződik a "magyar web"?
szalaiferi, igen, pont emiatt érdekel, kiváncsi lennék, éles alkalmazási környezetben ki milyen módszerekkel milyen eredményeket ért el.
Maro, igen, a mediafilter be van tárazva, sőt, gondoltunk is már rá, hogy megkeresünk titeket néhány észrevétellel :)
Nem tudod véletlenül, hogy hívták az előadást tartó srácot?
a 210 ezer bejegyzés fele a tinik komizz,cija,puxa,ary,wok,és egyéb degenerált írása....
még hozzátenném,ezzel nem lenézni akarom őket,csak a mennyiség nem biztos hogy olvasmányos tartalmára akartam célozni.
lancelotbeka.ingyenblog.hu/