A Skype-dráma tanulságai

Mint azt bizonyára már mindenki hallotta, a múlt csütörtök nem az iWiW-karbantartásról, sőt, mégcsak nem is az erre érkezett csípős Pörkölt.com ellenkommunikációról lesz híres. Hanem arról, hogy a világ legnagyobb VoIP-hálózata fogta magát, és minden átmenet nélkül meghalt.

A leállás okait két napig mindenki csak találgatta.  (Voltak, akik még aznap elég jól tippeltek.) Az első órákban valószínűleg a Skype-nál is csak néztek maguk elé a fejlesztők.

A nem tervezett leállások ilyen jellegű szolgáltatásoknál akár kritikusak is lehetnek. Hiszen az on-demand világban megszoktuk, hogy ezek az eszközök bizony 24/7 rendelkezésünkre állnak, és azért gondoljuk őket jó alternatívának (a Skype esetében a hagyományos vezetékes- vagy mobilszolgáltatásokhoz képest), mert az internet segítségével egy másik úton is megvalósítható ugyanaz a feladat. Esetünkben a telefonálás.

Szóval a hirtelen halál kínosan érinti a Skype-ot. És bár teljesen igazuk van abban, hogy az elmúlt években talán éppen nekik volt az egyik legjobb a rendelkezésreállási mutatójuk. (Alig álltak le, ha mégis, akkor is csak nagyon rövid időre.) Ám talán éppen ezért, 220 millió felhasználójuk méginkább zokon vehette, hogy akkor most miért nem tudnak telefonálni, ha eddig minden nagyon flottul ment.

Keep in context: a Twitter megszületése, sőt, márciusi berobbanása óta folyamatosan elérési problémákkal küszködik. Ám felhasználói a kezdetektől hozzászoktak ehhez, így a tűrőképességük is fejlettebb, mint a Skype használóié.

Persze Twitter nélkül jól megvagyunk, mondhatnánk. Ha viszont valaki a hagyományos telefonálásból csippentett le a Skype javára (sok amerikai kkv tett így az elmúlt években), az múlt csütörtökön és pénteken komolyan elgondolkodhatott azon, hogy jól döntött-e, amikor hitt a VoIP-telefonálás üdvözítő ígéretének.

Jól döntött. Nem csak azért, mert ilyen jellegű leállások minden hálózat (így a mobil vagy a vezetékes) esetében előfordulhatnak, hanem azért is, mert a probléma - mint utóbb kiderült - nem a rendszer magját érinti, csupán egy Windows frissítésbe futottak bele, minek következtében hirtelen túlságosan nagy mennyiségű bejelentkezés történt a rendszerben, s ennek következtében újra kellett indítani a gépeket.

A Skype kommunikációja a leállás kapcsán jó is volt, meg nem is. Nem tudták elejét venni, hogy a blogokon ne induljon meg a spekuláció a leállás okairól (hekkelés, a rendszer gyengesége, kiszolgálási problémák, egyszerű hozzánemértés, esetleg az amerikai kormány friss kémkedési törekvései stb). Vagyis későn ébredtek. Ám hétfőre Villu Arak a Skype blogján részletesen elmagyarázta a történteket, s mire kedden felkelt a Nap a világ legnyugatibb pontján is, már minden up'n'running volt.
[T]his event revealed a previously unseen software bug within the network resource allocation algorithm which prevented the self-healing function from working quickly. (Villu Arak)
Persze vannak hangok, akik szerint a problémát megint a rendszer zártsága adja. Jó lenne végre nyitott hálózatokban gondolkodni. Csakhát történetileg úgy alakult, hogy a VoIP-telefonálás világszerte a Skype nevével kapcsolódik össze, és ezzel nem biztos, hogy jelenleg érdemes versenyre kelni. Vagy mégis?

Ha - teoretikusan - azt mondjuk, hogy a Skype rendszere annyira ki van téve a Windows-frissítéseknek, mint amennyire ez csütörtökön látszott, akkor bizony egyáltalán nem biztos, hogy érdemtelen elgondolkodni a VoIP-hálózatok jövőjén. Ugyan mi biztosít bárkit is, hogy a Microsoft egy következő frissítési csomagja nem okoz legalább akkora problémát egy ilyen hálózatnak, mint történt az az elmúlt csütörtökön? Vagy a másik oldalról: ezek szerint eddig nem sejtették, hogy ezek a patchek milyen hatással lehetnek a rendszerre?

A Skype-ba vetett bizalom most a Skype és a Microsoft közti nyilatkozatháborún legalább annyira múlik, mint azon, hogy sikerül-e kielégítően és megnyugtatóan tisztázni a leállás technikai okait. A felhasználók, főleg a kkv-k számára pedig az elsődleges tanulság az, hogy egyetlen szolgáltatóra támaszkodni mindig necces.
Címkék: voip skype filozomatika
2007.08.21. 12:21. írta: hírbehozó

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

én már térerő nélkül halottnak érzem magam, nem hogy 48h skype nélkül :(
Igy van - miert kene egy szolgaltatora tamaszkodni, ha gyakorlatilag ingyen van az elerhetoseg? Azert a kovetkezo patch tuesday-tol nem kell ennyire felni, mert egeszen biztos, hogy gozerovel dolgoznak a probleman a skype fejlesztok (mi tortenjen, ha tul sok gep bootol ujra rovid idon belul).

Az sem meglepo, hogy egy ilyen elosztott halozat megbizhatosaga normal korulmenyek kozott nem veszi fel a versenyt egy kozpontilag karban- es kezbentartot infrastrukturaval (mobil es vezetekes szolgaltatok). Nem is veletlenul tudnak sokkal olcsobbak lenni.

Erdemes viszont elgondolkodni azon, hogy milyen veszelyeket rejt magaban, ha tulsagosan homogen a halozat (internet), ha tul egyformak az egyes szamitogepek. Pedig ez nem is egy tamadas volt, sot, meg csak nem is egy szoftverhiba, csak a 'normalis' mukodes okozta jelenseg. Minel inkabb bevonodik az egyes szolgaltatasok kozvetitesebe (ertsd: p2p-esedes) ez a homogen geptomeg (ertsd: vindoz), annal inkabb latni fogjuk a hatasat. Eddig senki nem vette eszre, mert a szervereken es a routereken nem fut donto tobbsegben windows, plusz persze a rendszergazdik figyelnek, hogy mikor es melyik gepet inditsak ujra.
A Microsoftot idehozni erős csúsztatás, egyrészt nem a patch, hanem az újrabejelentkezések verték tönkre a hálózatot, másrészt bőven nem ez az első patch tuesday, eddig hogyhogy nem volt gond? És hétfő reggelente hogyhogy nincs?
Valahol írták, hogy nem a sok bejelentkezés volt a gond az elején, hanem valami algoritmus megbolondult, és egy ideig nem bírták fogadni a bejelentkezéseket. Persze mindenki próbálta újra és újra, aztán ez hatványozodott, és hát ez lett a vége :/
A Microsoft - skype összefüggést már pénteken "csiripeltem" - csiripelték.

Egy ilyen frissítés az msnt (mondjuk az szintén mikroszoft) vag ybármely más alakalmazást miért nem ver tönkre? Interesting... Ha jól emlékszem az én gépem a szerda vagy kedd ESTI leállításnál frissítette magát, tehát nem volt új bejelentkezés.

Lehet, h. inkább Mr Gates-ék építettek be valmit a patchekbe..de ne gyártsunk összeesküvés elméleteket...:)
ELső körben is már habogtak valamit egy erőforrás-allokációs problémáról, egy évek óta rendszeresen jelentkező frissítésnek vajmi kevés köze lehet a problémához.

Jellemzően a legtöbb szakmai blog arról ír, hogy még nem tudják, mi van, de hogy a Skype hantázik, az biztos.
De ki az a marha, aki skájpot használ? Amikor én találkoztam vele utoljára, akkor még ott tartott, hogy a zixpén minden portot megnyitott a saját kis exe-jére, és kérdezés nélkül UPnP-n a routeren is ugyanezzel próbálkozott.

Reflexből kuka.
netrunner: nem mondom, hogy nem gyanus a skype magyarazata (foleg ugye azert, mert maskor is volt mar tomeges frissites), de vajmi keves koze van a dologhoz az msn messengernek meg a barmely mas alkalmazasnak. A skype allitasa szerint a gondot az okozta, hogy a _p2p_ halozatukban viszonylag gyors egymasutanban indultak ujra a gepek. Ha az msn messenger mindig kozvetlenul az ms szervereihez kapcsolodik, akkor nyilvan nem erinti problemakent a kliensek leallasa. Ha viszont a skype elosztott rendszere talalkozik szembe egy ilyen helyzettel, es nincsenek ra felkeszitve az algoritmaik, az szep galibat okozhat (akar). Az egymasrol le-leszakadozo node-okra sikertelenul felkapcsolodo, aztan uj supernode-ot kereso peerek tomege eleg szep galibat okozhat. Ettol persze meg nem feltetlenul igaz az egesz elmelet.
Szeretnek tisztazni par dolgot:

1) A PSTN (magyarul: drotostelefon) halozat egesze 20 evente nagyjabol 1 orara allhat le (%-osan kifejezve most nemtom, de ha valaki keri...). Mivel ez egy eroteljesen celhalozat, ezert ezt garantalni is lehet, igaz, baromi dragan. Az IP halozatban semmit nem lehet garantalni alapvetoen.

2) A Skype halozata a vilag legjobb es legrosszabb halozata is egyben. Egyreszt RENDKIVUL terhelesellenallo, hiszen gyakorlatilag csak az authentikacio az, ami kozpontositott, minden mas nem allhat le benne egesz egyszeruen, mert nem az o infrastrukturajuk, hanem mindenki sajat kis otthoni gepenek osszessege. Masreszt viszont a jelenletkezelese pl. fabatkat se er, pont emiatt, lasd kovetkezo pont

3) A Skype halozat az egyen szemszogebol barmikor haldokolhat, sot, valoszinuleg soha nem tokeletes. Eleg jo valoszinuseggel eljutnak hozza azok az informaciok, amikre szuksege van, de ez a valoszinuseg kozel se 99%. Ilyen pl. hogy nem latja online-nak azt, akit kene, vagy forditva, aki online az valojaban offline, esetleg nem tud kapcsolatot letesiteni telefonalashoz vagy telefon igen, uzenet nem (ilyen is elofordulhat), es ennek tetszoleges variacioi. Szoval erre a rendszerre nem veletlenul irjak azt, hogy surgossegi hivasok lebonyolitasara nem alkalmas.

Ezek utan a Skype csutortoki paraja csak az a par bejelentkezoszerver paraja volt, es a poen az lenne,ha ezt is kiiktatnak a rendszerbol (az mondjuk egy szep menet lenne, az biztos). Nem merik megegyszer meglepni, de ettol meg a Skype-elmeny nem lesz jobb.
SkyPe (MSN, Yahoo, stb.) marha jópofa alternatíva tényleg ha mondjuk nemzetközi hívást akar csinálni az ember a haverjával, rokonnal stb. De ahogy a cikkben volt - céget erre állítani...
Háááát, elég laza.
Nem értem. A legtöbb user este lenyomja a gépét, elmegy aludni, reggel felkel, bootol. A legtöbb user jól behatárolható időszakokban teszi ezt, főleg a bootolást, munkaidő kezdetén. Eddig nem volt olyan, hogy Amerikában ottani idő szerint reggel hirtelen beesik 30-40 millió pc a hálózatba?

Kamuzás ez szerintem. Inkább elhiszem, hogy oroszok borogatták meg buffer túlcsordulással...
A telefontársaságok elég komoly rendelkezésre állást vállalnak, pl öt kilences (99,999%-os) - azaz egy évben kb. 5 perc kiesés fér bele. Mondjuk az ügyfeleknek (másod)perc alapján számláznak kemény összegeket, tehát érdemes is fenntartani a szolgáltatás minőségét. Internetes hálózaton jelenleg képtelenség ilyen minőséget vállalni, így pl. a Skype sem lesz soha megbízhatóbb egy telkónál (még ha elég jól megközelíti is azt).
Miért is okozna gondot internet hálózaton 5 kilences rendelkezésre állást csinálni? Csak pénz kérdés, semmi trükk nincs benne.
dawe: ja, ez a drótos telókra igaz. voips szolgáltatásra nem. egyik gáz hogy a modemhez ugye villany kell, míg az analog tel saját maga oldja meg. Ergó áramszünet esetén nagy viharban nem tudsz telefonálni, csak drótossal. Néha azt mondom, hogy az analog technika jobb, mint a digit: mikro, mosógép, stb. :)
mint írtam, mert mástól függ a szolgáltatása. arra meg nem fog felelősséget vállalni...
Érdekes, hogy a magyarázatok közül a DDOS kimaradt, pedig az erre alkalmas kód, egy ennek végrehajtására motivált közösség birtokában volt, ezt közzé is tették.
Egyáltalán nem tűnik meggyőzőnek a Windows peccsel való takarózás, ugyanakkor az is igaz, hogy a voip szakblogokon éppen a patchet szúrták ki elsőre.
gondolom ilyenkor örültek azoka vállalatok igazán akkor teljesen átálltak rá, hogy a Skype-nak nincs rendes ügyfélszolgálata
Szerintem ez még akár jót is tehet a skype-al. Legutoljára akkor érdeklődtem utána mikor még nálunk nem is lehetett használni, de most ismét felkaptam a fejem erre a híre (pedig más skype-os híreket is el szoktam olvasni) és megyek megnézem mi mennyibe kerül
A nagy buli, partizás közepette fel sem tűnt hogy nincs szkájp! Éljetek a mának, éljetek, bulizzatok!
rendben van, mulatunk, szórakozunk...evés-ivás.

éljen a skype meg az észtek.
Ez elég rendesen mellé ment. Pontokba szedve magyarázzák el a heartbeat.skpye.com -on, hogy nem egyáltalán nem a Microsoft és nem a patch volt a hibás sőt a Microsot-tól minden segítséget megkaptak és végig elemezték a patchban történt változtatásokat és a patchalés folyamatát együtt és bizony ott nem találtak semmi olyat ami okolható lett volna. És bizony ez a patch sem volt különböző mint a többi. A hiba a tömeges bejelentkezést kezelő rutinban volt amit azóta javítottak. Mert amúgy erre is fel van készülve a rendszer és tudja kezelni vsz most már jól. És nem, nem hibás senki csak ők. Ez így le van írva. Őszinte szavak, ritka ez ahol amúgy mindent a felhasználóra hárítanak manapság.

Bambano: "amerikában ottani idő szerint" idő zónákról valami?
Már régen át kellett volna állni valamilyen nyílt protokolra (mondjuk SIP vagy H.323)