BMe Kutatói pályázat

Toka László

E-mail cím

Honlap

Tanszéki honlap

Telefonszám:
+36 30 8594040

BMe kutatói pályázat - 2010

1. díj

Informatikai Tudományok Doktori Iskola

Távközlési és Médiainformatikai Tanszék

Dr. Vidács Attila és Dr. Pietro Michiardi

Biztonsági adatmentés ingyen

A kutatási téma néhány soros bemutatása

Napjainkra az informatika mind a munkánk, mind a személyes életünk meghatározó részévé vált. Nagy mennyiségű, jelentős részben bizalmas és nehezen pótolható digitális adat halmozódik fel, ezért biztonságos tárolásuk elengedhetetlen. Adatmentésre, másolatok folyamatos készítésére számos módszer és alkalmazás áll rendelkezésre, ám az archiválási folyamat nehézsége és magas költsége miatt legtöbben nem gondoskodnak megfelelően adataik biztonságáról.


Kutatásom során egy lehetőleg „peer-to-peer” (P2P, egyenrangú felhasználókból álló elosztott hálózat) rendszeren alapuló, biztonsági mentéseket kínáló szolgáltatást vizsgáltam. Az ilyen rendszerekben a felhasználók egymás, gyakran kihasználatlan informatikai adattároló eszközeire mentik adataikat az Interneten keresztül, díjmentesen. Ennek eredményeképpen nem merülnek fel a szokásos méretbeli problémák (hiszen több felhasználó nagyobb összesített tárhelyet ad) és a földrajzi, illetve a tárhelyek tulajdonosainak elosztottsága is nagyobb biztonságot nyújt a másolatoknak. A saját erőforrásaikat a többi felhasználóval nem megosztó résztvevők megfelelő kezelése azonban roppant fontos a rendszer működőképességének fenntartása céljából. Emellett a szolgáltatás minőségének biztosítása is körültekintő tervezést igényel az elosztott hálózatban.


A kutatóhely rövid bemutatása

Munkámat a BME Távközlési és Médiainformatikai Tanszékén, illetve a franciaországi Telecom Bretagne-ban és Eurecomban végeztem. Mindhárom kutatóműhelyben folyik elosztott informatikai rendszerek, hálózatok modellezésével foglalkozó kutatás, játék- és elosztott algoritmuselméleti alapokon. A végzett munka színvonalát a megjelent nemzetközi publikációik nagy száma és azok fórumainak minősége hűen jelzi. 


A kutatás tágabb kontextusa

A vállalatoknál és a háztartásokban megtalálható személyi számítógépek mellett napjainkban robbanásszerűen terjednek a további, digitális adatok készítésére szintén alkalmas készülékek: PDA-k, táblagépek, okostelefonok stb. Ezáltal az előállított tartalmak (dokumentumok, fényképek, audio- és videofájlok) mennyisége minden eddiginél nagyobb ütemben nő, így a nehezen vagy egyáltalán nem pótolható információk biztonságos tárolása időszerű probléma. A fontos adatok duplikálása, különböző helyeken való tárolása, azaz biztonsági mentése megóvja azokat az esetleges megsemmisülésüktől, amit akár egy véletlen törlés, egy berendezés meghibásodása, természeti katasztrófa vagy lopás is okozhat. Az archívumok készítésénél fontos, hogy azok a mentésre kijelölt fájloktól földrajzilag távol legyenek tárolva, lehetőleg több másolatban; az adatok helyreállításánál pedig lényeges az archívumok rendelkezésre állása.


A biztonsági mentések készítésénél felmerülő két fontos szempont azok költsége és automatizálhatósága. A jelenlegi megoldások többnyire egymás rovására javítják a lehetőségeket. A legolcsóbb és egyben legkevésbé automatizálható megoldás az adatok időnkénti kiírása másodlagos tárhelyre (pl. külső merevlemez, pendrive, CD, DVD, Blu-ray) és az eszköz biztonságos elhelyezése. A spektrum másik végén vannak az online adattároló szolgáltatások (Amazon S3, Dropbox, Wuala stb.): a menteni szándékozott adatokat az Interneten keresztül való feltöltés után a szolgáltató sokszorozza és megbízható szervereken, adatparkokban tárolja. Bár ez a megoldás automatizált (a fájlok mentése például folyamatosan egy kijelölt mappába történik), a költségei messze meghaladják a manuális, helyi (offline) adatmentését.


A kutatás célja, a megválaszolandó kérdések

Kutatásom célja egy olyan adattároló rendszer megvalósíthatóságának vizsgálata, amely a létező archiválási módszerek előnyeit egyesíti, természetesen azok hátrányai nélkül. Amellett, hogy a felhasználóbarát mentéseket nyújtó online szolgáltatások viszonylag drágák, felmerülnek az adatkezeléssel kapcsolatos problémák is. Komoly biztonsági kockázatot hordoz a fontos és gyakran bizalmas adatok kiadása egyetlen profitorientált cég kezébe. A bizalmas adatok védelmére megoldást jelent a fájlok megfelelő adattitkosítással való ellátása. A szerverpark központosítottságából és a szolgáltató cég esetleges megszűnéséből fakadó sérülékenység azonban továbbra sem orvosolt.


A P2P elven működő rendszerekben azonban a mentett fájlok több felhasználó között szétosztva tárolhatók (1. ábra). Minden felhasználó megosztja szabad tárhelyét a közösséggel, és ezért adatokat menthet a közösség többi tagja által felajánlott, hálózaton elérhető háttértárakon. A rendszer célja az adatok rendelkezésre állásának és hozzáférhetőségének növelése, és a szükséges fájlok visszaállíthatósága helyi adatvesztés esetén (2. ábra). Hátránya viszont, hogy csatlakozhatnak a rendszer nyújtotta előnyökkel visszaélő felhasználók is, ezért fontos azoknak a felhasználóknak kiszűrése, akik nem kívánják saját erőforrásaikat (tárhely, internetkapcsolat, online töltött idő) felajánlani a közösségnek. Így a hálózat használható marad az etikus tagok számára. [6]. Megfelelő ösztönző szabályok életbe léptetése után az elosztott architektúra előnye a központosítottal szemben abból fakad, hogy a növekvő felhasználószám nem vezet a szolgáltatás teljesítményének romlásához. Sőt, épp ellenkezőleg, a mentett adatok jótékony szóródása tovább fokozható nagyobb felhasználói bázissal.


Kutatásom elsősorban ezen kényszerítő szabályok vizsgálatát célozza: azok ösztönző hatását, hatékonyságát, illetve a velük együtt járó ellenőrzési terheket. Az adatok időszakosan elérhetetlen felhasználókon keresztül történő szétszórása az ösztönző szabályok ellenére is átmeneti adatvesztést okoz. Ennek kiküszöbölésére az adatokat többszörösen (redundánsan) kell tárolni. Kutatásom további részét a szolgáltatás minőségét nagyban befolyásoló adatredundancia és a hálózati kapcsolatok kezelése képezte.


            

1. ábra. Az Internetre csatlakozott felhasználó számítógépén futó program biztonságba helyezi az adatokat, szétszórva a biztonsági mentéseiket a többi résztvevőnél.



2. ábra. Adatvesztés esetén a program visszaszerzi a szükséges adatokat a tároló felektől.

Módszerek és eredmények

A kutatási munka kezdetekor elméleti modellt alkottam a P2P tárhelymegosztó rendszerben alkalmazható kényszerítő szabályok vizsgálata céljából [1]. A saját erőforrások megosztásának ösztönzésére két megközelítést javasoltam és hasonlítottam össze. A szimmetrikus rendszerekben minden egyes résztvevő által használt szolgáltatás az általa nyújtott hozzájárulás szintjére korlátozódik. A fizetésalapú rendszerekben egy saját nyereségét maximalizáló rendszer-üzemeltető vásárolja meg a résztvevőktől és értékesíti köztük a hálózati tárhelyet. Nem-kooperatív játékelméleti [7] modellel leírtam a felhasználói „önzést”, és tanulmányoztam a felhasználók összesített hasznát a két rendszerben. Az eredmények alapján szükséges és elégséges feltételeket nyújtottam ahhoz, hogy az egyik rendszer társadalmilag jobban teljesítsen, mint a másik.


A továbbiakban a szimmetrikus rendszer modelljét fejlesztettem oly módon, hogy a felhasználók képesek legyenek „önző” módon kiválasztani azon társaikat, akiknél adatot tárolnának [2, 3]. Modellemben a társjelöltjeiket az őket jellemző paraméterek (hálózati elérhetőség, Internetkapcsolat feltöltési és letöltési sávszélessége) alapján válogatják ki a résztvevők. Kölcsönös hajlandóság esetén megegyező nagyságú tárhelykapacitást ajánlanak fel egymásnak. Bemutattam, hogy az önző választás arra ösztönzi a felhasználókat, hogy emeljék a rendszernek áldozott hozzájárulásukat, elérhetőségük és megengedett sávszélességük tekintetében. Ez összességében javítja a rendszer nyújtotta szolgáltatás színvonalát. A munkám során kibővítettem egy ismert párosításelméleti problémát [8], amely lehetővé tette, hogy utána megfogalmazzam az algoritmikus jellegű társválasztási probléma játékelméleti módosulatát. Javaslatot tettem egy gyors (polinom idejű) algoritmusra, amely a lehető legnagyobb mértékben növeli a felhasználók elégedettségét a szervezett partnerválasztáson keresztül. Modellemet és algoritmusaim hatékonyságát szimulációs tesztekkel igazoltam.


Az elosztott hálózatra támaszkodó tárhelymegosztó rendszer működéséhez minden felhasználónak háromféle erőforrását kell megosztania: tárhely, sávszélesség és a hálózatra csatlakoztatva eltöltött idő. Kevés felhasználót tartalmazó rendszer esetén előfordulhat, hogy a rendelkezésre álló felhasználói erőforrásokra alapozva a rendszer nem tudja garantálni a megfelelő szolgáltatási szintet. Ezért megvizsgáltam egy központi tárolóhely bevezetésének hatásait az ilyen (átmeneti) helyzetek elkerülésére: ismertettem a folyamatosan garantált színvonalú biztonsági adatmentés költségvonzatait [4]. Egy ilyen hibrid rendszerben a központi, megbízható (magas rendelkezésre állású) szerver alkalmas adatok tárolására a kapcsolódó költségek térítése fejében. Használható továbbá akár a rendszert elhagyó felhasználók tárhelyein elveszett adatoknak a rendszerben maradt másolatok segítségével való visszaállítására is. Megmutattam, hogy mindez viszonylag alacsony áron lehetővé teszi az alkalmazott ösztönző szabályok nagymértékű lazítását.


A rendszer működésével kapcsolatos további lényeges beállítások vizsgálatára modelleket készítettem teljesen elosztott és hibrid rendszerekre is. Szimulációk segítségével értékelést folytattam az adatok többszörözésének, karbantartásának és hálózaton való mozgatásának különböző lehetőségeiről. Ehhez könnyen értelmezhető és a szolgáltatás minőségét jól leíró mérőmennyiségeket (az archiválási folyamat és az adat visszaszerzésének időtartama, adatvesztés valószínűsége) vezettem be. Megmutattam a biztonsági mentéseket nyújtó szolgáltatás jellegéhez igazodó és a felhasználók számára lehető legkedvezőbb (legkevesebb erőforrás-ráfordítással járó) beállításokat. A kutatás során új adatredundancia-meghatározó eljárást mutattam be, és értékeltem a jelenleg ismert eljárások teljesítményéhez viszonyítva. Az adatvisszaszerzéshez szükséges időn alapuló megközelítésem hasonló szolgáltatási színvonal garantálása mellett nagyban csökkenti az alkalmazandó redundanciát, ezáltal a felhasználóktól várt tárhely- és sávszélesség-követelményeket.


Végezetül a tárhelymegosztó rendszerrel kapcsolatos kutatásaim eredményeit a kifejlesztett algoritmusok gyakorlati megvalósításával igazoltam [5]. Felhasználói programot írtam a megalkotott szabályokra, és a létrehozott prototípust különböző beállításokkal teszteltem. A kísérleteket egy globális kutatói hálózaton, a PlanetLabon végeztem százas nagyságrendű szimulált felhasználóval. A szimmetrikus tárolópartner-választási mechanizmussal és anélkül végzett kísérletek teljesítményét összevetve mutattam meg az ösztönző elemek szükségességét. Az adatredundancia körültekintő beállításának előnyös hozadékait is igazoltam más, létező módszerekkel való összehasonlítások alapján. A kísérletek bemutatták, hogy a biztonsági adatmentés lehetséges P2P rendszerekben és ingyenes, valamint felhasználóbarát módon megvalósítható.


Várható impakt, további kutatás

Kutatásaim eredménye az elosztott tárhelymegosztó, biztonsági mentésekre szolgáló rendszerek kiterjedt és újszerű elemeket felsorakoztató vizsgálata. Újdonságnak számít a párosítás- és játékelméleti modellek és problémák bemutatott házasítása. Az először általam definiált teljesítménymértékek és az adat-visszaszerzési időn alapuló adat-redundancia számítási megközelítésem hatással lehet az elosztott adattároló (nem csak biztonsági mentésekre szolgáló) rendszereket vizsgáló munkákra is. Az elkészült prototípus továbbá egy gyakorlatban használható, biztonsági adatmentő alkalmazás fejlesztésének alapjául is szolgálhat.


A javasolt ösztönző mechanizmus valós hatásai csak a rendszer igazi felhasználók általi működtetése során lennének megfigyelhetőek. Ezért ennek lehetővé tétele mindenképpen a jövőbeni munka egyik iránya. További kutatásra adnak alapot a felhasználók megfigyelt online elérhetőségének mintái: a naponta, illetve hetente ismétlődő szabályszerűségen alapuló partnerválasztás lehetőséget nyújthat a szükséges megosztott erőforrások csökkentéséhez.


Saját publikációk, hivatkozások, linkgyűjtemény

Kapcsolódó saját publikációk listája. 


[1] Patrick Maillé, Toka László: Managing a Peer-to-Peer Data Storage System in a Selfish Society, IEEE JSAC Special issue on "Game Theory in Communication Systems", 26. kötet, 7. szám, 2008 szeptember, 1295 – 1301. oldal

[2] Pietro Michiardi, Toka László: Selfish Neighbor Selection in Peer-to-Peer Backup and Storage Applications, Euro-Par'09, 15th International Conference on Parallel and Distributed Computing, Delft, Hollandia, 2009

[3] Toka László, Pietro Michiardi: Analysis of User-driven Peer Selection in Peer-to-Peer Backup and Storage Systems, Springer Telecommunication Systems, Special Issue dedicated to GameComm'08, 2010

[4] Toka László, Matteo Dell'Amico, Pietro Michiardi: Online Data Backup: a Peer-Assisted Approach, IEEE P2P'10, IEEE International Conference on Peer-to-Peer Computing, Delft, Hollandia, 2010

[5] Csoma Attila, Toka László, Vidács Attila: A Peer-to-Peer Backup System with Incentives, TSP'10, 33rd International Conference on Telecommunications and Signal Processing, Vienna, Austria, 2010 (benyújtva)


Linkgyűjtemény.


BME Távközlési és Médiainformatikai Tanszék: http://www.tmit.bme.hu/

HSNLab: http://hsnlab.tmit.bme.hu

Télécom Bretagne: http://www.telecom-bretagne.eu/

Eurecom: http://www.eurecom.fr/

Amazon S3: http://aws.amazon.com/s3/

Dropbox: http://www.dropbox.com/

Wuala: http://www.wuala.com/

Játékelmélet: http://hu.wikipedia.org/wiki/Játékelmélet

PlanetLab: http://www.planet-lab.org/


Hivatkozások listája.


[6] Eytan Adar, Bernardo A. Huberman: Free Riding in Gnutella, Technical report, Xerox Palo Alto Research Center, 2000

[7] Martin J. Osborne, Ariel Rubinstein: A Course in Game Theory, MIT Press, 1994

[8] David Gale, Lloyd S. Shapley: College admissions and the stability of marriage, American Mathematical Monthly, 69. kötet, 1. szám, 1962, 9 -15. oldal