{"id":58614,"date":"2012-11-15T11:29:24","date_gmt":"2012-11-15T11:29:24","guid":{"rendered":"https:\/\/bm.dev.synology.me\/?p=58614"},"modified":"2026-04-03T09:15:34","modified_gmt":"2026-04-03T09:15:34","slug":"big-data-cum-cine-si-cu-ce-gestioneaza-27-zettabytes-de-date","status":"publish","type":"post","link":"https:\/\/bm.dev.synology.me\/?p=58614","title":{"rendered":"Big data. Cum, cine \u015fi cu ce gestioneaz\u0103 2,7 zettabytes de date?"},"content":{"rendered":"<p>BOGDAN CIOC ESTE CONSULTING MANAGER, NEAR SHORE CENTER ROMANIA, SAP CONSULTING IN CADRUL SAP ROMANIA<\/p>\n<hr \/>\n<p>IBM, ANGAJATORUL LUI CODD, construise &#8211; pe baza cercet\u0103rilor acestuia din anii &#8217;70 &#8211; prima versiune a unui a\u015fa-numit System R, primul prototip al unui SGBD &#8220;rela\u0163ional&#8221;. Din cauza luptelor politice interne, o fatalitate inerent\u0103 organiza\u0163iilor mari, se pare, \u015fi a temerilor legate de canibalizarea propriilor produse similare (nu rela\u0163ionale, ci ierarhice) pe care deja le comercializa, IBM a ignorat poten\u0163ialul noii tehnologii.<br \/>\nO companie t\u00e2n\u0103r\u0103, mult mai agil\u0103 \u015fi mai \u00eenfometat\u0103 de succes dec\u00e2t IBM, a intuit corect acest poten\u0163ial. A preluat ideile lui Codd \u015fi bazele System R (fapt ce apare documentat, de pild\u0103, \u00een cartea &#8220;Diferen\u0163a dintre Dumnezeu \u015fi Larry Ellison&#8221;, scris\u0103 de Mike Wilson) \u015fi a f\u0103cut istorie. Aceast\u0103 companie se numea Relational Software Inc., devenit\u0103 mai apoi Oracle.<\/p>\n<p>Modelul lui Codd era revolu\u0163ionar pentru c\u0103 definea o metod\u0103 de organizare \u015fi stocare a datelor perfect riguroas\u0103 (folosind no\u0163iuni precum baz\u0103 de date, tabel\u0103, rela\u0163ie, cheie primar\u0103, cheie extern\u0103, restric\u0163ii de integritate \u015f.a.m.d.) \u015fi introducea SQL, un limbaj standardizat \u015fi simplu de interogare a datelor astfel organizate, care oferea aplica\u0163iilor care foloseau datele independen\u0163a fa\u0163\u0103 de modul \u00een care erau ele organizate. Limbajul SQL (Structured Query Language) a devenit, de la apari\u0163ia sa, un element nelipsit din arsenalul oric\u0103rui dezvoltator de software.<\/p>\n<p>Codd a enun\u0163at, la \u00eenceputul deceniului opt, cele treisprezece reguli familiare oric\u0103rui student \u00een tehnologia informa\u0163iei pentru c\u0103 modelul definit de el devenise at\u00e2t de popular \u015fi de lucrativ \u00eenc\u00e2t, din dorin\u0163a de a prinde o bucat\u0103 din pia\u0163\u0103, to\u0163i produc\u0103torii de sisteme de organizare a datelor \u00ee\u015fi etichetau produsele drept &#8220;rela\u0163ionale&#8221;, c\u00e2nd, \u00een fapt, nu f\u0103ceau dec\u00e2t s\u0103 v\u00e2nd\u0103 vechi produse re-\u00eempachetate. Cu alte cuvinte, pia\u0163a era \u00een acel moment la \u00eenceputul unui ciclu hype &#8211; de proasp\u0103t av\u00e2nt al bazelor de date rela\u0163ionale.<\/p>\n<p>Termenul de &#8220;ciclu hype&#8221; a fost folosit pentru prima dat\u0103 de Gartner \u00een 1995 pentru a descrie traseul pe care \u00eel parcurg tehnologiile noi, de la momentul apari\u0163iei p\u00e2n\u0103 la maturizare \u015fi adoptarea lor pe scar\u0103 larg\u0103. Ca metodologie de analiz\u0103 \u015fi suport \u00een decizie, &#8220;ciclurile hype&#8221; au \u015fi bune \u015fi rele. Metodologia nu este extrem de \u015ftiin\u0163ific\u0103 \u015fi poate induce a\u015ftept\u0103ri eronate la cei ce pot decide adoptarea unei anumite tehnologii la un moment dat. \u00cens\u0103 ofer\u0103 un comentariu viabil asupra evolu\u0163iei istorice a tehnologiei respective.<\/p>\n<p>S\u0102 REVENIM \u00ceNS\u0102 CU POVESTEA LA ZILELE NOASTRE. Au trecut mai bine de treizeci de ani de la revolu\u0163ia lui Codd. Iar tehnologia inventat\u0103 de el a trecut prin toate fazele ciclului Gartner. Bazele de date rela\u0163ionale au fost \u015fi sunt folosite, de la apari\u0163ia lor, ca suport pentru larga majoritate a aplica\u0163iilor de business scrise de atunci. Iar beneficiarii pe termen lung ai rezultatelor acestui ciclu hype (s\u0103-l numim a\u015fa) sunt, ast\u0103zi, \u00een principal Oracle, Microsoft (cu SQL Server) \u015fi IBM (prin DB2, urma\u015ful tardiv al System R, odat\u0103 ce luptele politice s-au \u00eencheiat). T\u0103ria sonor\u0103 a acestor nume \u015fi succesul lor de 30 de ani \u015fi mai bine arat\u0103 clar c\u00e2t de important este s\u0103 te plasezi printre vizionari, c\u00e2t mai aproape de momentul ini\u0163ial &#8211; \u015fi c\u00e2t de esen\u0163ial este s\u0103 rezi\u015fti acolo dup\u0103 pragul deziluziei. \u00cens\u0103 modelul lui Codd a fost definit \u00eenaintea internetului, a dispozitivelor mobile \u015fi a re\u0163elelor sociale. \u015ei, din acest motiv, ast\u0103zi \u00ee\u015fi arat\u0103 limitele. \u00cen zilele noastre cantitatea de date ce se cere stocat\u0103 \u015fi explorat\u0103 este cu multe ordine de m\u0103rime mai mare dec\u00e2t la \u00eenceputul anilor &#8217;80. Mai important \u00eens\u0103, datele de azi sunt deseori nestructurate, a\u015fa cum vom vedea \u00een continuare.<\/p>\n<p>Haide\u0163i mai \u00eent\u00e2i s\u0103 ne delect\u0103m cu c\u00e2teva cifre, preluate din studiul &#8220;Big data: The next frontier for innovation, competition, and productivity&#8221; al McKinsey Global Institute din mai 2011 \u015fi din alte surse, grupate pe wikibon.org\/blog\/big-data-statistics\/):<br \/>\n&#8211; Se estimeaz\u0103 c\u0103 exist\u0103 2,7 zettabytes (1021) de date \u00een universul informa\u0163ional din jurul nostru (2012).<br \/>\n&#8211; Erau 5 miliarde de telefoane mobile \u00een uz \u00een lume \u00een 2010. Revolu\u0163ia smartphone-urilor amplific\u0103 exponen\u0163ial at\u00e2t cantitatea, c\u00e2t \u015fi calitatea datelor (voce, SMS, trafic de internet) tranzitate \u015fi colectate de aceste dispozitive.<br \/>\n&#8211; Facebook public\u0103 \u00een fiecare lun\u0103 30 de miliarde de elemente noi de con\u0163inut (aprecieri, comentarii, fotografii, linkuri) \u015fi analizeaz\u0103 \u00een bazele sale de date peste 30 de petabytes (1015) de date liber \u00eemp\u0103rt\u0103\u015fite de utilizatorii s\u0103i. Aproximativ 35.000 de like-uri pentru diverse brand-uri sau firme sunt postate de utilizatorii Facebook \u00een fiecare zi.<br \/>\n&#8211; Google procesa \u00een 2008 cu motorul s\u0103u de c\u0103utare 20 de petabytes de date pe zi.<br \/>\n&#8211; Utilizatorii YouTube \u00eencarc\u0103 \u00een fiecare minut 48 de ore de con\u0163inut video nou.<br \/>\n&#8211; La \u00eenceputul lui 2012 Twitter procesa zilnic aproximativ 175 de milioane de twitt-uri, care au con\u0163inut poten\u0163ial relevant din punct de vedere comercial \/ statistic.<br \/>\n&#8211; Wal-Mart gestioneaz\u0103 peste un milion de tranzac\u0163ii cu clien\u0163ii s\u0103i zilnic \u015fi stocheaz\u0103 datele rezultate \u00een baze de date estimate la 2,5 petabytes (1015).<br \/>\n&#8211; 571 de website-uri noi sunt create \u00een fiecare minut.<\/p>\n<p>Aceste cifre sunt desigur foarte greu de probat, fiind extrem de dinamice. Sunt \u00eens\u0103 plauzibile, iar ritmul \u00een care datele se multiplic\u0103, mai ales, dup\u0103 cum am spus deja, de la apari\u0163ia dispozitivelor mobile inteligente, este exponen\u0163ial. Internetul este plin de astfel de statistici ale unui fenomen global care este \u00eenc\u0103 \u00een faza de clarificare \u015fi care a ajuns s\u0103 fie cunoscut sub denumirea generic\u0103 (\u015fi inten\u0163ionat ambigu\u0103) de Big Data. Big Data este numele dat de speciali\u015fti provoc\u0103rii aduse de stocarea \u015fi analiza cantit\u0103\u0163ilor mari de date ale zilelor noastre, activit\u0103\u0163i care nu mai sunt posibile cu instrumentele tradi\u0163ionale folosite p\u00e2n\u0103 acum.<\/p>\n<p><!--nextpage--><\/p>\n<p>BIG DATA RIDIC\u0102 MULTE PROVOC\u0102RI, de pild\u0103 gestionarea greoaie \u015fi din ce \u00een ce mai lent\u0103 a cantit\u0103\u0163ilor cresc\u00e2nde de date cu infrastructuri hardware \u00eenvechite. Din fericire, ieftinirea hardware-ului a \u0163inut pasul cu tendin\u0163a general\u0103, azi un hard disk care ar putea stoca toat\u0103 muzica lumii (nu v\u0103 ia ame\u0163eala c\u00e2nd citi\u0163i asta?) cost\u00e2nd nu mai mult de 600 de dolari. Probabil cea mai important\u0103 provocare recunoscut\u0103 de Big Data este natura datelor care sunt tranzac\u0163ionate. Datele sunt rareori structurate, dup\u0103 cum se vede din exemplele de mai sus. Ele pot fi reprezentate de text simplu (pagini web), fotografii, video, log-uri de utilizare a website-urilor (num\u0103r de click-uri pe o anumit\u0103 pagin\u0103, de pild\u0103), \u00eenregistr\u0103ri de date (meteo, seismice, vulcanice) colectate de la senzori \u015ftiin\u0163ifici, seturi de date medicale de la senzori specializa\u0163i ori date fiscale de la contribuabilii publici ai unei \u0163\u0103ri. \u015ei exemplele pot continua la nesf\u00e2r\u015fit. E greu s\u0103 te ab\u0163ii din a fi absorbit \u00een be\u0163ia cifrelor.<\/p>\n<p>Atunci c\u00e2nd datele ce se cer analizate nu sunt structurate, utilitatea regulilor lui Codd \u015fi a instrumentelor rezultate ca urmare a implement\u0103rii cercet\u0103rilor lui este limitat\u0103. Bazele de date rela\u0163ionale sunt \u015fi vor r\u0103m\u00e2ne un instrument valoros pentru crearea de modele de date sofisticate \u015fi perfect descriptibile logic, \u00eens\u0103 \u00ee\u015fi arat\u0103 limitele \u00een confruntarea cu realitatea complex\u0103 \u015fi deseori haotic\u0103. \u015ei atunci apare necesitatea unor instrumente noi pentru stocarea \u015fi analiza acestor cantit\u0103\u0163i imense de date structurate, slab structurate sau pur \u015fi simplu nestructurate. Dar este realmente necesar\u0103 aceast\u0103 analiz\u0103? Aduce ea oare o valoare real\u0103? R\u0103spunsul este afirmativ \u015fi e de ajuns s\u0103 lu\u0103m exemplul intuitiv a dou\u0103 companii care au ajuns \u00een prim-planul succesului \u00een zilele noastre tocmai prin abilitatea de a se folosi de datele pe care le au la dispozi\u0163ie, deseori din domeniul public: Google \u015fi Facebook. Google a fost pionierul analizelor de date \u00een cantit\u0103\u0163i imense \u015fi \u00een cre\u015ftere \u015fi a devenit, datorit\u0103 succesului motorului s\u0103u de c\u0103utare, una dintre cele mai mari companii IT ale zilelor noastre. Facebook, \u00een ciuda lans\u0103rii la burs\u0103 semi-e\u015fuate, este una dintre companiile majore ale zilelor noastre \u015fi nu neap\u0103rat prin ceea ce a reu\u015fit s\u0103 fac\u0103, ci prin ceea ce ar putea s\u0103 realizeze c\u00e2nd va g\u0103si calea de a monetiza cantitatea imens\u0103 de date pe care st\u0103.<\/p>\n<p>Dincolo de aceste observa\u0163ii intuitive, exist\u0103 studii institu\u0163ionalizate care surprind valoarea \u015fi beneficiul poten\u0163ial al analizelor de Big Data. De pild\u0103, studiul McKinsey pe care l-am citat mai devreme enumer\u0103 urm\u0103toarele cifre:<br \/>\n&#8211; 300 de miliarde de dolari \u00een valoare poten\u0163ial\u0103 \u00een sistemul medical american din analize de Big Data, de mai mult de dou\u0103 ori c\u00e2t cheltuie\u015fte Spania \u00een \u00eentreg sistemul s\u0103u medical \u00eentr-un an.<br \/>\n&#8211; 250 de miliarde de dolari \u00een c\u00e2\u015ftiguri poten\u0163iale \u00een sistemul administra\u0163iei publice din Europa, mai mult dec\u00e2t PIB-ul Greciei. (Oare guvernul Rom\u00e2niei are o estimare a c\u00e2\u015ftigurilor pe care le-ar putea ob\u0163ine<br \/>\ndintr-un sistem real de detectare a fraudelor \u015fi a analizei declara\u0163iilor fiscale? E o \u00eentrebare retoric\u0103, desigur!)<br \/>\n&#8211; 600 de miliarde de dolari \u00een c\u00e2\u015ftiguri globale din utilizarea datelor de situare geografic\u0103 a consumatorilor comerciali ai lumii.<br \/>\n&#8211; O cre\u015ftere poten\u0163ial\u0103 de 60% a profiturilor opera\u0163ionale ale companiilor de retail prin folosirea analizelor de Big Data.<br \/>\n&#8211; Sute de mii de job-uri noi \u00een domeniul analizelor Big Data.<\/p>\n<p>Pe data de 29 martie 2012 administra\u0163ia Obama a oferit o recunoa\u015ftere formal\u0103 acestui poten\u0163ial, hot\u0103r\u00e2nd s\u0103 investeasc\u0103 bani reali: 200 de milioane de dolari \u00een investi\u0163ii de R&#038;D \u00een Big Data, \u00een domenii precum: s\u0103n\u0103tate public\u0103, ap\u0103rare, energie sau analize geologice.<\/p>\n<p>Investind \u00een R&#038;D, administra\u0163ia Obama a recunoscut nu doar poten\u0163ialul economic al analizelor de Big Data, ci \u015fi necesitatea dezvolt\u0103rii instrumentelor specializate pentru astfel de analize, \u00een condi\u0163iile \u00een care instrumentele existente nu sunt suficiente. Pentru c\u0103 \u00een domeniul instrumentelor existente suntem \u00eenc\u0103 \u00een copil\u0103ria timpurie. Sau, folosind terminologia Gartner, suntem \u00eenc\u0103 aproape de \u00eenceputul ciclului hype al Big Data. Primele reu\u015fite, care au decla\u015fat valul a\u015ftept\u0103rilor (inflamate, poate?) \u00een Big Data sunt legate \u00een principal de maturizarea Hadoop. Hadoop este un sistem configurabil de analiz\u0103 a datelor nestructurate \u015fi \u00een cantit\u0103\u0163i imense care s-a dezvoltat ca rezultat al muncii comunit\u0103\u0163ii open source. Istoria acestui proiect \u015fi a produsului rezultant este descris\u0103 pe larg de Tom White, unul dintre cei mai importan\u0163i participan\u0163i la proiect, \u00een cartea sa &#8220;Hadoop: The Definitive Guide&#8221;, publicat\u0103 de O&#8217;Reilly \u00een 2009. Hadoop a ap\u0103rut din ambi\u0163ia unui grup de dezvoltatori \u015fi cercet\u0103tori din California de a crea un motor de c\u0103utare open source \u015fi din inspira\u0163ia pe care au g\u0103sit-o ace\u015ftia la Google, care a publicat \u00een 2003 detaliile algoritmului folosit de motorul s\u0103u de c\u0103utare. Pe parcursul derul\u0103rii proiectului, cercet\u0103torii au descoperit c\u0103 exist\u0103 mult mai multe aplica\u0163ii practice ale func\u0163ionalit\u0103\u0163ii produsului dec\u00e2t scopul pentru care fusese proiectat ini\u0163ial.<\/p>\n<p>HADOOP R\u0102SPUNDE, DIN PUNCT DE VEDERE TEHNIC, la dou\u0103 provoc\u0103ri legate de Big Data: stocarea datelor nestructurate, printr-un sistem de fi\u015fiere distribuit, \u015fi analiza acestor date (de orice tip ar fi ele) prin \u00eemp\u0103r\u0163irea temei de lucru \u00een subteme executate \u00een mod paralel de diverse noduri ale grid-ului de computere pe care este instalat Hadoop. Filosofia Google, a prelucr\u0103rii datelor \u00een mod masiv paralel, cu ajutorul unei re\u0163ele de computere relativ ieftine, \u00eens\u0103 interconectate logic, a fost p\u0103strat\u0103. Sunt \u00eens\u0103 multe probleme care nu au \u00eenc\u0103 o solu\u0163ie satisf\u0103c\u0103toare: de pild\u0103, Hadoop duce lipsa unui limbaj de interogare de simplicitatea \u015fi practicitatea SQL-ului domnului Codd (Yahoo! a \u00eencercat s\u0103 remedieze acest minus prin definirea unui limbaj de nivel \u00eenalt denumit Pig). \u00cen al doilea r\u00e2nd, analizele nu sunt executate de Hadoop \u00een timp real, ci \u00een batch, asta \u00eensemn\u00e2nd c\u0103 exist\u0103 o \u00eent\u00e2rziere \u00eentre momentul introducerii interog\u0103rii \u00een sistem \u015fi momentul primirii rezultatelor. \u00cen al treilea r\u00e2nd, Hadoop nu ofer\u0103 un sistem grafic de configurare a analizelor \u015fi explorare a rezultatelor ob\u0163inute. Modul de lucru cu Hadoop este linia de comand\u0103 Unix. (Facebook a definit un astfel de sistem de analiz\u0103 grafic pe care l-a denumit Hive \u015fi pe care l-a pus la dispozi\u0163ia comunit\u0103\u0163ii open source.) Dar aceste minusuri ale Hadoop sunt pe cale s\u0103 \u00ee\u015fi g\u0103seasc\u0103 rezolv\u0103rile.<\/p>\n<p>Printre primii \u00een a adopta Hadoop au fost Yahoo! (care de\u0163inea \u00een 2009 17 clustere de 24.000 de noduri rul\u00e2nd Hadoop), Last.fm, Rackspace \u015fi Facebook (care stoca \u00een 2009 20 de petabytes de date \u00een Hadoop la un ritm zilnic de cre\u015ftere de 10 terrabytes). Ast\u0103zi lista utilizatorilor con\u0163ine multe sute de nume din domeniul comercial (Fox News, Amazon, Adobe, LinkedIn, The New York Times, Spotify, Twitter), universitar sau guvernamental. Dincolo de Hadoop, alte ini\u0163iative legate de Big Data sunt bazele de date a\u015fa-numite &#8220;NO SQL&#8221; (Not Only SQL) sau bazele de date In Memory, care, pentru rapiditatea analizelor, folosesc ca suport pentru date nu hard-discurile, considerate prea lente, ci memoriile flash. Probabil multe din produsele etichetate drept produse Big Data vor disp\u0103rea \u00een timp. (N-ar fi r\u0103u un nou set de reguli Codd.) Altele vor ie\u015fi la suprafa\u0163\u0103 \u015fi vor fi adoptate pe scar\u0103 larg\u0103. Pia\u0163a se va maturiza pe m\u0103sur\u0103 ce succesele comerciale se vor \u00eendesi \u015fi pe m\u0103sur\u0103 ce banii investi\u0163i \u00een cercetare vor \u00eentoarce rezultatele a\u015fteptate. Suntem \u00eenc\u0103 la \u00eenceputul ciclului hype. Efervescen\u0163a ce se simte \u00een domeniul Big Data aminte\u015fte \u00eens\u0103 de vremurile de pionierat ale industriei software \u015fi sunt convins c\u0103 anii ce vor veni ne vor oferi rezultate surprinz\u0103toare \u00een acest drum pe care abia am \u00eenceput s\u0103 \u00eel explor\u0103m. Eu \u00eensumi depl\u00e2ngeam, \u00een alte articole, &#8220;moartea istoriei IT-ului&#8221;, mutarea focusului de la inova\u0163ie la entertainment \u015fi de la progres la business. M\u0103 bucur s\u0103 v\u0103d c\u0103 m-am \u00een\u015felat. Ce piere \u00eentr-o parte \u00eenflore\u015fte mai viguros \u00een alta.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>C\u00e2nd Edgar F. Codd \u015fi-a enun\u0163at, la \u00eenceputul anilor \u201880, cele \u201edou\u0103sprezece porunci&#8221; (de fapt, treisprezece reguli, incluz\u00e2nd \u015fi o regul\u0103 zero) pentru clasificarea unui sistem de gestiune de baze de date (SGBD) drept \u201erela\u0163ional&#8221;, r\u0103zboaiele comerciale \u00een jurul acestui canon instaurat tot de Codd cu c\u00e2\u0163iva ani \u00eenainte erau deja \u00een toi.<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[571],"tags":[28847,6148,19117,204],"class_list":["post-58614","post","type-post","status-publish","format-standard","hentry","category-business-hi-tech","tag-bht","tag-date","tag-gestiune","tag-tehnologie"],"_links":{"self":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/58614","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=58614"}],"version-history":[{"count":1,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/58614\/revisions"}],"predecessor-version":[{"id":74710,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/58614\/revisions\/74710"}],"wp:attachment":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=58614"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=58614"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=58614"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}