Tag: Date

  • Big data. Cum, cine şi cu ce gestionează 2,7 zettabytes de date?

    BOGDAN CIOC ESTE CONSULTING MANAGER, NEAR SHORE CENTER ROMANIA, SAP CONSULTING IN CADRUL SAP ROMANIA


    IBM, ANGAJATORUL LUI CODD, construise – pe baza cercetărilor acestuia din anii ’70 – prima versiune a unui aşa-numit System R, primul prototip al unui SGBD “relaţional”. Din cauza luptelor politice interne, o fatalitate inerentă organizaţiilor mari, se pare, şi a temerilor legate de canibalizarea propriilor produse similare (nu relaţionale, ci ierarhice) pe care deja le comercializa, IBM a ignorat potenţialul noii tehnologii.
    O companie tânără, mult mai agilă şi mai înfometată de succes decât IBM, a intuit corect acest potenţial. A preluat ideile lui Codd şi bazele System R (fapt ce apare documentat, de pildă, în cartea “Diferenţa dintre Dumnezeu şi Larry Ellison”, scrisă de Mike Wilson) şi a făcut istorie. Această companie se numea Relational Software Inc., devenită mai apoi Oracle.

    Modelul lui Codd era revoluţionar pentru că definea o metodă de organizare şi stocare a datelor perfect riguroasă (folosind noţiuni precum bază de date, tabelă, relaţie, cheie primară, cheie externă, restricţii de integritate ş.a.m.d.) şi introducea SQL, un limbaj standardizat şi simplu de interogare a datelor astfel organizate, care oferea aplicaţiilor care foloseau datele independenţa faţă de modul în care erau ele organizate. Limbajul SQL (Structured Query Language) a devenit, de la apariţia sa, un element nelipsit din arsenalul oricărui dezvoltator de software.

    Codd a enunţat, la începutul deceniului opt, cele treisprezece reguli familiare oricărui student în tehnologia informaţiei pentru că modelul definit de el devenise atât de popular şi de lucrativ încât, din dorinţa de a prinde o bucată din piaţă, toţi producătorii de sisteme de organizare a datelor îşi etichetau produsele drept “relaţionale”, când, în fapt, nu făceau decât să vândă vechi produse re-împachetate. Cu alte cuvinte, piaţa era în acel moment la începutul unui ciclu hype – de proaspăt avânt al bazelor de date relaţionale.

    Termenul de “ciclu hype” a fost folosit pentru prima dată de Gartner în 1995 pentru a descrie traseul pe care îl parcurg tehnologiile noi, de la momentul apariţiei până la maturizare şi adoptarea lor pe scară largă. Ca metodologie de analiză şi suport în decizie, “ciclurile hype” au şi bune şi rele. Metodologia nu este extrem de ştiinţifică şi poate induce aşteptări eronate la cei ce pot decide adoptarea unei anumite tehnologii la un moment dat. Însă oferă un comentariu viabil asupra evoluţiei istorice a tehnologiei respective.

    SĂ REVENIM ÎNSĂ CU POVESTEA LA ZILELE NOASTRE. Au trecut mai bine de treizeci de ani de la revoluţia lui Codd. Iar tehnologia inventată de el a trecut prin toate fazele ciclului Gartner. Bazele de date relaţionale au fost şi sunt folosite, de la apariţia lor, ca suport pentru larga majoritate a aplicaţiilor de business scrise de atunci. Iar beneficiarii pe termen lung ai rezultatelor acestui ciclu hype (să-l numim aşa) sunt, astăzi, în principal Oracle, Microsoft (cu SQL Server) şi IBM (prin DB2, urmaşul tardiv al System R, odată ce luptele politice s-au încheiat). Tăria sonoră a acestor nume şi succesul lor de 30 de ani şi mai bine arată clar cât de important este să te plasezi printre vizionari, cât mai aproape de momentul iniţial – şi cât de esenţial este să rezişti acolo după pragul deziluziei. Însă modelul lui Codd a fost definit înaintea internetului, a dispozitivelor mobile şi a reţelelor sociale. Şi, din acest motiv, astăzi îşi arată limitele. În zilele noastre cantitatea de date ce se cere stocată şi explorată este cu multe ordine de mărime mai mare decât la începutul anilor ’80. Mai important însă, datele de azi sunt deseori nestructurate, aşa cum vom vedea în continuare.

    Haideţi mai întâi să ne delectăm cu câteva cifre, preluate din studiul “Big data: The next frontier for innovation, competition, and productivity” al McKinsey Global Institute din mai 2011 şi din alte surse, grupate pe wikibon.org/blog/big-data-statistics/):
    – Se estimează că există 2,7 zettabytes (1021) de date în universul informaţional din jurul nostru (2012).
    – Erau 5 miliarde de telefoane mobile în uz în lume în 2010. Revoluţia smartphone-urilor amplifică exponenţial atât cantitatea, cât şi calitatea datelor (voce, SMS, trafic de internet) tranzitate şi colectate de aceste dispozitive.
    – Facebook publică în fiecare lună 30 de miliarde de elemente noi de conţinut (aprecieri, comentarii, fotografii, linkuri) şi analizează în bazele sale de date peste 30 de petabytes (1015) de date liber împărtăşite de utilizatorii săi. Aproximativ 35.000 de like-uri pentru diverse brand-uri sau firme sunt postate de utilizatorii Facebook în fiecare zi.
    – Google procesa în 2008 cu motorul său de căutare 20 de petabytes de date pe zi.
    – Utilizatorii YouTube încarcă în fiecare minut 48 de ore de conţinut video nou.
    – La începutul lui 2012 Twitter procesa zilnic aproximativ 175 de milioane de twitt-uri, care au conţinut potenţial relevant din punct de vedere comercial / statistic.
    – Wal-Mart gestionează peste un milion de tranzacţii cu clienţii săi zilnic şi stochează datele rezultate în baze de date estimate la 2,5 petabytes (1015).
    – 571 de website-uri noi sunt create în fiecare minut.

    Aceste cifre sunt desigur foarte greu de probat, fiind extrem de dinamice. Sunt însă plauzibile, iar ritmul în care datele se multiplică, mai ales, după cum am spus deja, de la apariţia dispozitivelor mobile inteligente, este exponenţial. Internetul este plin de astfel de statistici ale unui fenomen global care este încă în faza de clarificare şi care a ajuns să fie cunoscut sub denumirea generică (şi intenţionat ambiguă) de Big Data. Big Data este numele dat de specialişti provocării aduse de stocarea şi analiza cantităţilor mari de date ale zilelor noastre, activităţi care nu mai sunt posibile cu instrumentele tradiţionale folosite până acum.

  • Creditul pentru firme şi populaţie a crescut în iulie cu 2%, la 231,564 miliarde lei

    “Creditul în lei s-a majorat cu 1% (0,4% în termeni reali), în timp ce creditul în valută exprimat în lei a crescut cu 2,5% (exprimat în euro, creditul în valută s-a diminuat cu 0,1%). La 31 iulie 2012, creditul neguvernamental a înregistrat o creştere de 7,2% (4,1% în termeni reali) faţă de 31 iulie 2011, pe seama majorării cu 4,1% a componentei în lei (1% în termeni reali) şi cu 9% a componentei în valută exprimată în lei (exprimat în euro, creditul în valută s-a majorat cu 1,2%”, arată BNR, într-un comunicat. Creditul neguvernamental în lei acordat populaţiei a scăzut în iulie cu 0,1% faţă de iunie şi cu 3,1% faţă de aceeaşi perioadă a anului trecut, la 34,35 miliarde lei. La creditele în lei pentru firme s-a înregistrat o creştere de 1,7% în iulie comparativ cu luna precedentă, la 48,926 miliarde lei, în timp ce aprecierea faţă de iulie 2011 a fost de 9,7%.

    Mai multe pe mediafax.ro

  • RECENSĂMÂNT, rezultate preliminare: 19.043.767 de persoane au domiciliul sau reşedinţa în România

    Comisia Centrală pentru Recensământul Populaţiei şi Locuinţelor a comunucat, vineri, că din datele preliminare centralizate rezultă că populaţia stabilă a României este de 19.043.767 de persoane. Populaţia feminină este majoritară, reprezentând 51,3%, respectiv 9.764.011 din populaţia stabilă preliminară. Mai mult de jumătate dintre bărbaţi (51,8%) şi dintre femei (53,7%) locuiesc în municipii şi oraşe. La nivelul întregii ţări, densitatea populaţiei este de 79,9 locuitori pe kilometrul pătrat.

    Mai multe pe mediafax.ro

  • Autoritatea de protecţie a datelor din Germania a redeschis o anchetă împotriva Facebook

    Comisarul pentru protecţia datelor din Hamburg, Johannes Caspar, a declarat că a redeschis investigaţia, suspendată în iunie, după eşecul unor încercări repetate de a convinge Facebook să îşi schimbe politica, relatează New York Times.

    “Nu am avut altă soluţie decât să redeschidem investigaţia. Ne-am întâlnit de mai multe ori cu reprezentanţii Facebook, dar nu am obţinut cooperarea lor în această problemă, care are implicaţii asupra datelor personale”, a arătat Caspar într-un interviu.

    Cititi mai multe pe www.mediafax.ro

  • Cele mai folosite 10 parole pe Yahoo Mail

    Yahoo susţine că fatele de autentificare interceptate de hackeri provin dintr-o bază de date mai veche, din care este estimat că doar o proporţie mică de parole sunt încă actuale.

    Adam Caudill, un programator care a observat printre primii furtul datelor, a făcut o analiză a celor peste 400.000 de parole expuse, scrie Business Insider. Iată care sunt cele mai frecvente:

    123456

    password

    welcome

    ninja

    abc123

    123456789

    12345678

    sunshine

    princess

    qwerty

  • Datele noastre sunt deja acolo

    Într-un articol scris în urmă cu câteva săptămâni, intitulat “Viitorul după Gartner”, făceam un rezumat al tendinţelor tehnologice ce sunt, în opinia companiei de consultanţă şi cercetare de piaţă, esenţiale pentru înţelegerea anilor ce ne aşteaptă. Pe scurt: Gartner crede că dispozitivele mobile vor prolifera (alături de software-ul aferent) şi vor deveni sursa unor cantităţi masive de date, cu potenţial de folosire analitică. Obiectivul analizării acestor date poate fi, spre exemplu, construirea unei experinţe utilizator contextuale, personalizate, sau construirea acelui “Internet al lucrurilor” în care cuptorul conectat la internet va încălzi mâncarea favorită în timp ce plecăm de la serviciu, declanşatorul fiind informaţia de localizare transmisă de telefonul mobil. Ca şi consecinţă, Gartner prevede ascensiunea produselor de data intelligence, sprijinite de tehnologii noi de stocare şi interogare a datelor In-Memory.

    Pentru Gartner întrebarea nu pare să fie dacă aceste depozite masive de date – ajutate, contextual, de prezenţa dispozitivelor mobile – vor apărea. Previziunile companiei de analiză gravitează de mai mulţi ani în jurul acestui subiect, sub diverse forme: software social, analizele sociale, reţele sociale, business intelligence, Big Data, “Internetul lucrurilor”, “Real World Web”. Întrebarea pe care Gartner pare să şi-o pună mai degrabă este: când anume se va întâmpla? Pariul meu este că acest proces masiv de colectare de date a început deja, demult. Şi nu numai că a început deja, dar este şi un obiectiv extrem de atrăgător pentru mai mulţi furnizori de tehnologie. Voi discuta trei exemple: Amazon Silk, Carrier IQ, Apple Siri, ce sunt toate trei, în opinia mea, simptome ale aceleiaşi tendinţe.

    Amazon Silk este un tip nou de browser creat de cei de la Amazon pentru tableta Kindle Fire, lansată în septembrie 2011. Diferenţa dintre Silk şi alte browsere existente pe platforma Android, pe care e bazat şi Kindle Fire, este că Silk poate decide în mod dinamic care anume componente ale navigării pe internet să fie executate local, pe dispozitivul utilizatorului, şi care părţi să fie executate pe serverele Amazon. Este o navigare hibridă în care o parte din informaţiile traficate (potenţial private) trec prin serverele Amazon.

    Motivaţia folosită de Amazon este aceea a performanţei: pentru a executa operaţiuni costisitoare nu pe resursele dispozitivului mobil, ci pe puternicele servere din Cloud-ul Amazon, oferind astfel utilizatorului o experienţă de utilizare fluidă şi o durată de viaţă sporită a bateriei tabletei.

    Apoi avem scandalul izbucnit la sfârşitul lunii noiembrie 2011, cu privire la Carrier IQ. Carrier IQ este un start-up din Silicon Valley specializat pe oferirea de servicii analitice mobile companiilor de servicii mobile. Ce înseamnă asta, concret? Înseamnă că această companie produce un software despre care spune că este instalat azi pe 150 de milioane de dispozitive mobile din întreaga lume. Platformele cele mai populare sunt, bineînţeles, Android si iOS, softul există însă şi pe alte platforme, cum ar fi BlackBerry. Scopul softului Carrier IQ este acela de a colecta date tehnice de funcţionare a dispozitivului mobil: de pildă cauza pierderilor neaşteptate de semnal, eşecul livrării unui SMS ori parametrii conexiunii celulare, şi de a le transmite operatorului mobil spre analiză – tot Carrier IQ produce şi softul de analiză a datelor receptate. Ca şi în cazul Amazon Cloud, acelaşi discurs al grijii pentru client este folosit şi aici, de data aceasta de către operatorii mobili, pentru a instala softul Carrier IQ pe dispozitivele abonaţilor lor. Operatorii mobili folosesc aceste date, după cum o declară, pentru eliminarea problemelor de recepţie şi îmbunătăţirea calităţii serviciului oferit clienţilor lor.

  • Institutul de Statistică îşi contrazice purtătorul de cuvânt: declararea CNP la recensământ este obligatorie

    Institutul Naţional de Statistică “reiterează faptul că singura abordare corectă este cea prezentată în declaraţiile noastre de presă din 21 şi 24 octombrie”, contrazicând astfel “interpretările distorsionate” din mass-media ultimelor zile. “Interpretările distorsionate” sunt de fapt afirmaţiile purtătorului de cuvânt al Institului Naţional de Statistică, Vladimir Alexandrescu, care declarase într-o conferinţă de presă susţinută sâmbătă, 22 octombrie, că persoanele care refuză să-şi declare codul numeric personal (CNP) la recensământ pot fi înregistrate şi fără acesta şi nu riscă absolut nicio sancţiune dacă nu îl declară.

    Conform Institutului Naţional de Statistică, “colectarea codului numeric personal în procesul de recenzare este stipulată prin Legea 170/2011 privind aprobarea OUG nr. 34/2011 pentru modificarea şi completarea OG 36/2007 privind efectuarea Recensământului Populaţiei şi al Locuinţelor din România în anul 2011. Astfel, articolul 2, alin. (1) spune: “Persoanele [….] sunt obligate să furnizeze, pe propria răspundere, persoanelor care efectuează înregistrarea în formularele de recensământ datele şi informaţiile prevăzute în programul de recensământ. (2) Nerespectarea prevederilor alin.(1) atrage răspunderea contravenţională a celor vinovaţi.”

    De asemenea, articolul 12 din OUG 34/2011 precizează: “În vederea asigurării exhaustivităţii înregistrării persoanelor şi a calităţii datelor, la recensământ sunt prelucrate codul numeric personal, precum şi etnia, religia şi limba maternă, cu respectarea prevederilor Legii nr. 677/2001 pentru protecţia persoanelor cu privire la prelucrarea datelor cu caracter personal şi libera circulaţie a acestor date, cu modificările şi completările ulterioare”.

    Articolul 2, alin. (2) din H.G. 1502/2009 privind organizarea şi desfăşurarea recensământului populaţiei şi al locuinţelor din România în anul 2011 prevede că “pentru înregistrarea corectă a datelor de identificare a persoanelor, acestea vor prezenta, după caz, pentru cetăţenii români actul de identitate, certificatul de naştere în cazul minorilor, iar pentru persoanele de altă cetăţenie ori fără cetăţenie documente de trecere a frontierei sau documente eliberate de autorităţile române care atestă dreptul de şedere pe teritoriul României”.

    Art.6 (1): “Persoanele care efectuează înregistrarea, respectiv recenzorii, precum şi cele cu atribuţii de îndrumare, coordonare şi control au obligaţia să respecte întocmai prevederile prezentei hotărâri şi instrucţiunile specifice aprobate de Comisia centrală pentru recensământul populaţiei şi al locuinţelor. (2) În îndeplinirea atribuţiilor care le revin pe timpul efectuării recensământului, persoanele prevăzute la alin (1) se bucură de protecţia legii, fiind considerate ca îndeplinind funcţii ce implică exerciţiul autorităţii de stat”.

    DE CE SE COLECTEAZĂ CNP

    Potrivit explicaţiei oferite de INS, colectarea CNP prin formularele de recensământ asigură:

    – determinarea populaţiei stabile a României;

    – determinarea migraţiei internaţionale ca element important al estimărilor intercenzitare a populaţiei României (regulamentul CE nr. 862/2007 al Parlamentului European şi al Consiliului privind statisticile comunitare din domeniul migraţiei);

    – crearea premiselor necesare introducerii/adaptării şi generalizării registrelor statistice în consonanţă cu practica statelor membre ale UE;

    – exhaustivitatea datelor înregistrate şi de verificare a calităţii datelor, astfel încât să se evite omisiunile sau dubla înregistrare;

    – facilitatea prelucrării datelor.

    DATELE DESPRE ETNIE, RELIGIE, DIZABILITĂŢI SUNT OPŢIONALE

    Institutul Naţional de Statistică precizează şi că subiectele cuprinse în formularele de recensământ sunt obligatorii, mai puţin cele opţionale, respectiv: etnia, apartenenţa religioasă, limba maternă, precum şi cele legate de dizabilităţi – ultima secţiune din formularul P. “Prin urmare, informaţiile referitoare la ocupaţie, locul de muncă etc. sunt obligatorii de furnizat şi înregistrat pentru toţi subiecţii recensământului. Aceste informaţii, după prelucrarea datelor, vor fi utilizate pentru construirea statisticilor privind structura populaţiei pe ocupaţii şi grupe de ocupaţii, precum şi pe activităţi economice pentru diferite grupe de vârstă, sexe, medii de rezidenţă etc.”, se afirmă în comunicatul INS.

    În procesul de prelucrare al datelor, informaţiile sunt ulterior anonimizate, numele şi prenumele persoanelor nu sunt înscrise în baza de date, iar recenzorii sunt obligaţi să păstreze confidenţialitatea datelor. Amenzile pe care le riscă recenzorii dacă încalcă această confidenţialitate sunt între 2000 – 5000 lei, cu circumstanţă agravantă dacă nerespectarea confidenţialităţii are aspecte penale.

    În procesul de prelucrare, informaţiile vor fi utilizate numai în cadrul sistemului informatic statistic naţional (în interiorul reţelei VPN criptat). În baza de date ORACLE pe serverul INS nu există niciun fel de corespondenţă CNP – Nume şi prenume. La un an după încheierea prelucrării, formularele cu datele individuale vor fi distruse fizic, conform normelor şi procedurilor legale.

    Conform art. 13 din H.G 922/2011, alin. (1), “după terminarea prelucrării şi validării datelor, toate chestionarele care conţin date cu caracter personal sunt predate operatorilor economici specializaţi, în condiţii care să asigure confidenţialitatea datelor, pentru distrugere.”

    Totodată, conform art. 5 din H.G. 922/2011, “declaraţiile populaţiei înregistrate la recensământ NU pot fi utilizate în alte scopuri decât cele statistice şi nici pentru stabilirea unor drepturi sau obligaţii”. Aşadar, informaţiile furnizate de populaţie vor fi utilizate exclusiv în scop statistic, ele nu vor fi comunicate altor instituţii şi nu vor putea fi folosite, în nicio situaţie, de alte instituţii (în scopuri de impozitare/taxare fiscală, de îngrădire sau limitare a unor drepturi, de pierdere a cetăţeniei etc.)

  • Teama de căderea exporturilor spulberată de datele Statisticii: plus 24% în august

    Creşterea din august poate fi pusă şi pe seama companiei Dacia Renault care în august nu şi-a mai stopat producţia pentru perioada tradiţională de vacanţă, în condiţiile în care exporturile de maşini şi echipamente de transport reprezintă 40% din total. “Este o veste foarte bună care oferă pers­pective de creştere şi pentru luna septembrie”, comentează Nicolaie Chideşciuc, economist-şef al ING Bank. Este o veste cu atât mai bună cu cât comerţul cu ţările UE a continuat să crească la 27,9% faţă de media de creştere în august 2011 faţă de august 2010 de 24,1%, în vreme ce exporturile extracomunitare au încetinit în august la 16,8% (în euro), faţă de 26% în iunie.

    Cititi mai multe pe www.zf.ro

  • FMI a înrăutăţit prognoza de creştere economică pentru toate marile economii ale lumii

    Pentru anul următor, fondul a modificat prognoza pentru expansiunea economiei globale de la 4,5% în iunie la 4%, se arată în raportul Perspectiva Economiei Globale. În privinţa României, FMI a menţinut estimările de creştere la 1,5% pentru acest an şi 3,5% pentru anul umător. La încheierea misiunii FMI la Bucureşti de la sfârşitul lunii iunie, instituţia financiară a anunţat 1,5% pentru acest an şi 3,5-4% pentru anul următor. Fondul anticipează un avans mediu anual al preţurilor de consum în România de 6,4% în acest an şi 4,3% anul următor, respectiv o majorare foarte uşoară a deficitului de cont curent de la 4,5% în acest an la 4,6% în 2012. Şomajul este estimat la 5% pentru anul în curs, faţă de 7,6% în 2010, respectiv la 4,8% anul următor.

    Cititi mai multe pe www.mediafax.ro

  • Deficitul comercial a scăzut cu 5,5% în primele şapte luni

    În perioada ianuarie-iulie, exporturile au fost de 25,8 miliarde de euro, cu 25,5% mai mari faţă de cele înregistrate în aceeaşi perioadă a anului trecut, iar importurile de 31 miliarde de euro, în creştere cu 19%. În lei, deficitul comercial a scăzut cu 32%, la 21,83 miliarde lei. Ponderi importante în structura exporturilor şi importurilor sunt deţinute de maşini şi echipamente de transport (41,7% la export şi 33,9% la import) şi alte produse manufacturate (33,8% la export şi respectiv 30,6% la import).

    Cititi mai multe pe www.mediafax.ro