{"id":13221,"date":"2009-03-24T23:00:00","date_gmt":"2009-03-24T23:00:00","guid":{"rendered":"https:\/\/bm.dev.synology.me\/?p=13221"},"modified":"2026-04-02T13:33:22","modified_gmt":"2026-04-02T13:33:22","slug":"exista-internet-dincolo-de-google","status":"publish","type":"post","link":"https:\/\/bm.dev.synology.me\/?p=13221","title":{"rendered":"Exista internet dincolo de Google?"},"content":{"rendered":"<p>Arthur Bond, un avocat care locuieste in New York, a vrut sa-si cumpere un bilet dus-intors catre Londra si a tastat pe Google &ldquo;care este cel mai ieftin bilet pentru cursa de la New York la Londra miercurea viitoare&rdquo;, insa la cautare nu s-au afisat raspunsurile pe care le astepta. Prin urmare, Bond a cautat o agentie de turism si si-a procurat un bilet, in modul cel mai traditional.<\/p>\n<p>Pentru intrebari de genul celei puse de Bond, raspunsurile se gasesc pe internet, dar motoarele inca nu stiu cum sa le caute. La ora actuala, dincolo de cele 1.000 de miliarde de site-uri pe care Google le indexeaza, exista date stocate in arhive de informatii financiare, medicale, ale institutiilor de stat, cataloage de cumparaturi, ale unor biblioteci, muzee sau case de licitatii &#8211; un numar enorm de materiale invizibile pentru motoarele de cautare, pentru ca se afla in baze de date in teorie accesibile pe internet, dar care nu sunt destinate indexarii online, iar unele din ele restrang accesul doar la membri sau abonati. <\/p>\n<p>Sintagma &ldquo;deep web&rdquo;, desemnand partea invizibila a internetului, a fost lansata de BrightPlanet, o companie de tehnologii de cautare online care estima in 2001 ca informatia neindexata de pe internet era de 400-500 de ori mai multa decat cea din internetul &ldquo;cunoscut&rdquo; si &#8211; fapt cu atat mai interesant cu cat pe atunci nu aveam de-a face cu explozia blogurilor si a agregatoarelor &#8211; ca ponderea continutului de calitate si relevant pentru cautarile de specialitate este de 1.000-2.000 mai mare in &ldquo;adancul internetului&rdquo; decat in stratul de suprafata. <\/p>\n<p>BrightPlanet estima tot in 2001 ca 95% din &ldquo;deep web&rdquo; ar putea fi sondat prin intermediul unor cautari mult mai rafinate, acolo unde accesul la acest continut nu e restrictionat pentru marele public. Intre timp, intr-adevar, companiile ce opereaza motoare de cautare au dezvoltat tehnologii gratie carora pot ajunge la fisiere .pdf, .doc, .pps, .xls si alte formate preferate de institutiile sau de firmele detinatoare de baze de date. Calitatea cautarilor are insa sanse de imbunatatire, spera Anand Rajaraman, cofondator al Kosmix, un start-up unde a investit Jeff Bezos, directorul executiv al Amazon.com. Compania lui Rajaraman a dezvoltat un soft care asociaza cautarile cu bazele de date presupuse a detine informatii relevante pentru cautarile respective, apoi furnizeaza un raspuns complex pe baza aditionarii mai multor surse. &ldquo;Majoritatea motoarelor de cautare incearca sa-i ajute pe oameni sa gaseasca acul in carul cu fan; noi incercam sa-i ajutam sa exploreze carul cu fan&rdquo;, a declarat Rajaraman, citat de New York Times. <\/p>\n<p>Motoarele de cautare se bazeaza pe programe cunoscute sub numele de &ldquo;crawlers&rdquo; sau &ldquo;spiders&rdquo;, care aduna informatii urmarind hiperlinkurile care compun marea retea. Daca acest mod de abordare functioneaza bine pentru paginile de la suprafata, acestor programe le este dificil sa ajunga la paginile fara linkuri fixe, cu continut asa-numit dinamic (care apar ca rezultate ale investigarii bazelor de date pe baza completarii unor formulare online) ori la continutul intermediat de scripturi Java ori Ajax. Pentru a extrage date relevante de aici, motoarele de cautare trebuie sa stie ce baze de date au probabilitatea cea mai mare sa fie relevante pentru o anumita cautare.<\/p>\n<p>&ldquo;E cea mai interesanta problema de integrare a datelor care se poate imagina&rdquo;, a declarat Alon Halevy, fost profesor la Universitatea din Washington, in prezent conducator al unei echipe a Google ce se ocupa de aceasta problema. Strategia Google presupune crearea unui program care sa ghiceasca pur si simplu continutul fiecarei baze de date pe care o intalneste pe web, orientandu-se dupa indiciile semantice de pe pagini (formulare online). O idee asemanatoare au avut, acum opt ani, cativa cercetatori de la Universitatea California, cu incercarea de a crea un program care sa genereze termeni si sintagme de cautare adecvate pentru formularele online, astfel incat sa poata scoate la lumina cat mai mult din continutul bazei de date (de pilda, termeni cu care se poate cauta in PubMed, arhiva Bibliotecii Nationale de Medicina a SUA). <\/p>\n<p>Cititi in continure <a href=\"http:\/\/www.businessmagazin.ro\/business-hi-tech\/it\/exista-internet-dincolo-de-google.html?5541;4066500&#038;p=2\" target=\"_blank\">in ce directie se va dezvolta internetul.<\/a><\/p>\n<p><!--nextpage--><\/p>\n<p>Profesorul Juliana Freire din cadrul Universitatii din Utah lucreaza, la randul ei, la un proiect denumit Deep Peep, urmarind indexarea bazelor de date din internetul public. &ldquo;Calea cea mai complicata ar fi sa folosim drept termeni de cautare toate cuvintele din dictionar&rdquo;, spune Freire. Deep Peep insa porneste de la cateva cautari-test care sa permita intelegerea bazelor de date si deci a modului cum se pot alege in mod optim termenii de cautare. Freire sustine ca modul ei de abordare reuseste sa scoata la suprafata peste 90% din datele stocate in orice baza de date &#8211; rezultat care, afirma ea, i-a atras interesul uneia dintre marile companii ce opereaza motoare de cautare. <\/p>\n<p>In esenta, in toate tentativele de mai sus ar fi vorba deci de visul faimosului Web 3.0 &#8211; internetul semantic, unde motoarele de cautare vor fi capabile sa inteleaga nu numai mecanica unei succesiuni de caractere, ci si sensul acestora, ajungand astfel sa poata ordona rezultatele unei cautari dupa criterii de inteles. Problema e insa in ce forma ar putea sa fie prezentate rezultatele extrem de complicate ale unor astfel de cautari, fara ca utilizatorul obisnuit de internet sa se piarda in liste de surse si in pagini intregi de texte. O alta problema e directia in care se va dezvolta internetul; daca o serie de institutii publice sau publicatii si-au deschis arhivele si accepta indexarea din partea motoarelor de cautare, exista in schimb o mare varietate de baze de date ale companiilor, de pilda, care incearca sa se protejeze cat mai bine posibil de accesul inoportun al motoarelor de cautare la informatii menite sa ramana private. <\/p>\n<p>Sub toate aspectele, deci, problema &ldquo;adancurilor internetului&rdquo; ramane deschisa. Singurul lucru asupra caruia expertii sunt de acord e ca accesul la acest ocean de informatii ar imbunatati evident calitatea unui internet ajuns tot mai enervant prin cantitatea enorma de continut lipsit de relevanta. &ldquo;Impactul pe termen lung al tehnologiilor Deep Web tine mai mult de transformarea mediului de business decat de capriciile celor ce navigheaza pe internet&rdquo;, comenteaza Mike Bergman, consultant online si cel ce a inventat sintagma &ldquo;deep web&rdquo; pe cand conducea BrightPlanet. Spre exemplu, un site specializat pe domeniul sanatatii poate asocia date provenite de la companiile farmaceutice cu ultimele descoperiri din domeniul medicinei, provenite din bazele de date ale institutiilor de profil. Sau un site de stiri poate folosi datele de interes public stocate in bazele de date ale agentiilor guvernamentale. &ldquo;Marele pariu e capacitatea de a gasi surse de informatie disparate&rdquo;, spune Mike Bergman. Pariu aflat deopotriva in fata motoarelor de cautare si a celor ce vor folosi rezultatele explorarii lor in &ldquo;adancul internetului&rdquo;.  <\/p>\n<hr \/>\n<p><a href=\"http:\/\/www.businessmagazin.ro\/articole-externe\/link.html?6506;4066530\" target=\"_blank\">To Google, Googling<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Vara trecuta, Google a adaugat site-ul cu numarul 1.000 de miliarde la lista sa cu adrese web cunoscute. Oricat de mare pare acest numar, el nu reprezinta insa decat o parte din internet. Ce se intampla cu restul?<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4139],"tags":[11709,7696,5431,171,4893],"class_list":["post-13221","post","type-post","status-publish","format-standard","hentry","category-it","tag-adrese","tag-business-hi-tech","tag-google","tag-internet","tag-web"],"_links":{"self":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/13221","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=13221"}],"version-history":[{"count":1,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/13221\/revisions"}],"predecessor-version":[{"id":33732,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=\/wp\/v2\/posts\/13221\/revisions\/33732"}],"wp:attachment":[{"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=13221"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=13221"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/bm.dev.synology.me\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=13221"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}