Web-ul semantic

Web-ul inca nu a atins varsta maturitatii. Parintele lui, Tim Berners-Lee, a initiat un proiect prin care sa-l faca mai util si mai usor de explorat, nu doar pentru utilizatorul uman, ci si pentru programe specializate.

 

Fara indoiala, web-ul este o gigantica resursa informationala. Indiferent cate dintre miliardele de pagini care-l compun sunt sarace din perspectiva continutului sau de-a dreptul gunoi, raman suficiente milioane de pagini utile pentru fiecare dintre noi. Sau, mai precis, care ne-ar putea fi utile cu conditia sa le gasim.

 

Aici insa incep problemele. Exista mai multe modalitati prin care putem sa cautam informatiile care ne intereseaza. Daca ne intereseaza un domeniu anume, dar nu ceva foarte precis – de pilda branzeturi -, atunci repertoriile (web directories) pot fi calea cea mai fireasca. Fiind organizate de regula pe mai multe niveluri, in cativa pasi ajungem la subdomenii suficient de specifice, de unde avem referinte la pagini individuale sau la repertorii specializate. O alta modalitate de cautare a informatiilor o reprezinta motoarele de cautare.

 

Daca vom cauta cu Google „cheese“ vom obtine vreo 15 milioane de rezultate. Din fericire, motoarele de cautare folosesc diferite tehnici pentru a ordona listele de rezultate in functie de relevanta, astfel incat avem sanse mari ca cele mai valoroase resurse sa le gasim intre primele. De exemplu, Google foloseste un algoritm de ordonare numit PageRank, care pleaca de la premisa ca o pagina este cu atat mai relevanta cu cat exista mai multe pagini care fac referire la ea.

 

De fapt, repertoriile si cautarile directe reprezinta pana la urma doua fatete ale aceleiasi tehnologii, bazata pe indexarea cuvintelor din paginile web si aplicarea unor metode de ordonare. Catalogarea se face de regula automat, iar ordinea referintelor respecta relevanta. Ce facem insa daca criteriile de cautare sunt mai sofisticate?

 

De pilda, vrem retete de placinte cu branza, fara marar si cu putine calorii. Aici lucrurile se complica si vom constata ca Google nu prea ne este de ajutor. Problema este ca motoarele de cautare actuale indexeaza cuvinte si foarte putine informatii structurate. De fapt, motorul de cautare nu „intelege“ ce-i cerem, nu cunoaste semnificatia termenilor dintr-o cerere si nici a textului dintr-o pagina.

Viitorul s-ar putea sa ne aduca insa un altfel de web, unul in care semnificatia informatiei sa fie mult mai importanta.

 

Proiectul „Semantic Web“ este condus chiar de Tim Berners-Lee – inventatorul web-ului – si se bazeaza in principal pe standarde, limbaje de marcare si instrumente software specializate. Ingredientul principal este insa o tehnologie de descriere a continutului numita XML, a carei istorie incepe in urma cu aproape 40 de ani.

 

La mijlocul anilor ‘60, IBM a format un grup de cercetare condus de Charles Goldfarb, care sa incerce sa rezolve problema incompatibilitatii documentelor editate cu ajutorul unor tehnologii diverse. Ideea lui a fost simpla si consistenta: nu modul cum arata un document este important, ci structura sa. Aceasta trebuie evidentiata printr-un set de „marcaje“. Insa cum fiecare tip de document isi are propria structura, a fost inventat un „meta-limbaj“ de marcare – adica un limbaj care descrie limbaje de marcare specifice tipurilor de continut.

 

Asa cum o piesa de teatru poate fi descrisa ca o succesiune de acte constand din succesiuni de scene constand din replici rostite de personaje, asa si o factura sau un contract isi are propria structura specifica. Dupa standardizare, meta-limbajul s-a numit SGML iar in anii ‘90 a fost simplificat si adaptat sub denumirea XML (eXtensible Markup Language). Proiectul web-ului semantic mizeaza pe utilizarea unor tehnici de descriere a resurselor care sa puna in evidenta semnificatia continutului si relatiile dintre diversele piese de informatie, astfel incat informatia sa fie inteligibila nu doar pentru oameni, ci si pentru masini.

 

O parte dintre aceste procedee sunt utilizate deja (de pilda RDF si RSS), dar calea este lunga. Daca, de exemplu, retetele de gatit ar fi descrise pe baza unui limbaj specific de marcare derivat din XML, atunci cu siguranta ar avea o lista standard de ingrediente si o evaluare a caloriilor – situatie in care un program specific ar putea sa-mi gaseasca retetele placintelor preferate.

 

Cu siguranta, un web semantic ar fi util nu doar pentru savanti (imaginati-va cum ar putea fi explorate bibliotecile, arhivele si muzeele), dar si pentru noi, ceilalti. De pilda, un program specializat ne-ar putea construi un ghid de calatorie pe baza unui itinerar si a unor preferinte. Ba chiar ar putea face si rezervarile.

Comments

Leave a Reply

Your email address will not be published. Required fields are marked *