luni, 14 ianuarie 2008

Web Mining intro

[Ne propunem in acest articol sa explicam conceptele Web Mining, Data Mining pentru a putea restrange apoi discutia pe un exemplu concret ce reliefeaza utilitatea acestor concepte.]

Pentru a discuta conceptul de WEB MINING trebuie sa ne referim pentru inceput la domeniul ce-l include: DATA MINING. La modul cel mai simplu cu putinta Data Mining ar reprezenta extragerea unor informatii despre date din seturi de date foarte mari.

La ce ne-ar putea ajuta asta? Domeniile de aplicatie a descoperirilor din domeniul Data Mining sunt diverse:

  • Statistica (mai concret Statistica bazata pe inferente unde folosind modele de date putem construi inferente pe o scara larga; testarea pe baza unor ipoteze, estimarea unor caracteristici numerice, descrierea asocierilor sau modelarea unor relatii sunt deasemenea tehnici ce folosesc Data Mining)
  • Inteligenta Artificiala – invatarea automata este deseori identificata cu data mining, spre exemplu: http://www.aaai.org/AITopics/html/mining.html - aici puteti gasi mai multe lucruri despre acest subiect.
  • Clustering Algorithms – pot fi folositi in Data Mining pentru impartirea seturilor de date in mai multe subseturi pe baza unor calcule de distanta (relativ la criteriile pe care le alegem). Cateva exemple de lucrari din acest domeniu puteti gasi aici: http://mars.csie.ntu.edu.tw/~cychen/olddoc/ClusteringDataMining.html .
  • Vizualizarea datelor – tehnicile de Data Mining sunt folosite pentru reliefarea unor informatii despre date ce nu sunt sesizatea la prima vedere. Un exemplu ar putea fi urmatorul: daca cineva priveste o imagine si este specialist in domeniul in care se incadreaza imaginea, aceasta ar putea fi remodelata intr-un mod mai simplu pentru ca acea persoana sa poata intelege mai multe lucruri despre modelarea obiectului spre exemplu.
  • Bazele de date – Un bun exemplu in acest caz ar fi DSS (Decision Support Systems) ce se constituie ca un ansamblu format din baze si depozite de date, precum si alte ansambluri de informatii utile, impreuna cu produse soft adecvate întocmirii rapoartelor, analizei datelor, precum si implementarii unor algoritmi de optimizare în vederea sprijinirii actului decizional al oamenilor de afaceri si nu numai.

Acum pentru ca stim mai multe lucruri despre Data Mining putem reveni la Web Mining. Web Mining este de fapt aplicarea tehnicilor de Data Mining avand la dispozitie cantitatea imensa de informatii existenta in Internet. “Intriga” pentru aplicarea Web Mining ar putea-o constitui urmatoarele probleme:

  • Gasirea de informatii relevante in Internet
  • Crearea de noi informatii folosind unele deja existente in Internet
  • Personalizarea informatiilor – ne referim la modul in care se prezinta informatia
  • Extragerea de anumite informatii despre utilizatori

Pentru a reduce confuzia cu privire la termenul de Web Mining vom imparti aceasta tehnica in mai multe activitati:

  • Gasirea resurselor
  • Selectarea informatiilor si preprocesarea lor
  • Generalizarea – gasirea modelelor
  • Analiza – interpretarea rezultatelor gasite prin modele

Pentru a exemplifica cele spuse mai sus ne vom referi la un proiect IBM – Speed Tracer (http://www.research.ibm.com/journal/sj/371/wu.html). Acesta este un tool analizarea utilizarii Internetului (Web Usage Mining) prin folosirea unor modele de browsing si generarea de rapoarte pentru a ajuta administratorii site-urilor sa restructureze continutul site-urilor si modul de navigare prin ele.

Aplicatia utilizeaza algoritmi bazati pe inferente pentru a construi arbori de traversare si identificarea sesiunilor utilizatorilor.





Rezultatul este o colectie de modele de browsing folosite la intelegerea comportamentului. Mai concret, se vor genera 3 tipuri de statistici: per user (reliefeaza numarul de referinte accesate de user si durata accesului), per cale (identificarea cailor frecevente de acces), per grup (inforamtii despre grupuri de site-uri vizitate frecvent).



Linkuri utile:

Niciun comentariu: