Exploatarea blogurilor
Accesul la informație este o formulă tot mai prezentă în discursurile directorilor de gimnazii și licee, în rapoartele ce se plimbă aiurite prin ministere cu ”tineret”, ”informație”, ”educație” în coadă și, mai ales după 7.04, dejun, prânz și cină pe masa unei societăți bolnave de comunism. Pentru că cererea a început, relativ, să crească (comparând cu 2005 de exemplu), au început să apară tot felul de bloguri în spate cu tot felul de blog-ușari (de la păpușă) plictisitori. Pentru că loc pe servere este pentru toți, lumea de la noi, ca cea multă de afară, a început să scrie din plictiseală, doar-doar să fie un post în plus, cu un embed de pe iutub și un smailik din partea naratorului, s-arate c-a depus efort.
Bloggerii plictisiți, dar care măcar depun efort să ne spună ”ce gustos cap de pește am mâncat aseară” sau ”stătea veioza pe marginea noptierei mai să cadă, când m-am ridicat și am împins-o la mijloc așa cum îmi place mie” le-au dat de lucru oamenilor de știință. Aceștia au descoperit că se pot extrage informații utile din plictis-ul din blogosferă.
Andrew Gordon și colegii săi de la Institutul pentru Tehnologii Creative din Los Angeles (Universitatea din California de Sud) au încercat să învețe calculatoarele despre cauză și efect. Computerele nu sunt bune la tratarea cauzalității. Acestea pot identifica evenimentele în particular, dar este foarte dificil să le pună într-o relație (să stabilească criterii de dependență), mai ales când este vorba utilizării calculatoarelor pentru analiza experienței umane.
Dar se dovedește că virgulă calculatoarele pot învăța multe despre cauzalitate citind bloguri personale. Din milioanele (poate mai multe) postări în limba engleză publicate zilnic pe bloguri, cele mai multe sunt comentarii cu privire la ultimile știri, planuri pentru activități sau gânduri personale despre viață. Aproximativ 5% sunt relatări despre evenimente care s-au întâmplat recent autorilor.
Pentru a activa sistemul lor de calcul de învățare de la blog-uri, echipa a urmat un proces în 2 etape. Primul pas a fost urmărirea de către studenți a mii de articole și a le clasifica în ”povestioare” și ”alte genuri”. În comparație cu alte forme de discurs, oamenii folosesc diferite cuvinte cu diferite frecvențe atunci când spun o poveste (narează). ”Prin creșterea frecvențelor unor părți de vorbire cum ar fi pronumele (eu, el, voi) sau verbele la timpul trecut (am crezut, am făcut, am fost), se poate face deosebirea dintre aceste 2 tipuri, indiferent despre ce se vorbește în articolele pe care le studiem” – spune dr. Gordon. Sistemul de calcul poate analiza postările de pe bloguri și să ajungă la un rezultat, indiferent că în acel post este vorba despre o pevestioară sau nu.
Al doilea pas a fost instruiurea sistemului pentru a identifica conexiunile de cauzalitate. Aici echipa a folosit cam aceeași tehnică. Dr. Gordon și studenții săi au citit mii de înregistrări aleatorii de pe bloguri și au acordat o atenție deosebită frazelor asociate cu relații de cauzalitate (cum ar fi ”Am făcut ceva, după care s-a întâmplat altceva”). Identificând astfel de fraze în postările de pe bloguri, calculatorul le alege și clasifică pe acele care conțin o cauză și un efect, cum ar fi ”Am strâns din frâne, dar până la urmă n-am reușit să opresc bicicleta și am lovit-o pe doamna din fața mea” sau ”Doctorul m-a certat pentru că mănânc prea multe grăsimi, expunându-mă la riscuri mari de atac de cord”.
Ideea este că această descoperire va duce la dezvoltarea unui sistem care poate aduna zilnic date statistice privind viața personală a pupulației – informații care ar fi imposibil de acumulat din orice alte surse. În cele din urmă, dr. Gordon așteaptă ca analiza articolelor de pe bloguri să fie utilizate la fel ca tracker-ul de gripa de la Google (Google flu tracker), dar la o scară mult mai mare. Tracker-ul de gripă de la Google poate detecta semnele precoce ale focarelor de gripă după valul mare de termeni de căutare legat de ”gripă” într-o anumită regiune.
Web-ul ar putea fi exploatat la maxim pentru a urmări informații despre tendințele emergente și comportamente, care acoperă totul, de la consumul de droguri sau tensiuni rasiale până la preferințe în domeniul cinematografic sau al noilor produse. Blogging-ul, după natura lui, înseamnă ca oamenii să comenteze rapid anumite evenimente din viața lor de zi cu zi. Exploatând acest tip de informații s-ar putea, deasemenea, dezvălui date exacte despre cum sunt răspândite ideile și cum sunt stabilite tendințele.
În ”lumea până la web”, discuțiile despre trivialitățile din viața de zi cu zi au fost împărțite în persoană, și nu scrise, astfel încât nu au putut fi supuse la o asfel de analiză. În timp ce cautați tot felul de cuvinte și subiecte pentru a atrage cât mai mulți cititori, cât stați cu ochii pe contoare de vizitatori și statistici pentru blog realizând că vă citesc doar roboții de la Google, consolați-vă cu ideea că sistemul conceput de dr. Gordon este fascinat de activitatea voastră
Numai bine! Pușkin crește.


