Arthur Khachuyan: „Datele mari reale în publicitate”

Pe 14 martie 2017, Arthur Khachuyan, CEO al Social Data Hub, a vorbit la prelegerea BBDO. Arthur a vorbit despre monitorizarea inteligentă, construirea de modele comportamentale, recunoașterea conținutului foto și video, precum și despre alte instrumente și cercetări Social Data Hub care vă permit să vizați publicul folosind rețelele sociale și tehnologiile Big Data.

Arthur Khachuyan: „Datele mari reale în publicitate”

Arthur Khachuyan (denumit în continuare – AH): - Buna ziua! Salutare tuturor! Numele meu este Arthur Khachuyan, conduc compania Social Data Hub și suntem angajați în diverse analize intelectuale interesante ale surselor de date deschise, câmpurilor de informații și facem tot felul de cercetări interesante și așa mai departe.

Și astăzi colegii de la BBDO Group ne-au rugat să vorbim despre tehnologiile moderne de analiză a datelor mari, date mari și nu atât de mari pentru publicitate: cum este folosită, arată câteva exemple interesante. Sper că veți pune întrebări pe parcurs, pentru că pot să mă plictisesc și să nu dezvălui esența și așa mai departe, așa că nu fi sfioasă.

De fapt, direcțiile principale, unde s-au folosit vreodată un fel de soluții „aproape de date mari”, toate sunt clare - aceasta este direcționarea publicului, analiză, efectuarea unui fel de cercetare analitică de marketing. Dar este întotdeauna interesant ce date suplimentare pot fi găsite, ce semnificații suplimentare pot fi găsite după aplicarea analizei.

De ce avem nevoie de tehnologie pentru publicitate?

De unde începem? Cel mai evident lucru este publicitatea pe rețelele de socializare. Astăzi l-am scos dimineața: dintr-un motiv oarecare, VKontakte crede că ar trebui să văd această reclamă specială... Dacă este bine sau rău este a doua întrebare. Vedem că mă încadrez cu siguranță în categoria recruților:

Arthur Khachuyan: „Datele mari reale în publicitate”

Primul și cel mai interesant lucru care poate fi luat ca o soluție tehnologică... Primul lucru pe care am vrut să mă hotărăsc înainte de a începe este să definesc termenii: ce sunt date deschise și ce sunt date mari? Pentru că toți oamenii au propria lor înțelegere în această chestiune și nu vreau să impun nimănui condițiile mele, dar... Doar ca să nu existe discrepanțe.

Personal, cred că datele deschise sunt tot ceea ce pot ajunge fără autentificare sau parolă. Acesta este un profil deschis pe rețelele de socializare, acestea sunt rezultatele căutării, acestea sunt registre deschise etc. Big data, după propria mea înțelegere, văd așa: dacă este o placă de date, este un miliard de rânduri, dacă este un fel de stocare a fișierelor, este undeva un petabyte de date. Restul în terminologia mea nu sunt date mari, ci ceva de genul ăsta.

Profilare de înaltă precizie și punctare a profilului

Să mergem în ordine. Primul și cel mai interesant lucru pe care îl puteți găsi din analiza surselor de date deschise este crearea de profiluri de înaltă precizie și scorarea profilului. Ce este asta? Aceasta este o poveste în care contul tău de rețea socială poate prezice nu numai cine ești, nu doar interesele tale.

Dar acum, combinând diverse surse, poți înțelege nivelul mediu al salariului tău, cât costă apartamentul tău și unde este situat. Și toate aceste date pot fi folosite literal din mijloacele disponibile. De exemplu, dacă îți iei contul pe o rețea de socializare, uită-te, să zicem, unde locuiești, unde lucrezi; înțelegeți în ce secțiune a afacerii se află compania pentru care lucrați; descărcați posturi vacante similare de la HH și „Superjob” dacă sunteți analist, manager etc.; uită-te unde locuiești (bază, să zicem CIAN), înțelege cât costă să închiriezi o locuință în acest loc, cât costă să cumperi o locuință în acest loc, prezice aproximativ cât câștigi. În plus, folosind rețelele tale de socializare, poți înțelege cât de mult călătorești, unde ești și cât de loial ești față de angajatorul tău.

În consecință, dintr-un număr atât de mare de valori putem face orice ne dorim. Vă putem prezenta un produs care vă interesează. Vă puteți imagina un magazin online? Mergi acolo - acest magazin online îți prinde contul pe o rețea de socializare și îți spune: „Masha, tocmai te-ai despărțit de iubitul tău, iată câteva produse pentru tine.” Acesta nu este viitorul apropiat...

Cum se determină geolocalizarea unei persoane?

Răspunsuri la întrebările publicului:

  • De obicei, 80% din toate înregistrările sunt considerate a fi locul exact de reședință. Dar pentru cei care nu fac check-in nicăieri, există mai multe opțiuni: fie check-in, fie geolocalizare, fie aceasta este o analiză a postărilor și publicațiilor pentru întreaga perioadă de timp în care o persoană a scris ceva... Și undeva, va apărea ceva de genul „Vreau să cumpăr un cărucior lângă Akademicheskaya” sau „Am văzut recent graffiti urâți pe peretele de aici”. Adică, pentru aproape 80% dintre oameni, geolocalizarea, locul de muncă și locul de reședință pot fi determinate folosind date sau metadate care pot fi colectate de pe rețelele de socializare.

    Aceasta, din nou, este o analiză a postărilor. În cel mai simplu sens, aceasta este o analiză a înregistrărilor și a geolocalizărilor în rețelele sociale, care nu șterg metadatele jpeg (puteți afla ceva din asta). Dar pentru oamenii rămași, acestea sunt, de obicei, transmisiuni text: fie o persoană își „luminează” locația atunci când scrie despre ceva, fie își „luminează” telefonul, prin care puteți găsi o parte din reclamele sale pe Avito sau contul său pe „ Auto RU". Pe baza acestor date, puteți combina (de exemplu, „Vând o mașină lângă Mayakovskaya”) și să presupuneți aproximativ acest lucru.

  • Oamenii postează de obicei asta pe rețelele de socializare. Lucrăm doar cu surse deschise și aici vorbim exclusiv de surse deschise. De obicei, publică reclame, adică în șaizeci la sută din cazuri, cea mai obișnuită poveste când oamenii „și-au arătat” numărul actual de telefon mobil este reclamele pentru vânzarea a ceva. Fie în unele grupuri o persoană scrie („Vând asta sau aia acolo”), fie merge undeva.

    Da! De obicei comentează de genul: „Răspunde-mi sau trimite-mi un SMS, sună-mi numărul. Acest lucru se întâmplă foarte des cu oamenii care vând ceva, cumpără ceva pe rețelele de socializare, comunică cu cineva... În consecință, folosind acest număr poți apoi să-i linkezi profilul de pe CIAN la el, dacă a publicat vreodată ceva, sau, din nou, pe Avito. Acestea sunt pur și simplu cele mai populare, surse de top, va fi mai departe - acestea sunt Avito, CIAN și așa mai departe.

  • Aceasta se referă la un magazin online. Urmează tehnologia recunoașterii faciale și potrivirea profilului (vom vorbi despre asta). Pur teoretic, acest lucru poate fi aplicat unui magazin offline. Și, în general, marele meu vis este că atunci când apar bannere stradale, când treci pe lângă o cameră, îți „capcană” fața. Dar acest caz va fi interzis de lege pentru că este o încălcare a vieții private. Sper că se va întâmpla mai devreme sau mai târziu.
  • Din experiența personală. De foarte multe ori, atunci când o persoană îți scrie ceva, operezi asupra unor fapte din viața lui pe care parcă nu ar trebui să le cunoști... Oamenii în cele mai multe cazuri se sperie. Dar! Pe baza statisticilor recente, numărul de conturi închise pe rețelele de socializare a scăzut cu 14%. Numărul de falsuri este în creștere, numărul de conturi deschise este în creștere - oamenii se îndreaptă din ce în ce mai mult spre deschidere. Cred că în 3-4 ani vor înceta să reacționeze atât de puternic la faptul că cineva cunoaște informații despre ei pe care eventual nu ar trebui să le cunoască. Dar, de fapt, este foarte ușor de obținut uitându-se la peretele lui.

Ce se poate lua din surse deschise?

Există o listă aproximativă de lucruri care pot fi înțelese cu o fiabilitate destul de mare din surse deschise. De fapt, există și mai multe valori diferite; depinde de clientul unei astfel de cercetări. Există vreo agenție de HR care este interesată dacă înjuri pe rețelele de socializare sau undeva în spațiul public. Cineva este interesat dacă vă plac publicațiile lui Navalny sau, dimpotrivă, publicațiile din Rusia Unită sau un fel de conținut pornografic - astfel de lucruri se întâmplă destul de des.

Principalele sunt valorile familiei, costul aproximativ al unui apartament, locuință, căutarea unei mașini și așa mai departe. Pe baza acestui fapt, oamenii pot fi împărțiți în grupuri sociale. Aceștia sunt utilizatorii Moscow Tinder, cine sunt (conform pozelor lor găsite pe conturile lor de Facebook); pe baza intereselor lor, ei sunt împărțiți în diferite grupuri sociale:

Arthur Khachuyan: „Datele mari reale în publicitate”

Dacă ne apropiem de publicitate, atunci ne-am îndepărtat încet de direcționarea publicitară standard, atunci când selectați pe VKontakte că sunteți interesat de bărbații de 18 ani abonați la anumite grupuri. Am această poză în continuare, vă arăt acum:

Arthur Khachuyan: „Datele mari reale în publicitate”

Concluzia este că majoritatea serviciilor actuale care analizează, în principiu, oamenii care analizează rețelele sociale, sunt angajați în analiza intereselor... Primul lucru care vine în minte oamenilor este să analizeze grupurile de top ale abonaților lor. Poate că acest lucru funcționează pentru unii, dar personal cred că este fundamental greșit. De ce?

Like-urile tale sunt colectate și analizate

Acum ia-ți telefoanele, uită-te la grupurile tale de top - cu siguranță vor fi mai mult de 50% dintre grupurile de care ai uitat deja, acesta este un fel de conținut care este de fapt irelevant pentru tine. Nu îl consumi deloc, dar cu toate acestea sistemul te va urmări în funcție de ei: că te-ai abonat la rețete, la niște grupuri populare. Adică vei încălca sistemul care îți analizează profilul, iar interesele tale nu vor fi justificate.

Merg mai departe... Ce e acolo? Presupunem ce fac alții. În opinia noastră, cel mai adecvat mod de a evalua interesele utilizatorilor sunt like-urile. De exemplu, pe VKontakte nu există un feed de aprecieri, iar oamenii cred că nimeni nu știe ce le place. Da, unele like-uri sunt introduse pe Instagram, vedem ceva pe Facebook, dar majoritatea conținutului din anumite grupuri nu difuzează acest lucru într-un feed comun, iar oamenii trăiesc și cred că nimeni nu va ști ce le place.

Și prin colectarea anumitor conținuturi de un fel care ne interesează, culegând aceste postări, colectând aceste aprecieri, apoi verificând această persoană folosind această bază de date, putem determina cu mare acuratețe cine este, care este destinul său, de ce este interesat. Plasează-l exact într-un anumit grup social și interacționează cu el.

Cumpărarea unei mașini schimbă comportamentul

Am un astfel de exemplu. Voi face imediat o rezervă că exemplele mele sunt aproape de publicitate și aproape de marketing, pentru că, știți, majoritatea cazurilor sunt protejate de NDA și așa mai departe. Dar vor mai fi o mulțime de lucruri interesante. Deci, povestea cu acești oameni: aceștia sunt bărbați care și-au cumpărat o mașină între 2010 și 2015. Cum sa schimbat comportamentul lor social online este indicat de culoare. S-a schimbat procentul de fete printre abonați, m-am abonat la pagini publice „băiețești”, am găsit un partener sexual permanent...

Arthur Khachuyan: „Datele mari reale în publicitate”

Toată chestia asta este defalcată după marca de mașină și numărul de persoane. De aici puteți trage multe concluzii interesante despre comportamentul oamenilor și despre cum funcționează totul. Pot spune că Porsche Cayenne și Priora plantată sunt aproape identice în ceea ce privește numărul de public atras. Calitatea acestui public și comportamentul lor sunt diferite, dar cantitatea este aproximativ aceeași. Concluzia pe care o poți trage de aici este orice vrei, mai aproape de piața ta. Dacă vinzi un Audi, faci sloganul „Cumpără un Audi și fugi de părinții tăi!” și așa mai departe.

Da, acesta este un exemplu amuzant al faptului că comportamentul oamenilor pe baza analizei like-urilor, în funcție de grupul în care se mută, de conținutul pe care îl analizează - cu aproape 100% probabilitate arată clar cine ești. Pentru că dacă nu aveți acces la traficul de rețea și nu citiți mesaje personale, like-urile vă vor spune întotdeauna cine este această persoană - o femeie însărcinată, o mamă, un militar, un polițist. Și pentru tine, ca persoană care poate face reclamă, acesta este un mare succes la țintă.

Răspunsuri la întrebările publicului:

  • Fiecare coloană reprezintă numărul de persoane din această mașină; cum s-au schimbat modelele lor de comportament. Uite: oameni care și-au cumpărat un Porsche Cayenne - aproximativ 550 de persoane (galben), a crescut procentul de fete în rândul abonaților.
  • Eșantionul este reprezentat de utilizatorii rețelelor sociale „Vkontakte”, „Facebook”, „Instagram” din 2010 până în 2015. Singura precizare: mașinile selectate aici sunt cele care pot fi identificate în fotografii cu o precizie de peste 80% folosind anumite instrumente.
  • Într-o anumită perioadă de timp, mașina lui (bine, adică nu a lui, asta o lăsăm pe rețelele de socializare)... Într-o anumită perioadă de timp, o persoană a fost fotografiată constant cu mașina, a fost cu ea, publicațiile erau diferite, fotografiile erau din unghiuri diferite și așa mai departe. Va fi apoi o poză cu care oameni fac poze cu ce mașini și... Da, aceasta este a doua întrebare - încrederea în datele rețelelor de socializare.
  • De când am adus-o în discuție, din păcate, datele rețelelor sociale nu sunt întotdeauna corecte. Oamenii nu sunt întotdeauna înclinați să-și publice informațiile. Personal, am realizat un astfel de studiu: am comparat numărul de absolvenți ai universităților din Moscova cu numărul de persoane înregistrate pe rețelele sociale. În medie, pe rețelele sociale sunt înregistrați cu 60% mai mulți oameni - absolvenți ai Universității de Stat din Moscova într-un anumit an în anumite specialități - decât există de fapt în principiu. Deci da - există, firește, un procent de erori aici și nimeni nu-l ascunde. Aici pur și simplu luăm ca bază acele mașini care pot fi identificate cu mai mult de 80% probabilitate.

Lista surselor pentru antrenamentul modelului

Iată un exemplu de listă de surse care pot fi folosite, care este folosită pentru a determina cu mare siguranță profilul social al unei persoane, cine este.

Arthur Khachuyan: „Datele mari reale în publicitate”

Luăm un profil din rețelele de socializare, de la CIAN - costul unui apartament este de aproximativ, „Head-Hunter”, „Superjob” - acesta este salariul mediu pentru o anumită persoană. Sper că nu sunt reprezentanți Head Hunter aici, pentru că ei cred că nu este foarte bine să ia aceste date de la ei. Acesta este insa salariul mediu in anumite regiuni pentru anumite tipuri de activitati pentru posturi vacante.

„Avito”, „Avto.ru”: foarte des oamenii, când telefonul lor este aprins, cu siguranță îl au (într-un număr mare de cazuri) cel puțin ceva pe „Avito”, sau pe „Avto.ru”, sau pe altul mai multe site-uri de pe care poți înțelege cine sunt. Dacă pe acest număr de telefon s-a vândut un cărucior sau o mașină... Rosstat și Registrul Unificat de Stat al Persoanelor Juridice sunt și mai multe registre cu ajutorul cărora poți clasa firma angajatoare - după o anumită formulă, după un model care orice persoană poate seta (puteți determina aproximativ banii acestei persoane etc.).

Tinder ajută la colectarea de date despre situația oamenilor

În plus, există un lucru atât de interesant (în mod alternativ, este foarte amuzant în studiu) - aceasta este, din nou, colectarea de date de la Moscow Tinder folosind roboți pentru acest Tinder. S-a determinat distanța până la oameni, iar apoi a fost determinată locația lor aproximativă.

Arthur Khachuyan: „Datele mari reale în publicitate”

Obiectivul acestui studiu a fost acela de a determina numărul de conturi Tinder pe teritoriul instituțiilor guvernamentale - în Duma, parchet și așa mai departe. Dar tu, ca agent de publicitate, poți să-ți imaginezi orice vrei: ar putea fi, de exemplu, Starbucks sau altcineva... Adică numărul de persoane de pe Tinder care beau cafea de la tine, comandă ceva, sunt în magazine Referitor la această geolocalizare: aceasta se poate face cu orice serviciu.

Răspuns la o întrebare din partea publicului:

  • Tinder? Voi nu știţi? Tinder este o aplicație de întâlniri în care te uiți prin fotografii (stânga-dreapta), iar această aplicație îți arată distanța până la persoană. Dacă obțineți distanța până la această persoană din trei puncte diferite, puteți determina aproximativ (+ 5-7 metri) locația. În acest caz, pentru determinarea pe teritoriul parchetului sau al Dumei de Stat, nu este atât de dificil. Dar din nou, ar putea fi magazinul tău, ar putea fi orice.

De exemplu, cu mult, mult timp în urmă am avut un astfel de caz (nu un studiu), când am primit de la unul dintre operatorii celulari date despre densitatea traficului, date despre densitatea mișcării punctelor celulare și toate aceste informații erau suprapuse. pe coordonatele panourilor amplasate pe autostrăzi . Iar sarcina operatorului de telefonie mobilă este să determine aproximativ câți oameni trec pe acolo și ar putea vedea această reclamă publicitară.

Dacă există specialiști în publicitate pe panouri publicitare aici, puteți spune: este imposibil de înțeles cu super fiabilitate - cineva vine, cineva nu s-a uitat, cineva s-a uitat... Cu toate acestea, acesta este un exemplu despre cum există 20 de miliarde de poligoane de acestea la Moscova, pe care este densitatea acestor oameni la fiecare oră pe anumite rute... Puteți vedea prin ce treceau acești oameni în orice moment și estimați aproximativ fluxul de pasageri.

Răspuns la o întrebare din partea publicului:

  • Nimeni nu da astfel de date. Am efectuat un astfel de studiu pentru unul dintre operatori; aceasta este o poveste exclusiv internă, așa că, din păcate, nu este prezentată sub formă de imagini. Dar adesea marile agenții de publicitate nu au probleme în a contacta un operator. Cel puțin la Moscova, există multe precedente când, de exemplu, companiile de asigurări apelează la companii precum GetTaxi, care furnizează date impersonale despre vârsta șoferului, modul în care conduc (bine - rău, imprudent - nu), pentru a prezice politici și așa mai departe. Toată lumea se luptă cu asta, dar la un anumit nivel intern, oferind date anonime - cred că nimeni nu are o astfel de problemă.

Recunoașterea imaginilor și a modelelor

Daţi-i drumul. Preferatul meu este recunoașterea imaginii. Va exista o mică parte despre căutarea oamenilor după chipuri, dar în mare parte nu luăm această parte. Luăm în mod specific recunoașterea imaginii și determinăm ce este în această imagine - marca mașinii, culoarea acesteia și așa mai departe.

Arthur Khachuyan: „Datele mari reale în publicitate”

Am acest exemplu amuzant:

Arthur Khachuyan: „Datele mari reale în publicitate”

A existat un astfel de studiu despre căutarea tatuajelor pe diverse rețele sociale. În consecință, același lucru poate fi aplicat oricărei mărci, oricărei imagini vizuale, aproape oricărei imagini vizuale. Sunt acelea care nu pot fi determinate în mod fiabil (nu le luăm).

Arthur Khachuyan: „Datele mari reale în publicitate”

Iată preferatul meu. Mărcile de mașini apelează destul de des la această sarcină, deoarece sarcina lor, de exemplu, este să găsească toți proprietarii unor BMW X6, să înțeleagă cine sunt, cum sunt conectați între ei, ce le interesează și așa mai departe. Aceasta se referă la întrebarea cu ce mașini se pozează oamenii pe rețelele sociale.

Arthur Khachuyan: „Datele mari reale în publicitate”

Aici nu era deloc filtrare: obiectul era al lor, mașina nu era a lor; Este doar defecțiunea mașinilor – vârsta și așa mai departe. Dar recunoașterea vizuală a imaginii este folosită destul de des: aceasta este căutarea femeilor însărcinate și căutarea logo-urilor mărcilor într-un fel de mass-media (cine postează ce).

Arthur Khachuyan: „Datele mari reale în publicitate”

Cazul meu preferat (care este folosit de diverse restaurante): ce fel de rulouri sunt postate pe o rețea de socializare. Este un lucru amuzant, dar de fapt îți permite să înțelegi o mulțime de lucruri interesante, în primul rând, despre proprii clienți: cine a venit la tine și de ce au făcut-o. Pentru că nu este un secret pentru nimeni că în barurile de sushi, majoritatea oamenilor (nu voi spune „fete”) fac poze pentru a se face check-in, a fotografia ceva etc.

Brandul poate profita de acest lucru. Brandul este interesat de ce fel de produse are nevoie pentru a fotografia și a posta frumos, ce fel de oameni au venit acolo. Acest lucru se poate face cu aproape orice, de la mâncare.

Recunoașterea modelelor video

Răspuns la o întrebare din partea publicului:

  • Nu pe video. Îl avem în modul de testare. Am încercat această tehnologie, dar se dovedește că... Recunoaște totul cu video destul de bine, dar nu am găsit o aplicație pentru ea nicăieri. Pa. În afară de a analiza cât și ce bloggeri video vorbesc pe undeva... A existat un astfel de studiu. Câte dintre fețele lor se întâlnesc, cât de des. Dar mărcile nu și-au dat seama încă de unde să vină cu asta. Poate că într-o zi va veni.

Din nou, aceasta este mâncare, poate fi femei însărcinate, bărbați (nu însărcinați), mașini - orice.

Ca opțiune, a existat un studiu de Anul Nou pentru un mijloc de presă. De asemenea, departe de publicitate, dar totuși. Iată ce fel de mâncare au postit oamenii de Anul Nou:

Arthur Khachuyan: „Datele mari reale în publicitate”

Aici este, de asemenea, defalcat după vârstă. Se poate observa o astfel de corelație încât tinerii comandă mai ales mâncare, adulții fac mai ales o masă tradițională. Este un lucru amuzant, dar imaginându-l ca proprietar de brand, poți evalua un număr mare de lucruri: cine se ocupă de produsul tău și cum, ce scriu despre el. Adesea, oamenii nu menționează întotdeauna marca în sine în text, iar sistemele tradiționale de monitorizare analitică nu pot înțelege și găsi întotdeauna această mențiune a mărcii doar pentru că nu este menționată în text. Sau textul este scris greșit, nu există etichete hash sau altceva.

Fotografiile sunt vizibile. Cu fotografie, puteți spune dacă este subiectul central al cadrului sau nu subiectul central al cadrului. Apoi puteți vedea ce a scris această persoană. Dar cel mai adesea este folosit ca o căutare a publicului potențial care a condus anumite mașini și așa mai departe. Și apoi vom face o mulțime de lucruri interesante cu aceste mașini.

Boții sunt învățați să imite oamenii

A existat și o astfel de opțiune pentru utilizarea numărării de persoane:

Arthur Khachuyan: „Datele mari reale în publicitate”

Există o opțiune de comparare a oamenilor, atunci când trebuie să găsești oameni folosind unele fotografii, să le înțelegi profilul social, cine sunt. Din nou, revenim la întrebarea că, dacă avem o cameră într-un magazin offline, atunci aceasta este o modalitate destul de bună de a înțelege cine vine la tine, cine sunt acești oameni, ce îi interesează, ce i-a determinat să vină la tine. .

Urmează cel mai interesant lucru: dacă le colectăm conturile pe rețelele de socializare, înțelegem cine sunt acești oameni, ce îi interesează, putem (ca opțiune) să facem un bot asemănător acestor oameni; acest bot va începe să trăiască ca acești oameni și să analizeze ce reclame vede pe diverse rețele sociale. Acest lucru vă va permite să înțelegeți cu exactitate ce mărci sunt vizate de această persoană. Aceasta este, de asemenea, o poveste destul de comună atunci când trebuie să analizezi nu numai cine este această persoană și ce interese are, ci și ce fel de publicitate ar trebui să vizeze potențialii tăi concurenți sau alte persoane interesate.

Arthur Khachuyan: „Datele mari reale în publicitate”

Analiza conexiunilor în rețelele sociale

Arthur Khachuyan: „Datele mari reale în publicitate”

Următorul lucru interesant este analiza relațiilor dintre oameni. De fapt, analiza conexiunilor din rețea, aceste grafice de rețea - nu este un pic, nimic nou în asta, toată lumea știe asta.

Arthur Khachuyan: „Datele mari reale în publicitate”

Dar aplicația la sarcinile de publicitate este cea mai interesantă. Aceasta este o căutare de oameni care stabilesc tendințe, aceasta este o căutare de oameni care difuzează informații după anumite criterii în cadrul acestei rețele. Să presupunem că ne interesează aceiași proprietari ai unui anumit model BMW. Adunându-i pe toți împreună, îi putem găsi pe cei care controlează opinia publică. Aceștia nu sunt neapărat bloggeri auto și așa mai departe. De obicei, aceștia sunt simpli camarazi care stau în diverse pagini publice, sunt interesați de un anumit conținut și pot, într-o perioadă foarte scurtă de timp, să atragă brandul tău sau pe cineva de interes pentru tine în acest domeniu de responsabilitate, în zona ​interesul.

Există un astfel de exemplu aici. Avem niște oameni potențiali, conexiuni între oameni. Aici cei portocalii sunt oameni, punctele mici sunt grupuri comune, prieteni comuni.

Arthur Khachuyan: „Datele mari reale în publicitate”

Dacă adunați toate aceste legături între ei, puteți vedea foarte clar că există oameni care au un număr mare de grupuri comune, prieteni comuni, sunt acolo între ei... Și dacă această vizualizare este împărțită în grupuri după interese, după conținut, pe care îl distribuie, cât de mult interacționează între ei... Aici puteți vedea că poza anterioară a devenit așa:

Arthur Khachuyan: „Datele mari reale în publicitate”

Aici grupurile se disting clar prin culoare. În acest caz, aceștia sunt masteranzii noștri de la Școala Superioară de Economie. Aici puteți vedea că cei violet/albastru sunt cei care iubesc paginile publice ale Transparency International, Open Russia și Khodorkovsky. În stânga jos sunt cei verzi, cei care iubesc Rusia Unită.

Puteți vedea că imaginea anterioară era așa (acestea sunt doar conexiuni între oameni), dar a devenit clar delimitată. Adică toți oamenii sunt mereu legați unii cu alții, au aceleași interese, sunt prieteni unul cu celălalt. Sunt unii deasupra, alții de jos și alți camarazi acolo. Și dacă fiecare dintre aceste subgrafe mici este vizualizat separat cu alți parametri și se uită la viteza de difuzare a conținutului (în linii mari, cine repostează ce acolo), puteți găsi în fiecare parte una sau două persoane care dețin întotdeauna opinia publică în mâinile lor, interacționând cu care, cerând să trimiteți un fel de postare sau altceva - puteți obține un răspuns de la întreaga audiență interesantă.

Mai am un astfel de exemplu. De asemenea, un grafic: aceștia sunt angajații Grupului BBDO găsiți pe rețelele de socializare ca exemplu. Pare neinteresant, mare, verde, conexiuni între ei...

Arthur Khachuyan: „Datele mari reale în publicitate”

Dar am o opțiune în care grupurile sunt deja construite între ei. Apoi, dacă cineva este interesat, există o versiune interactivă - puteți face clic și aruncați o privire.

Sus, în dreapta, sunt cei care îl iubesc pe Putin. Aici cei mov sunt designerii; cei care sunt interesați de design, ceva interesant și așa mai departe. Aici lucrurile albe sunt echipa de conducere (aparent, din câte am înțeles); Aceștia sunt oameni care, în general, nu sunt conectați în niciun fel, dar lucrează aproximativ în aceleași posturi. Restul sunt grupurile lor comune, conexiunile și așa mai departe.

Brandurile nu au nevoie de bloggeri, ci de lideri de opinie

Luăm acești oameni și îi găsim - atunci agenția de publicitate, compania de publicitate decide singură: poate să dea bani acestei persoane, astfel încât să interacționeze cumva cu acest conținut, cu altceva, sau să își direcționeze propria campanie de publicitate specifică către ei. Acesta este, de asemenea, folosit destul de des, mai ales acum, pentru că toate mărcile vor să colaboreze cu bloggerii, vor ca conținutul lor să fie promovat, dar agențiile de publicitate nu prea vor să contacteze (ei bine, asta se întâmplă).

Și adevărata cale de ieșire din această situație este să găsim oameni care nu sunt bloggeri, nu bloggeri de frumusețe, ci, de exemplu, niște ființe reale care interacționează cu acest brand, care pot scrie într-o pagină publică jalnică „Răspunsuri Mail.ru”, obține un anumit număr de vizualizări. Acești oameni, care sunt constant interesați de conținutul acestei persoane, vor răspândi totul, iar brandul își va obține implicarea.

A doua opțiune pentru utilizarea unei astfel de tehnologii acum este destul de relevantă - căutarea de roboți, preferatul meu. Acesta este un risc reputațional pentru concurenții dvs. și o oportunitate de a elimina persoanele irelevante dintr-o campanie de publicitate și orice altceva (ștergerea comentariilor și căutarea conexiunilor între oameni). Am un astfel de exemplu, este și mare și interactiv - îl poți muta. Acestea sunt conexiuni ale persoanelor care au scris comentarii în comunitatea Lentach.

Acest exemplu este astfel încât să înțelegeți cât de bine și cât de ușor de vizibili sunt roboții; și pentru aceasta nu este nevoie să aveți cunoștințe tehnice. Aceasta înseamnă că „Lentach” a publicat o postare despre ancheta FBK despre Dmitri Medvedev, iar anumite persoane au început să scrie comentarii. Am adunat toți oamenii care au scris comentarii - acești oameni sunt verzi. Acum o voi muta:

Arthur Khachuyan: „Datele mari reale în publicitate”

Oamenii sunt cei verzi (care au scris comentariile). Ei sunt aici, sunt aici. Punctele albastre dintre ele sunt grupurile lor comune, punctele galbene sunt abonații, prietenii lor comuni și așa mai departe. Cea mai mare parte a oamenilor sunt conectate între ei. Pentru că, oricare ar fi teoria a trei, patru, cinci strângeri de mână, toți oamenii sunt conectați între ei pe rețelele de socializare. Nu există oameni care să fie despărțiți unul de celălalt. Chiar și prietenii mei fobi sociali care folosesc VKontakte exclusiv pentru a viziona videoclipuri sunt încă abonați la unele dintre aceleași pagini publice ca și noi.

Navalny folosește și roboți. Toată lumea are roboți

Cea mai mare parte a oamenilor (aici este, aici) sunt conectați unul cu celălalt. Dar există un grup atât de mic de camarazi care sunt prieteni exclusiv unul cu celălalt. Iată-i, cei mici verzi, iată prietenii și grupurile lor comune. Au căzut chiar și separat aici:

Arthur Khachuyan: „Datele mari reale în publicitate”

Și printr-o coincidență norocoasă, tocmai acești oameni au scris sub această postare: „Navalny nu are dovezi” și așa mai departe și au scris aceleași comentarii. Desigur, nu îndrăznesc să trag concluzii. Dar totuși, am mai avut o postare pe Facebook, când a fost o dezbatere între Lebedev și Navalny, am analizat comentariile la fel: s-a dovedit că toți cei care au scris „Lebedev e un rahat”, nu fuseseră pe rețele de socializare. Rețelele recent patru luni, nu s-au abonat la niciuna dintre paginile publice, s-au dus brusc la această postare, a scris acest comentariu exact și a plecat. Din nou, este imposibil să trag concluzii de aici, dar cineva din echipa lui Navalny mi-a scris un comentariu că nu folosește roboți. Ei bine, bine!

Mai aproape de publicitate, mai aproape de brand. Toată lumea are boți acum! Noi le avem, concurenții noștri le au, iar alții le au. Trebuie să fie aruncați afară sau lăsați să trăiască bine; Pe baza unor astfel de date (indică diapozitivul anterior), aduceți-le la perfecțiune, astfel încât să arate ca oameni reali și abia apoi să le folosiți. Deși folosirea boților este rău! Cu toate acestea, o poveste destul de comună...

În modul automat, așa ceva vă permite să filtrați din analiză persoanele care sunt irelevante pentru analiză, persoane care nu ar trebui să fie incluse în eșantion, nu ar trebui să fie incluse în acest studiu. Foarte des folosit. Din nou, nu toți proprietarii de mașini dețin efectiv mașini. Uneori oamenii sunt interesați doar de oamenii care pot avea o mașină, care stau în niște grupuri, comunică cu cineva, au un anumit public acolo.

Analiza faptelor și opiniilor

Următorul pe care îl am este și preferatul meu. Aceasta este o analiză a faptelor și a opiniilor.

Arthur Khachuyan: „Datele mari reale în publicitate”

În zilele noastre, toată lumea știe să-și menționeze marca în diverse surse. Nu există niciun secret în acest sens. Și toată lumea pare să poată calcula tonalitatea... Deși personal, cred că metrica tonalității în sine nu este foarte interesantă, pentru că atunci când vii și îi spui clientului: „Omule, ai 37% neutru”, și el spune așa. , " Wow! Misto!" Prin urmare, ar fi mai interesant să treceți puțin mai departe: de la evaluarea sentimentului la evaluarea opiniilor despre ceea ce spun ei despre produsul dvs.

Și acesta este și un lucru foarte interesant, pentru că... eu personal cred că în principiu nu pot exista mesaje neutre, pentru că dacă o persoană scrie ceva în spațiul public, acest mesaj este cumva colorat în vreun fel. Eu personal nu am văzut niciodată un mesaj neutru care să menționeze o marcă. De obicei este un fel de murdărie.

Dacă luăm un număr mare din aceste mesaje (ar putea fi milioane, 10 milioane), scoatem în evidență ideea principală din fiecare mesaj, le combinăm, putem înțelege destul de sigur ce spun oamenii despre acest brand, ce cred. „Nu-mi place ambalajul”, „Nu-mi place consistența” și așa mai departe.

Ce părere au oamenii despre Transaero, Chupa Chups și președintele Statelor Unite?

Am un exemplu amuzant: acesta este un infografic despre ce ar face utilizatorii rețelelor sociale cu compania Transaero după falimentul acesteia.

Arthur Khachuyan: „Datele mari reale în publicitate”

Există multe exemple interesante acolo: ardeți, ucideți, deportați în Europa, au fost chiar 2% care au scris - „Trimiteți-i în Siria pentru operațiuni militare”. Trecând de la chestia amuzantă, ar putea fi aproape orice marcă - de la mâncarea mea preferată pentru câini la unele mașini. Cui nu-i place ambalajul, cui nu-i plac lucrurile reale – poți oricând să lucrezi cu asta, poți oricând să ții cont de asta. Există un număr mare de exemple când oamenii aproape că și-au schimbat producția produselor pentru că au scris pe rețelele de socializare că Chupa Chups nu era suficient de rotund sau nu era suficient de dulce.

Mai este un exemplu amuzant. Ghici ce comentarii și despre cine?

Arthur Khachuyan: „Datele mari reale în publicitate”

Din anumite motive, acum analiza opiniilor, analiza faptelor extrase din mesaje, nu este foarte folosită și nu este foarte răspândită. Deși această tehnologie nu este super secretă, practic nu există deloc know-how în asta, deoarece din comentariile oamenilor, extragerea subiectului, predicatul și gruparea lor nu necesită un geniu în lingvistica computațională. Nu este atât de greu de făcut. Dar sper că în următorii câțiva ani oamenii vor începe să folosească acest lucru, pentru că... Va fi tare - acesta este un feedback atât de automat! Știi mereu ce spun ei despre tine. Ei bine, înțelegi că asta a fost făcut despre președintele SUA.

Răspuns la o întrebare din partea publicului:

  • Da, acesta este Facebook în engleză. Aici sunt traduse în rusă. Asta a fost scris undeva.

Big Data și tehnologiile politice

De fapt, am multe exemple interesante de politică despre Trump și despre toți ceilalți, dar am decis să nu le aducem aici. Dar există un exemplu politic.

Acestea sunt alegeri pentru Duma de Stat. Când ai fost? Anul trecut? Acum aproape un an și jumătate.

Arthur Khachuyan: „Datele mari reale în publicitate”

Iată oameni care au putut să-și determine locația exactă, până la un anumit geopunct, pentru a înțelege în ce circumscripție electorală se încadrează. Și apoi de la acești oameni s-au luat doar cei care și-au exprimat părerea hotărâtă, pentru care ar vota.

Din punctul de vedere al tehnologiei politice, acest lucru nu este foarte corect, pentru că toată treaba trebuie normalizată prin densitatea populației și așa mai departe. Cu toate acestea, albaștrii de aici vor vota știi pe cine, roșii vor vota camarazii de opoziție, dintre care, apropo, nu au fost mulți.

Eu personal cred că Big Data nu va ajunge curând la tehnologiile politice, dar, ca opțiune, candidatul este și un brand. Și aceasta este, într-o oarecare măsură, o analiză a faptelor și a opiniilor despre marca dvs. și un lucru destul de interesant, pentru că puteți înțelege în timp real cine face ce. Cunosc mai multe cazuri de la BBC, când au monitorizat rețelele de socializare în timp real într-o emisiune: a existat așa și așa răspuns, oamenii scriu despre asta, pun așa și așa întrebare - și e grozav! Cred că va fi folosit foarte curând, pentru că este interesant pentru toată lumea.

Modelarea pozițiilor mărcii

Arthur Khachuyan: „Datele mari reale în publicitate”

În continuare am modelarea pozițiilor mărcii. O bucată mică și scurtă despre cum puteți clasa mărcile folosind diverse valori (nu placerea abonaților de pe rețelele sociale, ci folosind metrici complexe, interes pentru conținut, timpul petrecut primind valori).

Arthur Khachuyan: „Datele mari reale în publicitate”

Am un exemplu de „farma” dintr-un anumit motiv. Aici cercurile mici sunt interne, luminoase - aceasta este cantitatea de conținut text creat de marca în sine, cercul mare este cantitatea de conținut foto și video pe care marca însuși o creează.

Apropierea de centru arată cât de interesant este conținutul pentru public. Există un model mare, există o grămadă de tot felul de parametri: like-uri, repostări, timp de răspuns, cine a distribuit acolo în medie... Aici puteți vedea: există un minunat „Kagotsel”, care pompează o cantitate imensă de bani pentru a-și crea propriul conținut și, din această cauză, sunt destul de aproape de centru. Și sunt camarazi care își creează și propriul conținut, dar publicul nu este interesat de el. Acesta nu este un exemplu foarte adecvat, deoarece toate aceste conturi sunt practic moarte.

Yegor Creed este iubit mai mult decât Basta

Arthur Khachuyan: „Datele mari reale în publicitate”

Din păcate, restul... din ce să arate... Ei bine, sunt și rapperi ruși, opțional, de la firme reale.

Care este plusul? Cert este că o companie poate pune aproape orice într-un astfel de model, începând de la salariul mediu al abonaților care lucrează pentru brandul tău; orice model le place. Deoarece fiecare agenție de publicitate își calculează propriile valori în mod diferit, mărcile își calculează propriile valori în mod diferit.

Există și unul aici - Basta, care generează o cantitate mare de conținut, dar este situat la periferie, deoarece acest conținut aparent nu este foarte interesant pentru public. Din nou, nu mă asum să judec. Dar, cu toate acestea, există Yegor Creed, care, potrivit rețelelor de socializare, este aproape cel mai bun performer al timpului nostru, dar își publică doar fotografiile personale. Cu toate acestea, are un număr mare de abonați: sunt undeva în jur de un milion. Nu-mi amintesc numărul exact; Îmi amintesc că procentul de implicare al acestor oameni este mult mai mare de 85%, adică la un milion de abonați primește 850 de mii de răspunsuri de la acești oameni reali - aceasta este o adevărată nebunie. Asta este adevărat.

Arthur Khachuyan: „Datele mari reale în publicitate”

Răspunsuri la întrebările publicului:

Cât timp a durat crearea modelului de analiză a rapperului?

  • Fiecare are propriul public țintă, interesele acestor oameni sunt calculate pentru fiecare... Toate acestea sunt normalizate la distanța față de centru aproximativ, poziția lor radială nu este importantă (este pur și simplu uns aici pentru frumusețe, astfel încât să facă să nu se întâlnească unul cu altul). Doar apropierea aproximativă de centru este importantă. Acesta este modelul pe care îl folosim. De exemplu, îmi place mai mult cercul, unii oameni îl fac în minte ca un semicerc.
  • Acest model a fost compilat rapid, în două-trei ore (da, o persoană). Aici s-au introdus doar valori: ceea ce înmulțim cu ce, îl adunăm și apoi îl normalizăm cumva. Depinde de model. Sunt oameni care sunt interesați de salariul mediu (nu este o glumă) al abonaților lor. Și pentru asta trebuie să le găsești contactele, Avito, să calculezi totul, să le înmulți. Se întâmplă că este nevoie de mult timp pentru a ține cont, dar în special acest lucru (indică diapozitivul anterior) - parametrii de aici sunt foarte simpli: abonați, repostări și așa mai departe. A durat aproximativ două-trei ore pentru a finaliza. În consecință, acest lucru este apoi actualizat în timp real și îl puteți folosi.

Acum vine partea distractivă. Am terminat cu exemplele, pentru că nu e interesant să vorbești mult timp singur. Și sper că acum veți pune întrebări și, de fapt, vom trece de la subiect la subiect, pentru că am astfel de exemple despre cum pot fi folosite tehnologiile și așa mai departe...

Răspunsuri la întrebările publicului:

  • Am avut un singur caz personal cu unul, ca să spunem așa, „aproape de cazinou”, când o cameră era plasată acolo, fețele erau recunoscute și așa mai departe. Procentul de oameni recunoscuți este cu siguranță destul de mare - atât al nostru, cât și al concurenților noștri. Dar de fapt este destul de interesant. Văd asta ca un lucru interesant: poți înțelege cine sunt acești oameni și poți prezice destul de bine de ce anume au venit aici, ce s-a schimbat atât de mult în viața lor încât au decis să vină la cazinou. Dar în ceea ce privește anumite tipuri de afaceri... Dacă pui așa ceva într-o farmacie, atunci nu are rost - nu poți prezice de ce a venit o persoană la farmacie.

    Sarcina globală aici a fost să construiești un model pentru a înțelege când o persoană dorește potențial să fie interesată de marca ta, astfel încât să-i poți face publicitate nu după ce a cumpărat ceva (cum se întâmplă acum), ci să-i faci reclamă.” în prognoza” când se vor întâmpla toate acestea. A fost interesant cu un astfel de „aproape de cazinou”; s-a dovedit a fi un procent destul de interesant din acești oameni - de ce: cineva a primit brusc o promovare, altcineva a primit altceva - informații atât de interesante. Dar cu niște magazine, cu retail, cu un magazin de un fel de pastile, mi se pare că nu va fi foarte corect.

Big Data este folosit offline?

  • A fost offline. Trebuie doar să înțelegeți exact, aproximativ, dacă acest model se va potrivi sau nu. Din nou, cu apa spumanta... de fapt ma intereseaza totul, dar personal nu inteleg cat de mult, cum pot depinde profilurile acestor oameni, comportamentul lor de cand vor sa cumpere apa imbuteliata. Deși acest lucru poate fi cu adevărat adevărat, nu știu.

Câte conturi de social media sunt deschise?

  • Avem în mod special 11 rețele sociale - acestea sunt „Vkontakte”, „Facebook”, „Twitter”, „Odnoklassniki”, „Instagram” și câteva lucruri mici (pot să mă uit la listă, cum ar fi „Mail.ru” și așa mai departe) . Pe VKontakte avem cu siguranță o copie a tuturor acești camarazi. Avem oameni pe VKontakte - adică 430 de milioane dintre toți cei care au existat vreodată (dintre care aproximativ 200 de milioane sunt activi în mod constant); există grupuri, există conexiuni între acești oameni și există conținut care ne interesează (text), și o parte din mass-media, dar foarte mică... În linii mari, ne uităm la această imagine: dacă există fețe acolo, salvează-le, dacă există o meme, le salvăm. Nu o salvăm, pentru că nici măcar noi nu am avea suficient pentru a salva conținutul media.

    Există un Facebook în limba rusă. Undeva acum 60-80% sunt Odnoklassniki, în câteva luni probabil le vom duce pe toate până la capăt. Instagram rusesc. Pentru toate aceste rețele sociale există grupuri, oameni, conexiuni între ele și text.

  • Aproximativ 400 de milioane de oameni. Există o subtilitate: sunt oameni al căror oraș nu este specificat (sunt potențial ruși/neruși); Dintre acestea, media pentru rețelele sociale este de 14% din conturile închise de pe VKontakte, nu știu cifra exactă pe Facebook.
  • De asemenea, nu salvăm media pe Instagram - doar dacă există fețe acolo. Nu stocăm astfel de (alte) conținuturi media. De obicei interesante: doar text, conexiuni între oameni; Toate. Cea mai frecventă cercetare pe Instagram este cercetarea obișnuită asupra audienței: cine sunt acești oameni și, cel mai important, legătura acestor persoane cu alte rețele sociale. Găsiți profilul acestei persoane pe Vkontakte și Facebook pentru a-i calcula vârsta și așa mai departe.
  • Nu este nevoie să-i asumi pe toți ceilalți încă - pur și simplu pentru că nu există clienți. În ceea ce privește limba: avem rusă, engleză, spaniolă, dar totuși aceasta este folosită exclusiv pentru mărcile din Rusia; bine, sau companiile care le aduc din Rusia.
  • Intervievăm oamenii în fiecare zi în multe, multe, multe fire de discuție: colectăm date prin colectarea web și actualizăm acești indicatori folosind Api. În 2-3 zile puteți parcurge întregul „VKontakte”, parcurgându-le; În aproximativ o săptămână poți parcurge întregul Facebook, înțelegând cine a actualizat ce și ce nu. Și apoi reasamblați acești oameni separat: ce s-a schimbat exact, scrieți toată povestea. Foarte rar, din experiența mea, vechiul profil de socializare al cuiva a fost folosit în vreun scop comercial real. Acesta a fost momentul în care o persoană politică a aplicat, iar sarcina lui era să înțeleagă ce fel de oameni vin la sediu, cine erau acești oameni în urmă cu 6-8 luni (și-au șters profilul, dar de fapt pentru un alt candidat au ajuns buletinele de vot? strica).

    Și de câteva ori - povești personale când fotografiile cuiva au fost publicate în domeniul public. A fost necesar să găsim conexiuni etc. Din păcate, este păcat, dar nu putem depune mărturie în instanță, deoarece baza noastră de date este nelichidă din punct de vedere juridic.

  • Stocarea MongoDB este preferata mea.

Rețelele sociale încearcă să lupte cu colectarea datelor

  • De obicei, încărcăm doar o listă a acestor conturi către agenții de publicitate, iar apoi o folosesc pe cea standard... Adică, pe rețelele sociale, pe VKontakte, puteți specifica o listă a acestor persoane.

    Dar Facebook folosește cookie-uri achiziționate. Noi înșine nu lucrăm cu cookie-uri, dar au existat mai multe povești când advertiserul însuși le-a dat unor oameni, am interacționat cu ei - au aceste rețele, cu publicitate teaser, non-teaser, aceste „cookie-uri”. Îl poți lega - fără îndoială! Dar nu prea îmi plac chestiile astea pentru că nu cred că sunt foarte autentice. Acest lucru este pur și simplu în opinia mea, este ca TNS, care „urmărește” televizoare - nu este clar dacă vă uitați la acest televizor sau nu, dacă spălați vasele în timp ce televizorul este pornit... Și este la fel și aici : Foarte des caut pe google ceva pe Internet, dar asta nu înseamnă că vreau să-l cumpăr.

  • Dacă utilizați un fel de rețea de publicitate contextuală standard: am avut mai multe povești când le-am descărcat acești oameni și am încercat, folosind interfețele lor, să le conectăm cu „cookie-uri” de pe site-urile lor. Dar nu prea îmi plac astfel de lucruri.

Formula de calcul a salariului unui utilizator de internet

  • Formula generală pentru salariul mediu: aceasta este regiunea în care locuiește o persoană, aceasta este categoria de afaceri în care lucrează (adică firma care îi este angajator), apoi se ia poziția sa în această companie, media salariul pentru acest post este estimat... Salariul mediu luat de la „Head Hunter” și „Superjob” (și există mai multe alte surse) pentru un anumit post vacant într-o anumită regiune și pentru un anumit context de afaceri.

    Din „Avito” și „Avto.ru” parametri suplimentari sunt de obicei luați dacă o persoană a iluminat telefonul. Cu Avito poți vedea ce fel de lucruri vinde o persoană - scumpe, ieftine, folosite, nefolosite. Cu „Avto.ru” puteți vedea dacă are o mașină - o deține, nu o deține. Este undeva mai puțin de 20% dintre persoanele care și-au scăpat accidental telefonul undeva, iar contul lor poate fi conectat cu aceste date.

Ce volume operează compania de colectare a datelor?

  • Volumul fotografiilor stocate în petabytes este de 6,4. Nu pot spune exact rata de creștere acum, pentru că în 2016 am început să înregistrăm „periscoape” și tocmai am început să înregistrăm video.

    Nu pot spune exact când a fost zero. Ne-am mutat de la o companie la alta - toate acestea sunt povești lungi. Dar pot spune că VK, Facebook, Instagram și Twitter - toată această afacere (oameni, grupuri și conexiuni între ei) cu text și conținut - nu sunt de fapt multe date, este puțin probabil ca chiar și un petabyte să fie suficient. Cred că sunt 700 de gigaocteți, probabil 800.

Ajuți clienții să determine nișa actuală și unde să sape?

  • Când vine un client, îi sugerăm astfel de lucruri, dar noi înșine, ca Google Trends, nu facem astfel de lucruri.
  • Am avut mai multe povești aproape sociologice, cu istorie electorală, preelectorală – am analizat totul. Cu mărcile și evaluarea opiniilor despre mărci, totul este aproape întotdeauna de acord. Iată poveștile despre alegeri - nu (cu o evaluare a candidatului care ar trebui să câștige). Nu știu cine greșește aici – noi sau cei care gândesc în VTsIOM.
  • De obicei, luăm aceste rezultate de control de la marca în sine, ei le iau de la tovarășii care comandă cercetări - cercetare telefonică, cercetare de marketing și așa mai departe. În plus, toată chestia asta poate fi verificată cu lucruri de bază: cineva a răspuns la lista de corespondență, cineva a făcut sondaje... Dacă este o marcă mare (Coca-Cola, de exemplu), cu siguranță au un milion sau două recenzii interne de la clienți. – acestea nu sunt doar comentarii pe rețelele de socializare și unele opinii; Acestea sunt niște sisteme interne, recenzii și așa mai departe.

Legea nu „știe” ce sunt datele personale!

  • Analizăm exclusiv surse de date deschise și nu ne implicăm niciodată în trucuri murdare. Modelul nostru se bazează pe faptul că stocăm toate datele deschise în unele centre de date publice, le închiriem în altă parte și le analizăm acasă, la birourile noastre, pe serverele noastre și nu merge nicăieri în afara teritoriului.

    Dar legislația noastră în domeniul datelor deschise este foarte vagă.

    Nu avem o înțelegere clară a ceea ce sunt datele deschise, ce sunt datele personale - există această a 152-a lege federală, dar totuși... Cum se numără? Acum, dacă am numele tău și numărul tău de telefon într-o bază de date, într-o altă bază de date am numărul tău de telefon și e-mailul tău, într-o a treia am, să zicem, e-mailul tău și mașina ta; Toate acestea par a fi date non-personale. Dacă puneți toate acestea cap la cap, se pare că conform legii vor deveni date personale.

    Ocolim asta în două moduri. Primul este de a instala un server cu software pentru client, iar apoi aceste date nu depășesc teritoriul său, iar apoi clientul este responsabil pentru distribuirea acestor date personale, date non-personale și așa mai departe. Sau a doua opțiune: dacă acesta este un fel de poveste în care trebuie să dai în judecată o rețea de socializare sau altceva...

    Am avut un astfel de studiu când am colectat (au fost primare din Rusia Unită) pentru Lifenews relatările acestor camarazi și am analizat ce fel de porno le place. A fost un lucru amuzant, dar totuși. Vindem asta ca parere proprie, personala, fara a dezvalui legal in documente ceea ce am analizat - Registrul Unificat de Stat al Persoanelor Juridice, salarii, retele sociale; Vindem opinia expertului, iar apoi pe margine îi explicăm persoanei ce am analizat și cum.
    Au fost mai multe povești, dar au fost legate de niște proiecte comerciale publice. De exemplu, avem un proiect non-profit gratuit pentru cei care călătoresc cu longboard-uri (astfel de plăci sunt lungi): sarcina a fost să colectăm publicațiile oamenilor - atunci când cineva postează „M-am dus la Gorky Park pentru o plimbare”. Și acum ar trebui să intre pe hartă, iar oamenii din jurul lui pot vedea că cineva este lângă el. VK s-a bătut cu noi pe acest subiect de foarte mult timp, pentru că nu le-a plăcut faptul că publicăm aceste informații fără permisiunea oamenilor. Dar atunci chestiunea nu a ajuns în instanță, pentru că în cadrul mai multor comunități mari am adăugat regulilor că datele puteau fi folosite de terți, agenții, firme, analize etc. Desigur, nu a fost deosebit de etic, dar totuși.

  • Tocmai ne-am dat seama la timp și am început să vindem opinia noastră de experți tuturor.

Lucrezi cu institutii de invatamant?

  • Cooperăm cu instituții de învățământ, da. Avem o gamă întreagă: avem un program de master la Școala Superioară și cooperăm cu alte universități. Ne iubim foarte mult universitățile!
  • Dacă aveți contactele mele, puteți să-mi scrieți. Și un link către prezentare, dacă cineva este interesat - toate aceste exemple sunt acolo, o puteți muta.
  • Dacă știți numărul de telefon, e-mail - aceasta este o opțiune de aproape sută la sută, nimeni nu o va elimina. Dacă nu există un număr de telefon, de obicei este o poză; dacă nu există o poză, este anul, locul de reședință, locul de muncă. Adică, după an, locul de reședință și locul de muncă, aproape toată lumea poate fi întotdeauna identificată destul de subtil. Dar aceasta, din nou, este o întrebare despre sarcină.

    Avem, să zicem, un client care vinde televiziune prin internet. Cineva și-a cumpărat un abonament la aceste „Games of Thrones” de la ei, iar sarcina este să-și folosească CRM-ul pentru a găsi acești oameni pe rețelele de socializare și apoi să-i găsească pe potențiali din zona lor de influență. Vreau să spun doar că au, să zicem, un prenume, nume și e-mail... Și atunci este foarte greu să faci ceva. În cele mai multe cazuri, oamenii pot fi găsiți prin e-mail.

  • Pe baza compoziției prietenilor noștri, de obicei „potrivim” oamenii de pe rețelele de socializare, dar acest lucru nu este întotdeauna corect. Nu este că nu este întotdeauna corect - nu funcționează întotdeauna. În primul rând, acest lucru necesită multă muncă, deoarece această operațiune (potrivirea persoanelor) va trebui efectuată mai întâi pentru fiecare dintre prieteni - pentru a înțelege dacă au venit sau nu din rețelele de socializare. Și apoi - un fapt necunoscut pentru nimeni că pe VKontakte avem aceiași prieteni, pe Facebook avem prieteni diferiți. Nu pentru toată lumea, dar pentru mine, de exemplu, este așa; și acest lucru este valabil și pentru majoritatea oamenilor.

Cum sunt colectate cele mai complete date?

  • Instalarea software-ului pentru client de partea lui. Pe ele este instalat un server, care preia doar date publice de la noi și prelucrează datele lor personale în mod intern. Se încheie un NDA cu clientul. Acest lucru, desigur, nu este foarte corect că ne transferă acest lucru, dar responsabilitatea legală revine clientului - ei bine, adică instalarea de software pentru el sau transferul de date anonime. Dar acest lucru a fost foarte rar, deoarece - anonimizarea corectă sau incorectă - în majoritatea cazurilor se pierde dependența dintre acești oameni.

Cine cumpără software de recunoaștere facială?

  • De fapt, mergem aici, deoarece software-ul nostru principal pe care îl vindem este căutarea facială, analiza corelației și îl vindem agențiilor guvernamentale. Și acum un an și jumătate, am decis că vom pune toate aceste povești în publicitate, în marketing, pe piața publică - așa s-a format Social Data Hub, o entitate juridică comercială. Și acum tocmai venim aici. Suntem aici de un an și jumătate acum, încercând să explicăm oamenilor că nu este nevoie să le oferim oamenilor descărcări cu o mențiune, că trebuie să li se dea răspunsuri la întrebări, că nu este nevoie de tonalitate. , și așa mai departe. Deci e greu de spus unde...
  • (La cine te referi?) Tuturor camarazilor care trebuie să caute terorişti şi pedofili.
    Pot spune imediat (aceasta va fi următoarea întrebare): conform datelor noastre, niciun profesor nu a fost închis pentru repostare.
  • Pe VKontakte - 14%; pe Facebook nu există un profil închis ca atare (există o listă închisă de prieteni și așa mai departe). Și cel mai interesant lucru este că tocmai am scris un mesaj - acum vor conta și vor spune.

Nu postați ceva de care să vă fie rușine!

  • Nu postați nimic pe rețelele sociale care să vă facă rușine – eu personal urmăresc asta. Deși am avut multe personale, pentru că jur pe Facebook. Ei bine, era și era ceva de făcut... Nu postați nimic care ar fi jenant! Dacă mai târziu vei lucra undeva în Camera Publică, da, e mai bine să nu comentezi. Dacă nu ai de gând să faci asta, în general, nimănui nu-i pasă. Pot doar să vă asigur că nimeni nu vă citește corespondența personală și toate acestea construiesc toată povestea...

    În fiecare săptămână, cineva vine cu siguranță la mine și îmi spune: „Ei bine, fotografiile prietenului meu au fost scurse pe o pagină publică anonimă! Ajutor! Apropo, nu publicați niciodată nimic pe pagini publice anonime.

  • Nu știu despre alte sisteme de monitorizare – cu siguranță vom ține cont de asta, că mențiunea mărcii a fost negativă, Doamne să mă ierte... Dar pot spune că tot felul de camarazi aproape de stat sunt interesați doar de oameni. care au o audiență de peste 5 mii, iar opinia lor publică poate influența pe cineva.apoi influența. Din experiența mea, nu s-a întâmplat niciodată ca agenția de resurse umane care ne comandă evaluări de profil să spună: „Cui îi place Navalny, să nu angajeze pe nimeni!”

Despre publicarea rezultatelor. Câți oameni sunt angajați în cercetare?

  • Din primele 10 companii de publicitate, șapte publică acum. E greu de spus: când am început asta acum un an și jumătate... Avem mai mulți oameni în fiecare zonă - sunt mai mulți oameni în bănci, sunt mai mulți oameni în HR, sunt mai mulți oameni în publicitate. Și acum ne gândim la cine este mai profitabil să mergem primul, pentru cine trebuie să începem să facem niște interfețe...
  • (despre numărul de persoane pe segment de piață) Nu mai mult de 25 de persoane, pentru că nu am violat pe nimeni.
  • În general, în principiu, aceste tehnologii de pe piață sunt folosite, cred, cu peste 50%. Unele în campanii de publicitate, altele într-un fel de analiză internă. Aș spune că 40% îl folosesc în analiza internă, 50-60% îl vând pentru branduri finale. Dar asta depinde deja de companiile de publicitate. Vedeți, unii raportează pur și simplu pentru banii cheltuiți, publicitatea pe care o pun, în timp ce alții scriu câți oameni au adus, ce fel de public... Aș zice așa, dar s-ar putea să mă înșel - nu prea știu imaginează-ți cum lucrează toți acești camarazi. Știu doar în date cantitative.

Câteva reclame 🙂

Vă mulțumim că ați rămas cu noi. Vă plac articolele noastre? Vrei să vezi mai mult conținut interesant? Susține-ne plasând o comandă sau recomandând prietenilor, cloud VPS pentru dezvoltatori de la 4.99 USD, un analog unic al serverelor entry-level, care a fost inventat de noi pentru tine: Întregul adevăr despre VPS (KVM) E5-2697 v3 (6 nuclee) 10GB DDR4 480GB SSD 1Gbps de la 19 USD sau cum să partajezi un server? (disponibil cu RAID1 și RAID10, până la 24 de nuclee și până la 40 GB DDR4).

Dell R730xd de 2 ori mai ieftin în centrul de date Equinix Tier IV din Amsterdam? Numai aici 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV de la 199 USD in Olanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - de la 99 USD! Citește despre Cum se construiește infrastructura corp. clasa cu folosirea serverelor Dell R730xd E5-2650 v4 in valoare de 9000 euro pentru un ban?

Sursa: www.habr.com

Adauga un comentariu