Arthur Khachuyan: „Skutočné veľké dáta v reklame“

14. marca 2017 na prednáške BBDO vystúpil Arthur Khachuyan, CEO Social Data Hub. Arthur hovoril o inteligentnom monitorovaní, vytváraní modelov správania, rozpoznávaní obsahu fotografií a videí, ako aj o ďalších nástrojoch a výskume Social Data Hub, ktoré vám umožňujú zacieliť na publikum pomocou sociálnych sietí a technológií Big Data.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Arthur Khachuyan (ďalej len AH): - Ahoj! Ahojte všetci! Volám sa Arthur Khachuyan, vediem spoločnosť Social Data Hub a zaoberáme sa rôznymi zaujímavými intelektuálnymi analýzami otvorených dátových zdrojov, informačných polí a robíme všelijaké zaujímavé výskumy a pod.

A dnes nás kolegovia z BBDO Group požiadali, aby sme hovorili o moderných technológiách na analýzu veľkých dát, veľkých a menej veľkých dát pre reklamu: ako sa to používa, ukážte zaujímavé príklady. Dúfam, že sa budete cestou pýtať, pretože sa môžem nudiť a neprezradím podstatu a podobne, tak sa nehanbite.

V skutočnosti sú hlavné smery, kde sa niekedy použili nejaké riešenia „blízko veľkých dát“, všetky jasné - ide o zacielenie na publikum, analýzu, vykonávanie nejakého analytického marketingového výskumu. Vždy je však zaujímavé, aké ďalšie údaje možno nájsť, aké ďalšie významy možno nájsť po aplikácii analýzy.

Prečo potrebujeme technológiu na reklamu?

kde začneme? Najviditeľnejšou vecou je reklama na sociálnych sieťach. Dnes som to ráno zložil: z nejakého dôvodu si VKontakte myslí, že by som mal vidieť túto konkrétnu reklamu... Či je to dobré alebo zlé, je druhá otázka. Vidíme, že rozhodne patrím do kategórie brancov:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Úplne prvá a najzaujímavejšia vec, ktorú možno brať ako technologické riešenie... Prvá vec, ktorú som chcel rozhodnúť, kým začneme, je zadefinovať si pojmy: čo sú otvorené dáta a čo veľké dáta? Pretože všetci ľudia majú v tejto veci svoje vlastné chápanie a ja nechcem nikomu vnucovať svoje podmienky, ale... Len aby neboli nejaké nezrovnalosti.

Osobne si myslím, že otvorené dáta sú všetko, na čo sa môžem dostať bez akéhokoľvek prihlasovacieho mena alebo hesla. Toto je otvorený profil na sociálnych sieťach, toto sú výsledky vyhľadávania, toto sú otvorené registre atď. Big data, vo svojom vlastnom chápaní, to vidím takto: ak je to štítok s údajmi, je to miliarda riadkov, ak je to nejaký druh úložiska súborov, je to niekde petabajt dát. Ostatné v mojej terminológii nie sú veľké dáta, ale niečo také.

Vysoko presné profilovanie a bodovanie profilov

Poďme pekne po poriadku. Úplne prvá a najzaujímavejšia vec, na ktorú môžete prísť z analýzy otvorených zdrojov údajov, je vysoko presné profilovanie a skórovanie profilov. Čo to je? Toto je príbeh, v ktorom váš účet na sociálnej sieti dokáže predpovedať nielen to, kto ste, nielen vaše záujmy.

Teraz však kombináciou rôznych zdrojov môžete pochopiť priemernú úroveň svojho platu, koľko stojí váš byt a kde sa nachádza. A všetky tieto údaje sa dajú použiť doslova z dostupných prostriedkov. Napríklad, ak si vezmete svoj účet na sociálnej sieti, pozrite sa, povedzme, kde bývate, kde pracujete; pochopiť, v ktorej časti podnikania je spoločnosť, pre ktorú pracujete; stiahnite si podobné voľné miesta z HH a „Superjob“, ak ste analytik, manažér atď.; pozrite sa, kde bývate (základňa, povedzme CIAN), pochopte, koľko stojí prenájom domu na tomto mieste, koľko stojí kúpa domu na tomto mieste, predpovedajte, koľko približne zarobíte. Ďalej pomocou sociálnych sietí môžete pochopiť, koľko cestujete, kde sa nachádzate a nakoľko ste lojálni voči svojmu zamestnávateľovi.

V súlade s tým môžeme z takého obrovského množstva metrík robiť čokoľvek, čo chceme. Môžeme vám predstaviť produkt, ktorý vás zaujíma. Viete si predstaviť internetový obchod? Idete tam – tento internetový obchod zachytí váš účet na sociálnej sieti a povie vám: „Masha, práve si sa rozišla so svojím priateľom, tu sú pre teba určité produkty.“ Toto nie je blízka budúcnosť...

Ako sa určuje geolokácia osoby?

Odpovede na otázky z publika:

  • Zvyčajne sa 80 % všetkých registrácií považuje za presné miesto bydliska. Ale pre ľudí, ktorí sa nikde nehlásia, je viacero možností: buď check-in, alebo geolokácia, alebo ide o rozbor príspevkov a publikácií za celé obdobie, kedy človek niečo napísal... A niekde, objaví sa niečo ako „Chcem si kúpiť kočík blízko Akademicheskaya“ alebo „Nedávno som tu videl škaredé graffiti na stene.“ To znamená, že u takmer 80 % ľudí je možné určiť ich geolokáciu, miesto výkonu práce a bydliska pomocou údajov alebo metadát, ktoré sa dajú zozbierať zo sociálnych sietí.

    Toto je opäť analýza príspevkov. V najjednoduchšom zmysle ide o analýzu check-inov a geolokácií na sociálnych sieťach, ktoré nevymažú jpeg metadáta (z toho sa dá niečo zistiť). Ale pre zvyšných ľudí sú to zvyčajne textové vysielania: buď si človek „posvieti“ na svoju polohu, keď o niečom píše, alebo si „posvieti“ na telefón, pomocou ktorého môžete nájsť nejakú jeho reklamu na Avito alebo jeho účet na „ Auto RU". Na základe týchto údajov môžete kombinovať (napríklad „Predám auto pri Mayakovskej“) a zhruba to predpokladať.

  • Ľudia to zvyčajne uverejňujú na sociálnych sieťach. Pracujeme iba s otvorenými zdrojmi a tu hovoríme výlučne o otvorených zdrojoch. Väčšinou zverejňujú inzeráty, teda v šesťdesiatich percentách prípadov je najčastejším príbehom, keď ľudia „ukážu“ svoje aktuálne číslo mobilného telefónu, inzeráty na predaj niečoho. Buď v niektorých skupinách človek napíše („Predám tam to alebo tamto“), alebo niekam ide.

    Áno! Väčšinou to komentujú takto: „Odpovedz mi alebo mi pošli SMS, zavolaj na moje číslo. Veľmi často sa to stáva ľuďom, ktorí niečo predávajú, kupujú na sociálnych sieťach, komunikujú s niekým... Podľa toho si potom pomocou tohto čísla môžete s ním prepojiť jeho profil na CIAN, ak niekedy niečo zverejnil, alebo opäť na Avito. Toto sú jednoducho najobľúbenejšie, top zdroje, bude to ďalej - to sú Avito, CIAN a tak ďalej.

  • Týka sa to internetového obchodu. Ďalej bude technológia rozpoznávania tváre a párovania profilov (povieme si o tom). Čisto teoreticky sa to dá aplikovať na offline obchod. A vôbec, mojím veľkým snom je, že keď sa objavia pouličné transparenty, keď prejdete okolo kamery, „zachytí“ vašu tvár. Ale tento prípad bude zákonom zakázaný, pretože ide o porušenie súkromia. Dúfam, že sa to skôr či neskôr stane.
  • Z osobnej skúsenosti. Veľmi často, keď vám niekto niečo napíše, operujete s niektorými faktami z jeho života, ktoré by ste zrejme nemali vedieť... Ľudia sa vo väčšine prípadov zľaknú. Ale! Na základe posledných štatistík sa počet zatvorených účtov na sociálnych sieťach znížil o 14 %. Pribúda fejkov, rastie počet otvorených účtov – ľudia čoraz viac smerujú k otvorenosti. Myslím si, že o 3-4 roky prestanú tak silno reagovať na to, že niekto o nich vie informácie, ktoré by potenciálne vedieť nemali. Ale v skutočnosti je to veľmi ľahké získať pohľadom na jeho stenu.

Čo možno prevziať z otvorených zdrojov?

Existuje približný zoznam vecí, ktoré možno s pomerne vysokou spoľahlivosťou pochopiť z otvorených zdrojov. V skutočnosti existuje ešte viac rôznych metrík; závisí od objednávateľa takéhoto výskumu. Je nejaká HR agentúra, ktorú zaujíma, či nadávaš na sociálnych sieťach alebo niekde vo verejnom priestore. Niekoho zaujíma, či sa vám páčia Navaľného publikácie alebo naopak publikácie Jednotného Ruska, prípadne nejaký pornografický obsah – také veci sa stávajú pomerne často.

Hlavnými sú rodinné hodnoty, približné náklady na byt, domov, hľadanie auta a pod. Na základe toho možno ľudí rozdeliť do sociálnych skupín. Toto sú používatelia Moscow Tinder, kto sú (podľa ich obrázkov nájdených na ich účtoch na Facebooku); na základe svojich záujmov sa delia do rôznych sociálnych skupín:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ak sa priblížime k reklame, tak sme sa pomaly vzdialili od štandardného cielenia reklamy, keď si na VKontakte vyberiete, že vás zaujímajú 18-roční muži prihlásení do určitých skupín. Ďalej mám tento obrázok, teraz vám ho ukážem:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Pointa je, že väčšina súčasných služieb, ktoré v zásade analyzujú ľudí, ktorí analyzujú sociálne siete, sa zaoberá analýzou záujmov... Prvá vec, ktorá ľuďom príde na myseľ, je analyzovať najvyššie skupiny ich predplatiteľov. Možno to niekomu funguje, ale osobne si myslím, že je to zásadne nesprávne. prečo?

Vaše hodnotenia Páči sa mi sa zhromažďujú a analyzujú

Teraz si vezmite telefóny, pozrite sa na svoje top skupiny – určite bude viac ako 50 % skupín, na ktoré ste už zabudli, toto je nejaký obsah, ktorý je pre vás vlastne irelevantný. Vôbec ho nekonzumujete, no napriek tomu vás systém bude podľa nich sledovať: že ste sa prihlásili na odber receptov, do nejakých obľúbených skupín. To znamená, že porušíte systém, ktorý analyzuje váš profil, a vaše záujmy nebudú opodstatnené.

Ideme ďalej... Čo je tam? Predpokladáme, čo robia iní ľudia. Podľa nášho názoru je najvhodnejším spôsobom, ako posúdiť záujmy používateľov, lajky. Napríklad na VKontakte nie je žiadny zdroj „páči sa mi“ a ľudia si myslia, že nikto nevie, čo sa im páči. Áno, niektoré lajky sú zavedené na Instagrame, niečo vidíme na Facebooku, ale väčšina obsahu v určitých skupinách to nevysiela v spoločnom feede a ľudia žijú a myslia si, že nikto nebude vedieť, čo sa im páči.

A zbieraním určitého obsahu nejakého druhu, ktorý nás zaujíma, zbieraním týchto príspevkov, zbieraním týchto lajkov a následnou kontrolou tejto osoby pomocou tejto databázy, môžeme s vysokou presnosťou určiť, kto to je, aký je jeho osud, čo ho zaujíma. Zaraďte ho presne do určitej sociálnej skupiny a interagujte s ním.

Kúpou auta sa mení správanie

Mám taký príklad. Okamžite urobím výhradu, že moje príklady sú blízko reklamy a marketingu, pretože viete, väčšina prípadov je chránená NDA a tak ďalej. Ale aj tak tam bude veľa zaujímavostí. Takže, príbeh s týmito ľuďmi: toto sú muži, ktorí si kúpili auto v rokoch 2010 až 2015. Ako sa zmenilo ich sociálne správanie na internete, je vyznačené farbou. Percento dievčat medzi predplatiteľmi sa zmenilo, prihlásil som sa na „chlapčenské“ verejné stránky, našiel som si stáleho sexuálneho partnera...

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Celé je to rozdelené podľa značky auta a počtu ľudí. Odtiaľ môžete vyvodiť veľa zaujímavých záverov o správaní ľudí a o tom, ako to všetko funguje. Môžem povedať, že Porsche Cayenne a vysadená Priora sú z hľadiska počtu prilákaných divákov takmer totožné. Kvalita tohto publika a ich správanie sú rôzne, ale kvantita je približne rovnaká. Záver, z ktorého môžete vyvodiť, je akýkoľvek chcete, bližšie k vášmu trhu. Ak predávate Audi, vytvoríte slogan „Kúpte si Audi a utečte od rodičov! a tak ďalej.

Áno, toto je vtipný príklad toho, že správanie ľudí na základe rozboru lajkov, na základe toho, do akej skupiny sa presunú, aký obsah rozoberú - s takmer 100% pravdepodobnosťou dáva najavo, kto ste. Pretože ak nemáte prístup k sieťovej prevádzke a nečítate osobné správy, lajky vám vždy povedia, kto je táto osoba - tehotná žena, matka, vojak, policajt. A pre vás, ako človeka, ktorý vie robiť reklamu, je to veľký zásah.

Odpovede na otázky z publika:

  • Každý stĺpec predstavuje počet ľudí v tomto aute; ako sa zmenili ich vzorce správania. Pozrite sa: ľudia, ktorí si kúpili Porsche Cayenne - približne 550 ľudí (žlté), percento dievčat medzi predplatiteľmi sa zvýšilo.
  • Vzorkou sú používatelia sociálnych sietí „Vkontakte“, „Facebook“, „Instagram“ od roku 2010 do roku 2015. Jediné vysvetlenie: tu sú vybrané autá, ktoré je možné pomocou určitých nástrojov identifikovať na fotografiách s presnosťou viac ako 80 %.
  • Za určité obdobie jeho auto (no, teda nie jeho, to nechávame na sociálne siete)... Za určitý čas bol človek s autom neustále fotografovaný, bol pri ňom, publikácie boli rôzne, fotografie boli z rôznych uhlov a tak ďalej. Potom sa objaví obrázok, ktorí ľudia sa fotia s akými autami a... Áno, to je druhá otázka – dôvera v údaje sociálnych sietí.
  • Odkedy sme to uviedli, bohužiaľ, údaje sociálnych médií nie sú vždy správne. Ľudia nie sú vždy naklonení zverejňovať svoje informácie. Osobne som vykonal takúto štúdiu: Porovnal som počet absolventov moskovských univerzít s počtom ľudí zaregistrovaných na sociálnych sieťach. V priemere je na sociálnych sieťach zaregistrovaných o 60% viac ľudí - absolventov Moskovskej štátnej univerzity na určitý rok v určitých špecializáciách, ako je v zásade v skutočnosti. Takže áno – je tu, prirodzene, určité percento chýb a nikto to neskrýva. Tu jednoducho berieme za základ tie autá, ktoré sa dajú identifikovať s viac ako 80% pravdepodobnosťou.

Zoznam zdrojov pre modelový tréning

Tu je vzorový zoznam zdrojov, ktoré je možné použiť, pomocou ktorých sa s veľkou istotou určí sociálny profil človeka, kým je.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Berieme profil zo sociálnych sietí, od CIAN - náklady na byt sú približne, "Head-Hunter", "Superjob" - to je priemerný plat pre daného človeka. Dúfam, že tu nie sú žiadni zástupcovia Head Hunter, pretože si myslia, že nie je veľmi dobré brať od nich tieto údaje. Ide však o priemernú mzdu v určitých regiónoch za určité druhy činností na voľné pracovné miesta.

„Avito“, „Avto.ru“: veľmi často ľudia, keď im svieti telefón, určite ho majú (vo veľkom počte prípadov) aspoň niečo na „Avito“ alebo na „Avto.ru“, alebo na ďalších niekoľkých stránkach, z ktorých môžete pochopiť, kto sú. Ak by sa na tomto telefónnom čísle predával kočík alebo auto... Rosstat a Jednotný štátny register právnických osôb sú stále viac registrov, pomocou ktorých môžete zoradiť zamestnávateľskú spoločnosť - podľa nejakého vzorca, podľa modelu, ktorý môže nastaviť každá osoba (môžete približne určiť peniaze tejto osoby atď.).

Tinder pomáha zbierať údaje o situácii ľudí

Navyše je tu taká zaujímavá vec (prípadne je to v štúdii veľmi zábavné) - toto je opäť zhromažďovanie údajov z Moscow Tinder pomocou robotov pre tento Tinder. Určila sa vzdialenosť k ľuďom a následne sa určila ich približná poloha.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Cieľom tejto štúdie bolo zistiť počet účtov Tinder na území vládnych inštitúcií – v Dume, prokuratúre a pod. Ale vy ako inzerent si môžete predstaviť, čo chcete: môže to byť napríklad Starbucks alebo niekto iný... Teda počet ľudí na Tinder, ktorí od vás pijú kávu, niečo si objednajú, sú v obchodoch Čo sa týka tejto geolokácie: dá sa to urobiť akoukoľvek službou.

Odpoveď na otázku z publika:

  • Tinder? Nevieš? Tinder je zoznamovacia aplikácia, v ktorej si prezeráte fotografie (vľavo-vpravo) a táto aplikácia vám ukazuje vzdialenosť k danej osobe. Ak získate vzdialenosť k tejto osobe z troch rôznych bodov, môžete približne (+ 5-7 metrov) určiť polohu. V tomto prípade pre určenie na území prokuratúry alebo Štátnej dumy to nie je také ťažké. Ale opäť to môže byť váš obchod, môže to byť čokoľvek.

Napríklad, veľmi dávno sme mali taký prípad (nie štúdia), keď sme od jedného z mobilných operátorov dostali údaje o hustote premávky, údaje o hustote pohybu mobilných bodov a všetky tieto informácie boli superponované na súradniciach billboardov umiestnených na diaľniciach . A úlohou mobilného operátora je určiť, koľko ľudí približne prechádza okolo a môže potenciálne vidieť túto billboardovú reklamu.

Ak sú tu špecialisti na billboardovú reklamu, môžete si povedať: superspoľahlivo sa to nedá pochopiť - niekto prichádza, niekto sa nepozrel, niekto sa pozrel... Napriek tomu je to príklad toho, ako je tu 20 miliárd polygónov tieto v Moskve, na ktorých je hustota týchto ľudí každú hodinu na určitých trasách... Každú chvíľu môžete vidieť, okolo čoho títo ľudia prechádzali a zhruba odhadnúť prúd cestujúcich.

Odpoveď na otázku z publika:

  • Takéto údaje nikto nedáva. Takúto štúdiu sme vykonali pre jedného z operátorov, ide o výlučne interný príbeh, takže bohužiaľ nie je prezentovaný vo forme obrázkov. Veľké reklamné agentúry však často nemajú problém kontaktovať operátora. Prinajmenšom v Moskve existuje veľa precedensov, keď sa napríklad poisťovne obracajú na spoločnosti ako GetTaxi, ktoré poskytujú neosobné údaje o veku vodiča, ako jazdí (dobrý - zlý, bezohľadný - nie), aby predpovedali politiky a pod. Každý s tým bojuje, ale na nejakej internej úrovni, dávať anonymné údaje - myslím, že nikto nemá taký problém.

Rozpoznávanie obrázkov a vzorov

Pokračuj. Najradšej mám rozpoznávanie obrázkov. Bude tu malý kúsok o vyhľadávaní ľudí podľa tvárí, ale túto časť väčšinou neberieme. Berieme konkrétne rozpoznávanie obrazu a určovanie toho, čo je na tomto obrázku - značka auta, jeho farba atď.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Mám taký vtipný príklad:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Bola taká štúdia o hľadaní tetovania na rôznych sociálnych sieťach. V súlade s tým to isté možno použiť na akúkoľvek značku, na akýkoľvek vizuálny obraz, na takmer akýkoľvek vizuálny obraz. Sú také, ktoré sa nedajú spoľahlivo určiť (neberieme ich).

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Tu je môj obľúbený. Automobilové značky sa pomerne často obracajú na túto úlohu, pretože ich úlohou je napríklad nájsť všetkých majiteľov nejakého BMW X6, pochopiť, kto sú, ako sú medzi sebou prepojení, čo ich zaujíma a podobne. Týka sa to otázky, akými autami sa ľudia fotia na sociálne siete.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Neexistovalo tu vôbec žiadne filtrovanie: objekt bol ich, auto nebolo ich; Ide len o poruchu áut – vek a tak ďalej. Vizuálne rozpoznávanie obrazu sa však používa pomerne často: ide o vyhľadávanie tehotných žien a hľadanie loga značiek v nejakom druhu masmédií (kto čo uverejňuje).

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Môj obľúbený prípad (ktorý používajú rôzne reštaurácie): aké rožky sú zverejnené na sociálnej sieti. Je to zábavná vec, ale v skutočnosti vám umožňuje pochopiť veľa zaujímavých vecí, po prvé, o vašich vlastných zákazníkoch: kto k vám prišiel a prečo to urobili. Pretože nie je žiadnym tajomstvom, že v sushi baroch sa väčšina ľudí (nepoviem „dievčatá“) fotí, aby sa prihlásili, odfotili si niečo atď.

Značka to môže využiť. Značka sa zaujíma o to, aké produkty potrebuje krásne nafotiť a postovať, akí ľudia tam prišli. Táto vec sa dá robiť takmer so všetkým, od jedla.

Video rozpoznávanie vzorov

Odpoveď na otázku z publika:

  • Nie na videu. Máme to v testovacom režime. Vyskúšali sme túto technológiu, ale ukázalo sa, že... Celkom dobre rozpozná všetko s videom, ale nikde sme pre ňu nenašli aplikáciu. Zbohom. Okrem rozoberania, koľko a ktorí videoblogeri sa niekde rozprávajú... Bola taká štúdia. Koľko ich tvárí sa stretáva, ako často. Ale značky ešte neprišli na to, kde s tým prísť. Možno to raz príde.

Opäť ide o jedlo, môžu to byť tehotné ženy, muži (nie tehotní), autá - čokoľvek.

Ako možnosť bola novoročná štúdia pre jedno médium. Tiež ďaleko od reklamy, ale predsa. Toto je druh jedla, ktoré sa ľudia postili na Nový rok:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Je to tu rozdelené aj podľa veku. Vidno takú koreláciu, že mladí si väčšinou objednávajú jedlo, dospelí väčšinou robia tradičný stôl. Je to smiešne, ale keď si to predstavíte ako majiteľ značky, môžete hodnotiť veľké množstvo vecí: kto a ako narába s vaším produktom, čo o ňom píše. Ľudia často nie vždy v texte spomínajú samotnú značku a tradičné analytické monitorovacie systémy nedokážu vždy pochopiť a nájsť túto zmienku o značke len preto, že sa v texte nespomína. Alebo je text nesprávne napísaný, nie sú tam žiadne hash tagy ani nič podobné.

Fotky sú viditeľné. Pomocou fotografie môžete zistiť, či ide o stredový objekt rámčeka alebo nie stredový objekt rámčeka. Potom môžete vidieť, čo táto osoba napísala. Najčastejšie sa však používa ako vyhľadávanie potenciálneho publika, ktoré jazdilo na určitých autách a podobne. A potom s týmito autami urobíme veľa zaujímavých vecí.

Boty sa učia napodobňovať ľudí

Bola tu aj takáto možnosť použitia počítania ľudí:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Existuje možnosť porovnávania ľudí, keď potrebujete nájsť ľudí pomocou fotografií, pochopiť ich sociálny profil, kto sú. Opäť sa vraciame k otázke, že ak máme kameru v offline obchode, tak je to celkom dobrý spôsob, ako pochopiť, kto k vám prichádza, kto sú títo ľudia, čo ich zaujíma, čo ich podnietilo prísť za vami .

Nasleduje najzaujímavejšia vec: ak zhromažďujeme ich účty na sociálnych sieťach, pochopíme, kto sú títo ľudia, čo ich zaujíma, môžeme (ako možnosť) vytvoriť robota podobného týmto ľuďom; tento robot začne žiť ako títo ľudia a analyzovať, aké reklamy vidí na rôznych sociálnych sieťach. To vám umožní presne pochopiť, ktoré značky sú zamerané na túto osobu. Toto je tiež pomerne častý príbeh, keď potrebujete nielen analyzovať, kto to je a aké má záujmy, ale aj to, na akú reklamu by sa mala zamerať vaša potenciálna konkurencia alebo iní záujemcovia.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Analýza prepojení v sociálnych sieťach

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ďalšou zaujímavosťou je analýza vzťahov medzi ľuďmi. V skutočnosti analýza spojení v sieti, tieto sieťové grafy - v tom nie je nič, nič nové, každý to vie.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Najzaujímavejšia je však aplikácia na reklamné úlohy. Toto je vyhľadávanie ľudí, ktorí určujú trendy, toto je vyhľadávanie ľudí, ktorí šíria informácie podľa určitých kritérií v rámci tejto siete. Povedzme, že nás zaujímajú tí istí majitelia istého modelu BMW. Keď ich všetkých spojíme, nájdeme tých, ktorí ovládajú verejnú mienku. Nejedná sa nevyhnutne o automobilových blogerov a tak ďalej. Zvyčajne sú to jednoduchí súdruhovia, ktorí sedia na rôznych verejných stránkach, zaujíma ich nejaký obsah a dokážu vo veľmi krátkom čase pritiahnuť vašu značku alebo niekoho, o koho máte záujem, do tejto oblasti zodpovednosti, do oblasti ​záujem.

Tu je taký príklad. Máme nejakých potenciálnych ľudí, spojenia medzi ľuďmi. Tu oranžoví sú ľudia, malé bodky sú spoločné skupiny, spoloční priatelia.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ak medzi nimi zozbierate všetky tieto prepojenia, môžete veľmi jasne vidieť, že existujú ľudia, ktorí majú veľké množstvo spoločných skupín, spoločných priateľov, sú tam medzi sebou... A ak je tá istá vizualizácia rozdelená do skupín podľa záujmov, podľa obsahu, ktorý distribuujú, do akej miery medzi sebou interagujú... Tu môžete vidieť, že predchádzajúci obrázok vyzeral takto:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Tu sú skupiny jasne farebne odlíšené. V tomto prípade ide o našich magisterských študentov na Vysokej škole ekonomickej. Tu môžete vidieť, že fialovo-modrí sú tí, ktorí milujú Transparency International, Open Russia a Chodorkovského verejné stránky. Vľavo dole sú tí zelení, tí, ktorí milujú Jednotné Rusko.

Môžete vidieť, že predchádzajúci obrázok bol takýto (toto sú len spojenia medzi ľuďmi), ale je jasne ohraničený. To znamená, že všetci ľudia sú vždy navzájom spojení, majú rovnaké záujmy, sú medzi sebou priatelia. Niektorí sú navrchu, iní na spodku a niektorí ďalší súdruhovia tam. A ak sa každý z týchto malých podgrafov samostatne vizualizuje s inými parametrami a pozrie sa na rýchlosť šírenia obsahu (zhruba povedané, kto tam čo repostuje), v každej časti nájdete jedného alebo dvoch ľudí, ktorí vždy držia verejnú mienku vo svojich rukách, interakcia s ktorou, požiadaním pošlite nejaký príspevok alebo niečo iné - môžete získať odpoveď od celého tohto zaujímavého publika.

Mám ďalší takýto príklad. Tiež graf: toto sú zamestnanci BBDO Group, ktorých nájdete na sociálnych sieťach ako príklad. Vyzerá to nezaujímavo, veľké, zelené, prepojenia medzi nimi...

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ale mám možnosť, kde sú medzi nimi už postavené skupiny. Potom, ak by mal niekto záujem, existuje interaktívna verzia - môžete kliknúť a pozrieť sa.

Vpravo hore sú tí, ktorí milujú Putina. Tu sú fialoví dizajnéri; tých, ktorých zaujíma dizajn, niečo zaujímavé a pod. Tu sú biele veci manažérsky tím (zrejme, ako som pochopil); Sú to ľudia, ktorí vo všeobecnosti nie sú nijako prepojení, ale pracujú na približne rovnakých pozíciách. Zvyšok sú ich spoločné skupiny, spojenia atď.

Značky nepotrebujú blogerov, ale mienkotvorcov

Vezmeme týchto ľudí a nájdeme ich – potom sa reklamná agentúra, reklamná spoločnosť rozhodne sama za seba: môže dať peniaze tomuto človeku, aby nejako interagoval s týmto obsahom, niečím iným, alebo na nich nasmeroval vlastnú špecifickú reklamnú kampaň. Toto sa tiež používa pomerne často, najmä teraz, pretože všetky značky chcú spolupracovať s blogermi, chcú, aby bol ich obsah propagovaný, ale reklamné agentúry v skutočnosti nechcú kontaktovať (dobre, to sa stáva).

A skutočným východiskom z tejto situácie je nájsť ľudí, ktorí nie sú blogermi, nie beauty blogermi, ale napríklad nejaké skutočné bytosti, ktoré komunikujú s touto značkou, ktoré môžu napísať na nejakú úbohú verejnú stránku „Odpovede na Mail.ru“, získať určitý počet zobrazení. Títo ľudia, ktorí sa neustále zaujímajú o obsah tejto osoby, budú celú vec šíriť a značka sa zapojí.

Druhá možnosť použitia takejto technológie je teraz celkom relevantná - vyhľadávanie robotov, moja obľúbená. Ide o reputačné riziko pre vašich konkurentov a príležitosť vyradiť nepodstatných ľudí z reklamnej kampane a čohokoľvek iného (vymazanie komentárov a hľadanie spojení medzi ľuďmi). Mám taký príklad, je tiež veľký a interaktívny - môžete ho presúvať. Toto sú prepojenia ľudí, ktorí písali komentáre v komunite Lentach.

Tento príklad slúži na to, aby ste pochopili, ako dobre a ľahko sú roboty viditeľné; a na to nepotrebujete mať žiadne technické znalosti. To znamená, že „Lentach“ zverejnil príspevok o vyšetrovaní FBK o Dmitrijovi Medvedevovi a niektorí ľudia začali písať komentáre. Zhromaždili sme všetkých ľudí, ktorí napísali komentáre – títo ľudia sú zelení. Teraz to presuniem:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ľudia sú tí zelení (kto písal komentáre). Sú tu, sú tu. Modré bodky medzi nimi sú ich spoločné skupiny, žlté bodky sú ich spoloční odberatelia, priatelia atď. Väčšina ľudí je navzájom prepojená. Pretože, nech už je teória troch, štyroch, piatich podaní rúk akákoľvek, všetci ľudia sú na sociálnych sieťach navzájom prepojení. Neexistujú žiadni ľudia, ktorí by boli od seba oddelení. Dokonca aj moji sociálne fóbni priatelia, ktorí používajú VKontakte výlučne na sledovanie videí, sú stále prihlásení na odber niektorých rovnakých verejných stránok ako my.

Navaľnyj používa aj roboty. Každý má robotov

Väčšina ľudí (tu to je, tu) je navzájom prepojená. Ale je tu taká malá skupina súdruhov, ktorí sa kamarátia výlučne medzi sebou. Tu sú, malí zelení, tu sú ich spoloční priatelia a skupiny. Tu dokonca odpadli oddelene:

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

A šťastnou zhodou okolností to boli práve títo ľudia, ktorí pod tento príspevok napísali: „Navaľnyj nemá dôkazy“ a podobne a napísali rovnaké komentáre. Samozrejme, netrúfam si robiť závery. Ale napriek tomu som mal ďalší príspevok na Facebooku, keď bola debata medzi Lebedevom a Navaľným, analyzoval som komentáre rovnakým spôsobom: ukázalo sa, že všetci ľudia, ktorí napísali „Lebedev je hovno“, neboli na sociálnych sieťach siete, ktoré sa nedávno štyri mesiace neprihlásili na odber žiadnej z verejných stránok, zrazu prešli na tento konkrétny príspevok, napísali presne tento komentár a odišli. Opäť nie je možné z toho vyvodiť závery, ale niekto z Navaľného tímu mi napísal komentár, že nepoužívajú roboty. No dobre!

Bližšie k reklame, bližšie k značke. Každý má teraz roboty! Máme ich my, majú ich naši konkurenti a majú ich iní. Aby sa dobre žilo, musia byť vyhodení alebo ponechaní; Na základe takýchto údajov (ukazuje na predchádzajúcu snímku) ich doveďte k dokonalosti, aby vyzerali ako skutoční ľudia a až potom ich používajte. Aj keď používanie robotov je zlé! Napriek tomu pomerne bežný príbeh...

V automatickom režime vám takáto vec umožňuje odfiltrovať z vašej analýzy ľudí, ktorí sú pre analýzu irelevantní, ľudí, ktorí by nemali byť zahrnutí do vzorky, nemali by byť zahrnutí do tejto štúdie. Veľmi často používané. Na druhej strane nie všetci majitelia áut skutočne vlastnia autá. Niekedy sa ľudia zaujímajú len o ľudí, ktorí potenciálne majú auto, ktorí sedia v nejakých skupinách, s niekým komunikujú, majú tam určité publikum.

Analýza faktov a názorov

Ďalší, ktorý mám, je tiež môj obľúbený. Ide o analýzu faktov a názorov.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

V súčasnosti každý vie, ako uviesť svoju značku v rôznych zdrojoch. Nie je v tom žiadne tajomstvo. A zdá sa, že každý vie vypočítať tonalitu... Aj keď osobne si myslím, že samotná metrika tonality nie je veľmi zaujímavá, pretože keď prídete klientovi povedať: „Človeče, máš 37 % neutrálnych,“ a on to povie , " Wow! V pohode!" Preto by bolo zaujímavejšie posunúť sa o niečo ďalej: od hodnotenia sentimentu k hodnoteniu názorov na to, čo hovoria o vašom produkte.

A to je tiež veľmi zaujímavá vec, pretože... osobne sa domnievam, že v princípe nemôžu existovať neutrálne správy, pretože ak človek niečo napíše do verejného priestoru, je táto správa akokoľvek prifarbená. Osobne som nikdy nevidel neutrálnu správu, v ktorej by sa spomínala značka. Väčšinou ide o nejaký druh špiny.

Ak zoberieme veľké množstvo týchto správ (môže ich byť milión, 10 miliónov), zvýrazníme hlavnú myšlienku z každej správy, skombinujeme ich, celkom spoľahlivo pochopíme, čo ľudia o tejto značke hovoria, čo si myslia. „Nepáči sa mi obal“, „Nepáči sa mi konzistencia“ atď.

Čo si ľudia myslia o Transaero, Chupa Chups a prezidentovi Spojených štátov?

Mám vtipný príklad: toto je infografika o tom, čo by robili používatelia sociálnej siete so spoločnosťou Transaero po jej bankrote.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Je tam veľa zaujímavých príkladov: spáliť, zabiť, deportovať do Európy, dokonca 2 % napísali: „Pošlite ich do Sýrie na vojenské operácie“. Keď prejdeme od vtipnej veci, mohla by to byť takmer akákoľvek značka - od môjho obľúbeného krmiva pre psov až po niektoré autá. Komu sa nepáči obal, komu sa nepáči skutočné veci – s tým sa dá vždy pracovať, vždy s tým môžete počítať. Existuje veľké množstvo príkladov, keď ľudia takmer zmenili výrobu svojich produktov, pretože na sociálnych sieťach napísali, že Chupa Chups nie je dostatočne guľatá alebo nie je dosť sladká.

Existuje ďalší vtipný príklad. Hádajte aké komentáre a o kom?

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Z nejakého dôvodu sa teraz analýza názorov, analýza faktov extrahovaných zo správ, veľmi nepoužíva a nie je veľmi rozšírená. Aj keď táto technológia nie je príliš tajná, prakticky v nej neexistuje žiadne know-how, pretože z komentárov ľudí, extrahovanie predmetu, predikátu a ich zoskupovanie nevyžaduje génia vo výpočtovej lingvistike. Nie je to také ťažké urobiť. Ale dúfam, že o pár rokov to ľudia začnú používať, pretože... Bude to super - toto je taká automatická spätná väzba! Vždy viete, čo o vás hovoria. Chápete, že to bolo urobené o prezidentovi USA.

Odpoveď na otázku z publika:

  • Áno, toto je Facebook v angličtine. Tu sú preložené do ruštiny. Toto bolo niekde napísané.

Big Data a politické technológie

V skutočnosti mám veľa rôznych zaujímavých príkladov politiky o Trumpovi a všetkých ostatných, ale rozhodli sme sa ich sem nepriviesť. Ale je tu jeden politický príklad.

Ide o voľby do Štátnej dumy. kedy si bol? Minulý rok? Takmer pred rokom a pol.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Tu sú ľudia, ktorí boli schopní určiť svoju presnú polohu až po určitý geobod, aby pochopili, do ktorého volebného okrsku spadajú. A potom sa z týchto ľudí brali len tí, ktorí vyjadrili svoj definitívny názor, za ktorých by hlasovali.

Z hľadiska politickej technológie to nie je veľmi správne, pretože toto celé treba normalizovať hustotou obyvateľstva a pod. Napriek tomu tu modrí budú voliť, viete koho, červení budú voliť opozičných súdruhov, ktorých, mimochodom, nebolo veľa.

Osobne sa domnievam, že veľké dáta sa tak skoro nedostanú k politickým technológiám, no ako možnosť je kandidátom aj značka. A to je do istej miery aj analýza faktov a názorov o vašej značke a dosť zaujímavá vec, pretože v reálnom čase pochopíte, kto tam čo robí. Poznám viacero prípadov z BBC, keď v nejakom vysielaní monitorovali sociálne siete v reálnom čase: ohlas je taký a taký, ľudia o tom píšu, pýtajú sa také a také – a je to skvelé! Myslím si, že sa to veľmi skoro začne používať, pretože je to zaujímavé pre každého.

Modelovanie pozícií značiek

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Ďalej ma čaká modelovanie pozícií značky. Malý, krátky článok o tom, ako môžete hodnotiť značky pomocou rôznych metrík (nie obľúbenosti odberateľov na sociálnych sieťach, ale pomocou zložitých metrík, záujmu o obsah, času stráveného prijímaním metrík).

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Mám príklad „farmaceutický“ z určitého dôvodu. Tu sú malé kruhy vnútorné, svetlé - to je množstvo textového obsahu, ktorý vytvára samotná značka, veľký kruh je množstvo foto a video obsahu, ktoré vytvára samotná značka.

Blízkosť centra ukazuje, aký zaujímavý je obsah pre publikum. Je tu veľký model, je tam kopa všelijakých parametrov: lajky, reposty, doba odozvy, kto tam priemerne zdieľal... Tu vidíte: je tu úžasný „Kagotsel“, ktorý pumpuje obrovské množstvo do tvorby vlastného obsahu a vďaka tomu sú pomerne blízko centra. A sú súdruhovia, ktorí si tvoria aj vlastný obsah, ale divákov to nezaujíma. Toto nie je veľmi adekvátny príklad, pretože všetky tieto účty sú prakticky mŕtve.

Yegor Creed je milovaný viac ako Basta

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Žiaľ, zvyšok... z čoho ukázať... No, na výber sú aj ruskí rapperi zo skutočných firiem.

Čo je to plus? Faktom je, že spoločnosť môže do takéhoto modelu vložiť takmer čokoľvek, počnúc priemernou mzdou predplatiteľov, ktorí pracujú pre vašu značku; akýkoľvek model, ktorý sa im páči. Keďže každá reklamná agentúra počíta svoje metriky inak, značky počítajú svoje metriky inak.

Je tu aj jeden – Basta, ktorý síce generuje veľké množstvo obsahu, no nachádza sa na periférii, pretože tento obsah zjavne nie je pre publikum príliš zaujímavý. Opäť sa neodvažujem súdiť. Napriek tomu je tu Yegor Creed, ktorý je podľa sociálnych sietí takmer najlepším hráčom našej doby, ale zverejňuje iba svoje osobné fotografie. Napriek tomu má veľký počet predplatiteľov: je ich niekde okolo milióna. Presné číslo si nepamätám; Pamätám si, že percento zapojenia týchto ľudí je oveľa vyššie ako 85%, to znamená, že na milión predplatiteľov dostane 850 tisíc odpovedí od týchto skutočných ľudí - to je skutočné šialenstvo. Toto je pravda.

Arthur Khachuyan: „Skutočné veľké dáta v reklame“

Odpovede na otázky z publika:

Ako dlho trvalo vytvorenie modelu analýzy rappera?

  • Každý má svoju cieľovú skupinu, pre každého sa počítajú záujmy týchto ľudí... To všetko je normalizované približne na vzdialenosť od stredu, nie je dôležitá ich radiálna poloha (tu je to jednoducho natreté pre krásu, aby robili nenaraziť do seba). Dôležitá je len približná blízkosť centra. Toto je model, ktorý používame. Mne sa napríklad viac páči kruh, niektorí to robia v mysli ako polkruh.
  • Tento model bol zostavený rýchlo, za dve alebo tri hodiny (áno, jedna osoba). Tu boli vložené len metriky: čo čím vynásobíme, to spočítame a potom to nejako znormalizujeme. Závisí od modelu. Sú ľudia, ktorých zaujíma priemerný plat (toto nie je vtip) ich predplatiteľov. A na to musíte nájsť ich kontakty, Avito, všetko vypočítať, vynásobiť. Stáva sa, že to trvá dlho, kým sa to vezme do úvahy, ale konkrétne toto (ukazuje na predchádzajúcu snímku) - parametre sú tu veľmi jednoduché: odberatelia, opätovné príspevky atď. Dokončenie trvalo asi dve až tri hodiny. V súlade s tým sa táto vec potom aktualizuje v reálnom čase a môžete ju použiť.

Teraz prichádza zábavná časť. Skončil som s príkladmi, pretože nie je zaujímavé hovoriť dlho sám. A dúfam, že sa teraz budete pýtať a vlastne budeme prechádzať z témy na tému, lebo mám také príklady, ako sa dajú využiť technológie a pod...

Odpovede na otázky z publika:

  • Mal som jeden a jediný osobný prípad s jedným, takpovediac, „near-casino“, keď tam bola umiestnená kamera, rozpoznávali sa tváre atď. Percento uznaných ľudí je určite dosť veľké – tak naše, ako aj naši konkurenti. Ale v skutočnosti je to celkom zaujímavé. Vnímam to ako zaujímavú vec: viete pochopiť, kto sú títo ľudia, a celkom dobre predpovedať, prečo sem prišli, čo sa v ich živote zmenilo natoľko, že sa rozhodli prísť do kasína. Ale čo sa týka konkrétnych druhov podnikania... Ak takúto vec dáte do lekárne, potom nemá zmysel - nemôžete predvídať, prečo človek do lekárne prišiel.

    Globálnou úlohou tu bolo vybudovať model, aby ste pochopili, kedy sa človek potenciálne chce zaujímať o vašu značku, aby ste mu mohli dať reklamu nie potom, čo si niečo kúpil (ako sa to deje teraz), ale dať mu reklamu “ v predpovedi“, kedy sa to všetko stane. Bolo to zaujímavé s takým „near-casino“; Ukázalo sa, že je dosť zaujímavé percento týchto ľudí - prečo: niekto dostal zrazu povýšenie, niekto niečo iné - také zaujímavé poznatky. Ale s niektorými obchodmi, s maloobchodom, s predajňou nejakých tabletiek sa mi zdá, že to nebude veľmi správne.

Používajú sa veľké dáta offline?

  • Bolo to offline. Musíte len presne pochopiť, či sa tento model zmestí alebo nie. Zase s perlivou vodou... Zaujíma ma vlastne všetko, ale osobne nechápem, ako veľmi, ako môžu profily týchto ľudí, ich správanie závisieť od toho, kedy si chcú kupovať balenú vodu. Aj keď to môže byť naozaj pravda, neviem.

Koľko je otvorených účtov na sociálnych sieťach?

  • Konkrétne máme 11 sociálnych sietí - sú to „Vkontakte“, „Facebook“, „Twitter“, „Odnoklassniki“, „Instagram“ a niektoré maličkosti (môžem sa pozrieť na zoznam, napríklad „Mail.ru“ atď.) . Na VKontakte určite máme kópiu všetkých týchto súdruhov. Máme ľudí na VKontakte - to je 430 miliónov zo všetkých, ktorí kedy existovali (z toho asi 200 miliónov je neustále aktívnych); existujú skupiny, medzi týmito ľuďmi sú prepojenia a je tu obsah, ktorý nás zaujíma (text), a časť médií, ale veľmi malá... Zhruba povedané, pozeráme sa na tento obrázok: ak sú tam tváre, uložte ich, ak existuje meme, uložíme ich Neuložíme to, pretože ani my by sme nemali dosť na uloženie mediálneho obsahu.

    Existuje ruskojazyčný Facebook. Niekde je teraz 60-80% Odnoklassniki, o pár mesiacov ich snáď dostaneme do konca. ruský Instagram. Pre všetky tieto sociálne siete existujú skupiny, ľudia, spojenia medzi nimi a text.

  • Asi 400 miliónov ľudí. Je tu jemnosť: existujú ľudia, ktorých mesto nie je špecifikované (potenciálne sú Rusi / neruskí); Z toho je priemer pre sociálne siete 14% uzavretých účtov na VKontakte, neviem presné číslo na Facebooku.
  • Na Instagrame tiež neukladáme médiá – iba ak sú tam tváre. Takýto (iný) mediálny obsah neuchovávame. Zvyčajne zaujímavé: iba text, spojenia medzi ľuďmi; Všetky. Najbežnejším výskumom na Instagrame je obvyklý prieskum publika: kto sú títo ľudia, a čo je najdôležitejšie, spojenie týchto ľudí s inými sociálnymi sieťami. Nájdite profil tejto osoby na Vkontakte a Facebooku, aby ste mohli vypočítať jej vek atď.
  • Zatiaľ nie je potrebné brať na seba všetkých ostatných – jednoducho preto, že nie sú žiadni zákazníci. Pokiaľ ide o jazyk: máme ruštinu, angličtinu, španielčinu, ale stále sa používa výhradne pre značky z Ruska; alebo spoločnosti, ktoré ich dovážajú z Ruska.
  • Každý deň robíme rozhovory s ľuďmi v mnohých, mnohých, mnohých vláknach: zbierame údaje zbieraním webu a aktualizujeme tieto ukazovatele pomocou Api. Za 2-3 dni môžete prejsť celým „VKontakte“; Asi za týždeň si môžete prejsť celý Facebook a pochopiť, kto čo aktualizoval a čo nie. A potom týchto ľudí znova zložte oddelene: čo sa presne zmenilo, zapíšte si celý tento príbeh. Podľa mojich skúseností bol niečí starý profil na sociálnych sieťach použitý na skutočné obchodné účely. Bolo to obdobie, keď sa prihlásila jedna politická osobnosť, ktorej úlohou bolo pochopiť, akí ľudia prichádzajú do centrály, kto boli títo ľudia pred 6-8 mesiacmi (vymazali si profil, ale v skutočnosti pre iného kandidáta prišli hlasovacie lístky pokaziť).

    A niekoľkokrát - osobné príbehy, keď boli niečie fotografie zverejnené vo verejnej sfére. Bolo potrebné nájsť súvislosti atď. Žiaľ, škoda, ale nemôžeme svedčiť na súde, pretože naša databáza je právne nelikvidná.

  • Úložisko MongoDB je moje obľúbené.

Sociálne siete sa snažia bojovať so zberom dát

  • Inzerentom zvyčajne nahrávame iba zoznam týchto účtov a potom používajú ten štandardný... To znamená, že na sociálnych sieťach, na VKontakte môžete uviesť zoznam týchto ľudí.

    Facebook ale používa zakúpené cookies. My sami so súbormi cookie nepracujeme, ale vyskytlo sa niekoľko príbehov, keď inzerent sám dal nejakých ľudí, komunikovali sme s nimi - majú tieto siete, s upútavkou, neupútavou reklamou, tieto „súbory cookie“. Môžete to zviazať - niet pochýb! Ale tieto veci sa mi veľmi nepáčia, pretože si nemyslím, že sú veľmi autentické. To je čisto podľa mňa, je to ako TNS, ktorá „stopuje“ televízory – nie je jasné, či tento televízor pozeráte alebo nie, či umývate riad, keď máte zapnutý televízor... A tu je to rovnaké. : Veľmi často si niečo googlim na internete, ale to neznamená, že si to chcem kúpiť.

  • Ak používate nejaký druh štandardnej kontextovej reklamnej siete: Mal som niekoľko príbehov, keď sme im týchto ľudí vyložili a snažili sme sa ich pomocou ich rozhraní prepojiť s „cookies“ na ich stránkach. Ale takéto veci sa mi veľmi nepáčia.

Vzorec na výpočet mzdy používateľa internetu

  • Všeobecný vzorec pre priemernú mzdu: toto je región, kde človek žije, toto je kategória podnikania, v ktorej pracuje (teda spoločnosť, ktorá je jeho zamestnávateľom), potom sa vezme jeho pozícia v tejto spoločnosti, priemer mzda na tejto pozícii sa odhaduje... Priemerná mzda prevzatá z „Head Hunter“ a „Superjob“ (a existuje niekoľko ďalších zdrojov) pre danú voľnú pozíciu v danom regióne a pre daný obchodný kontext.

    Z „Avito“ a „Avto.ru“ sa zvyčajne berú ďalšie parametre, ak osoba osvetlila telefón. S Avito môžete vidieť, aké veci človek predáva - drahé, lacné, použité, nepoužívané. S "Avto.ru" môžete vidieť, či má auto - vlastní ho, nevlastní ho. To je niekde menej ako 20 % ľudí, ktorým niekde omylom spadol telefón a ich účet môže byť prepojený s týmito údajmi.

Aké objemy spoločnosť na zber údajov prevádzkuje?

  • Objem uložených fotografií v petabajtoch je 6,4. Teraz nemôžem presne povedať tempo rastu, pretože v roku 2016 sme začali nahrávať „periskopy“ a práve sme začali nahrávať video.

    Neviem presne povedať, kedy bola nula. Prechádzali sme z firmy do firmy – to všetko sú dlhé príbehy. Môžem však povedať, že VK, Facebook, Instagram a Twitter - všetko toto podnikanie (ľudia, skupiny a spojenia medzi nimi) s textom a obsahom - to v skutočnosti nie je veľa údajov, je nepravdepodobné, že by ich mal dosť aj petabajt. Myslím, že je to 700 gigabajtov, pravdepodobne 800.

Pomáhate klientom určiť aktuálnu medzeru a kde kopať?

  • Keď príde klient, navrhujeme mu takéto veci, ale my sami, podobne ako Google Trends, také veci nerobíme.
  • Mali sme niekoľko takmer sociologických príbehov s volebnou, predvolebnou históriou – všetko sme analyzovali. So značkami a hodnotením názorov na značky sa takmer vždy všetko zhoduje. Tu sú volebno-volebné príbehy - nie (s hodnotením, ktorý kandidát by mal vyhrať). Neviem, kto sa tu mýli – my alebo tí, ktorí uvažujú vo VTsIOM.
  • Väčšinou tieto výsledky kontroly berieme od značky samotnej, oni to berú od súdruhov, ktorí si objednávajú prieskum – telefonický prieskum, marketingový prieskum a pod. Navyše sa to celé dá skontrolovať základnými vecami: niekto odpovedal na mailing list, niekto robil prieskumy... Ak ide o veľkú značku (napríklad Coca-Cola), určite má milión alebo dve interné recenzie od zákazníkov – to nie sú len komentáre na sociálnych sieťach a nejaké názory; Ide o akési interné systémy, recenzie a pod.

Zákon „nevie“, čo sú osobné údaje!

  • Analyzujeme výhradne otvorené zdroje údajov a nikdy sa nezapájame do žiadnych špinavých trikov. Náš model je postavený na tom, že všetky otvorené dáta ukladáme v niektorých verejných dátových centrách, prenajímame ich niekde inde a analyzujeme doma, v kanceláriách, na našich serveroch a nejdú nikam mimo územia.

    Ale naša legislatíva v oblasti otvorených dát je veľmi vágna.

    Nemáme jasnú predstavu o tom, čo sú otvorené údaje, čo sú osobné údaje – existuje 152. federálny zákon, ale aj tak... Ako sa počítajú? Teraz, ak mám vaše meno a vaše telefónne číslo v jednej databáze, v inej databáze mám vaše telefónne číslo a váš e-mail, v tretej mám, povedzme, váš e-mail a vaše auto; Zdá sa, že toto všetko sú neosobné údaje. Ak si toto všetko dáte dokopy, zdá sa, že podľa zákona sa to stane osobným údajom.

    Obchádzame to dvoma spôsobmi. Prvým je inštalácia servera so softvérom pre klienta a potom tieto údaje nepresahujú jeho územie a klient je potom zodpovedný za distribúciu týchto osobných údajov, neosobných údajov atď. Alebo druhá možnosť: ak ide o nejaký príbeh, kde musíte žalovať sociálnu sieť alebo niečo iné...

    Mali sme takú štúdiu, keď sme (boli tam primárky Jednotného Ruska) pre Lifenews zbierali účty týchto súdruhov a zisťovali, aký druh porna sa im páči. Bola to sranda, ale aj tak. Predávame to ako svoj vlastný, osobný názor, bez toho, aby sme v dokumentoch legálne zverejňovali to, čo sme analyzovali – Jednotný štátny register právnických osôb, platy, sociálne siete; Predávame znalecký posudok a na okraj potom človeku vysvetlíme, čo sme analyzovali a ako.
    Bolo tam viacero príbehov, ale súviseli s niektorými verejnými komerčnými projektmi. Napríklad máme bezplatný neziskový projekt pre tých, ktorí jazdia na longboardoch (takéto dosky sú dlhé): úlohou bolo zbierať publikácie ľudí - keď niekto uverejní „Išiel som do Gorkého parku na jazdu“. A teraz by sa mal dostať na mapu a ľudia okolo neho uvidia, že niekto je v jeho blízkosti. VK sa s nami zaoberal touto témou veľmi dlho, pretože sa im nepáčilo, že tieto informácie zverejňujeme bez súhlasu ľudí. Potom sa však vec nedostala na súd, pretože v rámci niekoľkých veľkých komunít sme do pravidiel pridali, že údaje môžu využívať tretie strany, agentúry, firmy, analýzy atď. Samozrejme, nebolo to nijak zvlášť etické, ale aj tak.

  • Len sme si to včas uvedomili a náš znalecký posudok sme začali predávať všetkým.

Spolupracujete so vzdelávacími inštitúciami?

  • Spolupracujeme so vzdelávacími inštitúciami, áno. Máme celý rad: máme magisterský program na strednej škole a spolupracujeme s inými univerzitami. Máme veľmi radi univerzity!
  • Ak máte moje kontakty, môžete mi napísať. A odkaz na prezentáciu, ak by to niekoho zaujímalo - všetky tieto príklady sú tam, môžete to presunúť.
  • Ak poznáte telefónne číslo, poštu - to je takmer stopercentná možnosť, nikto to neodstráni. Ak tam nie je žiadne telefónne číslo, je to zvyčajne obrázok; ak nie je žiadny obrázok, je to rok, miesto bydliska, práca. Teda podľa roku, bydliska a práce sa dá vždy celkom nenápadne identifikovať takmer každý. Ale to je opäť otázka o úlohe.

    Máme povedzme klienta, ktorý predáva internetovú televíziu. Niekto si od nich kúpil predplatné týchto „Games of Thrones“ a úlohou je pomocou ich CRM nájsť týchto ľudí na sociálnych sieťach a potom nájsť potenciálnych ľudí z oblasti ich vplyvu. Mám na mysli len to, že majú povedzme krstné meno, priezvisko a e-mail... A potom je veľmi ťažké niečo urobiť. Vo väčšine prípadov sa ľudia dajú nájsť cez e-mail.

  • Na základe zloženia našich priateľov zvyčajne „párujeme“ ľudí na sociálnych sieťach, no nie vždy je to správne. Nie je to tak, že to nie je vždy správne – nie vždy to funguje. Po prvé, vyžaduje si to veľa práce, pretože túto operáciu (spájanie ľudí) bude musieť najskôr vykonať každý z priateľov - aby sme pochopili, či prišli zo sociálnych sietí alebo nie. A potom - pre nikoho neznáma skutočnosť, že na VKontakte máme rovnakých priateľov, na Facebooku máme rôznych priateľov. Nie pre každého, ale napríklad pre mňa je to takto; a to platí aj pre väčšinu ľudí.

Ako sa zbierajú najkompletnejšie údaje?

  • Inštalácia softvéru pre klienta na jeho strane. Je na nich nainštalovaný server, ktorý od nás berie len verejné údaje a interne spracováva ich osobné údaje. S klientom sa uzatvára NDA. To, samozrejme, nie je veľmi správne, že to prenášajú na nás, ale právna zodpovednosť je na klientovi - teda inštalácia softvéru pre neho alebo prenos anonymných údajov. Ale to bolo veľmi zriedkavé, pretože - správna alebo nesprávna anonymizácia - vo väčšine prípadov sa závislosť medzi týmito ľuďmi stráca.

Kto kupuje softvér na rozpoznávanie tváre?

  • V skutočnosti ideme sem, pretože náš hlavný softvér, ktorý predávame, je vyhľadávanie tvárí, korelačná analýza a predávame ho vládnym agentúram. A pred rokom a pol sme sa rozhodli, že všetky tieto príbehy dáme do reklamy, do marketingu, na verejný trh – tak vznikol Social Data Hub, komerčná právnická osoba. A teraz sem len prichádzame. Stretávame sa tu už rok a pol a snažíme sa ľuďom vysvetliť, že ľuďom netreba dávať sťahovanie so zmienkou, že im treba dať odpovede na otázky, že netreba tonalitu , a tak ďalej. takze tazko povedat kde...
  • (Koho máte na mysli?) Všetkým súdruhom, ktorí potrebujú hľadať teroristov a pedofilov.
    Hneď môžem povedať (to bude ďalšia otázka): podľa našich údajov neboli za premiestnenie uväznení žiadni učitelia.
  • Na VKontakte - 14%; na ​​Facebooku neexistuje žiadny uzavretý profil ako taký (existuje uzavretý zoznam priateľov atď.). A najzaujímavejšie je, že som práve napísal správu - teraz budú počítať a povedať.

Nezverejňujte niečo, za čo sa budete hanbiť!

  • Neuverejňujte na sociálne siete nič, za čo by ste sa hanbili – ja osobne sa tým riadim. Aj keď som mal veľa osobných, lebo na facebooku nadávam. Nuž, bolo a bolo čo robiť... Nezverejňujte nič, čo by bolo trápne! Ak budete neskôr pracovať niekde vo verejnej komore, áno, je lepšie nekomentovať. Ak to neurobíte, celkovo to nikoho nezaujíma. Môžem vás len uistiť, že nikto nečíta vašu osobnú korešpondenciu a toto všetko len buduje celý tento príbeh...

    Každý týždeň za mnou určite niekto príde a povie: „No, fotky môjho priateľa unikli na nejakú anonymnú verejnú stránku! Pomoc! Mimochodom, nikdy nič nezverejňujte na anonymných verejných stránkach.

  • O inych monitorovacich systemoch neviem - urcite to zoberieme do uvahy, ze zmienka o znacke bola negativna, boh odpusti... Ale mozem povedat, ze vselijake primarne sudruhy zaujimaju len ludi ktorí majú viac ako 5 tisíc divákov a ich verejná mienka môže niekoho ovplyvniť.potom ovplyvniť. Z mojej skúsenosti sa ešte nestalo, že by HR agentúra, ktorá si u nás objednáva profilové hodnotenia, povedala: „Kto má rád Navaľného, ​​nech nikoho neberie!“

O zverejňovaní výsledkov. Koľko ľudí je zamestnaných vo výskume?

  • Z top 10 reklamných spoločností ich teraz publikuje sedem. Ťažko povedať: keď sme s tým pred rokom a pol začínali... V každej oblasti máme niekoľko ľudí – niekoľko ľudí je v bankách, niekoľko ľudí je v HR, niekoľko ľudí je v reklame. A teraz premýšľame o tom, ku komu je výhodnejšie ísť ako prvému, pre koho treba začať robiť nejaké rozhrania...
  • (o počte ľudí na segment trhu) Nie viac ako 25 ľudí, pretože sme nikoho neznásilnili.
  • Vo všeobecnosti sú v zásade tieto technológie z trhu využívané, myslím, na viac ako 50 %. Niektorí v reklamných kampaniach, iní v nejakej internej analytike. Povedal by som, že 40 percent ho používa v internej analytike, 50 – 60 % ho predáva koncovým značkám. To už ale závisí od samotných reklamných spoločností. Vidíte, niektorí ľudia sa hlásia jednoducho za vynaložené peniaze, za reklamu, ktorú zaviedli, zatiaľ čo iní píšu o tom, koľko ľudí priviedli, aké publikum... Povedal by som to, ale môžem sa mýliť - nemám Naozaj si neviem predstaviť, ako všetci títo súdruhovia fungujú. Viem len v kvantitatívnych údajoch.

Nejaké inzeráty 🙂

Ďakujeme, že ste zostali s nami. Páčia sa vám naše články? Chcete vidieť viac zaujímavého obsahu? Podporte nás zadaním objednávky alebo odporučením priateľom, cloud VPS pre vývojárov od 4.99 USD, jedinečný analóg serverov základnej úrovne, ktorý sme pre vás vymysleli: Celá pravda o VPS (KVM) E5-2697 v3 (6 jadier) 10GB DDR4 480GB SSD 1Gbps od 19 USD alebo ako zdieľať server? (k dispozícii s RAID1 a RAID10, až 24 jadier a až 40 GB DDR4).

Dell R730xd 2 krát lacnejší v dátovom centre Equinix Tier IV v Amsterdame? Len tu 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV od 199 USD v Holandsku! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gb/s 100 TB – od 99 USD! Čítať o Ako vybudovať infraštruktúru spol. triedy s využitím serverov Dell R730xd E5-2650 v4 v hodnote 9000 XNUMX eur za cent?

Zdroj: hab.com

Pridať komentár