Arthur Khachuyan: „Skutečná velká data v reklamě“

14. března 2017 vystoupil na přednášce BBDO Arthur Khachuyan, CEO Social Data Hub. Arthur hovořil o inteligentním monitorování, vytváření modelů chování, rozpoznávání obsahu fotografií a videí a také o dalších nástrojích a výzkumu Social Data Hub, které umožňují cílit na publikum pomocí sociálních sítí a technologií Big Data.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Artur Khachuyan (dále - AH): - Ahoj! Ahoj všichni! Jmenuji se Arthur Khachuyan, vedu společnost Social Data Hub a zabýváme se různými zajímavými intelektuálními analýzami otevřených datových zdrojů, informačních polí a děláme nejrůznější zajímavé výzkumy a tak dále.

A dnes nás kolegové z BBDO Group požádali, abychom pohovořili o moderních technologiích pro analýzu velkých dat, velkých a ne tak velkých dat pro reklamu: jak se používají, ukažte několik zajímavých příkladů. Doufám, že se budete cestou ptát, protože se můžu nudit a neprozrazovat podstatu a tak dále, tak se nestyďte.

Ve skutečnosti jsou hlavní směry, kde se někdy použila nějaká řešení „blízko velkých dat“, všechny jasné – jde o cílení na publikum, analýzu, provádění nějakého analytického marketingového výzkumu. Vždy je ale zajímavé, jaká další data lze nalézt, jaké další významy lze nalézt po aplikaci analýzy.

Proč potřebujeme technologii pro reklamu?

kde začneme? Nejviditelnější je reklama na sociálních sítích. Dnes jsem to ráno sundal: z nějakého důvodu si VKontakte myslí, že bych měl vidět tuto konkrétní reklamu... Zda je to dobré nebo špatné, je druhá otázka. Vidíme, že rozhodně spadám do kategorie branců:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Úplně první a nejzajímavější věc, kterou lze brát jako technologické řešení... První věc, kterou jsem chtěl rozhodnout, než začneme, je definovat pojmy: co jsou otevřená data a co velká data? Protože všichni lidé mají v této věci své vlastní chápání a já nechci nikomu vnucovat své podmínky, ale... Jen aby nedošlo k nějakým nesrovnalostem.

Osobně si myslím, že otevřená data jsou vše, na co se dostanu bez přihlášení nebo hesla. Toto je otevřený profil na sociálních sítích, to jsou výsledky vyhledávání, to jsou otevřené registry atd. Big data, ve svém vlastním chápání, to vidím takto: pokud je to datový štítek, je to miliarda řádků, pokud je to nějaký druh úložiště souborů, je to někde petabajt dat. Zbytek v mé terminologii nejsou velká data, ale něco podobného.

Vysoce přesné profilování a bodování profilu

Jdeme popořadě. Úplně první a nejzajímavější věc, na kterou můžete z analýzy otevřených datových zdrojů přijít, je vysoce přesné profilování a skórování profilů. co to je? Toto je příběh, kde váš účet na sociální síti dokáže předpovědět nejen to, kdo jste, nejen vaše zájmy.

Nyní však kombinací různých zdrojů můžete pochopit průměrnou úroveň svého platu, kolik stojí váš byt a kde se nachází. A všechna tato data lze využít doslova z dostupných prostředků. Pokud si například vezmete svůj účet na sociální síti, podívejte se, řekněme, kde bydlíte, kde pracujete; porozumět tomu, v jaké části podnikání společnost, pro kterou pracujete, působí; stáhněte si podobná volná místa z HH a „Superjob“, pokud jste analytik, manažer atd.; podívejte se, kde bydlíte (základna, řekněme CIAN), pochopte, kolik stojí pronájem domu v tomto místě, kolik stojí nákup domu v tomto místě, odhadněte, kolik přibližně vyděláte. Dále pomocí svých sociálních sítí můžete pochopit, jak moc cestujete, kde jste a jak loajální jste svému zaměstnavateli.

V souladu s tím z tak obrovského množství metrik můžeme dělat, co chceme. Můžeme vám představit produkt, který vás zajímá. Dokážete si představit internetový obchod? Jdete tam - tento internetový obchod zachytí váš účet na sociální síti a řekne vám: „Mášo, právě jsi se rozešla se svým přítelem, tady jsou pro tebe určité produkty.“ Tohle není blízká budoucnost...

Jak se určuje geolokace osoby?

Odpovědi na dotazy z publika:

  • Obvykle se 80 % všech odbavení považuje za přesné místo pobytu. Ale pro lidi, kteří se nikde nehlásí, je několik možností: buď check-in, nebo geolokace, nebo je to rozbor příspěvků a publikací za celou dobu, kdy člověk něco napsal... A někde, objeví se něco jako „Chci si koupit kočárek poblíž Akademicheskaya“ nebo „Nedávno jsem tady viděl ošklivé graffiti na zdi.“ To znamená, že u téměř 80 % lidí lze určit jejich geolokaci, místo výkonu práce a bydliště pomocí dat nebo metadat, která lze shromáždit ze sociálních sítí.

    Toto je opět analýza příspěvků. V nejjednodušším slova smyslu se jedná o analýzu check-inů a geolokací na sociálních sítích, které nemažou metadata jpeg (z toho se dá něco vyčíst). Ale pro zbývající lidi jsou to obvykle textová vysílání: buď člověk „posvítí“ svou polohu, když o něčem píše, nebo „posvítí“ telefonem, pomocí kterého můžete najít nějakou jeho reklamu na Avitu nebo jeho účet na „ Auto RU". Na základě těchto údajů můžete kombinovat (například „Prodávám auto poblíž Mayakovské“) a zhruba to předpokládat.

  • Lidé to obvykle zveřejňují na sociálních sítích. Pracujeme pouze s otevřenými zdroji a zde mluvíme výhradně o otevřených zdrojích. Většinou zveřejňují inzeráty, tedy v šedesáti procentech případů je nejčastějším příběhem, kdy lidé „ukazují“ své aktuální číslo mobilního telefonu, inzeráty na prodej něčeho. Buď v nějakých skupinách člověk napíše („prodávám tam to či ono“), nebo někam jde.

    Ano! Většinou to komentují takto: „Odpovězte mi nebo pošlete SMS, zavolejte na moje číslo. Velmi často se to stává lidem, kteří něco prodávají, kupují na sociálních sítích, s někým komunikují... Podle toho pak pomocí tohoto čísla s ním můžete propojit jeho profil na CIAN, pokud někdy něco zveřejnil, nebo opět na Avito. To jsou prostě nejoblíbenější, top zdroje, bude to dál - to jsou Avito, CIAN a tak dále.

  • To se týká internetového obchodu. Další bude technologie rozpoznávání obličeje a párování profilů (budeme o ní mluvit). Čistě teoreticky to lze aplikovat na offline obchod. A vůbec, mým velkým snem je, že když se objeví pouliční transparenty, když projdete kolem kamery, „uvězní“ váš obličej. Ale tento případ bude zákonem zakázán, protože jde o narušení soukromí. Doufám, že se to dříve nebo později stane.
  • Z osobní zkušenosti. Velmi často, když vám někdo něco napíše, operujete s některými fakty z jeho života, které byste zřejmě neměli znát... Lidé se ve většině případů vyděsí. Ale! Na základě posledních statistik se počet uzavřených účtů na sociálních sítích snížil o 14 %. Přibývá padělků, roste počet otevřených účtů – lidé stále více směřují k otevřenosti. Myslím, že za 3-4 roky přestanou tak silně reagovat na to, že o nich někdo ví informace, které by potenciálně vědět neměli. Ale ve skutečnosti je to velmi snadné získat pohledem na jeho zeď.

Co lze převzít z otevřených zdrojů?

Existuje přibližný seznam věcí, které lze s poměrně vysokou spolehlivostí pochopit z otevřených zdrojů. Ve skutečnosti existuje ještě více různých metrik; záleží na zákazníkovi takového výzkumu. Je nějaká HR agentura, kterou zajímá, jestli nadáváte na sociálních sítích nebo někde ve veřejném prostoru. Někoho zajímá, jestli se vám líbí Navalného publikace nebo naopak publikace Jednotného Ruska nebo nějaký druh pornografického obsahu – takové věci se stávají docela často.

Hlavními jsou rodinné hodnoty, přibližné náklady na byt, domov, hledání auta a podobně. Na základě toho lze lidi rozdělit do sociálních skupin. Toto jsou uživatelé Moscow Tinder, kdo jsou (podle jejich obrázků nalezených na jejich účtech na Facebooku); na základě svých zájmů se dělí do různých sociálních skupin:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Pokud se přiblížíme reklamě, tak jsme se pomalu vzdálili standardnímu cílení reklamy, kdy si na VKontakte vyberete, že vás zajímají 18leté muže přihlášené k určitým skupinám. Další mám tento obrázek, teď vám ho ukážu:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Pointa je, že většina současných služeb, které v zásadě analyzují lidi, kteří analyzují sociální sítě, se zabývá analýzou zájmů... První věc, která lidem přijde na mysl, je analyzovat hlavní skupiny jejich odběratelů. Možná to někomu funguje, ale osobně si myslím, že je to zásadně špatně. Proč?

Vaše lajky se shromažďují a analyzují

Nyní si vezměte své telefony, podívejte se na své nejlepší skupiny – určitě bude více než 50 % skupin, na které jste již zapomněli, jedná se o nějaký druh obsahu, který je pro vás vlastně irelevantní. Vy to vůbec nekonzumujete, ale přesto vás systém bude podle nich sledovat: že jste se přihlásili k odběru receptů, do nějakých oblíbených skupin. To znamená, že porušíte systém, který analyzuje váš profil, a vaše zájmy nebudou oprávněné.

Jdeme dál... Co je tam? Předpokládáme, co dělají ostatní lidé. Podle našeho názoru je nejadekvátnějším způsobem, jak posoudit zájmy uživatelů, lajky. Například na VKontakte není žádný zdroj lajků a lidé si myslí, že nikdo neví, co se jim líbí. Ano, některé lajky jsou zavedeny na Instagramu, něco vidíme na Facebooku, ale většina obsahu v určitých skupinách to nevysílá ve společném feedu a lidé žijí a myslí si, že nikdo nebude vědět, co se jim líbí.

A sbíráním určitého obsahu nějakého druhu, který nás zajímá, sbíráním těchto příspěvků, sbíráním těchto lajků a následnou kontrolou této osoby pomocí této databáze, můžeme s vysokou přesností určit, kdo to je, jaký je jeho osud, co ho zajímá. Zařaďte ho přesně do určité sociální skupiny a komunikujte s ním.

Nákup auta mění chování

Mám takový příklad. Okamžitě učiním výhradu, že mé příklady jsou blízké reklamě a marketingu, protože, víte, většina případů je chráněna NDA a tak dále. Ale i tak bude spousta zajímavých věcí. Takže příběh s těmito lidmi: jsou to muži, kteří si v letech 2010 až 2015 koupili auto. Jak se změnilo jejich online sociální chování, je vyznačeno barvou. Procento dívek mezi předplatiteli se změnilo, odebíral jsem „chlapské“ veřejné stránky, našel jsem stálého sexuálního partnera...

Arthur Khachuyan: „Skutečná velká data v reklamě“

Celé to je rozepsané podle značky auta a počtu lidí. Odtud můžete vyvodit mnoho zajímavých závěrů o chování lidí a o tom, jak to všechno funguje. Mohu říci, že Porsche Cayenne a vysázená Priora jsou co do počtu přitahovaného publika téměř totožné. Kvalita tohoto publika a jejich chování jsou různé, ale kvantita je přibližně stejná. Závěr, z něhož můžete vyvodit, je jakýkoli, blíže k vašemu trhu. Pokud prodáváte Audi, vytvoříte slogan „Kupte si Audi a jděte pryč od rodičů! a tak dále.

Ano, to je vtipná ukázka toho, že chování lidí na základě rozboru lajků, na základě toho, do jaké skupiny se přesunou, jaký obsah rozebírají - s téměř 100% pravděpodobností dává jasně najevo, kdo jste. Protože pokud nemáte přístup k síťovému provozu a nečtete osobní zprávy, lajky vám vždy řeknou, kdo je tato osoba - těhotná žena, matka, voják, policista. A pro vás, jako člověka, který umí dělat reklamu, je to velký zásah.

Odpovědi na dotazy z publika:

  • Každý sloupec je počet lidí v tomto voze; jak se změnily vzorce jejich chování. Podívejte se: lidé, kteří si koupili Porsche Cayenne - přibližně 550 lidí (žlutá), procento dívek mezi předplatiteli se zvýšilo.
  • Vzorkem jsou uživatelé sociálních sítí „Vkontakte“, „Facebook“, „Instagram“ od roku 2010 do roku 2015. Jediné upřesnění: zde vybraná auta jsou ta, která lze pomocí určitých nástrojů identifikovat na fotografiích s více než 80% přesností.
  • Za určitou dobu se jeho auto (no, tedy ne jeho, to necháme na sociálních sítích)... Za určitou dobu byl člověk s autem neustále fotografován, byl u něj, publikace byly různé, fotografie byly z různých úhlů a tak dále . Vznikne pak obrázek, kteří lidé se fotí s jakými auty a... Ano, to je druhá otázka – důvěra v data sociálních sítí.
  • Od té doby, co jsme to přinesli, bohužel nejsou data sociálních médií vždy správná. Lidé nejsou vždy nakloněni zveřejňovat své informace. Osobně jsem provedl takovou studii: Porovnal jsem počet absolventů moskevských univerzit s počtem lidí registrovaných na sociálních sítích. V průměru je na sociálních sítích registrováno o 60 % více lidí - absolventů Moskevské státní univerzity v určitém roce v určitých specializacích - než je v zásadě ve skutečnosti. Takže ano – je zde samozřejmě procento chyb a nikdo to neskrývá. Zde prostě bereme za základ ta auta, která lze identifikovat s více než 80% pravděpodobností.

Seznam zdrojů pro modelový trénink

Zde je ukázkový seznam zdrojů, které lze použít, pomocí kterých lze s velkou jistotou určit sociální profil člověka, kým je.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Bereme profil ze sociálních sítí, od CIAN - náklady na byt jsou přibližně, "Head-Hunter", "Superjob" - to je průměrný plat pro danou osobu. Doufám, že tu nejsou žádní zástupci Head Hunter, protože si myslí, že není moc dobré od nich brát tato data. Jde však o průměrnou mzdu v určitých regionech za určité druhy činností na volná místa.

„Avito“, „Avto.ru“: velmi často lidé, když jim svítí telefon, určitě to mají (ve velkém počtu případů) alespoň něco na „Avito“, nebo na „Avto.ru“, popř. na dalších několika stránkách, ze kterých můžete pochopit, kdo jsou. Pokud by se na tomto telefonním čísle prodal kočárek nebo auto... Rosstat a Jednotný státní rejstřík právnických osob jsou stále více rejstříky, pomocí kterých můžete seřadit zaměstnávající společnost - podle nějakého vzorce, podle modelu, který může nastavit každá osoba (můžete zhruba určit peníze této osoby atd.).

Tinder pomáhá shromažďovat data o situaci lidí

Navíc je tu taková zajímavá věc (alternativně je to ve studii velmi vtipné) - to je opět sběr dat z Moscow Tinder pomocí robotů pro tento Tinder. Byla určena vzdálenost k lidem a poté byla určena jejich přibližná poloha.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Cílem této studie bylo zjistit počet účtů Tinder na území vládních institucí – v Dumě, státním zastupitelství a podobně. Vy jako inzerent si ale můžete představit, co chcete: může to být například Starbucks nebo někdo jiný... Tedy počet lidí na Tinderu, kteří od vás pijí kávu, něco si objednají, jsou v obchodech Pokud jde o tuto geolokaci: lze to provést pomocí jakékoli služby.

Odpověď na otázku z publika:

  • Tinder? Ty nevíš? Tinder je seznamovací aplikace, kde si prohlížíte fotografie (vlevo-vpravo) a tato aplikace vám ukazuje vzdálenost k dané osobě. Pokud získáte vzdálenost k této osobě ze tří různých bodů, můžete přibližně (+ 5-7 metrů) určit polohu. V tomto případě pro určení na území státního zastupitelství nebo Státní dumy to není tak těžké. Ale znovu, může to být váš obchod, může to být cokoliv.

Například před dlouhou, dlouhou dobou jsme měli takový případ (nikoli studii), kdy jsme od jednoho z mobilních operátorů obdrželi údaje o hustotě provozu, údaje o hustotě pohybu mobilních bodů a všechny tyto informace byly superponovány na souřadnicích billboardů umístěných na dálnicích . A úkolem mobilního operátora je určit, kolik lidí přibližně prochází kolem a mohlo by potenciálně vidět tuto billboardovou reklamu.

Pokud jsou tady specialisté na billboardovou reklamu, můžete si říct: to se superspolehlivostí pochopit nedá - někdo přichází, někdo se nedíval, někdo se díval... Přesto je to příklad toho, jak je tu 20 miliard polygonů tyto v Moskvě, na kterých je hustota těchto lidí každou hodinu na určitých trasách... Můžete vidět, co tito lidé projížděli každou chvíli a zhruba odhadnout proud cestujících.

Odpověď na otázku z publika:

  • Taková data nikdo nedává. Takovou studii jsme provedli pro jednoho z operátorů, jedná se výhradně o interní příběh, takže bohužel není prezentován ve formě obrázků. Velké reklamní agentury ale často nemají problém kontaktovat operátora. Přinejmenším v Moskvě existuje mnoho precedentů, kdy se například pojišťovny obracejí na společnosti jako GetTaxi, které poskytují neosobní údaje o věku řidiče, o tom, jak jezdí (dobře - špatně, bezohledně - ne), aby předpověděly politiky a tak dále. Každý se s tím potýká, ale na nějaké interní úrovni dávat anonymní data - myslím, že nikdo takový problém nemá.

Rozpoznávání obrázků a vzorů

Pokračuj. Nejraději mám rozpoznávání obrázků. Bude tam malý kousek o hledání lidí podle tváří, ale tuto část většinou nebereme. Zaměřujeme se konkrétně na rozpoznání obrazu a určení toho, co je na tomto obrázku - značka auta, jeho barva a tak dále.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Mám takový vtipný příklad:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Byla taková studie o hledání tetování na různých sociálních sítích. Totéž lze tedy aplikovat na jakoukoli značku, na jakýkoli vizuální obraz, na téměř jakýkoli vizuální obraz. Jsou takové, které nelze spolehlivě určit (nebereme je).

Arthur Khachuyan: „Skutečná velká data v reklamě“

Tady je můj oblíbený. Automobilové značky se k tomuto úkolu poměrně často obracejí, protože jejich úkolem je například najít všechny majitele nějakého BMW X6, pochopit, kdo to je, jak jsou spolu propojeni, co je zajímá a podobně. To souvisí s otázkou, jakými auty se lidé fotí na sociální sítě.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Nebylo zde vůbec žádné filtrování: objekt byl jejich, auto nebylo jejich; Je to jen rozbití aut – stáří a tak dále. Ale vizuální rozpoznávání obrazu se používá poměrně často: je to hledání těhotných žen a hledání log značek v nějakém druhu masmédií (kdo co zveřejňuje).

Arthur Khachuyan: „Skutečná velká data v reklamě“

Můj oblíbený případ (který používají různé restaurace): jaké rohlíky se dávají na sociální síť. Je to legrační věc, ale ve skutečnosti vám umožňuje pochopit spoustu zajímavých věcí, za prvé, o vašich vlastních zákaznících: kdo k vám přišel a proč to udělal. Protože není žádným tajemstvím, že v sushi barech se většina lidí (neřeknu „holky“) fotí, aby se ubytovali, něco vyfotili atd.

Značka toho může využít. Značku zajímá, jaké produkty potřebuje krásně nafotit a postnout, jací lidé tam přišli. Tuto věc lze dělat téměř se vším, od jídla.

Video rozpoznávání vzorů

Odpověď na otázku z publika:

  • Ne na videu. Máme to v testovacím režimu. Vyzkoušeli jsme tuto technologii, ale ukázalo se, že... Rozpozná vše s videem docela dobře, ale nikde jsme pro ni nenašli uplatnění. Sbohem. Kromě rozebírání toho, jak moc a kteří videoblogeři někde mluví... Taková studie byla. Kolik jejich tváří se potkává, jak často. Ale značky zatím nepřišly na to, kde s tím přijít. Snad to jednou přijde.

Opět jde o jídlo, mohou to být těhotné ženy, muži (netěhotní), auta – cokoliv.

Volitelně byla novoroční studie pro jedno médium. Do reklamy také daleko, ale přece. Toto je druh jídla, které se lidé postili na Nový rok:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Je to zde členěno i podle věku. Je vidět taková korelace, že jídlo si většinou objednávají mladí lidé, dospělí většinou dělají tradiční stůl. Je to legrační věc, ale když si to představíte jako vlastník značky, můžete hodnotit velké množství věcí: kdo a jak zachází s vaším produktem, co o něm píše. Často lidé ne vždy v textu zmiňují samotnou značku a tradiční analytické monitorovací systémy nemohou vždy tuto zmínku o značce pochopit a najít ji pouze proto, že v textu není zmíněna. Nebo je text špatně napsaný, nejsou tam žádné hash tagy nebo tak něco.

Fotky jsou vidět. Při fotografování můžete zjistit, zda se jedná o středový objekt snímku nebo nikoli o středový objekt snímku. Pak můžete vidět, co tato osoba napsala. Nejčastěji se ale používá jako vyhledávání potenciálních publik, které řídily určitá auta a podobně. A pak s těmito auty uděláme spoustu zajímavých věcí.

Boti se učí napodobovat lidi

Existovala také taková možnost použití počítání lidí:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Existuje možnost srovnání lidí, když potřebujete najít lidi pomocí nějaké fotografie, pochopit jejich sociální profil, kdo jsou. Opět se vracíme k otázce, že pokud máme kameru v offline obchodě, pak je to docela dobrý způsob, jak pochopit, kdo k vám chodí, kdo jsou tito lidé, co je zajímá, co je přimělo k vám přijít .

Následuje to nejzajímavější: pokud shromáždíme jejich účty na sociálních sítích, pochopíme, kdo tito lidé jsou, co je zajímá, můžeme (volitelně) vytvořit robota podobného těmto lidem; tento robot začne žít jako tito lidé a analyzuje, jaké reklamy vidí na různých sociálních sítích. To vám umožní přesně pochopit, které značky jsou zaměřeny na tuto osobu. To je také poměrně častý příběh, kdy potřebujete nejen analyzovat, kdo to je a jaké má zájmy, ale také to, na jakou reklamu by měla cílit vaše potenciální konkurence nebo další zájemci.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Analýza propojení v sociálních sítích

Arthur Khachuyan: „Skutečná velká data v reklamě“

Další zajímavostí je analýza vztahů mezi lidmi. Vlastně analýza spojení v síti, tyto síťové grafy - v tom není nic, nic nového, každý to ví.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Nejzajímavější je ale aplikace na reklamní úkoly. Toto je vyhledávání lidí, kteří udávají trendy, toto je vyhledávání lidí, kteří šíří informace podle určitých kritérií v rámci této sítě. Řekněme, že nás zajímají stejní majitelé určitého modelu BMW. Když je všechny spojíme, můžeme najít ty, kteří ovládají veřejné mínění. Nejedná se nutně o automobilové blogery a tak dále. Obvykle jsou to prostí soudruzi, kteří sedí na různých veřejných stránkách, zajímají se o nějaký obsah a dokážou ve velmi krátkém čase přitáhnout vaši značku nebo někoho, koho zajímáte, do této oblasti odpovědnosti, do oblasti ​zájem.

Zde je takový příklad. Máme nějaké potenciální lidi, spojení mezi lidmi. Zde oranžoví jsou lidé, malé tečky jsou společné skupiny, společní přátelé.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Pokud mezi nimi posbíráte všechna tato spojení, můžete velmi jasně vidět, že existují lidé, kteří mají velké množství společných skupin, společných přátel, jsou tam mezi sebou... A pokud je tato stejná vizualizace rozdělena do skupin podle zájmů, podle obsahu, který šíří, jak moc spolu interagují... Zde vidíte, že předchozí obrázek vypadal takto:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Zde jsou skupiny jasně barevně odlišeny. V tomto případě se jedná o naše magisterské studenty na Vyšší ekonomické škole. Zde můžete vidět, že fialoví/modrí jsou ti, kteří milují Transparency International, Open Russia a Chodorkovského veřejné stránky. Vlevo dole jsou ti zelení, ti, kteří milují Jednotné Rusko.

Můžete vidět, že předchozí obrázek byl takový (toto jsou jen spojení mezi lidmi), ale stal se jasně ohraničeným. To znamená, že všichni lidé jsou spolu vždy spojeni, mají stejné zájmy, jsou mezi sebou přátelé. Někteří jsou nahoře, jiní dole a někteří další soudruzi jsou tam. A pokud se každý z těchto malých podgrafů samostatně vizualizuje s jinými parametry a podívá se na rychlost šíření obsahu (zhruba řečeno, kdo tam co repostuje), můžete v každém díle najít jednoho nebo dva lidi, kteří vždy drží veřejné mínění ve svých rukou, interagovat, se kterým se ptáte, pošlete nějaký příspěvek nebo něco jiného - můžete získat odpověď od celého tohoto zajímavého publika.

Mám další takový příklad. Také graf: toto jsou zaměstnanci BBDO Group, kteří se nacházejí na sociálních sítích jako příklad. Vypadá to nezajímavě, velké, zelené, propojení mezi nimi...

Arthur Khachuyan: „Skutečná velká data v reklamě“

Ale mám možnost, kde jsou mezi nimi již postavené skupiny. Pak, kdyby to někoho zajímalo, je tu interaktivní verze - můžete kliknout a podívat se.

Vpravo nahoře jsou ti, kteří milují Putina. Tady ti fialoví jsou návrháři; ty, které zajímá design, něco zajímavého a tak dále. Tady jsou bílé věci manažerský tým (zřejmě, jak jsem pochopil); Jsou to lidé, kteří obecně nejsou nijak propojeni, ale pracují na přibližně stejných pozicích. Zbytek jsou jejich společné skupiny, spojení a tak dále.

Značky nepotřebují blogery, ale názorové lídry

Vezmeme tyto lidi a najdeme je - pak se reklamní agentura, reklamní společnost rozhodne sama: může tomuto člověku dát peníze, aby nějak interagoval s tímto obsahem, něčím jiným, nebo na ně nasměroval vlastní konkrétní reklamní kampaň. To se také používá poměrně často, zvláště nyní, protože všechny značky chtějí spolupracovat s blogery, chtějí, aby byl jejich obsah propagován, ale reklamní agentury ve skutečnosti nechtějí kontaktovat (no, to se stává).

A skutečným východiskem z této situace je najít lidi, kteří nejsou blogeři, ne blogerky krásy, ale například nějaké skutečné bytosti, které komunikují s touto značkou, které mohou napsat na nějakou ubohou veřejnou stránku „Odpovědi na Mail.ru“, získat určitý počet zhlédnutí. Tito lidé, kteří se neustále zajímají o obsah této osoby, budou celou věc šířit a značka se zapojí.

Druhá možnost použití takové technologie je nyní docela relevantní - hledání botů, moje oblíbená. Jedná se o reputační riziko pro vaši konkurenci a příležitost vyřadit nepodstatné lidi z reklamní kampaně a čehokoli jiného (mazání komentářů a hledání spojení mezi lidmi). Mám takový příklad, je také velký a interaktivní - můžete s ním pohybovat. Toto jsou spojení lidí, kteří napsali komentáře do komunity Lentach.

Tento příklad je proto, abyste pochopili, jak dobře a snadno jsou roboti viditelní; a k tomu nepotřebujete mít žádné technické znalosti. To znamená, že „Lentach“ zveřejnil příspěvek o vyšetřování FBK ohledně Dmitrije Medveděva a někteří lidé začali psát komentáře. Shromáždili jsme všechny lidi, kteří napsali komentáře - tito lidé jsou zelení. Teď to přesunu:

Arthur Khachuyan: „Skutečná velká data v reklamě“

Lidé jsou ti zelení (kdo psal komentáře). Jsou tady, jsou tady. Modré tečky mezi nimi jsou jejich společné skupiny, žluté tečky jsou jejich společní odběratelé, přátelé a tak dále. Většina lidí je mezi sebou propojena. Protože ať už je teorie tří, čtyř, pěti podání rukou jakákoli, všichni lidé jsou na sociálních sítích navzájem propojeni. Neexistují lidé, kteří by byli od sebe odděleni. Dokonce i moji sociálně fobičtí přátelé, kteří používají VKontakte výhradně ke sledování videí, jsou stále přihlášeni k odběru stejných veřejných stránek jako my.

Navalny také používá roboty. Každý má roboty

Většina lidí (tady to je, tady) je vzájemně propojena. Ale je tu taková malá skupina soudruhů, kteří se přátelí výhradně mezi sebou. Tady jsou, malí zelení, tady jsou jejich společní přátelé a skupiny. Zde dokonce odpadli samostatně:

Arthur Khachuyan: „Skutečná velká data v reklamě“

A shodou okolností to byli právě tito lidé, kteří pod tento příspěvek napsali: „Navalnyj nemá důkazy“ a tak dále a napsali stejné komentáře. Samozřejmě si netroufám dělat závěry. Ale přesto jsem měl další příspěvek na Facebooku, když byla debata mezi Lebeděvem a Navalným, analyzoval jsem komentáře stejným způsobem: ukázalo se, že všichni lidé, kteří napsali „Lebedev je sračka“, nebyli na sociálních sítích sítě nedávno čtyři měsíce, nebyli přihlášeni k odběru žádné z veřejných stránek, najednou šli právě na tento příspěvek, napsali přesně tento komentář a odešli. Opět z toho nelze vyvozovat závěry, ale někdo z Navalného týmu mi napsal komentář, že nepoužívají roboty. Dobře!

Blíže k reklamě, blíž ke značce. Každý má teď roboty! Máme je my, naši konkurenti je mají a ostatní je mají. Aby dobře žili, musí být vyhozeni nebo ponecháni; Na základě takových údajů (ukazuje na předchozí snímek) je doveďte k dokonalosti, aby vypadaly jako skuteční lidé a teprve poté je použijte. I když používání robotů je špatné! Nicméně docela obyčejný příběh...

V automatickém režimu vám taková věc umožňuje odfiltrovat z vaší analýzy lidi, kteří nejsou pro analýzu relevantní, lidé, kteří by neměli být zahrnuti do vzorku, by neměli být zahrnuti do této studie. Velmi často používané. Na druhou stranu ne všichni majitelé automobilů jsou skutečnými vlastníky automobilů. Někdy se lidé zajímají jen o lidi, kteří potenciálně mají auto, kteří sedí v nějakých skupinách, s někým komunikují, mají tam určité publikum.

Analýza faktů a názorů

Další, co mám, je také můj oblíbený. Jedná se o analýzu faktů a názorů.

Arthur Khachuyan: „Skutečná velká data v reklamě“

V dnešní době každý ví, jak zmínit svou značku v různých zdrojích. Není v tom žádné tajemství. A zdá se, že každý umí vypočítat tonalitu... I když osobně si myslím, že samotná metrika tonality není příliš zajímavá, protože když přijdete a řeknete klientovi: „Člověče, máš 37 % neutrálních,“ a on to řekne , " Páni! Chladný!" Proto by bylo zajímavější posunout se o něco dále: od hodnocení sentimentu k hodnocení názorů na to, co říkají o vašem produktu.

A to je také velmi zajímavá věc, protože... osobně se domnívám, že v zásadě nemohou existovat neutrální zprávy, protože pokud člověk něco napíše do veřejného prostoru, je toto sdělení nějak přibarveno. Osobně jsem nikdy neviděl neutrální zprávu zmiňující značku. Obvykle je to nějaká špína.

Když vezmeme velké množství těchto zpráv (mohou jich být miliony, 10 milionů), vyzdvihneme hlavní myšlenku z každé zprávy, zkombinujeme je, celkem spolehlivě pochopíme, co lidé o této značce říkají, co si myslí. „Nelíbí se mi obal“, „Nelíbí se mi konzistence“ a tak dále.

Co si lidé myslí o Transaeru, Chupa Chupsovi a prezidentovi Spojených států?

Mám vtipný příklad: toto je infografika o tom, co by uživatelé sociálních sítí udělali s firmou Transaero po jejím krachu.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Je tam mnoho zajímavých příkladů: upálit, zabít, deportovat do Evropy, dokonce 2 % napsala – „Pošlete je do Sýrie na vojenské operace“. Když přejdeme od legrační věci, mohla by to být téměř jakákoli značka - od mého oblíbeného psího žrádla po některá auta. Komu se nelíbí obal, komu se nelíbí skutečné věci – s tím se dá vždy pracovat, vždy s tím můžete počítat. Existuje velké množství příkladů, kdy lidé téměř změnili výrobu svých produktů, protože na sociálních sítích napsali, že Chupa Chups není dostatečně kulatý nebo není dost sladký.

Existuje další vtipný příklad. Hádejte, jaké komentáře a o kom?

Arthur Khachuyan: „Skutečná velká data v reklamě“

Z nějakého důvodu se nyní analýza názorů, analýza faktů vytažených ze zpráv, příliš nepoužívá a není příliš rozšířená. Ačkoli tato technologie není supertajná, prakticky v ní není žádné know-how, protože z komentářů lidí, extrahovat předmět, predikát a seskupovat je nevyžaduje génia v počítačové lingvistice. Není to tak těžké udělat. Ale doufám, že za pár let to lidé začnou používat, protože... Bude to super - to je taková automatická zpětná vazba! Vždy víte, co o vás říkají. Chápete, že to bylo natočeno o prezidentovi USA.

Odpověď na otázku z publika:

  • Ano, toto je Facebook v angličtině. Jsou zde přeloženy do ruštiny. Tohle bylo někde napsáno.

Velká data a politické technologie

Ve skutečnosti mám mnoho různých zajímavých příkladů politiky o Trumpovi a všech ostatních, ale rozhodli jsme se je sem nepřinášet. Ale je tu jeden politický příklad.

Jedná se o volby do Státní dumy. kdy jsi byl? Minulý rok? Téměř před rokem a půl.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Zde jsou lidé, kteří byli schopni určit svou přesnou polohu až do určitého zeměpisného bodu, aby pochopili, do kterého volebního okrsku spadají. A pak z těchto lidí byli vzati jen ti, kteří vyjádřili svůj vyhraněný názor, pro které by hlasovali.

Z hlediska politické technologie to není příliš správné, protože to celé je potřeba normalizovat hustotou obyvatelstva a tak dále. Nicméně modří tady budou volit, víte koho, rudí budou volit soudruhy z opozice, kterých mimochodem moc nebylo.

Osobně se domnívám, že velká data se v brzké době k politickým technologiím nedostanou, ale jako možnost je kandidátem také značka. A to je také do jisté míry analýza faktů a názorů na vaši značku a docela zajímavá věc, protože v reálném čase pochopíte, kdo co tam dělá. Znám několik případů z BBC, kdy v nějakém vysílání monitorovali sociální sítě v reálném čase: byla taková a taková odezva, lidé o tom píší, ptají se na takovou a takovou – a je to skvělé! Myslím, že bude velmi brzy použit, protože je zajímavý pro všechny.

Modelování pozic značek

Arthur Khachuyan: „Skutečná velká data v reklamě“

Dále mě čeká modelování pozic značek. Malý, krátký článek o tom, jak můžete hodnotit značky pomocí různých metrik (ne lajky odběratelů na sociálních sítích, ale pomocí komplexních metrik, zájmu o obsah, času stráveného přijímáním metrik).

Arthur Khachuyan: „Skutečná velká data v reklamě“

Mám příklad „farmaka“ z určitého důvodu. Zde jsou malé kruhy vnitřní, světlé – to je množství textového obsahu, který značka sama vytváří, velký kruh je množství foto a video obsahu, které vytváří samotná značka.

Blízkost středu ukazuje, jak zajímavý je obsah pro publikum. Je tam velký model, je tam hromada všemožných parametrů: lajky, reposty, doba odezvy, kdo tam průměrně sdílel... Tady vidíte: je tam úžasný „Kagotsel“, který pumpuje obrovské množství peníze do tvorby vlastního obsahu, a díky tomu jsou docela blízko centra. A jsou soudruzi, kteří si také tvoří vlastní obsah, ale diváky to nezajímá. To není příliš adekvátní příklad, protože všechny tyto účty jsou prakticky mrtvé.

Yegor Creed je milován víc než Basta

Arthur Khachuyan: „Skutečná velká data v reklamě“

Bohužel zbytek... z čeho ukázat... No, jsou tu i ruští rappeři, jako možnost, ze skutečných společností.

Co je to plus? Faktem je, že společnost může do takového modelu vložit téměř cokoliv, počínaje průměrným platem předplatitelů, kteří pracují pro vaši značku; jakýkoli model, který se jim líbí. Protože každá reklamní agentura počítá své vlastní metriky jinak, značky počítají své vlastní metriky odlišně.

Je zde i jeden - Basta, který sice generuje velké množství obsahu, ale nachází se na periferii, protože tento obsah zřejmě není pro publikum příliš zajímavý. Opět se neodvažuji soudit. Ale přesto je tu Yegor Creed, který je podle sociálních sítí téměř nejlepším umělcem naší doby, ale zveřejňuje pouze své osobní fotografie. Přesto má velký počet předplatitelů: je jich někde kolem milionu. Přesné číslo si nepamatuji; Pamatuji si, že procento zapojení těchto lidí je mnohem vyšší než 85 %, to znamená, že na milion odběratelů dostává 850 tisíc odpovědí od těchto skutečných lidí - to je skutečné šílenství. To je pravda.

Arthur Khachuyan: „Skutečná velká data v reklamě“

Odpovědi na dotazy z publika:

Jak dlouho trvalo vytvoření modelu analýzy rappera?

  • Každá má svoji cílovou skupinu, u každého se počítají zájmy těchto lidí... To vše je normalizováno na vzdálenost přibližně do středu, jejich radiální poloha není důležitá (tady je to prostě namazané pro krásu, aby dělali nenarazit do sebe). Důležitá je pouze přibližná blízkost centra. Toto je model, který používáme. Mně se třeba víc líbí kruh, někteří to dělají v mysli jako půlkruh.
  • Tento model byl sestaven rychle, za dvě nebo tři hodiny (ano, jedna osoba). Zde byly vloženy pouze metriky: co čím vynásobíme, to sečteme a pak to nějak normalizujeme. Záleží na modelu. Jsou lidé, které zajímá průměrný plat (toto není vtip) jejich předplatitelů. A k tomu musíte najít jejich kontakty, Avito, všechno to spočítat, vynásobit. Stává se, že to trvá dlouho, než se to vezme v úvahu, ale konkrétně toto (ukazuje na předchozí snímek) - parametry jsou zde velmi jednoduché: odběratelé, reposty atd. Dokončení trvalo asi dvě až tři hodiny. V souladu s tím je tato věc aktualizována v reálném čase a můžete ji používat.

Nyní přichází ta zábavná část. Končím s příklady, protože není zajímavé mluvit dlouho o samotě. A doufám, že se teď budete ptát a vlastně budeme přecházet od tématu k tématu, protože mám takové příklady, jak se dají technologie využít a tak...

Odpovědi na dotazy z publika:

  • Měl jsem jeden a jediný osobní případ s jedním takříkajíc „blízko kasina“, když tam byla umístěna kamera, rozeznávaly se obličeje a tak dále. Procento uznaných lidí je rozhodně poměrně velké – jak u nás, tak u konkurence. Ale je to vlastně docela zajímavé. Vnímám to jako zajímavou věc: můžete pochopit, kdo tito lidé jsou, a docela dobře předvídat, proč přesně sem přišli, co se v jejich životě změnilo natolik, že se rozhodli přijít do kasina. Ale co se týče konkrétních druhů podnikání... Pokud takovou věc dáte do lékárny, pak to nemá smysl – nemůžete předvídat, proč člověk do lékárny přišel.

    Globálním úkolem zde bylo vybudovat model, abyste pochopili, kdy se člověk potenciálně chce zajímat o vaši značku, abyste mu mohli dát reklamu ne poté, co si něco koupil (jak se to děje nyní), ale dát mu reklamu“ v předpovědi“, kdy se to všechno stane. Bylo to zajímavé s takovým „near-casino“; Ukázalo se, že je docela zajímavé procento těchto lidí - proč: někdo dostal náhle povýšení, někdo jiný dostal něco jiného - takové zajímavé poznatky. Ale s některými obchody, s maloobchodem, s prodejnou nějakých prášků se mi zdá, že to nebude moc správné.

Používají se velká data offline?

  • Bylo to offline. Musíte jen přesně, zhruba, pochopit, zda se tento model bude hodit nebo ne. Zase s perlivou vodou... Zajímá mě vlastně všechno, ale osobně nechápu, jak moc, jak mohou profily těchto lidí, jejich chování záviset na tom, kdy si chtějí kupovat balenou vodu. I když to může být opravdu pravda, nevím.

Kolik je otevřených účtů na sociálních sítích?

  • Konkrétně máme 11 sociálních sítí - to jsou „Vkontakte“, „Facebook“, „Twitter“, „Odnoklassniki“, „Instagram“ a některé malé věci (mohu se podívat na seznam, jako „Mail.ru“ a tak dále) . Na VKontakte určitě máme kopii všech těchto soudruhů. Máme lidi na VKontakte – to je 430 milionů ze všech, kdo kdy existovali (z toho asi 200 milionů je neustále aktivních); existují skupiny, jsou mezi těmito lidmi spojení a je tam obsah, který nás zajímá (text), a část médií, ale velmi malá... Zhruba řečeno, díváme se na tento obrázek: pokud jsou tam tváře, uložte je, pokud existuje meme, ukládáme je Neukládáme to, protože ani my bychom neměli dost na uložení mediálního obsahu.

    Existuje ruskojazyčný Facebook. Někde je teď 60-80% Odnoklassniki, za pár měsíců je snad všechny dotáhneme do konce. ruský Instagram. Pro všechny tyto sociální sítě existují skupiny, lidé, spojení mezi nimi a text.

  • Asi 400 milionů lidí. Je tu jemnost: jsou lidé, jejichž město není specifikováno (jsou potenciálně Rusové / Neruští); Z toho je průměr pro sociální sítě 14 % uzavřených účtů na VKontakte, přesné číslo na Facebooku neznám.
  • Na Instagramu také neukládáme média – pouze pokud tam jsou tváře. Takový (jiný) mediální obsah neuchováváme. Obvykle zajímavé: pouze text, spojení mezi lidmi; Všechno. Nejběžnějším výzkumem na Instagramu je obvyklý výzkum publika: kdo jsou tito lidé, a hlavně spojení těchto lidí s jinými sociálními sítěmi. Najděte profil této osoby na Vkontakte a Facebooku, abyste mohli vypočítat její věk a tak dále.
  • Zatím není potřeba brát všechny ostatní – jednoduše proto, že nejsou žádní zákazníci. Ohledně jazyka: máme ruštinu, angličtinu, španělštinu, ale stále se používá výhradně pro značky z Ruska; no, nebo společnosti, které je přivážejí z Ruska.
  • Každý den vedeme rozhovory s lidmi v mnoha, mnoha a mnoha vláknech: sbíráme data sběrem webu a aktualizujeme tyto ukazatele pomocí Api. Za 2-3 dny můžete projít celým „VKontakte“ a projít je; Přibližně za týden si můžete projít celý Facebook a pochopit, kdo co aktualizoval a co ne. A pak tyto lidi znovu shromážděte odděleně: co přesně se změnilo, zapište celý tento příběh. Podle mých zkušeností byl něčí starý profil na sociálních sítích použit pro nějaké skutečné obchodní účely jen velmi zřídka. To byla doba, kdy se hlásila jedna politická osobnost, která měla za úkol pochopit, jací lidé přicházejí do centrály, kdo byli tito lidé před 6-8 měsíci (smazali si profil, ale ve skutečnosti pro jiného kandidáta přišly hlasovací lístky zkazit).

    A párkrát - osobní příběhy, kdy byly něčí fotografie zveřejněny ve veřejné doméně. Bylo potřeba hledat souvislosti atd. Bohužel je to škoda, ale u soudu svědčit nemůžeme, protože naše databáze je právně nelikvidní.

  • Úložiště MongoDB je moje oblíbené.

Sociální sítě se snaží bojovat se sběrem dat

  • Obvykle inzerentům nahrajeme pouze seznam těchto účtů a oni pak použijí ten standardní... To znamená, že na sociálních sítích, na VKontakte můžete seznam těchto lidí určit.

    Facebook ale používá zakoupené cookies. My sami se soubory cookie nepracujeme, ale vyskytlo se několik příběhů, kdy inzerent sám dal nějaké lidi, komunikovali jsme s nimi - mají tyto sítě, s upoutávkou, bez upoutávkové reklamy, tyto „cookies“. Můžete to uvázat - není pochyb! Ale tohle se mi moc nelíbí, protože si nemyslím, že je to moc autentické. To je čistě podle mého názoru, je to jako TNS, která „sleduje“ televize – není jasné, zda se na tuto televizi díváte nebo ne, zda myjete nádobí, když máte zapnutou televizi... A stejné je to i zde : Velmi často si něco googluji na internetu, ale to neznamená, že to chci koupit.

  • Pokud používáte nějakou standardní kontextovou reklamní síť: Měl jsem několik příběhů, když jsme jim tyto lidi vyložili a pokusili se je pomocí jejich rozhraní propojit s „cookies“ na jejich stránkách. Ale takové věci se mi moc nelíbí.

Vzorec pro výpočet mzdy uživatele internetu

  • Obecný vzorec pro průměrnou mzdu: jedná se o region, kde člověk žije, jedná se o kategorii podnikání, ve které pracuje (tedy společnost, která je jeho zaměstnavatelem), pak se bere jeho pozice v této společnosti, průměr mzda na této pozici je odhadovaná... Průměrná mzda převzatá z „Head Hunter“ a „Superjob“ (a existuje několik dalších zdrojů) pro dané volné místo v daném regionu a pro daný obchodní kontext.

    Z „Avito“ a „Avto.ru“ se obvykle převezmou další parametry, pokud osoba osvětlila telefon. S Avito můžete vidět, jaké věci člověk prodává - drahé, levné, použité, nepoužité. S "Avto.ru" můžete vidět, zda má auto - vlastní ho, nevlastní ho. To je někde méně než 20 % lidí, kterým omylem někde upadl telefon a jejich účet lze s těmito daty propojit.

Jaké objemy společnost pro sběr dat provozuje?

  • Objem uložených fotografií v petabajtech je 6,4. Nemohu nyní přesně říci tempo růstu, protože v roce 2016 jsme začali nahrávat „periskopy“ a teprve začali nahrávat video.

    Nedokážu přesně říct, kdy byla nula. Přesouvali jsme se z firmy do firmy – to všechno jsou dlouhé příběhy. Ale mohu říci, že VK, Facebook, Instagram a Twitter - celý tento obchod (lidé, skupiny a spojení mezi nimi) s textem a obsahem - to ve skutečnosti není mnoho dat, je nepravděpodobné, že by jich měl dost i petabajt. Myslím, že je to 700 gigabajtů, pravděpodobně 800.

Pomáháte klientům určit aktuální výklenek a kde kopat?

  • Když přijde klient, takové věci mu navrhujeme, ale my sami, jako Google Trends, takové věci neděláme.
  • Měli jsme několik téměř sociologických příběhů s volební, předvolební historií – všechno jsme to analyzovali. Se značkami a posuzováním názorů na značky se téměř vždy vše shoduje. Tady jsou volební-volební příběhy - ne (s posouzením, který kandidát by měl vyhrát). Nevím, kdo se zde mýlí – my nebo ti, kteří myslí ve VTsIOM.
  • Většinou tyto výsledky kontroly bereme od značky samotné, oni to berou od soudruhů, kteří si průzkum objednávají – telefonický průzkum, marketingový průzkum a tak dále. Navíc se to celé dá ověřit základními věcmi: někdo odpověděl na mailing list, někdo dělal průzkumy... Pokud jde o velkou značku (například Coca-Cola), určitě má milion nebo dvě interní recenze od zákazníků – nejde jen o komentáře na sociálních sítích a nějaké názory; Jsou to jakési interní systémy, recenze a tak dále.

Zákon „neví“, co jsou osobní údaje!

  • Analyzujeme výhradně otevřené zdroje dat a nikdy se nepleteme do žádných špinavých triků. Náš model je postaven na tom, že všechna otevřená data uchováváme v některých veřejných datových centrech, pronajímáme je někde jinde a analyzujeme je doma, v kancelářích, na našich serverech a nejdou nikam mimo území.

    Naše legislativa v oblasti otevřených dat je ale velmi vágní.

    Nemáme jasnou představu o tom, co jsou otevřená data, co jsou osobní data – existuje tento 152. federální zákon, ale přesto... Jak se počítají? Nyní, když mám vaše jméno a vaše telefonní číslo v jedné databázi, v jiné databázi mám vaše telefonní číslo a váš e-mail, ve třetí mám, řekněme, váš e-mail a vaše auto; Zdá se, že se jedná o neosobní údaje. Když si tohle všechno dáte dohromady, vypadá to, že se to podle zákona stane osobním údajem.

    Obcházíme to dvěma způsoby. Prvním je instalace serveru se softwarem pro klienta a tato data pak nepřesahují jeho území a klient je pak odpovědný za distribuci těchto osobních údajů, neosobních údajů a tak dále. Nebo druhá možnost: pokud se jedná o nějaký druh příběhu, kde musíte žalovat sociální síť nebo něco jiného...

    Měli jsme takovou studii, když jsme pro Lifenews shromáždili (byly primárky Jednotného Ruska) účty těchto soudruhů a podívali se, jaký druh porna mají rádi. Byla to legrační věc, ale stejně. Prodáváme to jako svůj vlastní, osobní názor, aniž bychom v dokumentech právně zveřejňovali to, co jsme analyzovali – Jednotný státní rejstřík právnických osob, platy, sociální sítě; Prodáváme znalecký posudek a pak na okraj tomu člověku vysvětlíme, co jsme analyzovali a jak.
    Bylo tam několik příběhů, ale týkaly se některých veřejných komerčních projektů. Máme například bezplatný neziskový projekt pro ty, kteří jezdí na longboardech (takové desky jsou dlouhé): úkolem bylo sbírat publikace lidí - když někdo zveřejní „Jel jsem se projet do Gorkého parku“. A teď by se měl dostat na mapu a lidé kolem něj vidí, že je někdo v jeho blízkosti. VK se s námi na toto téma koukal velmi dlouho, protože se jim nelíbilo, že tyto informace zveřejňujeme bez svolení lidí. Pak se ale věc nedostala k soudu, protože v rámci několika velkých komunit jsme do pravidel přidali, že data mohou využívat třetí strany, agentury, firmy, analýzy atd. Samozřejmě to nebylo nijak zvlášť etické, ale i tak.

  • Prostě jsme si to včas uvědomili a začali náš znalecký posudek prodávat všem.

Spolupracujete se vzdělávacími institucemi?

  • Spolupracujeme se vzdělávacími institucemi, ano. Máme celou řadu: máme magisterský program na VOŠ a spolupracujeme s dalšími univerzitami. Univerzity máme moc rádi!
  • Pokud máte moje kontakty, můžete mi napsat. A odkaz na prezentaci, kdyby to někoho zajímalo - všechny tyto příklady tam jsou, můžete to přesunout.
  • Pokud znáte telefonní číslo, mail - to je téměř stoprocentní možnost, nikdo to neodstraní. Pokud není uvedeno telefonní číslo, je to obvykle obrázek, pokud není, je to rok, místo bydliště, zaměstnání. Tedy podle roku, bydliště a práce se vždy dá celkem nenápadně identifikovat téměř každý. Ale to je opět otázka k úkolu.

    Máme řekněme klienta, který prodává internetovou televizi. Někdo si od nich koupil předplatné těchto „Games of Thrones“ a úkolem je pomocí jejich CRM najít tyto lidi na sociálních sítích a poté najít potenciální z oblasti jejich vlivu. Mám na mysli jen to, že mají řekněme jméno, příjmení a e-mail... A pak je velmi těžké něco udělat. Ve většině případů lze lidi najít pomocí e-mailu.

  • Na základě složení našich přátel obvykle „párujeme“ lidi na sociálních sítích, ale ne vždy je to správné. Nejde o to, že by to nebylo vždy správné – ne vždy to funguje. Za prvé to vyžaduje spoustu práce, protože tuto operaci (párování lidí) bude muset nejprve provést každý z přátel - abychom pochopili, zda přišli ze sociálních sítí nebo ne. A pak - pro nikoho neznámý fakt, že na VKontakte máme stejné přátele, na Facebooku máme jiné přátele. Ne pro všechny, ale například pro mě je to takhle; a to platí i pro většinu lidí.

Jak se shromažďují nejúplnější data?

  • Instalace softwaru pro klienta na jeho straně. Je na nich nainstalován server, který od nás bere pouze veřejná data a jejich osobní údaje interně zpracovává. S klientem je uzavřena NDA. To samozřejmě není moc správné, že to převádějí na nás, ale právní odpovědnost je na klientovi - tedy instalace softwaru pro něj nebo přenos anonymních dat. To bylo ale velmi vzácné, protože – správná či nesprávná anonymizace – se ve většině případů závislost mezi těmito lidmi ztrácí.

Kdo kupuje software pro rozpoznávání obličeje?

  • Ve skutečnosti sem jdeme, protože náš hlavní software, který prodáváme, je vyhledávání obličejů, korelační analýza a prodáváme jej vládním agenturám. A před rokem a půl jsme se rozhodli, že všechny tyto příběhy dáme do reklamy, do marketingu, na veřejný trh – tak vznikl Social Data Hub, komerční právní subjekt. A teď sem teprve přicházíme. Už rok a půl se tu poflakujeme a snažíme se lidem vysvětlit, že není potřeba lidem dávat stahování se zmínkou, že je potřeba jim odpovídat na otázky, že není potřeba tonalita , a tak dále. Takže těžko říct kde...
  • (Koho máte na mysli?) Všem soudruhům, kteří potřebují hledat teroristy a pedofily.
    Mohu hned říci (to bude další otázka): podle našich údajů nebyli žádní učitelé uvězněni za přemístění.
  • Na VKontakte - 14%; na ​​Facebooku neexistuje žádný uzavřený profil jako takový (existuje uzavřený seznam přátel atd.). A nejzajímavější je, že jsem právě napsal zprávu - teď budou počítat a říkat.

Nezveřejňujte něco, za co se budete stydět!

  • Nezveřejňujte na sociálních sítích nic, za co byste se styděli – osobně se tím řídím. I když těch osobních jsem měl hodně, protože nadávám na facebook. No, bylo a bylo co dělat... Nezveřejňujte nic, co by bylo trapné! Pokud budete později pracovat někde ve veřejné komoře, ano, je lepší to nekomentovat. Pokud to neuděláte, celkově to nikoho nezajímá. Mohu vás jen ujistit, že vaši osobní korespondenci nikdo nečte, a to vše vytváří celý tento příběh...

    Každý týden za mnou někdo určitě přijde a řekne: „No, fotky mého přítele unikly na nějakou anonymní veřejnou stránku! Pomoc! Mimochodem, nikdy nic nezveřejňujte na anonymních veřejných stránkách.

  • O ostatních monitorovacích systémech nevím - určitě to vezmeme v potaz, že zmínka o značce byla negativní, Bůh mi odpusť... Ale můžu říct, že všelijakým blízkostátním soudruhům jde jen o lidi kteří mají publikum více než 5 tisíc a jejich veřejné mínění může někoho ovlivnit.potom ovlivnit. Z mé zkušenosti se ještě nestalo, že by personální agentura, která si u nás objednává hodnocení profilů, řekla: „Kdo má rád Navalného, ​​ať nikoho nenajímá!“

O zveřejňování výsledků. Kolik lidí je zaměstnáno ve výzkumu?

  • Z top 10 reklamních společností jich nyní publikuje sedm. Těžko říct: když jsme s tím před rokem a půl začínali... V každé oblasti máme několik lidí – v bankách je několik lidí, v HR je několik lidí, v reklamě je několik lidí. A teď přemýšlíme, za kým je výhodnější jít jako první, pro koho musíme začít dělat nějaká rozhraní...
  • (o počtu lidí na segment trhu) Ne více než 25 lidí, protože jsme nikoho neznásilnili.
  • Obecně platí, že v zásadě jsou tyto technologie z trhu využívány, myslím, z více než 50 %. Někdo v reklamních kampaních, někdo v nějaké interní analýze. Řekl bych, že 40 procent to používá v interní analýze, 50–60 % to prodává koncovým značkám. To už ale záleží na samotných reklamních společnostech. Víte, někteří lidé se hlásí jen za utracené peníze, za reklamu, kterou vložili, zatímco jiní píší, kolik lidí přivedli, jaké publikum... Řekl bych to, ale mohu se mýlit - opravdu ne představte si, jak všichni tito soudruzi pracují. Vím pouze v kvantitativních datech.

Nějaké inzeráty 🙂

Děkujeme, že s námi zůstáváte. Líbí se vám naše články? Chcete vidět více zajímavého obsahu? Podpořte nás objednávkou nebo doporučením přátelům, cloud VPS pro vývojáře od 4.99 $, jedinečný analog serverů základní úrovně, který jsme pro vás vymysleli: Celá pravda o VPS (KVM) E5-2697 v3 (6 jader) 10GB DDR4 480GB SSD 1Gbps od 19 $ nebo jak sdílet server? (k dispozici s RAID1 a RAID10, až 24 jader a až 40 GB DDR4).

Dell R730xd 2krát levnější v datovém centru Equinix Tier IV v Amsterdamu? Pouze zde 2 x Intel TetraDeca-Core Xeon 2 x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbps 100 TV od 199 USD V Nizozemsku! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gb/s 100 TB – od 99 $! Číst o Jak budovat infrastrukturu corp. třídy s využitím serverů Dell R730xd E5-2650 v4 v hodnotě 9000 XNUMX eur za cent?

Zdroj: www.habr.com

Přidat komentář