Arthur Khachuyan: “Echte Big Data in reclame”

Op 14 maart 2017 sprak Arthur Khachuyan, CEO van Social Data Hub, tijdens de BBDO-lezing. Arthur sprak over intelligente monitoring, het bouwen van gedragsmodellen, het herkennen van foto- en video-inhoud, evenals andere Social Data Hub-tools en onderzoek waarmee je doelgroepen kunt targeten met behulp van sociale netwerken en Big Data-technologieën.

Arthur Khachuyan: “Echte Big Data in reclame”

Arthur Khachuyan (hierna – AH): - Hallo! Dag Allemaal! Mijn naam is Arthur Khachuyan, ik leid het bedrijf Social Data Hub, en we houden ons bezig met verschillende interessante intellectuele analyses van open databronnen, informatievelden en doen allerlei interessant onderzoek, enzovoort.

En vandaag vroegen collega's van BBDO Group ons om te praten over moderne technologieën voor het analyseren van big data, big en niet zo big data voor reclame: hoe het wordt gebruikt, laat enkele interessante voorbeelden zien. Ik hoop dat je onderweg vragen zult stellen, want ik kan saai worden en de essentie niet onthullen, enzovoort, dus wees niet verlegen.

Eigenlijk zijn de hoofdrichtingen, waar ooit een soort van “bijna-big-data”-oplossingen werden gebruikt, allemaal duidelijk: dit is doelgroepgerichtheid, analyse, het uitvoeren van een soort analytisch marketingonderzoek. Maar het is altijd interessant welke aanvullende gegevens er kunnen worden gevonden, welke aanvullende betekenissen er kunnen worden gevonden na het toepassen van de analyse.

Waarom hebben we technologie nodig voor reclame?

Waar beginnen we? Het meest voor de hand liggende is adverteren op sociale netwerken. Vandaag heb ik hem er 's ochtends afgehaald: om de een of andere reden vindt VKontakte dat ik deze specifieke advertentie moet zien... Of het goed of slecht is, is de tweede vraag. We zien dat ik zeker in de categorie dienstplichtigen val:

Arthur Khachuyan: “Echte Big Data in reclame”

Het allereerste en meest interessante dat als technologische oplossing kan worden opgevat... Het eerste dat ik wilde beslissen voordat we beginnen, is het definiëren van de termen: wat is open data en wat is big data? Omdat alle mensen hun eigen opvattingen over deze kwestie hebben, en ik mijn voorwaarden aan niemand wil opleggen, maar... Gewoon zodat er geen discrepanties ontstaan.

Persoonlijk denk ik dat open data het enige is dat ik kan bereiken zonder login of wachtwoord. Dit is een open profiel op sociale netwerken, dit zijn zoekresultaten, dit zijn open registers, enz. Big data, naar mijn mening zie ik het zo: als het een gegevensplaatje is, zijn het een miljard rijen, als het een soort is aan bestandsopslag, het is ergens een petabyte aan gegevens. De rest in mijn terminologie is geen big data, maar iets dergelijks.

Zeer nauwkeurige profilering en profielscore

Laten we in volgorde gaan. Het allereerste en meest interessante dat je kunt bedenken bij het analyseren van open databronnen is uiterst nauwkeurige profilering en profielscores. Wat is dit? Dit is een verhaal waarin uw sociale netwerkaccount niet alleen kan voorspellen wie u bent, en niet alleen uw interesses.

Maar nu kunt u, door verschillende bronnen te combineren, inzicht krijgen in de gemiddelde hoogte van uw salaris, hoeveel uw appartement kost en waar het zich bevindt. En al deze gegevens kunnen letterlijk met de beschikbare middelen worden gebruikt. Als u bijvoorbeeld uw account op een sociaal netwerk gebruikt, kijk dan bijvoorbeeld waar u woont, waar u werkt; begrijpen in welke sectie van het bedrijf het bedrijf waarvoor u werkt zich bevindt; download gelijkaardige vacatures van HH en “Superjob” als je analist, manager, enz. bent; kijk waar je woont (basis, zeg CIAN), begrijp hoeveel het kost om een ​​huis op deze plek te huren, hoeveel het kost om een ​​huis op deze plek te kopen, voorspel ongeveer hoeveel je verdient. Bovendien kunt u met behulp van uw sociale netwerken begrijpen hoeveel u reist, waar u bent en hoe loyaal u bent tegenover uw werkgever.

Dienovereenkomstig kunnen we op basis van zo’n groot aantal statistieken alles doen wat we willen. Wij kunnen u kennis laten maken met een product dat u interesseert. Kunt u zich een online winkel voorstellen? Je gaat daarheen - deze online winkel onderschept je account op een sociaal netwerk en vertelt je: "Masha, je hebt het net uitgemaakt met je vriend, hier zijn enkele bepaalde producten voor je." Dit is niet de nabije toekomst...

Hoe wordt de geolocatie van een persoon bepaald?

Antwoorden op vragen uit het publiek:

  • Doorgaans wordt 80% van alle check-ins beschouwd als de exacte verblijfplaats. Maar voor mensen die nergens inchecken, zijn er verschillende opties: inchecken of geolocatie, of dit is een analyse van berichten en publicaties over de hele periode waarin iemand iets heeft geschreven... En ergens, er verschijnt iets als “Ik wil een kinderwagen kopen in de buurt van Akademicheskaya” of “Ik heb hier onlangs lelijke graffiti op de muur gezien.” Dat wil zeggen dat voor bijna 80% van de mensen hun geolocatie, hun werkplek en hun woonplaats kunnen worden bepaald met behulp van gegevens of metadata die kunnen worden verzameld via sociale netwerken.

    Dit is wederom een ​​analyse van berichten. In de eenvoudigste zin is dit een analyse van check-ins en geolocaties in sociale netwerken, die geen jpeg-metagegevens verwijderen (je kunt er iets uit halen). Maar voor de overige mensen zijn dit meestal tekstuitzendingen: ofwel een persoon “schijnt” zijn locatie als hij ergens over schrijft, of hij “schijnt” zijn telefoon, waarmee je een deel van zijn advertenties op Avito of zijn account op " kunt vinden " AutoRU". Op basis van deze gegevens kunt u combineren (bijvoorbeeld: "Ik verkoop een auto in de buurt van Mayakovskaya") en dit grofweg aannemen.

  • Mensen plaatsen dit meestal op sociale media. Wij werken alleen met open bronnen en hier hebben we het uitsluitend over open bronnen. Ze publiceren meestal advertenties, dat wil zeggen dat in zestig procent van de gevallen het meest voorkomende verhaal wanneer mensen hun huidige mobiele telefoonnummer 'laten zien', advertenties zijn voor de verkoop van iets. Ofwel in sommige groepen schrijft iemand ("Ik verkoop dit of dat daar"), of gaat ergens heen.

    Ja! Meestal zeggen ze: “Beantwoord mij of stuur mij een sms, bel mijn nummer. Dit gebeurt heel vaak met mensen die iets verkopen, iets kopen op sociale netwerken, met iemand communiceren... Dienovereenkomstig kun je met dit nummer zijn profiel op CIAN eraan koppelen, als hij ooit iets heeft gepubliceerd, of, nogmaals, op Avito. Dit zijn gewoon de meest populaire, topbronnen, het zal verderop staan ​​- dit zijn Avito, CIAN enzovoort.

  • Dit verwijst naar een online winkel. Het volgende zal de technologie van gezichtsherkenning en profielmatching zijn (we zullen erover praten). Puur theoretisch kan dit worden toegepast op een offline winkel. En over het algemeen is mijn grote droom dat als er straatbanners verschijnen, als je langs een camera loopt, je gezicht ‘gevangen’ wordt. Maar deze zaak wordt bij wet verboden omdat het een schending van de privacy is. Ik hoop dat het vroeg of laat zal gebeuren.
  • Uit persoonlijke ervaring. Heel vaak, wanneer iemand je iets schrijft, baseer je je op feiten uit zijn leven die je niet lijkt te weten... Mensen worden in de meeste gevallen bang. Maar! Op basis van recente statistieken is het aantal gesloten accounts op sociale netwerken met 14% afgenomen. Het aantal vervalsingen neemt toe, het aantal open rekeningen groeit - mensen gaan steeds meer richting openheid. Ik denk dat ze over drie tot vier jaar niet meer zo sterk zullen reageren op het feit dat iemand informatie over hen kent die ze mogelijk niet zouden moeten weten. Maar het is eigenlijk heel gemakkelijk te verkrijgen door naar zijn muur te kijken.

Wat kan uit open bronnen worden gehaald?

Er is een geschatte lijst met dingen die met vrij hoge betrouwbaarheid uit open bronnen kunnen worden begrepen. Er zijn zelfs nog meer verschillende statistieken; het hangt af van de klant van dergelijk onderzoek. Er is een HR-bureau dat geïnteresseerd is of je vloekt op sociale netwerken of ergens in de openbare ruimte. Iemand is geïnteresseerd in de vraag of je de publicaties van Navalny leuk vindt of, omgekeerd, de publicaties van United Russia, of een soort pornografische inhoud - zulke dingen gebeuren vrij vaak.

De belangrijkste zijn gezinswaarden, de geschatte kosten van een appartement, huis, het zoeken naar een auto, enzovoort. Op basis hiervan kunnen mensen in sociale groepen worden verdeeld. Dit zijn Moskou Tinder-gebruikers, wie ze zijn (volgens hun foto's op hun Facebook-accounts); op basis van hun interesses zijn ze verdeeld in verschillende sociale groepen:

Arthur Khachuyan: “Echte Big Data in reclame”

Als we dichter bij reclame komen, zijn we langzaam afgestapt van de standaard reclametargeting, wanneer u op VKontakte selecteert dat u geïnteresseerd bent in 18-jarige mannen die zich op bepaalde groepen hebben geabonneerd. Ik heb de volgende foto, ik zal het je nu laten zien:

Arthur Khachuyan: “Echte Big Data in reclame”

Het komt erop neer dat de meeste van de huidige diensten die in principe mensen analyseren die sociale netwerken analyseren, zich bezighouden met het analyseren van interesses. Het eerste dat in de gedachten van mensen opkomt, is het analyseren van de topgroepen van hun abonnees. Misschien werkt dit voor sommigen, maar persoonlijk denk ik dat het fundamenteel verkeerd is. Waarom?

Je likes worden verzameld en geanalyseerd

Neem nu je telefoons, kijk naar je topgroepen - er zullen zeker meer dan 50% van de groepen zijn die je al bent vergeten, dit is een soort inhoud die eigenlijk niet relevant voor je is. Je consumeert het helemaal niet, maar toch zal het systeem je volgen op basis van hen: dat je geabonneerd bent op recepten, op een aantal populaire groepen. Dat wil zeggen dat u het systeem schendt dat uw profiel analyseert en dat uw interesses niet gerechtvaardigd zijn.

We gaan verder... Wat is daar? Wij gaan ervan uit wat andere mensen doen. Naar onze mening is likes de meest adequate manier om de interesses van gebruikers te beoordelen. Op VKontakte is er bijvoorbeeld geen likes-feed en mensen denken dat niemand weet wat ze leuk vinden. Ja, sommige likes worden op Instagram geïntroduceerd, we zien iets op Facebook, maar de meeste inhoud in bepaalde groepen zendt dit niet uit in een gemeenschappelijke feed, en mensen leven en denken dat niemand zal weten wat ze leuk vinden.

En door bepaalde inhoud te verzamelen die ons interesseert, deze berichten te verzamelen, deze likes te verzamelen en vervolgens deze persoon te controleren met behulp van deze database, kunnen we met hoge nauwkeurigheid bepalen wie hij is, wat zijn lot is, waarin hij geïnteresseerd is. Plaats hem precies in een bepaalde sociale groep en communiceer met hem.

Een auto kopen verandert gedrag

Ik heb zo'n voorbeeld. Ik maak meteen een voorbehoud dat mijn voorbeelden bijna reclame en bijna marketing zijn, omdat, weet je, de meeste gevallen worden beschermd door NDA enzovoort. Maar er zullen nog veel interessante dingen zijn. Dus het verhaal bij deze mensen: dit zijn mannen die tussen 2010 en 2015 een auto hebben gekocht. Hoe hun online sociale gedrag is veranderd, wordt aangegeven met kleur. Het percentage meisjes onder de abonnees is veranderd, ik heb me geabonneerd op ‘jongensachtige’ openbare pagina’s, heb een vaste seksuele partner gevonden…

Arthur Khachuyan: “Echte Big Data in reclame”

Dit geheel is uitgesplitst naar automerk en aantal personen. Hieruit kun je veel interessante conclusies trekken over het gedrag van mensen en hoe het allemaal werkt. Ik kan zeggen dat de Porsche Cayenne en de geplante Priora qua aantal aangetrokken publiek vrijwel identiek zijn. De kwaliteit van dit publiek en hun gedrag zijn verschillend, maar de kwantiteit is ongeveer hetzelfde. De conclusie die u hieruit kunt trekken is wat u maar wilt, dichter bij uw markt. Als je een Audi verkoopt, maak je de slogan “Koop een Audi en ga weg bij je ouders!” enzovoort.

Ja, dit is een grappig voorbeeld van het feit dat het gedrag van mensen op basis van de analyse van likes, op basis van naar welke groep ze verhuizen, welke inhoud ze analyseren - met een waarschijnlijkheid van bijna 100% duidelijk maakt wie je bent. Want als je geen toegang hebt tot netwerkverkeer en geen persoonlijke berichten leest, zullen likes je altijd vertellen wie deze persoon is: een zwangere vrouw, een moeder, een militair, een politieagent. En voor u, als persoon die kan adverteren, is dit een grote schot in de roos.

Antwoorden op vragen uit het publiek:

  • Elke kolom is het aantal personen in deze auto; hoe hun gedragspatronen zijn veranderd. Kijk: mensen die een Porsche Cayenne hebben gekocht - ongeveer 550 mensen (geel), het percentage meisjes onder de abonnees is toegenomen.
  • Het voorbeeld zijn gebruikers van sociale netwerken "Vkontakte", "Facebook", "Instagram" van 2010 tot 2015. De enige verduidelijking: de hier geselecteerde auto's zijn de auto's die met behulp van bepaalde hulpmiddelen met een nauwkeurigheid van meer dan 80% op foto's kunnen worden geïdentificeerd.
  • Gedurende een bepaalde periode is zijn auto (nou ja, dat wil zeggen niet de zijne, dat laten we over aan sociale netwerken)... Gedurende een bepaalde periode werd er voortdurend een persoon gefotografeerd met de auto, was erbij, de publicaties waren verschillend, de foto's waren vanuit verschillende hoeken, enzovoort. Er zal dan een foto zijn van welke mensen foto's maken met welke auto's en... Ja, dit is de tweede vraag: vertrouwen in sociale netwerkgegevens.
  • Sinds we het ter sprake brachten, zijn de gegevens van sociale media helaas niet altijd correct. Mensen zijn niet altijd geneigd hun informatie te publiceren. Persoonlijk heb ik zo'n onderzoek uitgevoerd: ik vergeleek het aantal afgestudeerden van universiteiten in Moskou met het aantal mensen dat op sociale netwerken was geregistreerd. Gemiddeld zijn op sociale netwerken 60% meer mensen geregistreerd – afgestudeerden van de Staatsuniversiteit van Moskou in een bepaald jaar in bepaalde specialismen – dan er in principe daadwerkelijk zijn. Dus ja - er is hier natuurlijk een percentage fouten, en niemand verbergt dit. Hier nemen we eenvoudigweg de auto's als basis die met een waarschijnlijkheid van meer dan 80% kunnen worden geïdentificeerd.

Lijst met bronnen voor modeltraining

Hier is een voorbeeldlijst van bronnen die gebruikt kunnen worden, die gebruikt wordt om met grote zekerheid het sociale profiel van een persoon vast te stellen, wie hij is.

Arthur Khachuyan: “Echte Big Data in reclame”

We nemen een profiel van sociale netwerken, van CIAN - de kosten van een appartement zijn ongeveer, "Head-Hunter", "Superjob" - dit is het gemiddelde salaris voor een bepaalde persoon. Ik hoop dat er hier geen vertegenwoordigers van Head Hunter zijn, omdat zij denken dat het niet zo goed is om deze gegevens van hen over te nemen. Dit is echter het gemiddelde salaris in bepaalde regio's voor bepaalde soorten activiteiten voor vacatures.

“Avito”, “Avto.ru”: heel vaak hebben mensen, als hun telefoon verlicht is, zeker (in een groot aantal gevallen) tenminste iets op “Avito”, of op “Avto.ru”, of op een andere verschillende sites waar u kunt begrijpen wie ze zijn. Als er op dit telefoonnummer een kinderwagen of een auto wordt verkocht... Rosstat en het Unified State Register of Legal Entities zijn nog meer registers met behulp waarvan je het bedrijf waar je werkt kunt rangschikken - volgens een bepaalde formule, volgens een model dat iedereen kan dit instellen (je kunt grofweg het geld van deze persoon bepalen enz.).

Tinder helpt bij het verzamelen van gegevens over de situatie van mensen

Bovendien is er zoiets interessants (of het is heel grappig in het onderzoek) - dit is opnieuw de verzameling gegevens van Tinder in Moskou met behulp van bots voor deze Tinder. De afstand tot mensen werd bepaald en vervolgens werd hun geschatte locatie bepaald.

Arthur Khachuyan: “Echte Big Data in reclame”

Het doel van dit onderzoek was om het aantal Tinder-accounts op het grondgebied van overheidsinstellingen te bepalen - in de Doema, het parket, enzovoort. Maar jij als adverteerder kunt je voorstellen wat je wilt: het kan bijvoorbeeld Starbucks zijn of iemand anders... Dat wil zeggen het aantal mensen op Tinder dat koffie bij je drinkt, iets bestelt, in de winkels staat Wat betreft deze geolocatie: dit kan met elke dienst.

Antwoord op een vraag uit het publiek:

  • Tinder? Je weet het niet? Tinder is een datingapp waarbij je door foto’s kijkt (links-rechts), en deze app laat je de afstand tot de persoon zien. Als je de afstand tot deze persoon uit drie verschillende punten haalt, kun je ongeveer (+ 5-7 meter) de locatie bepalen. In dit geval is het voor de bepaling op het grondgebied van het parket of de Doema niet zo moeilijk. Maar nogmaals, het kan jouw winkel zijn, het kan van alles zijn.

Heel lang geleden hadden we bijvoorbeeld zo'n geval (geen onderzoek), toen we van een van de mobiele operators gegevens ontvingen over de verkeersdichtheid, gegevens over de bewegingsdichtheid van mobiele punten, en al deze informatie werd over elkaar heen gelegd. op de coördinaten van reclameborden langs snelwegen. En de taak van de mobiele operator is om te bepalen hoeveel mensen er ongeveer langskomen en mogelijk deze reclamebordadvertentie kunnen zien.

Als er hier specialisten op het gebied van reclameborden zijn, kun je zeggen: het is onmogelijk om het met superbetrouwbaarheid te begrijpen - iemand komt eraan, iemand heeft niet gekeken, iemand heeft gekeken... Niettemin is dit een voorbeeld van hoe er 20 miljard polygonen zijn van deze in Moskou, waarop de dichtheid van deze mensen op elk uur langs bepaalde routes staat... Je kunt op elk moment zien waar deze mensen langskwamen en een ruwe schatting maken van de passagiersstroom.

Antwoord op een vraag uit het publiek:

  • Niemand geeft zulke gegevens. We hebben een dergelijk onderzoek uitgevoerd voor een van de operators; dit is een uitsluitend intern verhaal, dus het wordt helaas niet in de vorm van afbeeldingen gepresenteerd. Maar vaak hebben grote reclamebureaus geen problemen om contact op te nemen met een operator. In Moskou zijn er in ieder geval veel precedenten wanneer verzekeringsmaatschappijen zich bijvoorbeeld wenden tot bedrijven als GetTaxi, die onpersoonlijke gegevens verstrekken over de leeftijd van de bestuurder, hoe hij rijdt (goed - slecht, roekeloos - nee), om te voorspellen beleid enzovoort. Iedereen worstelt hiermee, maar op een bepaald intern niveau heeft het verstrekken van anonieme gegevens volgens mij niemand zo'n probleem.

Beeld- en patroonherkenning

Doe Maar. Mijn favoriet is beeldherkenning. Er komt een klein stukje over het zoeken naar mensen op basis van gezichten, maar dit deel laten we grotendeels achterwege. We nemen specifiek beeldherkenning en bepalen wat er op deze afbeelding staat: het merk van de auto, de kleur ervan, enzovoort.

Arthur Khachuyan: “Echte Big Data in reclame”

Ik heb dit grappige voorbeeld:

Arthur Khachuyan: “Echte Big Data in reclame”

Er was zo'n onderzoek naar het zoeken naar tatoeages op verschillende sociale netwerken. Dienovereenkomstig kan hetzelfde worden toegepast op elk merk, op elk visueel beeld, op vrijwel elk visueel beeld. Er zijn er die niet betrouwbaar kunnen worden bepaald (we nemen ze niet).

Arthur Khachuyan: “Echte Big Data in reclame”

Hier is mijn favoriet. Automerken wenden zich vaak tot deze taak omdat het hun taak is om bijvoorbeeld alle eigenaren van een BMW X6 te vinden, te begrijpen wie ze zijn, hoe ze met elkaar verbonden zijn, waarin ze geïnteresseerd zijn, enzovoort. Dit heeft betrekking op de vraag met welke auto's mensen foto's maken op sociale netwerken.

Arthur Khachuyan: “Echte Big Data in reclame”

Er was hier helemaal geen sprake van filtering: het object was van hen, de auto was niet van hen; Het is gewoon het defect raken van auto’s – leeftijd enzovoort. Maar visuele beeldherkenning wordt vrij vaak gebruikt: dit is de zoektocht naar zwangere vrouwen, en de zoektocht naar merklogo's in een soort massamedia (wie plaatst wat).

Arthur Khachuyan: “Echte Big Data in reclame”

Mijn favoriete case (die door verschillende restaurants wordt gebruikt): wat voor soort broodjes er op een sociaal netwerk worden geplaatst. Het is grappig, maar in feite kun je veel interessante dingen begrijpen, in de eerste plaats over je eigen klanten: wie naar je toe kwam en waarom ze dat deden. Omdat het geen geheim is dat in sushibars de meeste mensen (ik zal niet zeggen “meisjes”) foto’s maken om in te checken, een foto van iets maken, enz.

Het merk kan hiervan profiteren. Het merk is geïnteresseerd in wat voor soort producten het nodig heeft om mooi te fotograferen en te posten, wat voor soort mensen daar naartoe kwamen. Dit ding kan met bijna alles worden gedaan, van voedsel.

Videopatroonherkenning

Antwoord op een vraag uit het publiek:

  • Niet op video. We hebben hem in testmodus. We hebben deze technologie geprobeerd, maar het blijkt dat... Het herkent alles met video heel goed, maar we hebben er nergens een toepassing voor gevonden. Doei. Afgezien van het analyseren van hoeveel en welke videobloggers ergens praten... Er was zo'n onderzoek. Hoeveel van hun gezichten ontmoeten elkaar, hoe vaak. Maar merken weten nog niet waar ze dit moeten bedenken. Misschien komt het ooit nog.

Nogmaals, dit is voedsel, het kunnen zwangere vrouwen zijn, mannen (niet zwanger), auto's - wat dan ook.

Als optie was er een nieuwjaarsstudie voor één mediakanaal. Ook verre van reclame, maar toch. Dit is wat voor soort voedsel mensen vastten voor het nieuwe jaar:

Arthur Khachuyan: “Echte Big Data in reclame”

Hier wordt het ook uitgesplitst naar leeftijd. Je ziet zo'n verband dat jongeren vooral eten bestellen, volwassenen meestal een traditionele tafel maken. Het is grappig, maar als je je het als merkeigenaar voorstelt, kun je een groot aantal dingen evalueren: wie met je product omgaat en hoe, wat ze erover schrijven. Vaak vermelden mensen het merk zelf niet altijd in de tekst, en traditionele analytische monitoringsystemen kunnen deze vermelding van het merk niet altijd begrijpen en vinden, alleen maar omdat het niet in de tekst wordt vermeld. Of de tekst is verkeerd gespeld, er zijn geen hashtags of zoiets.

De foto's zijn zichtbaar. Met fotografie kun je zien of het het middelste onderwerp van het frame is of niet het middelste onderwerp van het frame. Dan kun je zien wat deze persoon heeft geschreven. Maar meestal wordt het gebruikt als zoektocht naar potentieel publiek dat in bepaalde auto's heeft gereden, enzovoort. En dan gaan we nog veel interessante dingen met deze auto’s doen.

Bots wordt geleerd mensen te imiteren

Er was ook zo'n optie om mensen te tellen:

Arthur Khachuyan: “Echte Big Data in reclame”

Er is een optie om mensen te vergelijken, wanneer je mensen wilt vinden die bepaalde foto's gebruiken, hun sociale profiel wilt begrijpen en wie ze zijn. Nogmaals, we komen terug op de vraag dat als we een camera in een offline winkel hebben, dit een redelijk goede manier is om te begrijpen wie naar je toe komt, wie deze mensen zijn, waarin ze geïnteresseerd zijn, wat hen ertoe bracht naar je toe te komen .

Vervolgens komt het meest interessante: als we hun accounts op sociale netwerken verzamelen, begrijpen wie deze mensen zijn, waar ze in geïnteresseerd zijn, kunnen we (als optie) een bot maken die op deze mensen lijkt; deze bot zal gaan leven zoals deze mensen en analyseren welke advertenties hij op verschillende sociale netwerken ziet. Hierdoor kunt u nauwkeurig begrijpen welke merken op deze persoon zijn gericht. Dit is ook een vrij algemeen verhaal wanneer je niet alleen moet analyseren wie deze persoon is en welke interesses hij heeft, maar ook op wat voor soort reclame je potentiële concurrenten of andere geïnteresseerde mensen zich zouden moeten richten.

Arthur Khachuyan: “Echte Big Data in reclame”

Analyse van verbindingen in sociale netwerken

Arthur Khachuyan: “Echte Big Data in reclame”

Het volgende interessante ding is de analyse van relaties tussen mensen. Eigenlijk is de analyse van verbindingen in het netwerk, deze netwerkgrafieken - er zit niets nieuws in, iedereen weet dit.

Arthur Khachuyan: “Echte Big Data in reclame”

Maar de toepassing op reclametaken is het meest interessant. Dit is een zoektocht naar mensen die trends zetten, dit is een zoektocht naar mensen die volgens bepaalde criteria informatie verspreiden binnen dit netwerk. Stel dat we geïnteresseerd zijn in dezelfde eigenaren van een bepaald BMW-model. Door ze allemaal samen te brengen, kunnen we degenen vinden die de publieke opinie controleren. Dit zijn niet noodzakelijkerwijs autobloggers enzovoort. Meestal zijn dit eenvoudige kameraden die op verschillende openbare pagina's zitten, geïnteresseerd zijn in bepaalde inhoud en in zeer korte tijd uw merk of iemand die voor u interessant is, naar dit verantwoordelijkheidsgebied kunnen lokken, naar het gebied van interesse.

Er is hier zo'n voorbeeld. We hebben een aantal potentiële mensen, verbindingen tussen mensen. Hier zijn de oranje mensen, de kleine stippen zijn gemeenschappelijke groepen, gemeenschappelijke vrienden.

Arthur Khachuyan: “Echte Big Data in reclame”

Als je al deze verbindingen tussen hen verzamelt, kun je heel duidelijk zien dat er mensen zijn die een groot aantal gemeenschappelijke groepen hebben, gemeenschappelijke vrienden, ze zijn er onder elkaar... En als dezelfde visualisatie op basis van interesses in groepen wordt verdeeld, op basis van de inhoud die ze verspreiden, hoeveel ze met elkaar omgaan... Hier kun je zien dat de vorige foto er zo uitzag:

Arthur Khachuyan: “Echte Big Data in reclame”

Hier zijn de groepen duidelijk van elkaar te onderscheiden op kleur. In dit geval zijn dat onze masterstudenten van de Higher School of Economics. Hier kun je zien dat de paars/blauwe degenen zijn die dol zijn op de openbare pagina's van Transparency International, Open Russia en Chodorkovski. Linksonder staan ​​de groenen, zij die van Verenigd Rusland houden.

Je kunt zien dat de vorige foto er zo uitzag (dit zijn slechts verbindingen tussen mensen), maar duidelijk afgebakend is geworden. Dat wil zeggen, alle mensen zijn altijd met elkaar verbonden, ze hebben dezelfde interesses, ze zijn vrienden met elkaar. Er zijn er een paar bovenaan, anderen onderaan, en nog een paar kameraden daar. En als elk van deze kleine subgrafieken afzonderlijk wordt gevisualiseerd met andere parameters en wordt gekeken naar de snelheid van de verspreiding van de inhoud (grof gezegd, wie wat daar opnieuw plaatst), kun je in elk deel een of twee mensen vinden die altijd de publieke opinie in handen hebben, interactie waarmee, door te vragen een bericht of iets anders te sturen - je kunt een reactie krijgen van dit hele interessante publiek.

Ik heb nog zo'n voorbeeld. Ook een grafiek: dit zijn medewerkers van BBDO Group die als voorbeeld op sociale netwerken te vinden zijn. Het ziet er oninteressant uit, groot, groen, verbindingen tussen hen...

Arthur Khachuyan: “Echte Big Data in reclame”

Maar ik heb een optie waarbij er al groepen tussen zijn gebouwd. Dan is er, als iemand geïnteresseerd is, een interactieve versie - u kunt erop klikken en een kijkje nemen.

Rechtsboven staan ​​degenen die van Poetin houden. Hier zijn de paarse ontwerpers; degenen die geïnteresseerd zijn in design, iets interessants, enzovoort. Hier zijn de witte dingen het managementteam (blijkbaar, zoals ik begrijp); Dit zijn mensen die over het algemeen op geen enkele manier met elkaar verbonden zijn, maar in ongeveer dezelfde functies werken. De rest zijn hun gemeenschappelijke groepen, verbindingen, enzovoort.

Merken hebben geen bloggers nodig, maar opinieleiders

We nemen deze mensen en vinden ze - dan beslist het reclamebureau, het reclamebedrijf voor zichzelf: het kan deze persoon geld geven zodat hij op de een of andere manier interactie heeft met deze inhoud of iets anders, of zijn eigen specifieke reclamecampagne op hen richt. Dit wordt ook vrij vaak gebruikt, vooral nu, omdat alle merken met bloggers willen werken, ze willen dat hun inhoud wordt gepromoot, maar reclamebureaus niet echt contact willen opnemen (nou ja, dit gebeurt).

En de echte uitweg uit deze situatie is om mensen te vinden die geen bloggers zijn, geen beautybloggers, maar bijvoorbeeld enkele echte wezens die interactie hebben met dit merk, die op een of andere ellendige openbare pagina “Mail.ru Answers” ​​kunnen schrijven, een bepaald aantal weergaven. Deze mensen, die voortdurend geïnteresseerd zijn in de inhoud van deze persoon, zullen het geheel verspreiden en het merk zal erbij betrokken worden.

De tweede optie om dergelijke technologie nu te gebruiken is behoorlijk relevant: zoeken naar bots, mijn favoriet. Dit is een reputatierisico voor uw concurrenten en een kans om irrelevante mensen uit een reclamecampagne te verwijderen, en al het andere (opmerkingen verwijderen en zoeken naar verbanden tussen mensen). Ik heb zo'n voorbeeld, het is ook groot en interactief - je kunt het verplaatsen. Dit zijn connecties van mensen die reacties hebben geschreven in de Lentach-gemeenschap.

Dit voorbeeld is bedoeld om u te laten begrijpen hoe goed en gemakkelijk zichtbaar bots zijn; en hiervoor hoef je geen technische kennis te hebben. Dit betekent dat “Lentach” een bericht publiceerde over het FBK-onderzoek naar Dmitry Medvedev, en bepaalde mensen begonnen opmerkingen te schrijven. We hebben alle mensen verzameld die opmerkingen hebben geschreven - deze mensen zijn groen. Nu ga ik het verplaatsen:

Arthur Khachuyan: “Echte Big Data in reclame”

De mensen zijn de groene mensen (die de commentaren hebben geschreven). Ze zijn hier, ze zijn hier. De blauwe stippen ertussen zijn hun gemeenschappelijke groepen, de gele stippen zijn hun gemeenschappelijke abonnees, vrienden, enzovoort. Het merendeel van de mensen is met elkaar verbonden. Omdat, ongeacht de theorie van drie, vier, vijf handdrukken, alle mensen met elkaar verbonden zijn op sociale netwerken. Er zijn geen mensen die van elkaar gescheiden zijn. Zelfs mijn sociaal fobische vrienden die VKontakte uitsluitend gebruiken om video's te bekijken, zijn nog steeds geabonneerd op enkele van dezelfde openbare pagina's als wij.

Navalny maakt ook gebruik van bots. Iedereen heeft bots

Het grootste deel van de mensen (hier is het, hier) is met elkaar verbonden. Maar er is zo'n kleine groep kameraden die uitsluitend vrienden met elkaar zijn. Hier zijn ze, de kleine groene, hier zijn hun gemeenschappelijke vrienden en groepen. Ze vielen hier zelfs afzonderlijk af:

Arthur Khachuyan: “Echte Big Data in reclame”

En door een gelukkig toeval waren het juist deze mensen die onder dit bericht schreven: “Navalny heeft geen bewijs” enzovoort, en dezelfde opmerkingen schreven. Ik durf uiteraard geen conclusies te trekken. Maar toch had ik nog een bericht op Facebook, toen er een debat was tussen Lebedev en Navalny, analyseerde ik de reacties op dezelfde manier: het bleek dat alle mensen die schreven “Lebedev is shit”, niet op sociale media waren geweest netwerken onlangs vier maanden, niet geabonneerd op een van de openbare pagina's, gingen plotseling naar dit specifieke bericht, schreven precies deze opmerking en vertrokken. Nogmaals, het is onmogelijk om hieruit conclusies te trekken, maar iemand van het team van Navalny schreef me een opmerking dat ze geen bots gebruiken. Nou, oké!

Dichter bij reclame, dichter bij het merk. Iedereen heeft nu bots! Wij hebben ze, onze concurrenten hebben ze en anderen hebben ze. Ze moeten worden weggegooid of achtergelaten om een ​​goed leven te leiden; Breng ze op basis van dergelijke gegevens (wijst naar de vorige dia) tot in de perfectie, zodat ze op echte mensen lijken en gebruik ze dan pas. Hoewel het gebruik van bots slecht is! Toch een vrij algemeen verhaal...

In de automatische modus kunt u hiermee uit uw analyse mensen filteren die niet relevant zijn voor de analyse; mensen die niet in de steekproef zouden moeten worden opgenomen, mogen ook niet in dit onderzoek worden opgenomen. Zeer vaak gebruikt. Aan de andere kant bezitten niet alle autobezitters daadwerkelijk een auto. Soms zijn mensen alleen geïnteresseerd in mensen die potentieel een auto hebben, die in bepaalde groepjes zitten, met iemand communiceren, daar hebben ze een bepaald publiek.

Analyse van feiten en meningen

De volgende die ik heb is ook mijn favoriet. Dit is een analyse van feiten en meningen.

Arthur Khachuyan: “Echte Big Data in reclame”

Tegenwoordig weet iedereen hoe hij zijn merk in verschillende bronnen moet vermelden. Er is geen geheim hiervoor. En iedereen lijkt de tonaliteit te kunnen berekenen... Hoewel ik persoonlijk denk dat de tonaliteitsmetriek zelf niet erg interessant is, want als je tegen de klant komt zeggen: "Man, je hebt 37% neutraal", en hij zegt dat , " Wauw! Koel!" Daarom zou het interessanter zijn om nog een stap verder te gaan: van het beoordelen van sentiment naar het beoordelen van de meningen over wat ze over uw product zeggen.

En dit is ook heel interessant, omdat... Ik geloof persoonlijk dat er in principe geen neutrale berichten kunnen zijn, want als iemand iets in de openbare ruimte schrijft, is deze boodschap op de een of andere manier op de een of andere manier gekleurd. Persoonlijk heb ik nog nooit een neutrale boodschap gezien waarin een merk werd genoemd. Meestal is het een soort vuil.

Als we een groot aantal van deze berichten nemen (het kunnen er miljoenen zijn, 10 miljoen), het hoofdidee van elk bericht benadrukken en ze combineren, kunnen we vrij betrouwbaar begrijpen wat mensen over dit merk zeggen, wat ze denken. ‘Ik hou niet van de verpakking’, ‘Ik hou niet van de consistentie’, enzovoort.

Wat denken mensen over Transaero, Chupa Chups en de president van de Verenigde Staten?

Ik heb een grappig voorbeeld: dit is een infographic over wat gebruikers van sociale netwerken zouden doen met het bedrijf Transaero na het faillissement.

Arthur Khachuyan: “Echte Big Data in reclame”

Er zijn veel interessante voorbeelden: verbranden, doden, deporteren naar Europa, er was zelfs 2% die schreef: “Stuur ze naar Syrië voor militaire operaties.” Even het grappige na: het kan bijna elk merk zijn - van mijn favoriete hondenvoer tot sommige auto's. Wie de verpakking niet mooi vindt, wie niet van echte dingen houdt – hier kun je altijd mee werken, je kunt er altijd rekening mee houden. Er zijn een groot aantal voorbeelden waarin mensen de productie van hun producten bijna veranderden omdat ze op sociale netwerken schreven dat Chupa Chups niet rond genoeg was of niet zoet genoeg.

Er is nog een grappig voorbeeld. Raad eens welke opmerkingen en over wie?

Arthur Khachuyan: “Echte Big Data in reclame”

Om de een of andere reden wordt de analyse van meningen, de analyse van feiten uit berichten, niet erg gebruikt en niet erg wijdverspreid. Hoewel deze technologie niet supergeheim is, is er praktisch helemaal geen knowhow op dit gebied, omdat uit de opmerkingen van mensen het extraheren van het onderwerp, het predikaat en het groeperen ervan geen genie in computationele taalkunde vereist. Het is niet zo moeilijk om te doen. Maar ik hoop dat mensen dit de komende jaren zullen gaan gebruiken, omdat... Het zal cool zijn - dit is zo'n automatische feedback! Je weet altijd wat ze over je zeggen. U begrijpt dat dit over de Amerikaanse president is gemaakt.

Antwoord op een vraag uit het publiek:

  • Ja, dit is Facebook in het Engels. Ze zijn hier in het Russisch vertaald. Dit stond ergens geschreven.

Big Data en politieke technologieën

In feite heb ik veel verschillende interessante voorbeelden van politiek over Trump en alle anderen, maar we hebben besloten ze hier niet te brengen. Maar er is één politiek voorbeeld.

Dit zijn verkiezingen voor de Doema. Wanneer was je? Afgelopen jaar? Bijna anderhalf jaar geleden.

Arthur Khachuyan: “Echte Big Data in reclame”

Hier zijn mensen die hun exacte locatie hebben kunnen bepalen, tot op een bepaald geopunt, om te begrijpen in welk kiesdistrict zij vallen. En vervolgens werden van deze mensen alleen degenen genomen die hun definitieve mening gaven, op wie ze zouden stemmen.

Vanuit het oogpunt van politieke technologie is dit niet erg correct, omdat deze hele zaak genormaliseerd moet worden op basis van de bevolkingsdichtheid enzovoort. Niettemin gaan de blues hier stemmen op, weet je wie, de roden gaan stemmen op kameraden van de oppositie, van wie er overigens niet veel waren.

Persoonlijk geloof ik dat Big Data de politieke technologieën niet snel zal bereiken, maar als optie is de kandidaat ook een merk. En dit is tot op zekere hoogte ook een analyse van feiten en meningen over uw merk, en nogal interessant, omdat u in realtime kunt begrijpen wie wat doet. Ik ken verschillende gevallen van de BBC, waarin ze tijdens een uitzending sociale netwerken in realtime volgden: er was zo'n reactie, mensen schrijven erover, stellen die en die vraag - en het is geweldig! Ik denk dat het zeer binnenkort gebruikt zal worden, omdat het voor iedereen interessant is.

Modelleren van merkposities

Arthur Khachuyan: “Echte Big Data in reclame”

Vervolgens heb ik het modelleren van merkposities. Een klein, kort stukje over hoe je merken kunt rangschikken met behulp van verschillende statistieken (geen likes van abonnees op sociale netwerken, maar met behulp van complexe statistieken, interesse in inhoud, tijd besteed aan het ontvangen van statistieken).

Arthur Khachuyan: “Echte Big Data in reclame”

Ik heb om een ​​bepaalde reden een voorbeeld van ‘pharma’. Hier zijn de kleine cirkels intern, helder - dit is de hoeveelheid tekstinhoud die het merk zelf creëert, de grote cirkel is de hoeveelheid foto- en video-inhoud die het merk zelf creëert.

De nabijheid van het centrum laat zien hoe interessant de inhoud is voor het publiek. Er is een groot model, er zijn een heleboel allerlei parameters: likes, reposts, responstijd, wie daar gemiddeld heeft gedeeld... Hier kun je zien: er is een prachtige "Kagotsel", die een enorme hoeveelheid geld in het creëren van eigen inhoud, en daardoor bevinden ze zich vrij dicht bij het centrum. En er zijn kameraden die ook hun eigen inhoud creëren, maar het publiek is er niet in geïnteresseerd. Dit is geen erg adequaat voorbeeld, omdat al deze accounts praktisch dood zijn.

Yegor Creed is meer geliefd dan Basta

Arthur Khachuyan: “Echte Big Data in reclame”

Helaas, de rest... van wat we moeten laten zien... Nou ja, er zijn ook Russische rappers, als optie, van echte bedrijven.

Wat is het pluspunt? Feit is dat een bedrijf bijna alles in zo’n model kan stoppen, te beginnen met het gemiddelde salaris van abonnees die voor jouw merk werken; elk model dat ze leuk vinden. Omdat elk reclamebureau zijn eigen statistieken anders berekent, berekenen merken hun eigen statistieken anders.

Er is er ook een: Basta, die een grote hoeveelheid inhoud genereert, maar zich in de periferie bevindt, omdat deze inhoud blijkbaar niet erg interessant is voor het publiek. Nogmaals, ik heb niet de pretentie om te oordelen. Maar toch is er Yegor Creed, die volgens sociale netwerken bijna de beste performer van onze tijd is, maar alleen zijn persoonlijke foto's publiceert. Niettemin heeft hij een groot aantal abonnees: er zijn er ergens rond de miljoen. Ik weet het exacte aantal niet meer; Ik herinner me dat het betrokkenheidspercentage van deze mensen veel hoger is dan 85%, dat wil zeggen dat hij per miljoen abonnees 850 duizend reacties ontvangt van deze echte mensen - dit is echte waanzin. Dit is waar.

Arthur Khachuyan: “Echte Big Data in reclame”

Antwoorden op vragen uit het publiek:

Hoe lang duurde het om het rapperanalysemodel te maken?

  • Elk heeft zijn eigen doelgroep, de interesses van deze mensen worden voor elk berekend... Dit alles is ongeveer genormaliseerd naar de afstand tot het centrum, hun radiale positie is niet belangrijk (het wordt hier eenvoudigweg uitgesmeerd voor schoonheid, zodat ze dat doen elkaar niet tegenkomen). Alleen de geschatte nabijheid van het centrum is belangrijk. Dit is het model dat wij gebruiken. Ik vind de cirkel bijvoorbeeld mooier, sommige mensen doen het in gedachten als een halve cirkel.
  • Dit model is snel samengesteld, in twee of drie uur (ja, één persoon). Hier werden alleen statistieken ingevoegd: wat we vermenigvuldigen met wat, optellen en dan op de een of andere manier normaliseren. Afhankelijk van het model. Er zijn mensen die geïnteresseerd zijn in het gemiddelde salaris (dit is geen grap) van hun abonnees. En hiervoor moet je hun contacten vinden, Avito, alles berekenen, vermenigvuldigen. Het komt voor dat het lang duurt om hiermee rekening te houden, maar specifiek dit (wijst naar de vorige dia) - de parameters hier zijn heel eenvoudig: abonnees, reposts, enzovoort. Het duurde ongeveer twee tot drie uur om te voltooien. Dienovereenkomstig wordt dit ding vervolgens in realtime bijgewerkt en kunt u het gebruiken.

Nu komt het leuke gedeelte. Ik ben klaar met voorbeelden, want het is niet interessant om lang alleen te praten. En ik hoop dat je nu vragen gaat stellen, en we in feite van onderwerp naar onderwerp gaan, omdat ik zulke voorbeelden heb van hoe technologieën kunnen worden gebruikt, enzovoort...

Antwoorden op vragen uit het publiek:

  • Ik had één echt persoonlijk geval met één, om zo te zeggen, “bijna-casino”, toen daar een camera werd geplaatst, gezichten werden herkend, enzovoort. Het percentage herkende mensen is absoluut vrij groot, zowel bij ons als bij onze concurrenten. Maar het is eigenlijk best interessant. Ik vind dit interessant: je kunt begrijpen wie deze mensen zijn en heel goed voorspellen waarom ze hier precies zijn gekomen, wat er zo erg in hun leven is veranderd dat ze besloten naar het casino te komen. Maar wat betreft specifieke soorten bedrijven... Als je zoiets in een apotheek stopt, heeft het geen zin - je kunt niet voorspellen waarom iemand naar de apotheek kwam.

    De mondiale taak hier was om een ​​model te bouwen om te begrijpen wanneer iemand potentieel geïnteresseerd wil zijn in jouw merk, zodat je hem reclame kunt geven, niet nadat hij iets heeft gekocht (zoals nu gebeurt), maar hem reclame kunt geven “ in voorspelling” van wanneer dit allemaal zal gebeuren. Het was interessant met zo’n “bijna-casino”; er bleek een behoorlijk interessant percentage van deze mensen te zijn - waarom: iemand kreeg plotseling een promotie, iemand anders kreeg iets anders - zulke interessante inzichten. Maar bij sommige winkels, bij de detailhandel, bij een winkel met een soort pillen, lijkt het mij dat dit niet erg correct zal zijn.

Wordt Big Data offline gebruikt?

  • Het was offline. U hoeft alleen maar precies, grofweg, te begrijpen of dit model past of niet. Nogmaals, met bruisend water... Ik ben eigenlijk in alles geïnteresseerd, maar ik begrijp persoonlijk niet hoeveel, hoe de profielen van deze mensen, hun gedrag kunnen afhangen van wanneer ze flessenwater willen kopen. Hoewel dit echt waar kan zijn, weet ik het niet.

Hoeveel open sociale media-accounts zijn er?

  • We hebben specifiek 11 sociale netwerken - dit zijn "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" en een paar kleine dingen (ik kan naar de lijst kijken, zoals "Mail.ru" enzovoort) . Op VKontakte hebben we zeker een kopie van al deze kameraden. We hebben mensen op VKontakte - dat zijn 430 miljoen van iedereen die ooit heeft bestaan ​​(waarvan ongeveer 200 miljoen voortdurend actief zijn); er zijn groepen, er zijn verbindingen tussen deze mensen en er is inhoud die ons interesseert (tekst), en een deel van de media, maar heel klein... Grofweg kijken we naar deze foto: als daar gezichten zijn, dan bewaar ze, als er een meme is, bewaren we ze. We bewaren deze niet, omdat zelfs wij niet genoeg zouden hebben om de media-inhoud te redden.

    Er is een Russischtalige Facebook. Ergens nu is 60-80% Odnoklassniki, over een paar maanden zullen we ze waarschijnlijk allemaal tot het einde halen. Russische Instagram. Voor al deze sociale netwerken zijn er groepen, mensen, verbindingen daartussen en tekst.

  • Ongeveer 400 miljoen mensen. Er is een subtiliteit: er zijn mensen wier stad niet is gespecificeerd (ze zijn mogelijk Russisch / niet-Russisch); Hiervan is het gemiddelde voor sociale netwerken 14% van de gesloten accounts op VKontakte, ik ken het exacte cijfer niet op Facebook.
  • We bewaren ook geen media op Instagram – alleen als daar gezichten op staan. Dergelijke (andere) media-inhoud slaan wij niet op. Meestal interessant: alleen tekst, verbindingen tussen mensen; Alle. Het meest voorkomende onderzoek op Instagram is het gebruikelijke onderzoek naar het publiek: wie deze mensen zijn en, belangrijker nog, de connectie van deze mensen met andere sociale netwerken. Zoek het profiel van deze persoon op Vkontakte en Facebook om zijn leeftijd te berekenen, enzovoort.
  • Het is nog niet nodig om het tegen iedereen op te nemen, simpelweg omdat er geen klanten zijn. Wat betreft de taal: we hebben Russisch, Engels, Spaans, maar toch wordt dit uitsluitend gebruikt voor merken uit Rusland; nou ja, of de bedrijven die ze uit Rusland halen.
  • We interviewen elke dag mensen in heel veel discussies: we verzamelen gegevens door het internet te verzamelen en werken deze indicatoren bij met behulp van API. In 2-3 dagen kun je de hele "VKontakte" doorlopen, door ze heen; In ongeveer een week kun je heel Facebook doornemen en zien wie wat heeft bijgewerkt en wat niet. En zet deze mensen dan apart weer bij elkaar: wat is er precies veranderd, schrijf dit hele verhaal op. In mijn ervaring is het zeer zelden gebeurd dat iemands oude sociale-mediaprofiel voor een echt zakelijk doel werd gebruikt. Dit was het moment waarop één politieke figuur solliciteerde, en het was zijn taak om te begrijpen wat voor soort mensen naar het hoofdkwartier kwamen, wie deze mensen zes tot acht maanden geleden waren (hebben ze hun profiel verwijderd, maar in feite kwamen er voor een andere kandidaat stembiljetten binnen) vervuilen).

    En een paar keer - persoonlijke verhalen wanneer iemands foto's in het publieke domein werden gepubliceerd. Het was nodig om verbanden te vinden, enz. Helaas is het jammer, maar we kunnen niet voor de rechtbank getuigen, omdat onze database juridisch niet liquide is.

  • MongoDB-opslag is mijn favoriet.

Sociale netwerken proberen het verzamelen van gegevens tegen te gaan

  • Meestal uploaden we alleen een lijst van deze accounts naar adverteerders, en dan gebruiken ze de standaardaccount. Dat wil zeggen, op sociale netwerken, op VKontakte, kun je een lijst van deze mensen opgeven.

    Maar Facebook maakt gebruik van gekochte cookies. Wij werken zelf niet met cookies, maar er waren verschillende verhalen toen de adverteerder zelf enkele mensen gaf, we met hen communiceerden - ze hebben deze netwerken, met teaser-, niet-teaser-advertenties, deze "cookies". Je kunt het binden - geen twijfel mogelijk! Maar ik hou niet echt van dit spul, omdat ik het niet erg authentiek vind. Dit is puur naar mijn mening, het is net als TNS, dat tv's 'trackt' - het is niet duidelijk of je naar deze tv kijkt of niet, of je de afwas doet terwijl je tv aanstaat... En hier is het hetzelfde : Ik google heel vaak iets op internet, maar dat betekent niet dat ik het wil kopen.

  • Als je een standaard contextueel advertentienetwerk gebruikt: ik had verschillende verhalen toen we deze mensen naar hen toe stuurden en probeerden, met behulp van hun interfaces, hen te verbinden met “cookies” op hun sites. Maar ik houd niet zo van zulke dingen.

Formule voor het berekenen van het salaris van een internetgebruiker

  • De algemene formule voor het gemiddelde salaris: dit is de regio waar een persoon woont, dit is de bedrijfscategorie waarin hij werkt (dat wil zeggen het bedrijf dat zijn werkgever is), vervolgens wordt zijn positie in dit bedrijf genomen, het gemiddelde het salaris voor deze functie wordt geschat... Het gemiddelde salaris ontleend aan “Head Hunter” en “Superjob” (en er zijn verschillende andere bronnen) voor een bepaalde vacature in een bepaalde regio en voor een bepaalde zakelijke context.

    Van "Avito" en "Avto.ru" worden meestal aanvullende parameters overgenomen als een persoon de telefoon heeft verlicht. Met Avito kun je zien wat voor dingen iemand verkoopt: duur, goedkoop, gebruikt, niet gebruikt. Met "Avto.ru" kun je zien of hij een auto heeft - hij is de eigenaar, hij is niet de eigenaar. Dit is ergens minder dan 20% van de mensen die per ongeluk hun telefoon ergens hebben laten vallen, en hun account kan aan deze gegevens worden gekoppeld.

Welke volumes exploiteert het gegevensverzamelingsbedrijf?

  • Het volume aan opgeslagen foto's in petabytes is 6,4. Ik kan nu niet precies het groeipercentage zeggen, omdat we in 2016 begonnen met het opnemen van ‘periscopen’ en net begonnen met het opnemen van video.

    Ik kan niet precies zeggen wanneer het nul was. We zijn van bedrijf naar bedrijf verhuisd - het zijn allemaal lange verhalen. Maar ik kan zeggen dat VK, Facebook, Instagram en Twitter - al deze zaken (mensen, groepen en verbindingen daartussen) met tekst en inhoud - eigenlijk niet veel gegevens zijn, het is onwaarschijnlijk dat zelfs een petabyte genoeg heeft. Ik denk dat het 700 gigabyte is, waarschijnlijk 800.

Help jij klanten bij het bepalen van de huidige niche en waar ze moeten graven?

  • Als een klant komt, raden wij hem zulke dingen aan, maar zelf doen wij, net als Google Trends, zulke dingen niet.
  • We hadden verschillende bijna-sociologische verhalen, met verkiezings- en pre-verkiezingsgeschiedenis – we hebben het allemaal geanalyseerd. Met merken en het beoordelen van meningen over merken komt vrijwel altijd alles overeen. Hier zijn verkiezingsverhalen - nee (met een beoordeling van welke kandidaat zou moeten winnen). Ik weet niet wie hier ongelijk heeft – wij, of degenen die in VTsIOM denken.
  • Meestal nemen we deze controleresultaten over van het merk zelf, ze nemen ze over van kameraden die onderzoek bestellen - telefonisch onderzoek, marketingonderzoek, enzovoort. Bovendien kan dit hele ding worden gecontroleerd met basiszaken: iemand heeft de mailinglijst beantwoord, iemand heeft enquêtes gehouden... Als het een groot merk is (bijvoorbeeld Coca-Cola), hebben ze zeker een miljoen of twee interne beoordelingen van klanten – dit zijn niet alleen reacties op sociale netwerken en enkele meningen; Dit zijn een soort interne systemen, beoordelingen, enzovoort.

De wet “weet” niet wat persoonlijke gegevens zijn!

  • Wij analyseren uitsluitend open databronnen en bemoeien ons nooit met vuile trucs. Ons model is gebaseerd op het feit dat we alle open data opslaan in een aantal openbare datacentra, deze ergens anders verhuren en thuis, op ons kantoor, op onze servers analyseren, en dat deze gegevens nergens buiten het grondgebied terechtkomen.

    Maar onze wetgeving op het gebied van open data is erg vaag.

    We hebben geen duidelijk inzicht in wat open data zijn, wat persoonlijke gegevens zijn - er is een 152e federale wet, maar toch... Hoe tellen ze mee? Als ik nu uw naam en uw telefoonnummer in de ene database heb, heb ik in een andere database uw telefoonnummer en uw e-mailadres, in een derde heb ik bijvoorbeeld uw e-mailadres en uw auto; Dit lijken allemaal niet-persoonlijke gegevens te zijn. Als je dit allemaal bij elkaar optelt, lijkt het erop dat het volgens de wet persoonsgegevens worden.

    We kunnen dit op twee manieren omzeilen. De eerste is het installeren van een server met software voor de klant, en dan komen deze gegevens niet buiten zijn territorium, en dan is de klant verantwoordelijk voor de distributie van deze persoonlijke gegevens, niet-persoonlijke gegevens, enzovoort. Of de tweede optie: als dit een soort verhaal is waarbij je een sociaal netwerk of iets anders moet aanklagen...

    We hadden zo'n onderzoek toen we voor Lifenews de accounts van deze kameraden verzamelden (er waren voorverkiezingen in Verenigd Rusland) en keken naar wat voor soort porno ze leuk vonden. Het was een grappig iets, maar toch. We verkopen dit als onze eigen, persoonlijke mening, zonder in de documenten juridisch openbaar te maken wat we hebben geanalyseerd: het Unified State Register of Legal Entities, salarissen, sociale netwerken; We verkopen deskundig advies, en aan de zijlijn leggen we aan de persoon uit wat we hebben geanalyseerd en hoe.
    Er waren verschillende verhalen, maar deze hielden verband met enkele openbare commerciële projecten. We hebben bijvoorbeeld een gratis non-profitproject voor degenen die op longboards rijden (dergelijke boards zijn lang): de taak was om publicaties van mensen te verzamelen - wanneer iemand post: "Ik ging naar Gorky Park voor een ritje." En nu zou hij op de kaart moeten komen, en de mensen om hem heen kunnen zien dat er iemand in de buurt is. VK heeft heel lang met ons geprotesteerd over dit onderwerp, omdat ze het niet leuk vonden dat we deze informatie zonder toestemming van mensen publiceerden. Maar toen kwam de zaak niet voor de rechter, omdat we binnen enkele grote gemeenschappen aan de regels hadden toegevoegd dat de data gebruikt mochten worden door derden, instanties, bedrijven, analyses etc. Het was uiteraard niet bijzonder ethisch, maar toch.

  • We beseften het net op tijd en begonnen onze deskundige mening aan iedereen te verkopen.

Werkt u samen met onderwijsinstellingen?

  • Wij werken samen met onderwijsinstellingen, ja. We hebben een heel aanbod: we hebben een masteropleiding aan de Hogere School en we werken samen met andere universiteiten. Wij houden heel veel van universiteiten!
  • Als u mijn contacten heeft, kunt u mij schrijven. En een link naar de presentatie, als iemand geïnteresseerd is - al deze voorbeelden zijn aanwezig, je kunt deze verplaatsen.
  • Als u het telefoonnummer kent, mail dan - dit is bijna honderd procent optie, niemand zal het verwijderen. Als er geen telefoonnummer is, is het meestal een foto; als er geen foto is, is het het jaartal, de woonplaats, de baan. Dat wil zeggen dat bijna iedereen op jaarbasis, woonplaats en werk altijd vrij subtiel kan worden geïdentificeerd. Maar dit is nogmaals een vraag over de taak.

    We hebben bijvoorbeeld een klant die internettelevisie verkoopt. Iemand heeft een abonnement op deze “Games of Thrones” van hen gekocht, en de taak is om hun CRM te gebruiken om deze mensen op sociale netwerken te vinden, en vervolgens potentiële mensen uit hun invloedsgebied te vinden. Ik bedoel alleen dat ze bijvoorbeeld een voornaam, achternaam en e-mailadres hebben... En dan is het heel moeilijk om iets te doen. In de meeste gevallen zijn mensen via e-mail te vinden.

  • Op basis van de samenstelling van onze vrienden ‘matchen’ we meestal mensen op sociale netwerken, maar dit is niet altijd correct. Het is niet zo dat het niet altijd klopt; het werkt niet altijd. Ten eerste vergt dit veel arbeid, omdat deze operatie (het matchen van mensen) eerst voor elk van de vrienden moet worden uitgevoerd - om te begrijpen of ze van sociale netwerken komen of niet. En dan - een onbekend feit voor iedereen dat we op VKontakte dezelfde vrienden hebben, op Facebook hebben we verschillende vrienden. Niet voor iedereen, maar voor mij zit het bijvoorbeeld zo; en dat geldt ook voor de meeste mensen.

Hoe worden de meest volledige gegevens verzameld?

  • Het installeren van software voor de klant aan zijn kant. Er is een server op hen geïnstalleerd, die alleen openbare gegevens van ons opneemt en hun persoonlijke gegevens intern verwerkt. Met de opdrachtgever wordt een NDA afgesloten. Het is natuurlijk niet helemaal correct dat ze dit aan ons overdragen, maar de juridische verantwoordelijkheid ligt bij de klant - nou ja, dat wil zeggen: software voor hem installeren of anonieme gegevens overdragen. Maar dit kwam zeer zelden voor, omdat – correcte of onjuiste anonimisering – in de meeste gevallen de afhankelijkheid tussen deze mensen verloren gaat.

Wie koopt gezichtsherkenningssoftware?

  • We gaan hier eigenlijk heen omdat onze belangrijkste software die we verkopen face search en correlatieanalyse is, en we verkopen deze aan overheidsinstanties. En anderhalf jaar geleden besloten we dat we al deze verhalen in advertenties, in marketing en op de publieke markt zouden stoppen - zo werd Social Data Hub, een commerciële juridische entiteit, gevormd. En nu komen we gewoon hierheen. We hangen hier nu al anderhalf jaar rond en proberen mensen uit te leggen dat het niet nodig is om mensen downloads te geven met een vermelding, dat ze antwoorden op vragen moeten krijgen, dat er geen behoefte is aan tonaliteit , enzovoort. Het is dus moeilijk te zeggen waar...
  • (Wie bedoel je?) Aan alle kameraden die op zoek moeten naar terroristen en pedofielen.
    Ik kan meteen zeggen (dit wordt de volgende vraag): volgens onze gegevens zijn er geen leraren gevangengezet wegens herposting.
  • Op VKontakte - 14%; op Facebook is er geen gesloten profiel als zodanig (er is een gesloten lijst met vrienden, enzovoort). En het meest interessante is dat ik zojuist een bericht heb geschreven - nu zullen ze tellen en zeggen.

Post niet iets waar je je voor schaamt!

  • Plaats niets op sociale netwerken waarvoor u zich zou schamen – ik volg dit persoonlijk. Hoewel ik er veel persoonlijke had, omdat ik vloek op Facebook. Nou, er was en er moest iets gedaan worden... Post niets dat gênant zou zijn! Als je straks ergens in de Publieke Kamer gaat werken, ja, dan kun je beter geen commentaar geven. Als je dit niet gaat doen, kan het over het algemeen niemand iets schelen. Ik kan je alleen maar verzekeren dat niemand je persoonlijke correspondentie leest, en dit alles bouwt dit hele verhaal op...

    Elke week komt er zeker iemand naar me toe die zegt: “Nou, de foto’s van mijn vriend zijn gelekt naar een anonieme openbare pagina! Hulp! Publiceer overigens nooit iets op anonieme openbare pagina's.

  • Ik ken geen andere monitoringsystemen - we zullen hier zeker rekening mee houden, dat de vermelding van het merk negatief was, God vergeef me... Maar ik kan wel zeggen dat allerlei kameraden uit de buurt van de staat alleen geïnteresseerd zijn in mensen die een publiek hebben van meer dan 5 mensen, en hun publieke opinie kan iemand beïnvloeden. In mijn ervaring is het nog nooit voorgekomen dat het HR-bureau dat profielassessments bij ons bestelt, zei: “Wie Navalny leuk vindt, neem niemand aan!”

Over het publiceren van de resultaten. Hoeveel mensen zijn werkzaam in het onderzoek?

  • Van de tien grootste reclamebedrijven publiceren er nu zeven. Het is moeilijk te zeggen: toen we hier anderhalf jaar geleden mee begonnen... We hebben op elk gebied verschillende mensen: er zijn verschillende mensen bij banken, er zijn verschillende mensen bij HR, er zijn verschillende mensen in de reclamewereld. En nu denken we na over wie het meest winstgevend is om eerst naar toe te gaan, voor wie we een aantal interfaces moeten gaan maken...
  • (over het aantal mensen per marktsegment) Niet meer dan 25 mensen, want we hebben niemand verkracht.
  • Over het algemeen worden deze technologieën uit de markt in principe door meer dan 50% gebruikt, denk ik. Sommige in reclamecampagnes, sommige in een soort interne analyse. Ik zou zeggen dat 40 procent het gebruikt in interne analyses, en 50-60% verkoopt het aan eindmerken. Maar dit hangt al af van de reclamebedrijven zelf. Zie je, sommige mensen rapporteren simpelweg over het uitgegeven geld en de reclame die ze hebben gemaakt, terwijl anderen schrijven over hoeveel mensen ze hebben meegebracht, wat voor soort publiek... Ik zou het zeggen, maar ik kan het mis hebben. Ik kan me niet echt voorstellen hoe al deze kameraden werken. Ik weet het alleen in kwantitatieve gegevens.

Sommige advertenties 🙂

Bedankt dat je bij ons bent gebleven. Vind je onze artikelen leuk? Wil je meer interessante inhoud zien? Steun ons door een bestelling te plaatsen of door vrienden aan te bevelen, cloud VPS voor ontwikkelaars vanaf $ 4.99, een unieke analoog van servers op instapniveau, die door ons voor u is uitgevonden: De hele waarheid over VPS (KVM) E5-2697 v3 (6 kernen) 10 GB DDR4 480 GB SSD 1 Gbps vanaf $ 19 of hoe een server te delen? (beschikbaar met RAID1 en RAID10, tot 24 cores en tot 40GB DDR4).

Dell R730xd 2x goedkoper in Equinix Tier IV datacenter in Amsterdam? Alleen hier 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV vanaf $199 in Nederland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - vanaf $99! Lees over Hoe infrastructuur corp te bouwen. klasse met het gebruik van Dell R730xd E5-2650 v4-servers ter waarde van 9000 euro voor een cent?

Bron: www.habr.com

Voeg een reactie