Arthur Khachuyan: "Rigtige Big Data i reklamer"

Den 14. marts 2017 talte Arthur Khachuyan, CEO for Social Data Hub, ved BBDO-foredraget. Arthur talte om intelligent overvågning, opbygning af adfærdsmodeller, genkendelse af foto- og videoindhold samt andre Social Data Hub-værktøjer og forskning, der giver dig mulighed for at målrette mod målgrupper ved hjælp af sociale netværk og Big Data-teknologier.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Artur Khachuyan (i det følgende - AH): - Hej! Hej alle! Mit navn er Arthur Khachuyan, jeg driver virksomheden Social Data Hub, og vi er i gang med forskellige interessante intellektuelle analyser af åbne datakilder, informationsfelter og laver alverdens interessant research og så videre.

Og i dag bad kolleger fra BBDO Group os om at tale om moderne teknologier til at analysere big data, big og ikke så big data til annoncering: hvordan det bruges, vis nogle interessante eksempler. Jeg håber, I vil stille spørgsmål undervejs, for jeg kan godt blive kedelig og ikke afsløre essensen og så videre, så bliv ikke genert.

Faktisk er hovedretningerne, hvor der nogensinde blev brugt en slags "nær-big-data"-løsninger, alle klare - dette er målretning efter målgruppe, analyse, udførelse af en eller anden form for analytisk marketingundersøgelse. Men det er altid interessant, hvilke yderligere data der kan findes, hvilke yderligere betydninger der kan findes efter at have anvendt analysen.

Hvorfor har vi brug for teknologi til annoncering?

Hvor skal vi starte? Det mest oplagte er annoncering på sociale netværk. I dag tog jeg den af ​​om morgenen: af en eller anden grund mener VKontakte, at jeg skal se denne særlige annonce... Om den er god eller dårlig er det andet spørgsmål. Vi ser, at jeg bestemt falder ind under kategorien værnepligtige:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Den allerførste og mest interessante ting, der kan tages som en teknologisk løsning... Det første, jeg ville beslutte mig for, inden vi starter, er at definere begreberne: hvad er åben data, og hvad er big data? Fordi alle mennesker har deres egen forståelse af denne sag, og jeg vil ikke påtvinge nogen mine vilkår, men... Bare så der ikke er uoverensstemmelser.

Personligt tror jeg, at åbne data er alt, hvad jeg kan nå uden login eller adgangskode. Dette er en åben profil på sociale netværk, det er søgeresultater, det er åbne registre osv. Big data, i min egen forståelse, ser jeg det sådan her: hvis det er en dataplade, er det en milliard rækker, hvis det er en slags af fillagring, er det et sted en petabyte data. Resten i min terminologi er ikke big data, men sådan noget.

Højpræcisionsprofilering og profilscoring

Lad os gå i rækkefølge. Den allerførste og mest interessante ting, du kan finde på ved at analysere åbne datakilder, er højpræcisionsprofilering og profilscoring. Hvad er dette? Dette er en historie, hvor din sociale netværkskonto ikke kun kan forudsige, hvem du er, ikke kun dine interesser.

Men nu kan du ved at kombinere forskellige kilder forstå det gennemsnitlige niveau for din løn, hvor meget din lejlighed koster, og hvor den ligger. Og alle disse data kan bruges bogstaveligt fra tilgængelige midler. For eksempel, hvis du tager din konto på et socialt netværk, så kig for eksempel, hvor du bor, hvor du arbejder; forstå, hvilken del af virksomheden den virksomhed, du arbejder for, er i; downloade lignende ledige stillinger fra HH og "Superjob", hvis du er analytiker, leder osv.; se på, hvor du bor (base, f.eks. CIAN), forstå, hvor meget det koster at leje et hjem på dette sted, hvor meget det koster at købe et hjem på dette sted, forudsige omtrent hvor meget du tjener. Ved at bruge dine sociale netværk kan du desuden forstå, hvor meget du rejser, hvor du er, og hvor loyal du er over for din arbejdsgiver.

Derfor kan vi ud fra et så stort antal målinger gøre alt, hvad vi vil. Vi kan præsentere dig for et produkt, der interesserer dig. Kan du forestille dig en netbutik? Du går derhen - denne onlinebutik fanger din konto på et socialt netværk og fortæller dig: "Masha, du er lige slået op med din kæreste, her er nogle bestemte produkter til dig." Det er ikke den nærmeste fremtid...

Hvordan bestemmes en persons geolokation?

Svar på spørgsmål fra salen:

  • Typisk anses 80 % af alle indtjekninger for at være det nøjagtige opholdssted. Men for folk, der ikke tjekker ind nogen steder, er der flere muligheder: enten check-in eller geolocation, eller dette er en analyse af indlæg og publikationer for hele den periode, hvor en person skrev noget... Og et eller andet sted, noget vil dukke op som "Jeg vil købe en klapvogn nær Akademicheskaya" eller "Jeg så for nylig grim graffiti på væggen her." Det vil sige, at for næsten 80 % af mennesker kan deres geolokation, deres arbejdsplads og deres bopæl bestemmes ved hjælp af data eller metadata, der kan indsamles fra sociale netværk.

    Dette er igen en analyse af indlæg. I den enkleste forstand er dette en analyse af indtjekninger og geolokationer i sociale netværk, som ikke sletter jpeg-metadata (du kan finde ud af det). Men for de resterende personer er disse normalt tekstudsendelser: enten "lyser" en person sin placering, når han skriver om noget, eller han "lyser" sin telefon, hvorved du kan finde noget af hans annoncering på Avito eller hans konto på " Auto RU". Baseret på disse data kan du kombinere (for eksempel "Jeg sælger en bil nær Mayakovskaya") og groft antage dette.

  • Folk plejer at skrive dette på sociale medier. Vi arbejder kun med åbne kilder og her taler vi udelukkende om åbne kilder. De udgiver normalt annoncer, det vil sige i tres procent af tilfældene er den mest almindelige historie, når folk "viste" deres nuværende mobiltelefonnummer, annoncer for salg af noget. Enten i nogle grupper skriver en person ("jeg sælger det eller det der") eller går et sted hen.

    Ja! De kommenterer normalt som: "Svar mig eller send mig en sms, ring til mit nummer. Dette sker meget ofte for folk, der sælger noget, køber noget på sociale netværk, kommunikerer med nogen... Derfor kan du ved hjælp af dette nummer knytte hans profil på CIAN til det, hvis han nogensinde har udgivet noget, eller igen, på Avito. Disse er simpelthen de mest populære, topkilder, det vil være længere fremme - disse er Avito, CIAN og så videre.

  • Dette refererer til en netbutik. Det næste vil være teknologien til ansigtsgenkendelse og profilmatchning (vi taler om det). Rent teoretisk kan dette anvendes på en offline butik. Og generelt er min store drøm, at når gadebannere dukker op, når du går forbi et kamera, "fanger" det dit ansigt. Men denne sag vil være forbudt ved lov, fordi det er en krænkelse af privatlivets fred. Jeg håber, det vil ske før eller siden.
  • Af personlig erfaring. Meget ofte, når en person skriver noget til dig, opererer du på nogle fakta fra hans liv, som du ikke synes at vide... Folk bliver i de fleste tilfælde bange. Men! Baseret på nyere statistikker er antallet af lukkede konti på sociale netværk faldet med 14 %. Antallet af forfalskninger er stigende, antallet af åbne konti vokser - folk bevæger sig i stigende grad mod åbenhed. Jeg tror, ​​at de om 3-4 år holder op med at reagere så kraftigt på, at nogen kender oplysninger om dem, som de potentielt ikke burde kende. Men det er faktisk meget nemt at få ved at kigge på hans væg.

Hvad kan hentes fra åbne kilder?

Der er en omtrentlig liste over ting, der kan forstås med ret høj pålidelighed fra åbne kilder. Faktisk er der endnu flere forskellige målinger; det afhænger af kunden af ​​en sådan undersøgelse. Der er et eller andet HR-bureau, der er interesseret i, om du bander på sociale netværk eller et sted i det offentlige rum. Nogen er interesseret i, om du kan lide Navalnyjs publikationer eller omvendt United Russia-publikationer eller en eller anden form for pornografisk indhold - sådanne ting sker ret ofte.

De vigtigste er familieværdier, den omtrentlige pris for en lejlighed, hjem, søgning efter en bil og så videre. Ud fra dette kan mennesker inddeles i sociale grupper. Disse er Moscow Tinder-brugere, hvem de er (ifølge deres billeder fundet på deres Facebook-konti); baseret på deres interesser er de opdelt i forskellige sociale grupper:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Hvis vi rykker tættere på annoncering, så har vi langsomt bevæget os væk fra standard annonceringsmålretning, når du vælger på VKontakte, at du er interesseret i 18-årige mænd, der abonnerer på bestemte grupper. Jeg har dette billede næste, jeg vil vise dig nu:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Den nederste linje er, at de fleste af de nuværende tjenester, der i princippet analyserer folk, der analyserer sociale netværk, er engageret i at analysere interesser... Den første ting, der kommer til folks sind, er at analysere de øverste grupper af deres abonnenter. Måske virker dette for nogle, men personligt synes jeg, det er grundlæggende forkert. Hvorfor?

Dine likes indsamles og analyseres

Tag nu dine telefoner, se på dine topgrupper - der vil helt sikkert være mere end 50% af grupperne, som du allerede har glemt, det er en form for indhold, der faktisk er irrelevant for dig. Du spiser det overhovedet ikke, men alligevel vil systemet spore dig i henhold til dem: at du har abonneret på opskrifter, til nogle populære grupper. Det vil sige, at du overtræder systemet, der analyserer din profil, og dine interesser vil ikke blive begrundet.

Går videre... Hvad er der? Vi antager, hvad andre mennesker gør. Efter vores mening er likes den mest passende måde at vurdere brugernes interesser på. For eksempel er der ingen likes-feed på VKontakte, og folk tror, ​​at ingen ved, hvad de kan lide. Ja, nogle af likes er introduceret på Instagram, vi ser noget på Facebook, men det meste af indholdet i visse grupper udsender ikke dette i et fælles feed, og folk lever og tror, ​​at ingen vil vide, hvad de kan lide.

Og ved at indsamle bestemt indhold af en eller anden art, som interesserer os, indsamle disse opslag, indsamle disse likes, derefter kontrollere denne person ved hjælp af denne database, kan vi med høj nøjagtighed bestemme, hvem han er, hvad hans skæbne er, hvad han er interesseret i. Placer ham nøjagtigt i en bestemt social gruppe og interager med ham.

At købe en bil ændrer adfærd

Jeg har sådan et eksempel. Jeg vil straks tage forbehold for, at mine eksempler er næsten-reklame og nær-markedsføring, fordi du ved, de fleste sager er beskyttet af NDA og så videre. Men der vil stadig være mange interessante ting. Så historien med disse mennesker: Det er mænd, der købte en bil mellem 2010 og 2015. Hvordan deres online sociale adfærd har ændret sig, er angivet med farve. Procentdelen af ​​piger blandt abonnenter har ændret sig, jeg abonnerede på "drengelige" offentlige sider, fandt en permanent sexpartner...

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Det hele er opdelt efter bilmærke og antal personer. Herfra kan du drage mange interessante konklusioner om folks adfærd, og hvordan det hele fungerer. Jeg kan sige, at Porsche Cayenne og den plantede Priora er næsten identiske med hensyn til antallet af tiltrukket publikum. Kvaliteten af ​​dette publikum og deres adfærd er forskellig, men mængden er omtrent den samme. Konklusionen, du kan drage herfra, er, hvad du vil, tættere på dit marked. Hvis du sælger en Audi, laver du sloganet "Køb en Audi og kom væk fra dine forældre!" og så videre.

Ja, det er et sjovt eksempel på, at folks adfærd ud fra analysen af ​​likes, ud fra hvilken gruppe de flytter til, hvilket indhold de analyserer – med næsten 100 % sandsynlighed gør det klart, hvem du er. For hvis du ikke har adgang til netværkstrafik og ikke læser personlige beskeder, vil likes altid fortælle dig, hvem denne person er - en gravid kvinde, en mor, en militærmand, en politimand. Og for dig, som kan reklamere, er dette et stort hit på målet.

Svar på spørgsmål fra salen:

  • Hver kolonne er antallet af personer i denne bil; hvordan deres adfærdsmønstre har ændret sig. Se: folk, der købte en Porsche Cayenne - cirka 550 personer (gul), er procentdelen af ​​piger blandt abonnenter steget.
  • Prøven er brugere af sociale netværk "Vkontakte", "Facebook", "Instagram" fra 2010 til 2015. Den eneste afklaring: de biler, der er valgt her, er dem, der kan identificeres på fotografier med mere end 80 % nøjagtighed ved hjælp af visse værktøjer.
  • Over en vis periode blev hans bil (nå, altså ikke hans, det overlader vi til sociale netværk)... Over en vis periode blev en person konstant fotograferet med bilen, var med den, publikationerne var forskellige, fotografierne var fra forskellige vinkler og så videre. Der kommer så et billede af, hvilke personer der tager billeder med hvilke biler og... Ja, det er det andet spørgsmål - tillid til sociale netværksdata.
  • Siden vi tog det op, er data på sociale medier desværre ikke altid korrekte. Folk er ikke altid tilbøjelige til at offentliggøre deres oplysninger. Personligt gennemførte jeg en sådan undersøgelse: Jeg sammenlignede antallet af kandidater fra Moskvas universiteter med antallet af personer, der er registreret på sociale netværk. I gennemsnit er 60 % flere mennesker registreret på sociale netværk - kandidater fra Moscow State University i et bestemt år i visse specialer - end der faktisk er i princippet. Så ja - der er naturligvis en procentdel af fejl her, og ingen skjuler det. Her tager vi blot udgangspunkt i de biler, der kan identificeres med mere end 80 % sandsynlighed.

Liste over kilder til modeltræning

Her er en prøveliste over kilder, der kan bruges, som bruges til med stor sikkerhed at bestemme den sociale profil på en person, hvem han er.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Vi tager en profil fra sociale netværk, fra CIAN - prisen på en lejlighed er cirka, "Head-Hunter", "Superjob" - dette er den gennemsnitlige løn for en given person. Jeg håber, der ikke er nogen Head Hunter-repræsentanter her, for de synes, det ikke er særlig godt at tage disse data fra dem. Dette er dog gennemsnitslønnen i visse regioner for visse typer aktiviteter for ledige stillinger.

"Avito", "Avto.ru": meget ofte, når deres telefon er tændt, har de det bestemt (i et stort antal tilfælde) i det mindste noget på "Avito", eller på "Avto.ru", eller på en anden flere websteder, hvorfra du kan forstå, hvem de er. Hvis en klapvogn eller en bil blev solgt på dette telefonnummer... Rosstat og Unified State Register of Legal Entities er stadig flere registre, ved hjælp af hvilke du kan rangere den beskæftigede virksomhed - ifølge en formel, ifølge en model, der enhver person kan indstille (du kan groft bestemme denne persons penge osv.).

Tinder hjælper med at indsamle data om folks situation

Plus, der er sådan en interessant ting (alternativt er det meget sjovt i undersøgelsen) - dette er igen indsamlingen af ​​data fra Moskva Tinder ved hjælp af bots til denne Tinder. Afstanden til mennesker blev bestemt, og derefter blev deres omtrentlige placering bestemt.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Formålet med denne undersøgelse var at bestemme antallet af Tinder-konti på statslige institutioners territorium - i Dumaen, anklagemyndigheden og så videre. Men du kan som annoncør forestille dig, hvad du vil: Det kan for eksempel være Starbucks eller en anden... Det vil sige, hvor mange på Tinder, der drikker kaffe hos dig, bestiller noget, er i butikkerne Med hensyn til denne geolocation: dette kan gøres med enhver tjeneste.

Svar på et spørgsmål fra salen:

  • Tinder? Du ved ikke? Tinder er en dating-app, hvor du ser billeder igennem (venstre-højre), og denne app viser dig afstanden til personen. Hvis du får afstanden til denne person fra tre forskellige punkter, kan du cirka (+ 5-7 meter) bestemme placeringen. I dette tilfælde er det ikke så svært for afgørelsen på anklagemyndighedens eller statsdumaens område. Men igen, det kunne være din butik, det kunne være hvad som helst.

For eksempel, for lang, lang tid siden havde vi sådan en sag (ikke en undersøgelse), da vi modtog fra en af ​​mobiloperatørerne data om trafiktæthed, data om tætheden af ​​bevægelse af cellulære punkter, og al denne information blev overlejret på koordinaterne for billboards placeret på motorveje. Og mobiloperatørens opgave er at bestemme cirka, hvor mange mennesker der går forbi og potentielt kan se denne tavleannonce.

Hvis der er reklamespecialister her, kan du sige: det er umuligt at forstå med superpålidelighed - nogen kommer, nogen kiggede ikke, nogen kiggede... Ikke desto mindre er dette et eksempel på, hvordan der er 20 milliarder polygoner af disse i Moskva, hvor tætheden af ​​disse mennesker er hver time langs bestemte ruter... Du kan se, hvad disse mennesker passerede på ethvert tidspunkt og groft vurdere passagerstrømmen.

Svar på et spørgsmål fra salen:

  • Ingen giver sådanne data. Vi gennemførte en sådan undersøgelse for en af ​​operatørerne; dette er udelukkende en intern historie, så den præsenteres desværre ikke i form af billeder. Men ofte har store reklamebureauer ingen problemer med at kontakte en operatør. I hvert fald i Moskva er der mange præcedenser, når for eksempel forsikringsselskaber henvender sig til virksomheder som GetTaxi, der giver upersonlige data om chaufførens alder, hvordan de kører (godt - dårligt, hensynsløst - nej), for at forudsige politikker og så videre. Alle kæmper med dette, men på et eller andet internt niveau giver anonyme data - jeg tror, ​​ingen har sådan et problem.

Billed- og mønstergenkendelse

Fortsæt. Min favorit er billedgenkendelse. Der vil være et lille stykke om at søge efter mennesker ved ansigter, men vi tager for det meste ikke denne del. Vi tager specifikt billedgenkendelse og bestemmer, hvad der er på dette billede - bilens mærke, dens farve og så videre.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Jeg har dette sjove eksempel:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Der var sådan en undersøgelse om at søge efter tatoveringer på forskellige sociale netværk. Det samme kan følgelig anvendes på ethvert mærke, på ethvert visuelt billede, på næsten ethvert visuelt billede. Der er dem, der ikke kan bestemmes pålideligt (vi tager dem ikke).

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Her er min favorit. Bilmærker henvender sig ret ofte til denne opgave, fordi deres opgave for eksempel er at finde alle ejerne af nogle BMW X6, forstå hvem de er, hvordan de er forbundet med hinanden, hvad de er interesserede i, og så videre. Dette relaterer sig til spørgsmålet om, hvilke biler folk tager billeder med på sociale netværk.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Der var slet ingen filtrering her: genstanden var deres, bilen var ikke deres; Det er bare opdelingen af ​​biler - alder og så videre. Men visuel billedgenkendelse bruges ret ofte: dette er søgningen efter gravide kvinder og søgningen efter mærkelogoer i en slags massemedier (hvem poster hvad).

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Min yndlingssag (som bruges af forskellige restauranter): Hvilken slags rundstykker er lagt ud på et socialt netværk. Det er en sjov ting, men faktisk giver det dig mulighed for at forstå en masse interessante ting, for det første om dine egne kunder: Hvem kom til dig, og hvorfor de gjorde det. For det er ingen hemmelighed, at i sushibarer tager de fleste mennesker (jeg vil ikke sige "piger") billeder for at tjekke ind, tage et billede af noget osv.

Det kan mærket drage fordel af. Mærket er interesseret i, hvilke slags produkter det har brug for for smukt at fotografere og poste, hvilken slags mennesker der kom der. Denne ting kan gøres med næsten alt, lige fra mad.

Video mønstergenkendelse

Svar på et spørgsmål fra salen:

  • Ikke på video. Vi har den i testtilstand. Vi prøvede denne teknologi, men det viser sig, at... Den genkender alt med video ret godt, men vi har ikke fundet en applikation til det nogen steder. Farvel. Udover at analysere hvor meget og hvilke videobloggere der taler et eller andet sted... Der var sådan en undersøgelse. Hvor mange af deres ansigter mødes, hvor ofte. Men mærker har endnu ikke fundet ud af, hvor de skal finde på dette. Måske kommer det en dag.

Igen, dette er mad, det kan være gravide kvinder, mænd (ikke gravide), biler - hvad som helst.

Som en mulighed var der et nytårsstudie for ét medie. Også langt fra reklame, men alligevel. Dette er den slags mad, folk fastede til nytår:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Det er også opdelt efter alder her. Man kan se sådan en sammenhæng, at unge for det meste bestiller mad, voksne mest laver et traditionelt bord. Det er en sjov ting, men hvis du forestiller dig det som en brand-ejer, kan du vurdere en lang række ting: Hvem håndterer dit produkt og hvordan, hvad de skriver om det. Ofte nævner folk ikke altid selve mærket i teksten, og traditionelle analytiske overvågningssystemer kan ikke altid forstå og finde denne omtale af mærket, udelukkende fordi det ikke er nævnt i teksten. Eller teksten er stavet forkert, der er ingen hash-tags eller noget.

Billederne er synlige. Med fotografering kan du se, om det er det midterste motiv i rammen eller ikke det midterste motiv i rammen. Så kan du se, hvad denne person skrev. Men oftest bruges det som en søgen efter potentielle målgrupper, der har kørt bestemte biler og så videre. Og så vil vi lave en masse interessante ting med disse biler.

Bots er lært at efterligne mennesker

Der var også en sådan mulighed for at bruge personer, der tæller:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Der er en mulighed for at sammenligne folk, når du skal finde folk, der bruger nogle fotografier, forstå deres sociale profil, hvem de er. Igen vender vi tilbage til spørgsmålet om, at hvis vi har et kamera i en offline butik, så er dette en ret god måde at forstå, hvem der kommer til dig, hvem disse mennesker er, hvad de er interesserede i, hvad der fik dem til at komme til dig .

Dernæst kommer det mest interessante: hvis vi samler deres konti på sociale netværk, forstår, hvem disse mennesker er, hvad de er interesserede i, kan vi (som en mulighed) lave en bot, der ligner disse mennesker; denne bot vil begynde at leve som disse mennesker og analysere, hvilke reklamer den ser på forskellige sociale netværk. Dette vil give dig mulighed for præcist at forstå, hvilke mærker der er rettet mod denne person. Dette er også en ret almindelig historie, når du ikke kun skal analysere, hvem denne person er, og hvilke interesser han har, men også hvilken slags annoncering dine potentielle konkurrenter eller andre interesserede skal målrette mod.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Analyse af forbindelser i sociale netværk

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Den næste interessante ting er analysen af ​​forhold mellem mennesker. Faktisk, analysen af ​​forbindelser i netværket, disse netværk grafer - der er ikke en smule, intet nyt i dette, alle ved dette.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Men applikationen til reklameopgaver er den mest interessante. Dette er en søgning efter mennesker, der sætter trends, dette er en søgning efter personer, der formidler information i henhold til bestemte kriterier inden for dette netværk. Lad os sige, at vi er interesserede i de samme ejere af en bestemt BMW-model. Ved at bringe dem alle sammen kan vi finde dem, der kontrollerer den offentlige mening. Disse er ikke nødvendigvis bilbloggere og så videre. Normalt er der tale om simple kammerater, som sidder på forskellige offentlige sider, er interesserede i noget indhold og på meget kort tid kan tiltrække dit brand eller en af ​​interesse for dig til dette ansvarsområde, ind i området interesse.

Der er sådan et eksempel her. Vi har nogle potentielle mennesker, forbindelser mellem mennesker. Her er de orange mennesker, de små prikker er fælles grupper, fælles venner.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Hvis du samler alle disse forbindelser mellem dem, kan du meget tydeligt se, at der er mennesker, der har et stort antal fælles grupper, fælles venner, de er der indbyrdes... Og hvis denne samme visualisering er opdelt i grupper efter interesser, efter indhold, som de distribuerer, hvor meget de interagerer med hinanden... Her kan du se, at det forrige billede blev sådan her:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Her er grupperne tydeligt kendetegnet ved farve. I dette tilfælde er der tale om vores kandidatstuderende på Handelshøjskolen. Her kan du se, at de lilla/blå er dem, der elsker Transparency International, Open Russia og Khodorkovskys offentlige sider. Nederst til venstre er de grønne, dem der elsker Forenet Rusland.

Man kan se, at det forrige billede var sådan (det er blot forbindelser mellem mennesker), men er blevet tydeligt afgrænset. Det vil sige, at alle mennesker altid er forbundet med hinanden, de har de samme interesser, de er venner med hinanden. Der er nogle på toppen, andre på bunden og nogle andre kammerater der. Og hvis hver af disse små subgrafer visualiseres separat med andre parametre og ser på hastigheden af ​​indholdsformidling (groft sagt, hvem genposter hvad der), kan du i hver del finde en eller to personer, der altid holder den offentlige mening i hænderne, interagere med som, beder sende en slags post eller noget andet - du kan få et svar fra hele dette interessante publikum.

Jeg har et andet sådant eksempel. Også en graf: disse er BBDO Group-medarbejdere fundet på sociale netværk som et eksempel. Det ser uinteressant ud, stort, grønt, forbindelser mellem dem...

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Men jeg har en mulighed, hvor der allerede er bygget grupper imellem dem. Så er der, hvis nogen er interesseret, en interaktiv version - du kan klikke og kigge.

Øverst til højre er dem, der elsker Putin. Her er de lilla designerne; dem, der er interesserede i design, noget interessant, og så videre. Her er de hvide ting ledelsesteamet (tilsyneladende, som jeg forstår); Det er mennesker, der generelt ikke er forbundet på nogen måde, men arbejder i nogenlunde de samme stillinger. Resten er deres fælles grupper, forbindelser og så videre.

Brands har ikke brug for bloggere, men opinionsdannere

Vi tager disse mennesker og finder dem - så bestemmer reklamebureauet, reklamefirmaet selv: det kan give penge til denne person, så han på en eller anden måde interagerer med dette indhold, noget andet, eller rette sin egen specifikke reklamekampagne til dem. Dette bruges også ret ofte, især nu, fordi alle brands ønsker at arbejde med bloggere, de ønsker, at deres indhold skal promoveres, men reklamebureauer ønsker ikke rigtig at kontakte (nå, det sker).

Og den rigtige vej ud af denne situation er at finde folk, der ikke er bloggere, ikke skønhedsbloggere, men for eksempel nogle rigtige væsener, der interagerer med dette mærke, som kan skrive på en elendig offentlig side "Mail.ru Answers", få et vist antal visninger. Disse mennesker, som konstant er interesserede i denne persons indhold, vil sprede det hele, og brandet vil få sin involvering.

Den anden mulighed for at bruge sådan teknologi nu er ret relevant - at søge efter bots, min favorit. Dette er en omdømmerisiko for dine konkurrenter og en mulighed for at luge irrelevante personer ud fra en reklamekampagne og alt muligt andet (sletning af kommentarer og søgning efter forbindelser mellem mennesker). Jeg har sådan et eksempel, det er også stort og interaktivt – du kan flytte det. Disse er forbindelser mellem mennesker, der skrev kommentarer i Lentach-fællesskabet.

Dette eksempel er for at du forstår, hvor godt og let synlige bots er; og til dette behøver du ikke have nogen teknisk viden. Det betyder, at "Lentach" offentliggjorde et indlæg om FBK-undersøgelsen om Dmitry Medvedev, og visse mennesker begyndte at skrive kommentarer. Vi samlede alle de mennesker, der skrev kommentarer - disse mennesker er grønne. Nu flytter jeg den:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Folket er de grønne (der skrev kommentarerne). De er her, de er her. De blå prikker mellem dem er deres fælles grupper, de gule prikker er deres fælles abonnenter, venner og så videre. Hovedparten af ​​mennesker er forbundet med hinanden. For uanset teorien om tre, fire, fem håndtryk, er alle mennesker forbundet med hinanden på sociale netværk. Der er ingen mennesker, der er adskilt fra hinanden. Selv mine socialt fobiske venner, der udelukkende bruger VKontakte til at se videoer, abonnerer stadig på nogle af de samme offentlige sider som os.

Navalny bruger også bots. Alle har bots

Hovedparten af ​​mennesker (her er det, her) er forbundet med hinanden. Men der er sådan en lille gruppe kammerater, som udelukkende er venner med hinanden. Her er de, de små grønne, her er deres fælles venner og grupper. De faldt endda fra hver for sig her:

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Og ved et heldigt tilfælde var det netop disse mennesker, der skrev under dette indlæg: "Navalnyj har ingen beviser" og så videre, skrev de samme kommentarer. Jeg tør selvfølgelig ikke drage konklusioner. Men ikke desto mindre havde jeg et andet indlæg på Facebook, da der var en debat mellem Lebedev og Navalnyj, analyserede jeg kommentarerne på samme måde: det viste sig, at alle de mennesker, der skrev "Lebedev er lort", de havde ikke været på sociale medier netværk for nylig fire måneder, ikke abonneret på nogen af ​​de offentlige sider, pludselig gik til dette særlige indlæg, skrev denne nøjagtige kommentar og gik. Igen, det er umuligt at drage konklusioner herfra, men en fra Navalnys hold skrev en kommentar til mig om, at de ikke bruger bots. Nå okay!

Tættere på reklame, tættere på mærket. Alle har bots nu! Vi har dem, vores konkurrenter har dem, og andre har dem. De skal smides ud eller efterlades for at leve godt; Baseret på sådanne data (peger på det forrige dias), bring dem til perfektion, så de ligner rigtige mennesker, og brug dem først derefter. Selvom det er dårligt at bruge bots! Ikke desto mindre en ret almindelig historie...

I automatisk tilstand giver sådan noget dig mulighed for at bortfiltrere personer, der er irrelevante for analysen, fra din analyse, personer, der ikke bør indgå i stikprøven, bør ikke inkluderes i denne undersøgelse. Meget ofte brugt. Så igen er det ikke alle bilejere, der rent faktisk ejer biler. Nogle gange er folk kun interesserede i folk, der potentielt har en bil, som sidder i nogle grupper, kommunikerer med nogen, de har et bestemt publikum der.

Analyse af fakta og meninger

Den næste jeg har er også min favorit. Dette er en analyse af fakta og meninger.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

I dag ved alle, hvordan man nævner deres brand i forskellige kilder. Der er ingen hemmelighed bag dette. Og alle ser ud til at være i stand til at beregne tonalitet... Selvom jeg personligt synes, at selve tonalitetsmetrikken ikke er særlig interessant, for når du kommer og siger til klienten: "Mand, du har 37% neutral," og han siger det. , "Wow! Fedt nok!" Derfor ville det være mere interessant at gå lidt længere: fra at vurdere følelsen til at vurdere meningerne om, hvad de siger om dit produkt.

Og det er også en meget interessant ting, fordi... Jeg tror personligt på, at der i princippet ikke kan være neutrale budskaber, for hvis en person skriver noget i det offentlige rum, er dette budskab på en eller anden måde farvet på nogen måde. Jeg har personligt aldrig set et neutralt budskab, der nævner et mærke. Normalt er det en slags snavs.

Hvis vi tager et stort antal af disse beskeder (der kunne være millioner, 10 millioner), fremhæver hovedideen fra hver besked, kombinerer dem, så kan vi helt pålideligt forstå, hvad folk siger om dette mærke, hvad de tænker. "Jeg kan ikke lide emballagen", "Jeg kan ikke lide konsistensen" og så videre.

Hvad synes folk om Transaero, Chupa Chups og USA's præsident?

Jeg har et sjovt eksempel: dette er en infografik om, hvad sociale netværksbrugere ville gøre med Transaero-selskabet efter dets konkurs.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Der er mange interessante eksempler der: brænde, dræbe, deportere til Europa, der var endda 2%, der skrev - "Send dem til Syrien for militære operationer." Går man videre fra det sjove, kan det være næsten ethvert mærke – lige fra mit yndlingshundefoder til nogle biler. Den der ikke kan lide emballagen, den der ikke kan lide rigtige ting – det kan du altid arbejde med, det kan du altid tage højde for. Der er en lang række eksempler, hvor folk nærmest ændrede produktionen af ​​deres produkter, fordi de skrev på sociale netværk, at Chupa Chups ikke var rund nok, eller den ikke var sød nok.

Der er et andet sjovt eksempel. Gæt hvilke kommentarer og om hvem?

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Af en eller anden grund er nu analysen af ​​meninger, analysen af ​​fakta udtrukket fra meddelelser, ikke særlig brugt og er ikke særlig udbredt. Selvom denne teknologi ikke er superhemmelig, er der praktisk talt ingen knowhow i dette overhovedet, for ud fra folks kommentarer kræver det ikke et geni i computerlingvistik at uddrage emnet, prædikatet og gruppere dem. Det er ikke så svært at gøre. Men jeg håber, at folk i løbet af de næste par år vil begynde at bruge dette, for... Det bliver fedt - det er sådan en automatisk feedback! Du ved altid, hvad de siger om dig. Nå, du forstår, at dette blev lavet om den amerikanske præsident.

Svar på et spørgsmål fra salen:

  • Ja, dette er Facebook på engelsk. De er oversat til russisk her. Dette er skrevet et sted.

Big Data og politiske teknologier

Faktisk har jeg mange forskellige interessante eksempler på politik om Trump og alle andre, men vi besluttede ikke at bringe dem her. Men der er et politisk eksempel.

Det er valg til statsdumaen. Hvornår var du? Sidste år? For næsten halvandet år siden.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Her er folk, der var i stand til at bestemme deres nøjagtige placering, ned til et bestemt geopunkt, for at forstå, hvilket valgområde de falder ind i. Og fra disse mennesker blev der kun taget dem, der gav udtryk for deres bestemte mening, som de ville stemme på.

Fra et politisk teknologisk synspunkt er dette ikke særlig korrekt, for det hele skal normaliseres af befolkningstæthed og så videre. Ikke desto mindre kommer de blå her til at stemme på du ved hvem, de røde skal stemme på oppositionskammerater, som der i øvrigt ikke var mange af.

Jeg tror personligt, at Big Data ikke vil nå ud til politiske teknologier foreløbigt, men som en mulighed er kandidaten også et brand. Og dette er også til en vis grad en analyse af fakta og meninger om dit brand, og en ret interessant ting, fordi du i realtid kan forstå, hvem der gør hvad. Jeg kender flere tilfælde fra BBC, hvor de overvågede sociale netværk i realtid i en eller anden udsendelse: der var sådan og sådan et svar, folk skriver om det, stiller sådan og sådan et spørgsmål - og det er fantastisk! Jeg tror, ​​det vil blive brugt meget snart, fordi det er interessant for alle.

Modellering af brand positioner

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Dernæst har jeg modellering af mærkepositioner. Et lille, kort stykke om, hvordan du kan rangere brands ved hjælp af forskellige metrics (ikke lide af abonnenter på sociale netværk, men ved hjælp af komplekse metrics, interesse for indhold, tid brugt på at modtage metrics).

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Jeg har et eksempel på "pharma" af en bestemt grund. Her er de små cirkler interne, lyse – det er mængden af ​​tekstindhold, som brandet selv skaber, den store cirkel er mængden af ​​foto- og videoindhold, som brandet selv skaber.

Nærhed til centrum viser, hvor interessant indholdet er for publikum. Der er en stor model, der er en masse alle mulige parametre: likes, reposts, responstid, hvem delte der i gennemsnit... Her kan du se: der er en vidunderlig “Kagotsel”, som pumper en enorm mængde af penge til at skabe sit eget indhold, og på grund af dette er de ret tæt på centrum. Og der er kammerater, som også laver deres eget indhold, men publikum er ikke interesseret i det. Dette er ikke et meget fyldestgørende eksempel, fordi alle disse beretninger er praktisk talt døde.

Yegor Creed er elsket mere end Basta

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Desværre, resten... fra hvad man skal vise... Nå, der er også russiske rappere, som en mulighed, fra rigtige firmaer.

Hvad er plusset? Faktum er, at en virksomhed kan sætte næsten alt ind i en sådan model, startende fra gennemsnitslønnen for abonnenter, der arbejder for dit brand; enhver model de kan lide. Fordi hvert reklamebureau beregner sine egne metrics forskelligt, beregner brands deres egne metrics forskelligt.

Der er også en her – Basta, som genererer en stor mængde indhold, men er placeret i periferien, fordi dette indhold tilsyneladende ikke er særlig interessant for publikum. Igen, jeg formoder ikke at dømme. Men ikke desto mindre er der Yegor Creed, som ifølge sociale netværk næsten er vor tids bedste performer, men kun udgiver sine personlige fotografier. Ikke desto mindre har han et stort antal abonnenter: der er et sted omkring en million af dem. Jeg husker ikke det nøjagtige antal; Jeg kan huske, at andelen af ​​engagement for disse mennesker er meget højere end 85%, det vil sige, at per million abonnenter modtager han 850 tusinde svar fra disse rigtige mennesker - dette er ægte vanvid. Det er rigtigt.

Arthur Khachuyan: "Rigtige Big Data i reklamer"

Svar på spørgsmål fra salen:

Hvor lang tid tog det at lave rapperanalysemodellen?

  • Hver har sin egen målgruppe, disse menneskers interesser beregnes for hver... Alt dette er normaliseret til afstanden til centrum omtrent, deres radiale position er ikke vigtig (det er simpelthen smurt her for skønhed, så de gør ikke løbe ind i hinanden). Kun den omtrentlige nærhed til centrum er vigtig. Det er den model, vi bruger. For eksempel kan jeg bedre lide cirklen, nogle mennesker gør det i tankerne som en halvcirkel.
  • Denne model blev kompileret hurtigt på to eller tre timer (ja, én person). Her blev der kun indsat metrics: hvad vi ganger med hvad, lægger det sammen og normaliserer det så på en eller anden måde. Afhænger af modellen. Der er folk, der er interesserede i gennemsnitslønnen (dette er ikke en joke) for deres abonnenter. Og for dette skal du finde deres kontakter, Avito, beregne det hele, gange det. Det sker, at dette tager lang tid at tage højde for, men specifikt dette (peger på det forrige dias) - parametrene her er meget enkle: abonnenter, reposts og så videre. Det tog omkring to til tre timer at gennemføre. Derfor opdateres denne ting i realtid, og du kan bruge den.

Nu kommer den sjove del. Jeg er færdig med eksempler, for det er ikke interessant at tale længe alene. Og jeg håber, at du nu vil stille spørgsmål, og vi vil faktisk bevæge os fra emne til emne, for jeg har sådanne eksempler på, hvordan teknologier kan bruges og så videre...

Svar på spørgsmål fra salen:

  • Jeg havde en og kun personlig sag med et så at sige "nær-kasino", når et kamera var placeret der, blev ansigter genkendt, og så videre. Andelen af ​​personer, der bliver anerkendt, er bestemt ret stor – både vores og vores konkurrenter. Men det er faktisk ret interessant. Jeg ser dette som en interessant ting: du kan forstå, hvem disse mennesker er og forudsige ret godt, hvorfor de kom hertil, hvad der har ændret sig så meget i deres liv, at de besluttede at komme til kasinoet. Men hvad angår specifikke typer forretninger ... Hvis du lægger sådan en ting i et apotek, er der ingen mening - du kan ikke forudsige, hvorfor en person kom til apoteket.

    Den globale opgave her var at bygge en model for at forstå, hvornår en person potentielt ønsker at være interesseret i dit brand, så du kan give ham reklamer ikke efter han har købt noget (som det sker nu), men give ham reklame " i prognose" for, hvornår det hele vil ske. Det var interessant med sådan et "nær-kasino"; der viste sig at være en ret interessant procentdel af disse mennesker - hvorfor: nogen modtog pludselig en forfremmelse, en anden fik noget andet - sådan interessant indsigt. Men med nogle butikker, med detailhandel, med en butik med en slags piller, forekommer det mig, at det ikke vil være særlig korrekt.

Bruges Big Data offline?

  • Det var offline. Du skal bare forstå præcist, nogenlunde, om denne model passer eller ej. Igen, med sprudlende vand... Jeg er faktisk interesseret i alt, men jeg forstår personligt ikke, hvor meget, hvordan disse menneskers profiler, deres adfærd kan afhænge af, hvornår de vil købe vand på flaske. Selvom dette virkelig kan være sandt, ved jeg det ikke.

Hvor mange åbne sociale mediekonti er der?

  • Vi har specifikt 11 sociale netværk - disse er "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" og nogle små ting (jeg kan se på listen, som "Mail.ru" og så videre) . På VKontakte har vi helt sikkert en kopi af alle disse kammerater. Vi har folk på VKontakte - det er 430 millioner af alle, der nogensinde har eksisteret (hvoraf omkring 200 millioner er konstant aktive); der er grupper, der er forbindelser mellem disse mennesker, og der er indhold, der interesserer os (tekst), og en del af medierne, men meget små... Groft sagt ser vi på dette billede: hvis der er ansigter der, vi gem dem, hvis der er et meme, gemmer vi dem Vi gemmer det ikke, for selv vi ville ikke have nok til at gemme medieindholdet.

    Der er en russisksproget Facebook. Et eller andet sted nu er 60-80% Odnoklassniki, om et par måneder skal vi nok få dem alle til ende. Russisk Instagram. For alle disse sociale netværk er der grupper, mennesker, forbindelser mellem dem og tekst.

  • Omkring 400 millioner mennesker. Der er en subtilitet: der er mennesker, hvis by ikke er angivet (de er potentielt russiske / ikke-russiske); Af disse er gennemsnittet for sociale netværk 14% af lukkede konti på VKontakte, jeg kender ikke det nøjagtige tal på Facebook.
  • Vi gemmer heller ikke medier på Instagram - kun hvis der er ansigter der. Vi gemmer ikke sådant (andet) medieindhold. Normalt interessant: kun tekst, forbindelser mellem mennesker; Alle. Den mest almindelige forskning på Instagram er den sædvanlige undersøgelse af publikum: hvem disse mennesker er, og vigtigst af alt, disse menneskers forbindelse med andre sociale netværk. Find denne persons profil på Vkontakte og Facebook for at beregne hans alder og så videre.
  • Der er ingen grund til at tage fat på alle andre endnu – simpelthen fordi der ikke er kunder. Med hensyn til sproget: vi har russisk, engelsk, spansk, men stadig bruges dette udelukkende til mærker fra Rusland; godt, eller de virksomheder, der bringer dem fra Rusland.
  • Vi interviewer mennesker hver dag i mange, mange, mange tråde: vi indsamler data ved at indsamle nettet og opdaterer disse indikatorer ved hjælp af Api. På 2-3 dage kan du gå gennem hele "VKontakte" og gennemgå dem; Om cirka en uge kan du gennemgå hele Facebook og forstå, hvem der har opdateret hvad og hvad der ikke har. Og så gensaml disse mennesker hver for sig: hvad der præcist har ændret sig, skriv hele denne historie ned. Meget sjældent efter min erfaring er nogens gamle sociale medieprofil blevet brugt til noget egentligt forretningsformål. Dette var tidspunktet, hvor en politisk person søgte, og hans opgave var at forstå, hvilken slags mennesker der kom til hovedkvarteret, hvem disse mennesker var for 6-8 måneder siden (slettede de deres profil, men faktisk for en anden kandidat, ankom stemmesedler forkæle).

    Og et par gange - personlige historier, når nogens fotografier blev offentliggjort i det offentlige domæne. Det var nødvendigt at finde sammenhænge osv. Desværre er det ærgerligt, men vi kan ikke vidne i retten, for vores database er juridisk illikvid.

  • MongoDB storage er min favorit.

Sociale netværk forsøger at bekæmpe dataindsamling

  • Normalt uploader vi kun en liste over disse konti til annoncører, og så bruger de standarden... Det vil sige, på sociale netværk, på VKontakte kan du angive en liste over disse personer.

    Men Facebook bruger købte cookies. Vi arbejder ikke selv med cookies, men der var flere historier, da annoncøren selv gav nogle mennesker, vi interagerede med dem - de har disse netværk, med teaser, non-teaser annoncering, disse "cookies". Du kan binde den - ingen tvivl! Men jeg kan ikke rigtig godt lide det her, for jeg synes ikke, det er særlig autentisk. Dette er rent efter min mening, det er ligesom TNS, der "sporer" TV - det er ikke klart om du ser dette TV eller ej, om du vasker op mens dit TV er tændt... Og det er det samme her : Jeg googler meget ofte noget på internettet, men det betyder ikke, at jeg vil købe det.

  • Hvis du bruger en form for standard kontekstuelt reklamenetværk: Jeg havde flere historier, da vi læste disse mennesker ud til dem og prøvede, ved hjælp af deres grænseflader, at forbinde dem med "cookies" på deres websteder. Men jeg kan ikke rigtig godt lide sådanne ting.

Formel til beregning af lønnen for en internetbruger

  • Den generelle formel for gennemsnitsløn: dette er den region, hvor en person bor, dette er den virksomhedskategori, han arbejder i (det vil sige virksomheden, der er hans arbejdsgiver), derefter tages hans stilling i denne virksomhed, gennemsnittet løn for denne stilling er estimeret... Gennemsnitsløn taget fra "Head Hunter" og "Superjob" (og der er flere andre kilder) for en given ledig stilling i en given region og for en given erhvervskontekst.

    Fra "Avito" og "Avto.ru" tages der normalt yderligere parametre, hvis en person har oplyst telefonen. Med Avito kan du se, hvilken slags ting en person sælger - dyre, billige, brugte, ikke brugte. Med "Avto.ru" kan du se, om han har en bil - han ejer den, han ejer den ikke. Dette er et sted mindre end 20 % af folk, der ved et uheld tabte deres telefon et eller andet sted, og deres konto kan forbindes med disse data.

Hvilke mængder opererer dataindsamlingsvirksomheden?

  • Mængden af ​​gemte fotografier i petabyte er 6,4. Jeg kan ikke sige nøjagtigt vækstraten nu, for i 2016 begyndte vi at optage "periskoper" og begyndte lige at optage video.

    Jeg kan ikke sige præcis, hvornår det var nul. Vi flyttede fra virksomhed til virksomhed – det er alle lange historier. Men jeg kan sige, at VK, Facebook, Instagram og Twitter - al denne forretning (mennesker, grupper og forbindelser mellem dem) med tekst og indhold - det er faktisk ikke meget data, det er usandsynligt, at selv en petabyte har fået nok. Jeg tror, ​​det er 700 gigabyte, sandsynligvis 800.

Hjælper du kunder med at bestemme den nuværende niche, og hvor de skal grave?

  • Når en kunde kommer, foreslår vi den slags til ham, men vi gør ikke selv, ligesom Google Trends, sådanne ting.
  • Vi havde flere nærmest sociologiske historier med valghistorie, før valget – vi analyserede det hele. Med mærker og vurdering af meninger om mærker stemmer alt næsten altid overens. Her er valg-valghistorier - nej (med en vurdering af, hvilken kandidat der skal vinde). Jeg ved ikke, hvem der tager fejl her - os, eller dem, der tænker i VTsIOM.
  • Normalt tager vi disse kontrolresultater fra selve brandet, de tager det fra kammerater, der bestiller research – telefonundersøgelser, marketingundersøgelser og så videre. Plus, det hele kan tjekkes med grundlæggende ting: nogen besvarede mailinglisten, nogen lavede undersøgelser... Hvis det er et stort mærke (Coca-Cola, for eksempel), har de helt sikkert en million eller to interne anmeldelser fra kunder – disse er ikke kun kommentarer på sociale netværk og nogle meninger; Det er en slags interne systemer, anmeldelser og så videre.

Loven "ved" ikke, hvad persondata er!

  • Vi analyserer udelukkende åbne datakilder og blander os aldrig i nogen beskidte tricks. Vores model er bygget på det faktum, at vi gemmer alle åbne data i nogle offentlige datacentre, lejer dem et andet sted og analyserer det derhjemme, på vores kontorer, på vores servere, og det går ingen steder uden for territoriet.

    Men vores lovgivning inden for åbne data er meget vag.

    Vi har ikke en klar forståelse af, hvad åbne data er, hvad personlige data er - der er denne 152. føderale lov, men stadig... Hvordan tæller de? Nu, hvis jeg har dit navn og dit telefonnummer i en database, i en anden database har jeg dit telefonnummer og din e-mail, i en tredje har jeg f.eks. din e-mail og din bil; Alt dette ser ud til at være ikke-personlige data. Hvis du lægger alt dette sammen, ser det ud til, at det ifølge loven bliver til persondata.

    Vi kommer uden om dette på to måder. Den første er at installere en server med software til klienten, og så går disse data ikke ud over hans territorium, og så er klienten ansvarlig for distributionen af ​​disse personlige data, ikke-personlige data og så videre. Eller den anden mulighed: hvis dette er en slags historie, hvor du skal sagsøge et socialt netværk eller noget andet...

    Vi havde sådan en undersøgelse, da vi indsamlede (der var primærvalg i Forenet Rusland) til Lifenews beretningerne om disse kammerater og så på, hvilken slags porno de kunne lide. Det var en sjov ting, men alligevel. Vi sælger dette som vores egen, personlige mening uden lovligt at afsløre i dokumenterne, hvad vi analyserede - Unified State Register of Legal Entities, lønninger, sociale netværk; Vi sælger ekspertudtalelser, og så på sidelinjen forklarer vi personen, hvad vi analyserede og hvordan.
    Der var flere historier, men de var relateret til nogle offentlige kommercielle projekter. For eksempel har vi et gratis non-profit projekt for dem, der kører longboards (sådanne boards er lange): opgaven var at indsamle folks publikationer - når nogen poster "Jeg tog en tur til Gorky Park." Og nu skulle han komme på kortet, og folk omkring ham kan se, at der er nogen i nærheden af ​​ham. VK slog hoveder med os om dette emne i meget lang tid, fordi de ikke kunne lide det faktum, at vi udgav denne information uden folks tilladelse. Men så kom sagen ikke for retten, for inden for flere store samfund har vi tilføjet reglerne om, at dataene kunne bruges af tredjeparter, bureauer, virksomheder, analyser osv. Det var selvfølgelig ikke specielt etisk, men alligevel.

  • Vi indså det lige i tide og begyndte at sælge vores ekspertudtalelse til alle.

Arbejder du med uddannelsesinstitutioner?

  • Vi samarbejder med uddannelsesinstitutioner, ja. Vi har en hel række: Vi har en kandidatuddannelse på Højskolen, og vi samarbejder med andre universiteter. Vi elsker universiteter meget!
  • Hvis du har mine kontakter, kan du skrive til mig. Og et link til præsentationen, hvis nogen er interesseret - alle disse eksempler er der, du kan flytte den.
  • Hvis du kender telefonnummeret, mail - dette er næsten en hundrede procent mulighed, ingen vil fjerne det. Hvis der ikke er noget telefonnummer, er det normalt et billede; hvis der ikke er noget billede, er det år, bopæl, job. Det vil sige, efter år, bopæl og arbejde kan næsten alle altid identificeres ret subtilt. Men dette er igen et spørgsmål om opgaven.

    Vi har f.eks. en kunde, der sælger internet-tv. Nogen købte et abonnement på disse "Games of Thrones" fra dem, og opgaven er at bruge deres CRM til at finde disse mennesker på sociale netværk og derefter finde potentielle fra deres indflydelsesområde. Jeg mener bare, at de har for eksempel et fornavn, efternavn og e-mail... Og så er det meget svært at gøre noget. I de fleste tilfælde kan personer findes via e-mail.

  • Baseret på sammensætningen af ​​vores venner "matcher" vi normalt folk på sociale netværk, men det er ikke altid korrekt. Det er ikke fordi det ikke altid er rigtigt – det virker ikke altid. For det første kræver dette meget arbejde, fordi denne operation (matchende mennesker) først skal udføres for hver af vennerne - for at forstå, om de kom fra sociale netværk eller ej. Og så - et ukendt faktum for nogen, at på VKontakte har vi de samme venner, på Facebook har vi forskellige venner. Ikke for alle, men for mig er det for eksempel sådan her; og det gælder også for de fleste.

Hvordan indsamles de mest komplette data?

  • Installation af software til klienten på hans side. Der er installeret en server på dem, som kun tager offentlige data fra os og behandler deres personlige data internt. En NDA indgås med klienten. Dette er selvfølgelig ikke særlig korrekt, at de overfører dette til os, men det juridiske ansvar påhviler klienten – altså at installere software til ham, eller overføre anonyme data. Men dette var meget sjældent, fordi - korrekt eller forkert anonymisering - i de fleste tilfælde er afhængigheden mellem disse mennesker tabt.

Hvem køber software til ansigtsgenkendelse?

  • Vi skal faktisk hertil, fordi vores vigtigste software, som vi sælger, er ansigtssøgning, korrelationsanalyse, og vi sælger det til offentlige myndigheder. Og for halvandet år siden besluttede vi, at vi ville sætte alle disse historier ind i reklamer, i markedsføring, på det offentlige marked – sådan blev Social Data Hub, en kommerciel juridisk enhed, dannet. Og nu kommer vi bare hertil. Vi har hængt ud her i halvandet år nu og forsøgt at forklare folk, at der ikke er behov for at give folk downloads med en omtale, at de skal have svar på spørgsmål, at der ikke er behov for tonalitet , og så videre. Så det er svært at sige hvor...
  • (Hvem mener du?) Til alle kammerater, der skal lede efter terrorister og pædofile.
    Jeg kan sige med det samme (dette bliver det næste spørgsmål): ifølge vores data blev ingen lærere fængslet for genpostering.
  • På VKontakte - 14%; på Facebook er der ingen lukket profil som sådan (der er en lukket liste over venner og så videre). Og det mest interessante er, at jeg lige har skrevet en besked – nu vil de tælle og sige.

Skriv ikke noget, du vil skamme dig over!

  • Skriv ikke noget på sociale netværk, der ville få dig til at skamme dig - jeg følger personligt dette. Selvom jeg havde mange personlige, fordi jeg bander på Facebook. Nå, der var, og der var noget at gøre... Lad være med at poste noget, der ville være pinligt! Hvis du skal arbejde et sted i det offentlige kammer senere, ja, det er bedre ikke at kommentere. Hvis du ikke skal gøre dette, er der stort set ingen, der er ligeglad. Jeg kan kun forsikre dig om, at ingen læser din personlige korrespondance, og alt dette bygger hele denne historie op...

    Hver uge kommer der bestemt nogen til mig og siger: "Nå, min vens billeder blev lækket til en anonym offentlig side! Hjælp! Udgiv i øvrigt aldrig noget på anonyme offentlige sider.

  • Jeg kender ikke til andre overvågningssystemer - det vil vi helt sikkert tage højde for, at omtalen af ​​mærket var negativ, gud tilgive mig... Men jeg kan sige, at alle mulige nærstatslige kammerater kun er interesserede i mennesker som har et publikum på mere end 5 tusinde, og deres offentlige mening kan påvirke nogen. Min erfaring er, at det aldrig er sket, at HR-bureauet, der bestiller profilvurderinger fra os, sagde: "Den der kan lide Navalnyj, ansæt ikke nogen!"

Om at offentliggøre resultaterne. Hvor mange mennesker er beskæftiget i forskning?

  • Af de 10 bedste reklamevirksomheder udgiver syv nu. Det er svært at sige: da vi startede det her for halvandet år siden... Vi har flere folk i hvert område - der er flere folk i banker, der er flere folk i HR, der er flere folk i annoncering. Og nu tænker vi på, hvem der er mere rentabel at gå til først, for hvem skal vi i gang med at lave nogle grænseflader...
  • (ca. antal personer pr. markedssegment) Ikke mere end 25 personer, fordi vi ikke voldtog nogen.
  • Generelt er disse teknologier fra markedet i princippet brugt, tror jeg, mere end 50%. Nogle i reklamekampagner, nogle i en form for intern analyse. Jeg vil sige, at 40 procent bruger det i interne analyser, 50-60 procent sælger det til slutbrands. Men dette afhænger allerede af reklamevirksomhederne selv. Ser du, nogle mennesker rapporterer simpelthen for de penge, de har brugt, den reklame, de har sat i gang, mens andre skriver om, hvor mange mennesker de har med, hvilken slags publikum... Det vil jeg sige, men jeg kan tage fejl - det gør jeg' Jeg kan ikke forestille mig, hvordan alle disse kammerater arbejder. Jeg ved kun i kvantitative data.

Nogle annoncer 🙂

Tak fordi du blev hos os. Kan du lide vores artikler? Vil du se mere interessant indhold? Støt os ved at afgive en ordre eller anbefale til venner, cloud VPS for udviklere fra $4.99, en unik analog af entry-level servere, som blev opfundet af os til dig: Hele sandheden om VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps fra $19 eller hvordan deler man en server? (tilgængelig med RAID1 og RAID10, op til 24 kerner og op til 40 GB DDR4).

Dell R730xd 2 gange billigere i Equinix Tier IV datacenter i Amsterdam? Kun her 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fra $199 i Holland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Læse om Hvordan man bygger infrastruktur corp. klasse med brug af Dell R730xd E5-2650 v4-servere til en værdi af 9000 euro for en krone?

Kilde: www.habr.com

Tilføj en kommentar