Artur Khachuyan er en velkendt russisk specialist i big data-behandling, grundlægger af Social Data Hub (nu Tazeros Global). HSE-partner. Udarbejdede og præsenterede et lovforslag om big data i Føderationsrådet sammen med HSE. Han talte på Curie Instituttet i Paris, St. Petersburg State University, det føderale universitet under Den Russiske Føderations regering, på Red Apple, International OpenDataDay, RIW 2016, AlfaFuturePeople.
Foredraget blev optaget på friluftsfestivalen "Geek Picnic" i Moskva i 2019.

Artur Khachuyan (i det følgende - AH): – Hvis det kommer fra et enormt antal brancher – fra medicin, fra byggeri, fra et eller andet, noget at vælge imellem, hvor teknologien big data, maskinlæring og deep learning oftest bruges, så er det sandsynligvis marketing. For i de sidste tre år eller deromkring har alt, der omgiver os i en del reklamekommunikation, nu været specifikt knyttet til dataanalyse og specifikt til det, der kan kaldes kunstig intelligens. Derfor vil jeg i dag fortælle jer om dette fra en så fjern historie…
Hvis du forestiller dig kunstig intelligens, hvordan den ser ud - det er nok noget i retning af dette. Det mærkelige billede er et af de neurale netværk, som jeg skrev om for et år siden, for at finde afhængigheden af, hvad min hund gør - hvor mange gange den skal tisse, og hvordan det afhænger af, hvor meget den spiser eller ej. Dette er en joke om, hvordan man kunne forestille sig kunstig intelligens.

Men lad os alligevel tænke over, hvordan det hele fungerer i reklamekommunikation. Der er tre retninger for, hvordan moderne algoritmer inden for reklame og marketing kan interagere med os. Det er tydeligt, at den første historie har til formål at indhente og udtrække yderligere viden om dig og mig, og derefter bruge den til nogle gode og knap så gode formål; personliggøre tilgangen til hver specifik person; og naturligvis derefter danne en vis efterspørgsel for at udføre den primære målhandling og skabe et salg.
Ved hjælp af teknologi forsøger de at løse problemet med effektiv kommunikation
Hvis jeg beder dig om at tænke over, hvad Pornhub og M.Video har til fælles, hvad ville du så tænke på?
Kommentarer fra publikum (herefter benævnt C): - Fjernsyn, publikum.
Åh: – Mit koncept er, at det er to steder, hvor folk kommer for en bestemt type service, eller lad os kalde det – for en bestemt type varer. Og denne målgruppe er anderledes, idet den ikke ønsker at fortælle sælgeren noget. Den ønsker at komme ind og få det, den er interesseret i, i en eller anden eksplicit eller implicit form. Naturligvis er der ingen, der kommer til M. Video, der ønsker at tale med nogen sælgere, de ønsker ikke at forstå, de ønsker ikke at besvare nogen af deres spørgsmål.
Så den første historie følger af alt dette.
Da teknologier til at indhente yderligere viden dukkede op for på en eller anden måde at undgå at kommunikere med en person, kan vi alle lide det, når vi ringer til banken, og banken siger: "Hej Alexey, du er vores VIP-klient. Nu vil en eller anden supermanager tale med dig." Du kommer til denne bank, og der er virkelig en unik manager, der kan tale med dig. Desværre eller heldigvis har ikke et eneste firma endnu fundet ud af, hvordan man ansætter tusind personlige managere til tusind kunder; og da de fleste af disse mennesker nu er online, er opgaven at forstå, hvilken slags person dette er, og hvordan man kommunikerer korrekt med ham, før han kommer til en eller anden reklameressource. Og derfor er der faktisk dukket teknologier op, der forsøger at løse dette problem.
Data mining er den nye olie
Lad os forestille os, at du ejer en blomsterbod. Tre personer kommer ind. Den første står der længe, tøver, prøver at tale med dig, tager en buket blomster - du går hen for at pakke den ind, går ud for at lave noget der; han løber væk fra boden med denne buket - du har mistet dine tre tusind rubler. Hvorfor skete det? Du ved ingenting om denne person: du kender ikke hans historie med anholdelser foretaget af Indenrigsministeriet, du ved ikke, at han er kleptoman, registreret på et psykiatrisk apotek. Hvorfor? Fordi du så ham for første gang, og du ikke er specialist i adfærdsanalyse.
En anden fyr kommer ... Vitaly. Vitaly bruger også lang tid på at finde ud af tingene og siger: "Jamen, jeg har brug for det ene og det andet." Og du siger til ham: "Blomster til mor, ikke?" Og du sælger ham en buket.
Konceptet her er at finde nok data til at forstå, hvad denne person rent faktisk har brug for. Alle tænkte straks på nogle reklamenetværk og så videre...
Alle har vel hørt den tåbelige sætning om, at "data er den nye olie"? Det har alle da. Faktisk har folk lært at indsamle data i lang tid, men at udtrække data fra disse data er den opgave, som kunstig intelligens i marketing eller nogle statistiske algoritmer nu forsøger at løse. Hvorfor? Fordi hvis du taler med en person, kan de give dig det rigtige, forkerte eller på en eller anden måde farvede svar. Den joke, jeg fortæller mine elever om forskellen mellem undersøgelser og statistik, vil jeg fortælle dig i form af en joke:
Så i to landsbyer besluttede de at udføre en undersøgelse af den gennemsnitlige længde af en mands penis. I den første landsby, Villaribo, er den gennemsnitlige længde 15 centimeter, i landsbyen Villabajo - 25. Ved du hvorfor? Fordi i den første landsby foretog de målinger, og i den anden - en undersøgelse.
Pornoindustrien er flagskibet inden for anbefalingssystemer
Derfor er den moderne tilgang netop analysen af alle mennesker uden undtagelse, selvom der er lidt færre end 100% af dem, men det er de mennesker, der ikke behøver at blive spurgt, de behøver ikke at blive set på. Det er nok at analysere det, der nu kaldes et digitalt fodaftryk, for at forstå, hvad denne person har brug for, hvordan man taler korrekt til ham, hvordan man korrekt danner efterspørgsel omkring ham. På den ene side er dette en tankeløs maskine (men det ved vi udmærket godt); vi ønsker ikke at kommunikere med folk fra M. Video, og endnu mere, når vi besøger ressourcer som Pornhub, ønsker vi at få præcis det, vi har brug for.
Hvorfor taler jeg altid om Pornhub? Fordi voksenindustrien var den første til at analysere den slags teknologier, implementere den slags teknologier, analysere data. Hvis man tager de tre mest populære biblioteker på dette område (f.eks. TensorFlow eller Pandas til Python, til behandling af CSV'er osv.), og åbner dem på GitHub, finder man med en kort Google-søgning et par personer, der enten arbejdede eller arbejder hos Pornhub, og de første til at implementere anbefalingssystemer der. Generelt er denne historie meget avanceret og viser, hvor langt denne målgruppe og denne virksomhed er nået.

Tre niveauer af identifikation
Der findes et enormt datasæt omkring en person, som kan identificeres. Jeg opdeler det normalt formelt i tre niveauer, hvor jeg går dybere og dybere. Virksomheden har selvfølgelig sine egne data.
Hvis vi for eksempel taler om at opbygge et anbefalingssystem, så er det første niveau de data, som butikken selv har (købshistorik, alle slags transaktioner, hvordan en person interagerede med brugerfladen).
Så er der et niveau (relativt det største) - det er det, der kaldes åbne kilder. Tro ikke, at jeg opfordrer dig til at analysere sociale netværk, men faktisk åbner det, der findes i åbne kilder, op for et enormt sæt data, der kan siges, læres, indsamles om en person.
Og den tredje store del er personens miljø. Ja, der er en opfattelse af, at hvis en person ikke er på sociale netværk, er der ingen data om ham der (du ved sikkert allerede, at dette ikke er sandt), men det vigtigste er, at de data, der er i en persons profil (eller i en eller anden applikation), kun udgør 40% af den viden, der kan indhentes om ham. Resten af informationen indhentes fra hans miljø. Udtrykket "fortæl mig, hvem din ven er, og jeg vil fortælle dig, hvem du er" får en ny betydning i det XNUMX. århundrede, fordi en enorm mængde data kan indhentes omkring denne person.
Hvis vi taler nærmere om reklamekommunikation, så er det en rigtig cool funktion, som mange marketingfolk bruger, at modtage reklamekommunikation ikke fra reklamer, men fra en ven, bekendt eller på en eller anden måde verificeret person. Når en applikation pludselig giver dig en gratis rabatkode, laver du et opslag om den og tiltrækker dermed et nyt publikum. Faktisk blev denne rabatkode til en betinget "Yandex.Taxi" slet ikke valgt tilfældigt, men til dette formål blev en enorm mængde data analyseret om dit potentiale til at tiltrække et nyt publikum og på en eller anden måde interagere med det.

De analyserer endda tv-seriekarakterers adfærd
Jeg vil vise dig tre billeder, og du kan fortælle mig, hvad forskellen er på dem.
Denne her:

Denne:

Og denne her:

Hvad er forskellen på dem? Det er simpelt. Ligesom i kvantemekanikken blev denne kreative formgivning i dette tilfælde dannet af en observatør. Det vil sige, at forskellen i den samme reklamekampagne, udført af det samme brand på samme tid, kun ligger i, hvem der så denne kreative. Personligt, når jeg går til Amediateka, viser de stadig Khal Drogo. Jeg ved ikke, hvad Amediateka synes om mine præferencer, men af en eller anden grund er det sådan, det sker.
Det, der nu kaldes personlig kommunikation, er den mest populære historie om at tiltrække et publikum og interagere korrekt med det. Hvis vi i første fase identificerer personer ved hjælp af vores egne branddata, open source-data og for eksempel data fra personens miljø, kan vi, efter at have analyseret det, forstå, hvem han er, hvordan vi taler korrekt til ham, og vigtigst af alt, hvilket sprog vi skal tale til ham på.
Her er teknologien nået så langt, at man nu analyserer karaktererne i tv-serier, som en person ser. Det vil sige, at man kan lide tv-serier - de [kan lide] bliver set, set på, hvem man interagerede med der, for at forstå, hvilket ansigt der ville være passende for en at interagere med. Det lyder som det rene vrøvl, men for interessens skyld, prøv det på en eller anden ressource - forskellige mennesker ser forskellige kreative elementer (for at interagere korrekt med dem).
Ingen moderne medier eller videoressourcer viser dig bare nogle nyheder. Gå til medierne - et stort antal algoritmer er indlæst, som identificerer dig, forstår al din tidligere aktivitet, appellerer til den matematiske model og derefter viser dig noget. I dette tilfælde er her en så mærkelig historie.
Hvordan bestemmes behov? Psykometri. Fysiognomi
Der findes mange tilgange (de rigtige) til at bestemme en persons reelle behov, og hvordan man kommunikerer korrekt med ham. Der er mange tilgange, alle beslutter sig forskelligt, det er umuligt at sige, hvilken der er god, og hvilken der er dårlig. Det lader til, at alle kender de vigtigste.

Psykometri. Efter historien med Cambridge Analytics tog det en chokerende drejning, efter min mening, fordi hver anden politisk virksomhed nu kommer og siger: "Åh, kan du gøre det for mig ligesom Trump? Jeg vil også vinde, og så videre." Faktisk er dette selvfølgelig nonsens for vores virkelighed, for eksempel politiske valg. Men tre modeller bruges til at bestemme psykotyper:
- den første er baseret på det indhold, du forbruger – de ord, du skriver, de oplysninger, du kan lide, de videoer, du ser osv.;
- Det andet er knyttet til, hvordan du interagerer med webgrænsefladen, hvordan du skriver, hvilke knapper du trykker på – faktisk findes der hele virksomheder, der ret pålideligt kan bestemme, hvad der nu kaldes psykotyper, baseret på tastaturhåndskrift.
- Jeg er ikke den store psykolog, jeg forstår ikke rigtig, hvordan det fungerer, men fra et reklamekommunikationsperspektiv fungerer målgrupper opdelt i disse segmenter rigtig godt, fordi nogen har brug for at blive vist en rød skærm med en blå kvinde, nogen har brug for en mørkeblå baggrund med en vis abstraktion, og det fungerer rigtig godt. På nogle lave niveauer - så meget, at en person ikke engang tænker over det. Hvad er hovedproblemet på reklamemarkedet nu? Alle er en Secret Service-agent, alle gemmer sig, alle har en million tusinde tilladelser installeret til browsere, så de ikke identificeres på nogen måde - du har sandsynligvis "Adblocks", "Ghosts" og alle mulige applikationer, der blokerer sporing. På grund af dette er det meget svært at forstå noget om en person. Og teknologien er gået videre - du skal ikke kun vide, at denne person vendte tilbage til dit websted for 125. gang, men at han også er en så og så mærkelig person.
Fysiognomi er en meget kontroversiel videnskab. Den betragtes ikke engang som en videnskab. Dette er en gruppe mennesker, der plejede at programmere løgnedetektorer for et eller andet indenrigsministerium, og nu er de engageret i det, der kaldes personificeringen af kreativitet. Tilgangen her er meget enkel: flere af dine offentlige fotos er taget fra nogle sociale netværk, og tredimensionel geometri er bygget på dem. Og hvis du er advokat, vil du nu sige, at dette er et ansigt og personlige data; men jeg vil fortælle dig, at disse er 300 tusinde punkter placeret i rummet, og dette er ikke et ansigt, og de er ikke personlige data. Det er, hvad alle normalt siger, når Roskomnadzor kommer til dem.
Men seriøst, dit ansigt alene, medmindre dit for- og efternavn er underskrevet der, er ikke dine personlige data. Pointen er, at fyrene markerer forskellige ansigtstræk, der påvirker, hvordan en person træffer beslutninger, hvordan man interagerer med dem korrekt. Nogle steder fungerer det dårligt, i nogle segmenter af reklamer; i nogle segmenter fungerer det rigtig godt. Til sidst viser det sig, at når man går til en ressource, ser man ikke ét banner, der vises til alle, men for eksempel... nu er det normalt at lave 16 eller 20 muligheder for forskellige målgrupper - og det fungerer rigtig fedt. Ja, det er endnu mere trist fra forbrugerens synspunkt, fordi folk begynder at blive manipuleret mere og mere. Men ikke desto mindre, fra et forretningsmæssigt synspunkt, fungerer det rigtig godt.
Maskinlæringens sorte boks
Dette giver anledning til følgende problem med sådanne teknologier: For de fleste udviklere er det, der kaldes deep learning, trods alt en "sort boks". Hvis du nogensinde har dykket ned i denne historie og talt med udviklere, siger de altid: "Åh, hør her, vi kodede noget så uforståeligt der, og vi ved ikke, hvordan det fungerer". Måske har nogen haft denne oplevelse.
Dette er langt fra sandt. Det, der nu kaldes maskinlæring, er langt fra en "sort boks". Der findes et stort antal tilgange, der giver dig mulighed for at beskrive input- og outputdata, og i sidste ende kan en virksomhed fuldt ud forstå, på baggrund af hvilke funktioner maskinen har besluttet at vise dig denne pornografiske video eller en anden. Problemet er, at ingen virksomheder nogensinde afslører dette, fordi: for det første er det en forretningshemmelighed; for det andet vil der være en enorm mængde data, som du ikke engang havde mistanke om.
For eksempel diskuterede vi tidligere under etikdiskussionen, hvordan sociale netværk analyserer personlige beskeder for at tagge folk i nogle reklameartikler. Du skriver noget til nogen - baseret på dette får du et bestemt tag for faktisk noget reklamekommunikation. Og du vil aldrig bevise det, og der er sandsynligvis ingen mening i at bevise det. Ikke desto mindre, hvis sådanne modeller blev afsløret, ville de eksistere. Det viser sig, at markedet for at bygge sådanne anbefalingssystemer foregiver, at det ikke ved, hvorfor dette skete.
Folk vil ikke vide, at folk ved om dem
Og den anden historie er, at klienten aldrig vil vide, hvorfor han har modtaget netop denne annonce, netop dette produkt. Jeg vil fortælle dig en historie. Min første oplevelse med kommerciel implementering af anbefalingssystemer på sådanne algoritmer specifikt med henblik på research var i 2015 i et meget stort netværk af sexbutikker (ja, heller ikke en særlig behagelig historie).

Følgende blev tilbudt kunderne: de går ind, logger ind med deres sociale netværk, og på cirka 5 sekunder får de en fuldstændig personlig butik, hvilket betyder, at alle produkterne har ændret sig – de falder ind under en bestemt kategori osv. Ved du, hvor meget konverteringen af denne butik er steget? Slet ikke! Folk kom ind og løb straks væk fra den. De kom ind og indså, at de fik tilbudt præcis det, de tænkte på…
Problemet med denne test var, at der under hvert produkt stod skrevet, hvorfor du blev tilbudt netop dette produkt ("fordi du er medlem af den skjulte gruppe "Magtfuld kvinde søger en svag mand"). Derfor viser moderne anbefalingssystemer aldrig de data, som "forudsigelsen" blev lavet på baggrund af.
En meget populær historie er medierne, fordi de alle bruger lignende anbefalingssystemer. Tidligere var algoritmerne meget simple: se på kategorien "Politik" - og du får vist nyheder fra kategorien "Politik". Nu er alt så kompliceret, at de steder, hvor du stoppede musen, hvilke ord du koncentrerede dig om, hvad du kopierede, hvordan du interagerede med denne side generelt, analyseres. Derefter analyseres ordforrådet i selve beskederne: aha, du læser ikke bare nyheder om Putin, men i en bestemt toneart, med en bestemt følelsesmæssig farve. Og når en person modtager nogle nyheder, tænker han ikke engang over, hvordan han er kommet hertil. Ikke desto mindre interagerer han så med dette indhold.
Alt dette har naturligvis til formål at holde den stakkels, uheldige lille mand, der allerede er ved at blive sindssyg af den enorme mængde information, der er omkring ham, fanget. Her må det siges, at det ville være godt at bruge sådanne systemer til at personliggøre den kreativitet, der omgiver en, til at indsamle information, men desværre findes der endnu ingen sådanne tjenester.
Kunstig intelligens fanger klientens fremmarch og skaber efterspørgsel
Og her opstår et meget interessant filosofisk spørgsmål, der bevæger sig fra at skabe et anbefalingssystem til at generere efterspørgsel. Det er sjældent nogen, der tænker over det, men når du prøver at spørge, for eksempel, Instagram: "Hvorfor indsamler I data? Hvorfor viser I mig ikke fuldstændig tilfældige annoncer?", vil Instagram sige til dig: "Ven, alt dette er gjort for at vise dig præcis, hvad du er interesseret i." Altså, vi vil gerne kende dig så præcist, at vi kan vise dig præcis, hvad du leder efter.

Men teknologien har for længst krydset denne forfærdelige tærskel, og den slags teknologier er for længst holdt op med at forudsige, hvad du har brug for. De (opmærksomhed!) former efterspørgslen. Dette er nok det mest skræmmende, der drejer sig om kunstig intelligens i den slags kommunikation. Det er skræmmende, fordi det er blevet brugt de sidste 3-5 år næsten overalt - fra Googles søgeresultater til Yandex-søgeresultater, til nogle systemer... Okay, jeg vil ikke sige noget dårligt om Yandex; og godt.
Hvad er pointen? Sådan reklamekommunikation har for længst bevæget sig væk fra strategien, hvor man skriver - "Jeg vil gerne købe en autostol" og ser hundrede tusinde millioner publikationer. De er gået videre til følgende: så snart en kvinde poster et billede med en knap synlig mave, vil hendes mand straks begynde at blive forfulgt af beskeder - "Makker, snart fødsel. Køb en autostol."
Her kan man med rette spørge, hvorfor vi med så gigantiske teknologiske fremskridt stadig ser så elendig reklame på sociale netværk? Problemet er, at dette marked stadig handler om penge, så en dag kommer der måske en annoncør som Coca-Cola og siger: "Her er 20 millioner - vis mine elendige bannere til hele internettet." Og de vil rent faktisk gøre det.
Men hvis du laver en ren opgørelse og tester, hvor præcist sådanne algoritmer gætter dig: først prøver de at gætte dig, og så begynder de at gøre noget for dig på forhånd. Og den menneskelige hjerne fungerer på en sådan måde, at den, når den modtager pålidelig information om den, ikke engang bearbejder det øjeblik, hvor den modtog denne information. Den første regel for at afgøre, at du er i en drøm, er at forstå, hvordan du er kommet hertil. En person husker aldrig det øjeblik, hvor han endte i et rum. Det er det samme her.
Google er måske begyndt at forme dit verdensbillede
Sådanne undersøgelser blev udført af flere udenlandske virksomheder, der beskæftiger sig med i-tracking. De installerede enheder på specielle computere, der registrerer, hvor personens øjne kigger hen. De tog mellem fem og syv tusind frivillige, der blot scrollede i feedet, interagerede med sociale netværk, med reklamer, og de registrerede information om, hvilke dele af bannere og kreative elementer disse personer fik deres blik til at stoppe.
Og det viser sig, at når folk modtager sådan superpersonaliseret kreativitet, tænker de ikke engang over det – de skifter straks over og begynder at interagere med den. Fra et forretningsperspektiv er det godt, men fra vores perspektiv som brugere er det ikke særlig fedt, for – hvad er de bange for? – At "Google" på et tidspunkt måske begynder (eller selvfølgelig måske ikke begynder) at danne sit eget verdensbillede. For eksempel kan de i morgen begynde at vise folk nyheder om, at jorden er flad.
En joke er en joke, men de er blevet opdaget et utal af gange, at de under valgkampe begynder at give bestemte personer bestemte oplysninger. Vi er alle vant til, at søgemaskinerne får alt ærligt. Men som jeg altid siger, hvis du virkelig vil vide, hvordan verden fungerer, så skriv din egen søgemaskine, uden filtre, uden at være opmærksom på ophavsret, uden at rangere nogle af dine venner i søgeresultaterne. Udgivelsen af reelle data på internettet er generelt anderledes end det, Google, Yandex, Bing og så videre viser. Nogle materialer er skjult, fordi venner, kolleger, fjender eller en anden (eller en tidligere elsker, som du har sovet med) - det er ligegyldigt.
Hvordan Trump vandt
Under det seneste valg i USA blev der udført en meget simpel undersøgelse. De tog de samme forespørgsler forskellige steder, fra forskellige IP-adresser, fra forskellige byer, forskellige mennesker googlede det samme. Lad os sige, at forespørgslen var i stil med: hvem vinder valget? Og overraskende nok var resultaterne bygget op på en sådan måde, at i de stater, hvor det største antal mennesker forsøgte at stemme på den forkerte kandidat, modtog de nogle gode nyheder om den kandidat, som Google promoverede. Hvilken en? Nå, det er tydeligt hvilken en - ham, der blev præsident. Dette er en absolut ubeviselig historie, og alle disse undersøgelser er bare en finger i vandet. Google kan sige: "Folkens, alt dette er gjort, så vi viser det mest relevante indhold til jer."
Fra nu af bør du vide, at det, der kaldes maksimalt relevant, slet ikke er sandt. Virksomheden kalder det relevant, der skal sælges til dig, af gode eller dårlige grunde.
De, der ikke har penge nu, forberedes allerede på fremtidige køb.
Der er et andet interessant punkt, som jeg vil fortælle jer om. Et enormt antal aktive målgrupper er nu på sociale netværk, i applikationer - det er unge mennesker. Lad os kalde dem på denne måde - insolvente unge: børn i alderen 8-9, der klikker på idiotiske spil, det er 12-13-14, der lige registrerer sig på sociale netværk. Hvorfor skulle store virksomheder bruge enorme budgetter og ressourcer på at skabe applikationer til et insolvent publikum, der aldrig vil blive monetiseret? I det øjeblik, hvor dette publikum bliver solvent, vil der være nok data om det til at forudsige dets adfærd meget godt.

Spørg nu enhver målgruppeekspert, hvad den vanskeligste målgruppe er. De vil sige: højindkomst. Fordi det er næsten umuligt at sælge for eksempel en lejlighed til en værdi af 150 millioner rubler via sociale netværk. Isolerede tilfælde, hvor man laver en form for reklame for 10 tusinde mennesker, køber én denne lejlighed - klienten har succes ... Men én ud af ti tusinde er fra et statistisk synspunkt det rene vrøvl. Så hvorfor er det svært at definere en højindkomstmålgruppe? Fordi de mennesker, der nu er medlemmer af højindkomstmålgruppen, blev født, da internettet stadig var meget lille, da ingen kendte Artemy Lebedev, og der ikke er nogen information om dem. Det er umuligt at forudsige deres adfærdsmodel, det er umuligt at forstå, hvem der er deres opinionsdannere, fra hvilke kilder de modtager indhold.
Så når I alle bliver milliardærer om 25 år, og de virksomheder, der skal sælge jer noget, vil have en enorm mængde data. Derfor er der nu en vidunderlig GDPR i Europa, som forhindrer indsamling af data fra mindreårige.
Dette fungerer naturligvis ikke i praksis, for alle børnene spiller stadig på mors og fars konti – det er sådan information indsamles. Næste gang du giver dit barn en tablet, så tænk over det.
En absolut ikke skræmmende, dystopisk fremtid, hvor alle dør i en krig med maskiner - en absolut ægte historie nu. Der er et enormt antal virksomheder, der beskæftiger sig med at skabe algoritmer til psykoprofilering af folk baseret på, hvordan de spiller spil. En meget interessant branche. Baseret på alt dette bliver folk derefter segmenteret for på en eller anden måde at kommunikere med dem.

Forudsigelsen af disse menneskers adfærd vil være tilgængelig om 10-15 år - præcis i det øjeblik, hvor de bliver et solvent publikum. Det vigtigste er, at disse mennesker allerede har givet tilladelse på forhånd til at behandle deres personoplysninger, overføre dem til tredjeparter og al den glæde, og så videre.
Hvem vil miste deres job?
Og min sidste historie handler om, hvordan alle altid spørger, hvad der vil ske om 50 år: vi vil alle dø, der vil være arbejdsløshed blandt marketingfolk... Er der nogen marketingfolk her, der er bekymrede for arbejdsløshed, ikke? Der er slet ingen grund til bekymring, for ingen højt kvalificeret person vil miste sit job.

Uanset hvilke algoritmer der skabes, uanset hvor tæt maskinen kommer på det, vi har her (bevægelser i hovedet), hvis dette udvikler sig hurtigt nok, vil sådanne mennesker aldrig være arbejdsløse, fordi nogen bliver nødt til at lave disse kreative ting. Ja, der er alle mulige "gans", der tegner billeder, der ligner mennesker, skaber musik, men det er stadig usandsynligt, at folk inden for dette felt nogensinde vil miste deres job.

Det var alt for min historie, så du er velkommen til at stille flere spørgsmål. Tak.

Førende: - Venner, vi går nu videre til "Spørgsmål - Svar"-blokken. Ræk hånden op - jeg kommer til jer.

Spørgsmål fra publikum (Z): - Et spørgsmål om den "sorte boks". De sagde, at det er muligt specifikt at forstå, hvorfor præcis dette resultat er for en bestemt bruger. Er det nogle algoritmer, eller skal vi analysere dette hver gang for hver ad hoc-model (forfatterens note: "specifikt til denne" - latinsk fraseologisk enhed)? Eller findes der færdige algoritmer til et eller andet neuralt netværk, som man groft sagt kan forstå forretningsmæssigt?
Åh: – Her skal du forstå følgende: Der er et enormt antal opgaver inden for maskinlæring. For eksempel er der en opgave kaldet regression. Til regression behøver du slet ikke nogen neurale netværk. Alt er simpelt der: du har flere indikatorer, du skal beregne følgende. Der er opgaver, hvor du skal ty til noget som deep learning. I deep learning er det faktisk vanskeligt pålideligt at forstå, hvilke vægte der blev tildelt hvilke neuroner, men juridisk set behøver du bare at forstå, hvilke data der var ved inputtet, og hvordan de udspillede sig ved outputtet. Dette er juridisk tilstrækkeligt til at patentere en sådan løsning, og dette er tilstrækkeligt til at forstå på hvilket grundlag historien blev accepteret.
Det er ikke ligesom om du går ind på en hjemmeside og får vist et banner, fordi du tog et billede med rødt hår på Instagram for to måneder siden. Hvis udvikleren ikke inkluderer indsamlingen af disse data, hårfarvemarkeringen i denne model, så kommer det ikke ud af den blå luft.
Hvordan sælger man resultaterne af maskinlæringssystemer?
Z: - Det er bare et spørgsmål om hvad: at forstå, hvordan man forklarer, at sælge til en person, der ikke forstår maskinlæring. Jeg vil sige: min model - fra hårfarve fører tydeligvis til... ja, hårfarven ændrer sig... Er det muligt eller ej?

Åh: - Måske, ja. Men fra et salgssynspunkt er der kun én metode, der virker: du har en reklamekampagne, vi erstatter målgruppen med en, der er dannet af maskinen - og du ser bare på resultatet. Dette er desværre den eneste måde at pålideligt overbevise kunden om, at sådan en historie virker, fordi der er mange løsninger på markedet, der engang blev implementeret, og som ikke virkede.
Om at skabe en virtuel personlighed
Z: - Hej. Tak for foredraget. Spørgsmålet er: hvad er chancen for en person, der af en eller anden grund ikke ønsker at følge maskinlæringens eksempel, for at skabe en virtuel personlighed for sig selv, der er fundamentalt forskellig fra sin egen personlighed, gennem interaktion med brugerfladen eller af andre årsager?

Åh: – Der findes en masse forskellige plugins, der præcis randomiserer adfærd. Der er en fed ting – Ghostery, som efter min mening næsten fuldstændigt skjuler dig fra en masse forskellige trackere, som så ikke kan registrere disse oplysninger. Men faktisk behøver du nu kun en lukket profil på sociale netværk, så ingen, ingen onde parsere, kan indsamle noget der. Det er nok bedre at installere en udvidelse eller skrive noget selv.
Du forstår, der er et koncept her, at juridisk set er personoplysninger f.eks. data, hvormed du kan identificeres, og loven nævner som eksempel din bopælsadresse, alder og så videre. Nu er der en uendelig mængde data, hvormed du kan identificeres: de samme tastetryk, de samme tastetryk, den digitale signatur i en browser... Før eller siden begår en person en fejl. Han kan sidde et sted på en café og bruge Tor, men til sidst, på et bestemt tidspunkt, vil han enten glemme at tænde for VPN'en eller noget andet, og i det øjeblik kan han identificeres. Så den nemmeste måde er at oprette en lukket konto og installere en eller anden form for udvidelse.
Markedet bevæger sig mod et punkt, hvor man kun behøver at trykke på én knap for at få resultater.
Z: - Tak for historien. Som altid er den altid meget interessant (jeg følger dig). Spørgsmålet er: hvilke fremskridt er der gjort med hensyn til at skabe systemer, der er positive for brugerne, anbefalingssystemer? Du sagde, at du på et tidspunkt arbejdede på anbefalingssystemer til at finde en sexpartner, en livspartner (eller musik, som en person potentielt kunne lide)... Hvor lovende er alt dette, og hvordan ser du dets udvikling specifikt set fra et synspunkt om at skabe systemer, som folk har brug for?
Åh: – Generelt bevæger markedet sig i retning af, at folk skal trykke på én knap og straks få det, de har brug for. Hvad angår min erfaring med at lave datingapps (i øvrigt genlancerer vi dem ved årets udgang), var det sværeste anbefalingsproblem, udover at 65 % var gifte mænd, at en person i starten af appen blev tilbudt flere modeller – "Venskab", "Sex", "Sex-venskab" og "Forretning". Folk valgte de forkerte. Mænd kom og valgte "Kærlighed", men faktisk kastede de nøgne kvinder efter alle, og så videre.
Problemet var at identificere en person, der ikke passede ind i en af disse modeller, og på en eller anden problemfri måde føre og bevæge ham i en anden retning. På grund af den lille mængde data er det meget vanskeligt at afgøre, om det er en fejl i prognosealgoritmen, eller om personen ikke er i sin kategori. Det samme gælder musik: der er meget få virkelig anstændige algoritmer nu, der "knepper" musik godt. Måske "Yandex.Music". Nogle mennesker synes, at "Yandex.Music"-algoritmen er dårlig. For eksempel kan jeg godt lide den. Personligt kan jeg for eksempel ikke lide "YouTube"-musikalgoritmen, og så videre.
Der er selvfølgelig nogle finesser der – alt er knyttet til licenser… Men i virkeligheden er efterspørgslen efter den slags systemer ret høj. Engang var der et velkendt firma kaldet Retail Rocket, som var involveret i implementering af anbefalingssystemer, men nu går det ikke særlig godt – sandsynligvis fordi de ikke har udviklet deres algoritmer i lang tid. Alt bevæger sig i retning af dette – mod at vi går ind og, uden at klikke på noget, får det, vi har brug for (og bliver fuldstændig dumme, fordi vores evne til at vælge er helt forsvundet).
Indflydelsesmarkedsføring
Z: - Hej. Mit navn er Konstantin. Jeg vil gerne stille et spørgsmål om influence marketing. Kender du til systemer, der giver en virksomhed mulighed for at vælge en passende blogger baseret på statistikker osv.? Og efter hvilke kriterier gøres dette?

Åh: - Ja, jeg vil starte på afstand og sige med det samme, at problemet med alle disse teknologier er, at al denne kunstige intelligens i marketing nu er som en linedanser: Til venstre er der store virksomheder, der har masser af penge, og under alle omstændigheder vil alt fungere effektivt for dem, fordi deres reklamekampagner udelukkende er rettet mod visninger; på den anden side er der mange små virksomheder, for hvem dette ikke vil fungere, fordi de har en masse data. For nuværende er anvendeligheden af disse historier et sted midt imellem.
Når der allerede er gode budgetter, og opgaven er at behandle disse budgetter korrekt (og der er i princippet allerede en masse data)... Jeg kender et par tjenester, noget i retning af "Getblogger", som angiveligt har algoritmer. For at være ærlig har jeg ikke studeret disse algoritmer. Jeg kan fortælle dig, hvilken tilgang vi bruger til at finde opinionsdannere, når vi skal give en gave til nogle mødre.
Vi bruger en metrik kaldet "Indholdsdistributionstid". Det fungerer sådan her: Du tager en person, hvis målgruppe du analyserer, og du skal systematisk (f.eks. hvert 5. minut) indsamle oplysninger om hvert opslag, hvem der likede det, kommenterede på det osv. På denne måde kan du forstå, på hvilket tidspunkt hver person fra målgruppen interagerede med indholdet. Gentag denne operation for hver repræsentant for målgruppen, og dermed kan du ved hjælp af metrikken for gennemsnitlig indholdsdistributionstid f.eks. indsætte det i farver i en stor netværksgraf over disse personer og bruge denne metrik til at opbygge klynger.
Dette fungerer ret godt, hvis vi for eksempel vil finde 15 mødre, der fastholder deres offentlige mening på en eller anden woman.ru. Men det er en ret kompliceret teknisk implementering (selvom det rent teoretisk er muligt at gøre det i Python). Pointen er, at problemet med influence marketing i store reklamebureauer er, at de har brug for store, seje, dyre bloggere, der slet ikke fungerer. For eksempel ønsker et bilmærke at sælge et produkt gennem en eller anden opinionsdanner - de bør bruge en bilblogger til sidst, fordi målgruppen for sådanne personer enten allerede har købt en bil eller ved præcis, hvilken slags bil de vil have, og bare sidder og kigger på seje biler. Det er også vigtigt ikke at gå glip af analysen af personens eget målgruppe.
Marketingbots
Z: – Fortæl mig, hvor meget påvirker bots på sociale netværk indsamlingen af information og dens kvalitet?

Åh: - Der er noget interessant med bots. Billige bots er lette nok at identificere - enten har de det samme indhold, eller de er venner med hinanden, eller de er i det samme netværk. Der findes også tilgange til komplekse bots. Eller stiller du problemet med, hvordan man forbinder en person med hans falske profil?
Z: – Hvor god vil informationen være i outputtet med alt dette vrøvl?
Åh: – Det fungerer sådan her: fordi der er en enorm mængde data (for eksempel til noget markedsundersøgelse), kan alt dette skrald simpelthen smides ud. Det vil sige, at det er bedre at smide lidt flere rigtige mennesker ud end at fange bots, fordi det er nytteløst at vise dem nogen annoncer. Men hvis man indsamler metrikker, for eksempel interaktioner med bannere eller anbefalingssystemer, kan sådanne konti smides ud.
Nu er der seks procent virtuelle figurer eller simpelthen forladte sider eller introverte på sociale netværk, hvis algoritmer "matcher" som bots. Hvad angår en persons forbindelse til sin falske profil, er alt også her knyttet til det faktum, at en person før eller siden vil begå en fejl, og sagen er, at adfærdsmodellen er den samme - både hans rigtige profil og hans falske profil. Før eller siden vil de se på det samme indhold eller noget andet.
Her handler det ikke om fejlprocenten, men om den tid, der er nødvendig for pålidelig identifikation af en person. For en person, der lever med sin Instagram, kommer denne tid til pålidelig identifikation ned på fem minutter. For en anden – på seks til otte måneder.
Til hvem og hvordan sælges data?
Z: - Hej. Jeg er interesseret i at vide, hvordan data sælges mellem virksomheder? For eksempel har jeg en applikation, hvor man kan finde ud af (til udvikleren), hvor en person går hen, hvilke butikker, og hvor mange penge vedkommende bruger der. Og jeg er interesseret i at vide, hvordan jeg, lad os sige, kan sælge data om min målgruppe til disse butikker eller smide mine data ind i én kæmpe database og få penge for det?

Åh: – Hvad angår at sælge data direkte til nogen – I, alle andre, er blevet slået af OFD – operatører af finansdata, der smart har placeret sig mellem overførslen af kvitteringer og Skattevæsenet og nu forsøger at sælge data til alle. De har faktisk væltet hele markedet for mobilanalyse. Faktisk kan du integrere din applikation, for eksempel Facebook-pixelen, dens DMP-system og derefter bruge denne målgruppe til at sælge. For eksempel My Target-pixelen. Jeg ved bare ikke, hvilken slags målgruppe du har, du skal forstå. Men under alle omstændigheder kan du integrere enten i Yandex eller My Target, som er de største DMP-systemer.
Det er en ret interessant historie. Det eneste problem er, at du giver dem al trafikken, og de, som udvekslinger, påtager sig monetiseringen af denne trafik. De kan fortælle dig, at 10 personer har brugt din målgruppe, eller de kan måske ikke. Derfor bygger du enten dit eget annonceringsnetværk, eller du overlader dig selv til store DMP'er.
Hvem vinder - kunstneren eller teknikeren?
Z: - Et spørgsmål, der ligger lidt væk fra den tekniske del. Det blev sagt om marketingfolks frygt for den kommende massearbejdsløshed. Er der en form for konkurrencekamp mellem kreativ marketing (dem, der fandt på kyllingereklamen, Volkswagen-reklamen, tror jeg) og dem, der beskæftiger sig med "Big Data" (som siger: vi indsamler bare alle dataene og leverer målrettet reklame til alle)? Som en person, der er direkte involveret, hvad er din mening, hvem der vil vinde - kunstneren, teknikeren, eller vil det være en form for synergistisk effekt?

Åh: - Se, de arbejder sammen. Ingeniører kommer ikke med kreativitet. Dem, der gør det, kommer ikke med publikum. Der er en vis tværfaglig historie her. De virkelige problemer nu er med dem, der sidder og trykker på knapper, med dem, der laver "abejobs", som trykker på det samme hver dag - disse mennesker vil forsvinde.
Men dem, der analyserer dataene, vil naturligvis blive, men nogen er nødt til at bearbejde disse data. Nogen bliver nødt til at lave disse billeder, tegne dem. En maskine kan ikke finde på sådan en kreativitet! Det er fuldstændig vanvid! Eller for eksempel den virale reklame for "CarPrice", som i øvrigt fungerede rigtig godt. Husk, der var en på YouTube: "Sælg til "CarPrice" - fuldstændig vanvittigt. Selvfølgelig vil intet neuralt netværk generere sådan en historie."
Jeg er generelt tilhænger af ideen om, at det ikke er folk, der mister deres job, men snarere at de får lidt mere fritid, og at de vil kunne bruge denne fritid på selvuddannelse.
Primitiv reklame vil dø ud
Z: – I det store og hele er den reklame, der vises, bannerne – i det store og hele, selv salgstekster ikke skrevet der: “Har brug for vinduer – tag dem!”, “Har brug for noget andet – tag dem!”, det vil sige, der er slet ingen kreativitet der.
Åh: - Sådan reklame vil selvfølgelig dø ud før eller siden. Den vil dø ud, ikke så meget på grund af teknologiens udvikling, men på grund af din og min udvikling.
Det er bedre at blande det relevante med det irrelevante
Z: – Jeg er her! Jeg har et spørgsmål om det eksperiment, som du sagde ikke virkede (med anbefalingssystemet). Og efter din mening, er problemet med det, der stod der, hvorfor det blev anbefalet, eller med det faktum, at alt, hvad brugeren så, på en eller anden måde var relevant for ham? Fordi jeg læste et eksperiment for mødre, og der var ikke så mange data der, og der var ikke så mange data fra internettet, der var bare data fra en dagligvareforhandler – der forudsagde graviditet (at de ville blive mødre). Og da de viste et udvalg af produkter til vordende mødre, var mødrene forfærdede over, at dette var kendt om dem før nogen officielle ting. Og det virkede ikke. Og for at løse dette problem blandede de bevidst relevante produkter med noget fuldstændig irrelevant.

Åh: - Vi viste specifikt folk, hvad anbefalingerne var baseret på, for at forstå deres feedback. Det var faktisk her, konceptet om, at folk ikke behøver at få at vide, at det her er nogle superrelevante produkter for dem, opstod.
Ja, forresten, der er en tilgang til at blande dem med irrelevante. Men der er en omvendt ting her: nogle gange kommer folk ind, og de interagerer med dette irrelevante produkt - tilfældige outliers opnås, modellerne bryder sammen, og alt sker endnu mere kompliceret. Men det sker faktisk. Desuden blander mange virksomheder det nogle gange med vilje, hvis de ved, at nogen behandler deres data (nogen kan stjæle sådanne resultater fra dem), så de senere kan bevise, at du tog dataene ikke fra dit anbefalingssystem, men fra f.eks. Yandex.Market.
Annonceblokkere og browsersikkerhed
Z: - Hej. Du nævnte Ghostery og Adblock. Kan du fortælle os, hvor effektive sådanne trackere er (måske statistisk set)? Og har du fået nogen ordrer fra virksomheder: f.eks. at sørge for, at vores annoncer ikke kan blokeres af Adblock.
Åh: – Vi kontakter ikke reklameplatforme direkte – netop fordi de ikke ønsker, at vi gør deres annoncer synlige for alle. Jeg bruger personligt Ghostery – jeg synes, det er en rigtig fed udvidelse. Nu kæmper alle browsere for privatliv: Mozilla har udgivet en masse forskellige opdateringer, Google Chrome er nu supersikker. De blokerer alle alt, hvad de kan. Safari har endda deaktiveret Gyroscope som standard.
Og denne tendens er selvfølgelig god (ikke for dem, der indsamler data, selvom de også kom ud af det), fordi folk først blokerede "cookies". Alle, der ejede reklamenetværk, huskede en så vidunderlig teknologi som browserfingeraftryk - det er algoritmer, der modtager 60 forskellige parametre (skærmopløsning, version, installerede skrifttyper) og baseret på dem beregner et unikt "ID". De skiftede til dette. Og browsere begyndte også at kæmpe mod dette. Generelt vil dette være en endeløs kamp mellem titanerne.
Den seneste udvikler, Mozilla, er ret sikker. Den gemmer næsten ingen cookies og har en kort levetid. Især hvis du aktiverer inkognito, vil ingen finde dig overhovedet. Problemet er, at det vil være ubelejligt at indtaste adgangskoder i alle tjenester.
Hvor virker psykotyping og fysiognomi, og hvor virker det ikke?
Z: - Arthur, mange tak for foredraget. Jeg nyder også at se dine foredrag på YouTube. Du nævnte, at marketingfolk i stigende grad tyr til psykotyping, fysiognomi. Jeg har et spørgsmål: i hvilke kategorier af mærker fungerer dette? Jeg er overbevist om, at dette kun er egnet til dagligvarer. For eksempel er det at vælge en bil…
Åh: – Jeg kan downloade det, hvor det helt sikkert virker. Det virker i alle mulige historier som “Amediateka”, tv-serier, film og så videre. Det virker godt i banker og bankprodukter, hvis det ikke er et premiumsegment, men alle mulige studiekort, afbetalinger – den slags ting. Det virker virkelig rigtig godt i FMCG og alle mulige “iPhones”, opladere, alt det der lort. Det virker godt i “mors” produkter, “fars”. Selvom jeg ved, at inden for fiskeri (der er sådan et emne)… Der var flere tilfælde med fiskere – de kan aldrig segmenteres pålideligt. Jeg ved ikke hvorfor. En eller anden form for statistisk fejl.
Dette fungerer ikke godt med bilejere, med smykker, med visse husholdningsartikler. Faktisk fungerer det ikke godt med ting, som folk aldrig ville skrive om på sociale netværk - du kan tjekke det på denne måde. For eksempel med køb af en vaskemaskine: hvordan forstår du, hvem der har en vaskemaskine, og hvem der ikke har? Det ser ud til, at alle har en. Du kan bruge OFD-data - se på kvitteringerne for at se, hvem der har købt hvad, "match" disse personer ved hjælp af kvitteringerne. Men faktisk er det svært at arbejde med ting, som du aldrig ville tale om, for eksempel på Instagram.
Maskiner genkender tricks som statistiske antydninger.
Z: – Jeg har et spørgsmål om målretning. Er det muligt for et betinget tilfældigt tegn at eksistere (eller findes det), der modsiger sig selv i alt: først googler det "bedste fitnesscentre", og derefter googler det "10 måder at gøre ingenting på"? Og så videre i alt. Kan målretning holde styr på en person, der modsiger sig selv?
Åh: – Det eneste spørgsmål her er dette: Hvis du har brugt Google i 2 år, fortalt alt, hvad du kunne om dig selv, og nu installeret et plugin, der skriver den slags tilfældige forespørgsler, så kan du selvfølgelig ud fra statistikken forstå, at det, du laver nu, er en statistisk outlier, og luge det hele fra. Hvis du vil, kan du oprette en ny konto, men mængden af annoncering vil ikke ændre sig. Det vil bare blive mærkeligt. Selvom det er mærkeligt nu.

Nogle annoncer 🙂
Tak fordi du blev hos os. Kan du lide vores artikler? Vil du se mere interessant indhold? Støt os ved at afgive en ordre eller anbefale til venner, , en unik analog af entry-level servere, som blev opfundet af os til dig: (tilgængelig med RAID1 og RAID10, op til 24 kerner og op til 40 GB DDR4).
Dell R730xd 2 gange billigere i Equinix Tier IV datacenter i Amsterdam? Kun her i Holland! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fra $99! Læse om
Kilde: www.habr.com
