Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Op maart 14, 2017, spruts Arthur Khachuyan, CEO fan Social Data Hub, by de BBDO-lêzing. Arthur spruts oer yntelliginte monitoaring, it bouwen fan gedrachsmodellen, it herkennen fan foto- en fideo-ynhâld, lykas oare Social Data Hub-ark en ûndersyk wêrmei jo doelgroepen kinne rjochtsje mei sosjale netwurken en Big Data-technologyen.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Arthur Khachuyan (hjirnei - AH): - Hallo! Hoi allegearre! Myn namme is Arthur Khachuyan, ik rinne it bedriuw Social Data Hub, en wy binne dwaande mei ferskate nijsgjirrige yntellektuele analyzes fan iepen gegevens boarnen, ynformaasje fjilden en dogge allerhanne nijsgjirrich ûndersyk ensafuorthinne.

En hjoed fregen kollega's fan BBDO Group ús om te praten oer moderne technologyen foar it analysearjen fan grutte gegevens, grutte en net sa grutte gegevens foar reklame: hoe't it brûkt wurdt, litte wat nijsgjirrige foarbylden sjen. Ik hoopje dat jo ûnderweis fragen stelle, want ik kin saai wurde en de essinsje net iepenbierje en sa, dus wês net ferlegen.

Eigentlik binne de wichtichste rjochtingen, wêr't oait in soarte fan "near-big-data" oplossingen waarden brûkt," se binne allegear dúdlik - dit is doelgroep, analyse, it útfieren fan in soarte fan analytysk marketingûndersyk. Mar it is altyd nijsgjirrich hokker ekstra gegevens kinne fûn wurde, hokker ekstra betsjuttings kinne fûn wurde nei it tapassen fan de analyze.

Wêrom hawwe wy technology nedich foar reklame?

Wêr begjinne wy? It meast foar de hân lizzende ding is reklame op sosjale netwurken. Hjoed haw ik it moarns ôfnommen: om ien of oare reden tinkt VKontakte dat ik dizze bepaalde advertinsje moat sjen ... Oft it goed of min is, is de twadde fraach. Wy sjogge dat ik perfoarst yn de kategory fan tsjinstplichtigen falle:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

It alderearste en meast nijsgjirrige ding dat kin wurde nommen as in technologyske oplossing ... It earste ding dat ik beslute woe foardat wy begjinne, is om de termen te definiearjen: wat is iepen data en wat is grutte data? Om't alle minsken har eigen begryp hawwe oer dizze saak, en ik wol gjinien myn betingsten oplizze, mar ... Krekt sadat der gjin diskrepânsjes binne.

Persoanlik tink ik dat iepen gegevens alles is dat ik kin berikke sûnder oanmelding of wachtwurd. Dit is in iepen profyl op sosjale netwurken, dit is sykresultaten, dit binne iepen registers, ensfh. Grutte gegevens, yn myn eigen begryp, sjoch ik it sa: as it in gegevensplaat is, is it in miljard rigen, as it wat soarte is. fan triem opslach, it is earne in petabyte fan gegevens. De rest yn myn terminology is gjin grutte data, mar soksawat.

Profilearring en profylskoare mei hege presyzje

Litte wy yn oarder gean. It alderearste en meast nijsgjirrige ding dat jo kinne komme mei út it analysearjen fan iepen gegevensboarnen is profilearring en profylskoare mei hege presyzje. Wat is dit? Dit is in ferhaal wêr't jo sosjale netwurkkonto net allinich kin foarsizze wa't jo binne, net allinich jo ynteresses.

Mar no, troch it kombinearjen fan ferskate boarnen, kinne jo it gemiddelde nivo fan jo salaris begripe, hoefolle jo appartemint kostet en wêr't it leit. En al dizze gegevens kinne letterlik brûkt wurde fan beskikbere middels. As jo ​​​​bygelyks jo akkount nimme op in sosjaal netwurk, sjoch, sis, wêr't jo wenje, wêr't jo wurkje; begryp yn hokker seksje fan it bedriuw it bedriuw wêrfoar jo wurkje is; download ferlykbere fakatueres fan HH en "Superjob" as jo in analist, manager, ensfh. sjoch wêr't jo wenje (basis, sizze CIAN), begripe hoefolle it kostet in hiere in hûs op dit plak, hoefolle it kostet in keapje in hûs op dit plak, foarsizze likernôch hoefolle jo fertsjinje. Fierder, mei jo sosjale netwurken, kinne jo begripe hoefolle jo reizgje, wêr't jo binne en hoe loyaal jo binne oan jo wurkjouwer.

Dêrtroch kinne wy ​​​​fan sa'n enoarme oantal metriken alles dwaan wat wy wolle. Wy kinne jo foarstelle oan in produkt dat jo ynteresseart. Kinne jo jo in online winkel foarstelle? Jo geane derhinne - dizze online winkel fangt jo akkount op in sosjaal netwurk en fertelt jo: "Masha, jo hawwe krekt it útmakke mei jo freon, hjir binne guon produkten foar jo." Dit is net de heine takomst ...

Hoe wurdt de geolokaasje fan in persoan bepaald?

Antwurden op fragen fan it publyk:

  • Typysk wurdt 80% fan alle check-ins beskôge as it krekte wenplak. Mar foar minsken dy't net oeral ynchecke, binne d'r ferskate opsjes: of check-in, of geolokaasje, of dit is in analyze fan berjochten en publikaasjes foar de hiele tiid wêryn in persoan wat skreau ... En earne, der sil wat ferskine as "Ik wol in kinderwagen keapje by Akademicheskaya" of "Ik seach hjir koartlyn lelijke graffiti op 'e muorre." Dat is, foar hast 80% fan 'e minsken kinne har geolokaasje, har wurkplak en har wenplak wurde bepaald mei gegevens of metadata dy't sammele wurde kinne fan sosjale netwurken.

    Dit is wer in analyze fan berjochten. Yn 'e ienfâldichste sin is dit in analyze fan check-ins en geolokaasjes yn sosjale netwurken, dy't jpeg-metadata net wiskje (jo kinne der wat útfine). Mar foar de oerbleaune minsken binne dit meastentiids tekstútstjoerings: of in persoan "skynt" syn lokaasje as hy oer wat skriuwt, of hy "skynt" syn tillefoan, wêrmei jo guon fan syn reklame kinne fine op Avito of syn akkount op " Auto RU". Op grûn fan dizze gegevens kinne jo kombinearje (bygelyks "Ik ferkeapje in auto by Mayakovskaya") en rûchwei oannimme dit.

  • Minsken pleatse dit normaal op sosjale media. Wy wurkje allinich mei iepen boarnen en hjir prate wy allinich oer iepen boarnen. Se publisearje meastentiids advertinsjes, dat is, yn sechtich prosint fan 'e gefallen, it meast foarkommende ferhaal as minsken har hjoeddeistige mobylnûmer "toand" binne advertinsjes foar de ferkeap fan wat. Of yn guon groepen skriuwt in persoan ("Ik ferkeapje dit of dat dêr"), of giet earne.

    Ja! Se kommentearje meastentiids as: "Antwurd my of stjoer my in sms, skilje myn nûmer. Dit bart heul faak mei minsken dy't wat ferkeapje, wat keapje op sosjale netwurken, kommunisearje mei immen ... Dêrtroch kinne jo mei dit nûmer syn profyl op CIAN dêrmei keppelje, as hy oait wat publisearre hat, of, wer, op Avito. Dit binne gewoan de populêrste, top boarnen, it sil fierder wêze - dit binne Avito, CIAN ensafuorthinne.

  • Dit ferwiist nei in online winkel. Folgjende sil de technology fan gesichtsherkenning en profyloerienkomst wêze (wy sille der oer prate). Suver teoretysk kin dit tapast wurde op in offline winkel. En yn 't algemien is myn grutte dream dat as strjittebanners ferskine, as jo in kamera lâns rinne, it jo gesicht "trapt". Mar dizze saak sil troch de wet ferbean wurde, om't it in ynbreuk is op privacy. Ik hoopje dat it ier of let sil barre.
  • Ut persoanlike ûnderfining. Hiel faak, as in persoan wat oan jo skriuwt, operearje jo guon feiten út syn libben dy't jo net witte moatte ... Minsken wurde yn 'e measte gefallen bang. Mar! Op grûn fan resinte statistiken is it oantal sletten akkounts op sosjale netwurken mei 14% ôfnommen. It oantal fakes nimt ta, it oantal iepen akkounts groeit - minsken geane hieltyd mear nei iepenheid. Ik tink dat se oer 3-4 jier ophâlde mei sa sterk te reagearjen op it feit dat immen ynformaasje oer har wit dy't se mooglik net witte moatte. Mar it is eins hiel maklik te krijen troch te sjen nei syn muorre.

Wat kin wurde nommen út iepen boarnen?

D'r is in ûngefear list mei dingen dy't mei frij hege betrouberens kinne wurde begrepen út iepen boarnen. Yn feite binne der noch mear ferskillende metriken; it hinget ôf fan de klant fan sa'n ûndersyk. D'r is wat HR-buro dat ynteressearre is yn oft jo swarre op sosjale netwurken of earne yn 'e iepenbiere romte. Immen is ynteressearre yn oft jo de publikaasjes fan Navalny leuk fine, of oarsom, publikaasjes fan 'e Feriene Ruslân, of in soarte fan pornografyske ynhâld - sokke dingen komme frij faak foar.

De wichtichste binne famyljewearden, de sawat kosten fan in appartemint, hûs, sykjen nei in auto, ensfh. Op grûn dêrfan kinne minsken yndield wurde yn sosjale groepen. Dit binne Moskou Tinder brûkers, wa't se binne (neffens harren foto's fûn op harren Facebook akkounts); Op grûn fan har belangen binne se ferdield yn ferskate sosjale groepen:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

As wy tichter by reklame komme, dan binne wy ​​stadichoan fuortgean fan standert reklame-targeting, as jo op VKontakte selektearje dat jo ynteressearre binne yn 18-jierrige manlju dy't ynskreaun binne by bepaalde groepen. Ik haw dizze foto neist, ik sil jo no sjen litte:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

De ûnderste rigel is dat de measte fan 'e hjoeddeistige tsjinsten dy't yn prinsipe analysearje, minsken dy't sosjale netwurken analysearje, binne dwaande mei it analysearjen fan ynteresses ... It earste ding dat yn 'e tinzen fan minsken komt is om de topgroepen fan har abonnees te analysearjen. Miskien wurket dit foar guon, mar persoanlik tink ik dat it fûneminteel ferkeard is. Wêrom?

Jo likes wurde sammele en analysearre

Nim no jo tillefoans, sjoch nei jo topgroepen - d'r sille grif mear dan 50% fan groepen wêze wêr't jo al oer fergetten binne, dit is in soarte fan ynhâld dy't eins irrelevant foar jo is. Jo konsumearje it hielendal net, mar dochs sil it systeem jo folgje neffens har: dat jo hawwe ynskreaun op resepten, op guon populêre groepen. Dat is, jo sille it systeem skeine dat jo profyl analysearret, en jo ynteresses sille net rjochtfeardige wurde.

Trochgean... Wat is der? Wy geane der fan út wat oare minsken dogge. Neffens ús is de meast adekwate manier om de belangen fan brûkers te beoardieljen likes. Bygelyks, op VKontakte is der gjin likes feed, en minsken tinke dat gjinien wit wat se leuk. Ja, guon fan 'e likes wurde yntrodusearre op Instagram, wy sjogge wat op Facebook, mar de measte ynhâld yn bepaalde groepen stjoert dit net yn in mienskiplike feed, en minsken libje en tinke dat gjinien sil witte wat se leuk fine.

En troch bepaalde ynhâld fan ien of oare soarte te sammeljen dy't ús ynteresseart, dizze berjochten sammelje, dizze likes sammelje, dan dizze persoan kontrolearje mei dizze databank, kinne wy ​​mei hege krektens bepale wa't hy is, wat syn bestimming is, wêryn hy ynteressearre is. Pleats him krekt yn in bepaalde sosjale groep en ynteraksje mei him.

It keapjen fan in auto feroaret gedrach

Ik haw sa'n foarbyld. Ik sil daliks reservearje dat myn foarbylden near-reklame en near-marketing binne, om't jo witte, de measte gefallen wurde beskerme troch NDA ensafuorthinne. Mar der sil noch in protte nijsgjirrige dingen wêze. Dus, it ferhaal mei dizze minsken: dit binne manlju dy't tusken 2010 en 2015 in auto kochten. Hoe't har online sosjaal gedrach feroare is wurdt oanjûn troch kleur. It persintaazje famkes ûnder de abonnees is feroare, ik haw my ynskreaun op "jongesachtige" iepenbiere siden, fûn in permaninte seksuele partner ...

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Dit hiele ding is opdield nei automerk en oantal minsken. Hjirwei kinne jo in protte nijsgjirrige konklúzjes lûke oer it gedrach fan minsken en hoe't it allegear wurket. Ik kin sizze dat de Porsche Cayenne en de plante Priora binne hast identyk yn termen fan it oantal oanlutsen publyk. De kwaliteit fan dit publyk en har gedrach binne oars, mar de kwantiteit is sawat itselde. De konklúzje dy't jo hjirwei kinne lûke is wat jo wolle, tichter by jo merk. As jo ​​​​in Audi ferkeapje, meitsje jo de slogan "Keapje in Audi en gean fuort fan jo âlden!" ensafuorthinne.

Ja, dit is in grappich foarbyld fan it feit dat it gedrach fan minsken basearre op 'e analyze fan likes, basearre op hokker groep se ferhúzje, hokker ynhâld se analysearje - mei hast 100% kâns makket it dúdlik wa't jo binne. Want as jo gjin tagong hawwe ta netwurkferkear en gjin persoanlike berjochten lêze, sille likes jo altyd fertelle wa't dizze persoan is - in swangere frou, in mem, in militêr, in plysjeman. En foar jo, as in persoan dy't advertearje kin, is dit in grutte hit op doel.

Antwurden op fragen fan it publyk:

  • Elke kolom is it oantal minsken yn dizze auto; hoe't har gedrachspatroanen binne feroare. Sjoch: minsken dy't kochten in Porsche Cayenne - likernôch 550 minsken (giel), it persintaazje famkes ûnder abonnees is tanommen.
  • De stekproef is brûkers fan sosjale netwurken "Vkontakte", "Facebook", "Instagram" fan 2010 oant 2015. De ienige ferdúdliking: de hjir selektearre auto's binne dejingen dy't kinne wurde identifisearre op foto's mei mear dan 80% krektens mei bepaalde ark.
  • Oer in bepaalde perioade, syn auto (goed, dat is net syn, wy litte dat oan sosjale netwurken) ... Oer in bepaalde perioade fan tiid, in persoan waard hieltyd fotografearre mei de auto, wie mei, de publikaasjes wiene oars, de foto's wiene út ferskate hoeken, ensfh. Der komt dan in foto fan hokker minsken foto's meitsje mei hokker auto's en... Ja, dit is de twadde fraach - fertrouwen yn sosjale netwurkgegevens.
  • Sûnt wy it opbrocht hawwe, binne spitigernôch sosjale mediagegevens net altyd korrekt. Minsken binne net altyd oanstriid om har ynformaasje te publisearjen. Persoanlik haw ik sa'n stúdzje útfierd: ik fergelike it oantal ôfstudearden fan Moskou universiteiten mei it oantal minsken registrearre op sosjale netwurken. Gemiddeld binne 60% mear minsken registrearre op sosjale netwurken - ôfstudearden fan Moskou Steatsuniversiteit yn in bepaald jier yn bepaalde spesjaliteiten - dan d'r eins yn prinsipe binne. Dus ja - d'r is hjir fansels in persintaazje flaters, en gjinien ferberget it. Hjir nimme wy gewoan as basis dy auto's dy't kinne wurde identifisearre mei mear as 80% kâns.

List fan boarnen foar model training

Hjir is in foarbyldlist fan boarnen dy't brûkt wurde kinne, dy't brûkt wurdt om mei grutte wissichheid it sosjale profyl fan in persoan te bepalen, wa't hy is.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Wy nimme in profyl fan sosjale netwurken, fan CIAN - de kosten fan in appartemint binne sawat, "Head-Hunter", "Superjob" - dit is it gemiddelde salaris foar in opjûne persoan. Ik hoopje dat d'r hjir gjin Head Hunter-fertsjintwurdigers binne, om't se tinke dat it net heul goed is om dizze gegevens fan har te nimmen. Dit is lykwols it gemiddelde salaris yn bepaalde regio's foar bepaalde soarten aktiviteiten foar fakatueres.

"Avito", "Avto.ru": hiel faak minsken, as harren telefoan wurdt ferljochte, se hawwe it perfoarst (yn in grut oantal gefallen) op syn minst wat op "Avito", of op "Avto.ru", of op in oar ferskate siden wêrfan jo kinne begripe wa't se binne. As in kinderwagen of in auto waard ferkocht op dit telefoannûmer ... Rosstat en de Unified State Register fan juridyske entiteiten binne noch mear registers mei help fan hokker kinne jo rangearje it wurknimmende bedriuw - neffens guon formule, neffens in model dat eltse persoan kin ynstelle (jo kinne rûchwei bepale it jild fan dizze persoan ensfh).

Tinder helpt gegevens te sammeljen oer de situaasje fan minsken

Plus, d'r is sa'n nijsgjirrich ding (as alternatyf is it heul grappich yn 'e stúdzje) - dit is wer de kolleksje fan gegevens fan Moskou Tinder mei bots foar dizze Tinder. De ôfstân ta minsken waard bepaald, en doe waard har ûngefear lokaasje bepaald.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

It doel fan dizze stúdzje wie om it oantal Tinder-akkounts op it grûngebiet fan oerheidsynstellingen te bepalen - yn 'e Duma, it kantoar fan' e oanklager, ensfh. Mar jo kinne jo as advertearder yntinke wat jo wolle: it kin bygelyks Starbucks wêze of in oar... Dat is it oantal minsken op Tinder dat kofje drinkt fan jo, wat bestelle, yn winkels stiet Oangeande dizze geolokaasje: dit kin mei elke tsjinst dien wurde.

Antwurd op in fraach fan it publyk:

  • Tinder? Do witst net? Tinder is in dating app wêr't jo troch foto's sjogge (links-rjochts), en dizze app lit jo de ôfstân nei de persoan sjen. As jo ​​de ôfstân nei dizze persoan krije fan trije ferskillende punten, kinne jo sawat (+ 5-7 meter) de lokaasje bepale. Yn dit gefal, foar bepaling op it grûngebiet fan 'e offisier fan justysje of de Douma, it is net sa dreech. Mar wer, it kin jo winkel wêze, it kin alles wêze.

Bygelyks, in lange, lange tiid lyn hienen wy sa'n gefal (gjin stúdzje), doe't wy fan ien fan 'e sellulêre operators gegevens krigen oer ferkearstichtens, gegevens oer de tichtens fan beweging fan sellulêre punten, en al dizze ynformaasje waard boppe op de koördinaten fan reklamebuorden dy't op rykswegen lizze. En de taak fan 'e sellulêre operator is om te bepalen sawat hoefolle minsken foarby geane en mooglik dizze reklamebuorkerij kinne sjen.

As d'r hjir reklame-spesjalisten binne, kinne jo sizze: it is ûnmooglik te begripen mei superbetrouberens - immen komt, immen seach net, immen seach ... Dochs is dit in foarbyld fan hoe't d'r 20 miljard polygonen binne dizze yn Moskou, op hokker is de tichtheid fan dizze minsken op elk oere lâns bepaalde rûtes ... Jo kinne sjen wat dizze minsken wiene foarby op elts momint en rûchwei skatte de passazjiersstream.

Antwurd op in fraach fan it publyk:

  • Nimmen jout sokke gegevens. Wy hawwe sa'n stúdzje útfierd foar ien fan 'e operators; dit is in eksklusyf ynterne ferhaal, dus, spitigernôch, wurdt it net presintearre yn 'e foarm fan foto's. Mar faak hawwe grutte reklameburo's gjin problemen om kontakt op te nimmen mei in operator. Teminsten yn Moskou binne d'r in protte presidinten as bygelyks fersekeringsbedriuwen har wende nei bedriuwen lykas GetTaxi, dy't ûnpersoanlike gegevens leverje oer de leeftyd fan 'e sjauffeur, hoe't se ride (goed - min, roekeloos - nee), om te foarsizzen belied ensafuorthinne. Elkenien wrakselet mei dit, mar op guon ynterne nivo, it jaan fan anonime gegevens - ik tink dat gjinien hat sa'n probleem.

Ofbylding en patroanherkenning

Gean dyn gong. Myn favoryt is ôfbyldingsherkenning. Der komt in lyts stikje oer it sykjen nei minsken troch gesichten, mar wy nimme dit diel meast net. Wy nimme spesifyk ôfbyldingsherkenning en bepale wat yn dizze ôfbylding is - it merk fan 'e auto, syn kleur, ensfh.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Ik haw dit grappige foarbyld:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Der wie sa'n stúdzje oer it sykjen nei tattoos op ferskate sosjale netwurken. Dêrtroch kin itselde tapast wurde op elk merk, op elke fisuele ôfbylding, op hast elke fisuele ôfbylding. D'r binne dyjingen dy't net betrouber kinne wurde bepaald (wy nimme se net).

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Hjir is myn favorite. Automerken wikselje faaks nei dizze taak, om't har taak bygelyks is om alle eigners fan guon BMW X6 te finen, te begripen wa't se binne, hoe't se mei elkoar ferbûn binne, wêr't se yn binne ynteressearre, ensfh. Dit hat te krijen mei de fraach mei hokker auto's minsken foto's meitsje op sosjale netwurken.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Der wie hjir hielendal gjin filtering: it objekt wie fan har, de auto wie net fan har; It is gewoan de ferdieling fan auto's - leeftyd ensafuorthinne. Mar fisuele byldherkenning wurdt faak brûkt: dit is it sykjen nei swiere froulju, en it sykjen nei merklogo's yn in soarte fan massamedia (wa't wat pleatst).

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Myn favorite gefal (dat wurdt brûkt troch ferskate restaurants): hokker soarte fan rollen wurde pleatst op in sosjaal netwurk. It is in grappich ding, mar yn feite kinne jo in protte nijsgjirrige dingen begripe, earst oer jo eigen klanten: wa't nei jo kaam en wêrom se it diene. Om't it gjin geheim is dat yn sushibars de measte minsken (ik sil gjin "famkes" sizze) foto's meitsje om yn te checken, in foto fan wat te nimmen, ensfh.

It merk kin profitearje fan dit. It merk is ynteressearre yn watfoar produkten it nedich is om moai te fotografearjen en te pleatsen, wat foar minsken dêr kamen. Dit ding kin mei hast alles dien wurde, fan iten.

Video patroan erkenning

Antwurd op in fraach fan it publyk:

  • Net op fideo. Wy hawwe it yn testmodus. Wy hawwe dizze technology besocht, mar it docht bliken dat ... It herkent alles mei fideo frij goed, mar wy hawwe der oeral gjin applikaasje foar fûn. Doei. Behalven it analysearjen hoefolle en hokker fideobloggers earne prate... Der wie sa'n stúdzje. Hoefolle fan har gesichten moetsje, hoe faak. Mar merken hawwe noch net útfûn wêr't se mei dit komme moatte. Miskien komt it ienris.

Nochris, dit is iten, it kin wêze swier froulju, manlju (net swier), auto's - alles.

As opsje wie der in nijjierstúdzje foar ien media. Ek fier fan reklame, mar dochs. Dit is wat soarte iten minsken fêsten foar it Nije Jier:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

It wurdt hjir ek opdield nei leeftyd. Jo kinne sa'n korrelaasje sjen dat jonge minsken meast iten bestelle, folwoeksenen meast in tradisjonele tafel meitsje. It is in grappich ding, mar as jo it foarstelle as in merkeigner, kinne jo in grut oantal dingen evaluearje: wa't jo produkt behannelet en hoe, wat se der oer skriuwe. Faak neame minsken it merk sels yn 'e tekst net altyd, en tradisjonele analytyske tafersjochsystemen kinne dizze fermelding fan it merk net altyd begripe en fine allinich om't it net yn' e tekst wurdt neamd. Of de tekst is ferkeard stavere, d'r binne gjin hash-tags of wat dan ek.

De foto's binne sichtber. Mei fotografy kinne jo fertelle as it it sintrum ûnderwerp fan it frame is of net it sintrum ûnderwerp fan it frame. Dan kinne jo sjen wat dizze persoan skreau. Mar meastentiids wurdt it brûkt as in syktocht nei potinsjele publyk dy't hawwe riden bepaalde auto ensafuorthinne. En dan sille wy in protte nijsgjirrige dingen dwaan mei dizze auto's.

Bots wurde leard om minsken te imitearjen

D'r wie ek sa'n opsje om minsken te tellen te brûken:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

D'r is in opsje om minsken te fergelykjen, as jo minsken moatte fine dy't guon foto's brûke, har sosjale profyl begripe, wa't se binne. Nochris komme wy werom op 'e fraach dat as wy in kamera hawwe yn in offline winkel, dan is dit in frij goede manier om te begripen wa't nei jo komt, wa't dizze minsken binne, wêryn se ynteressearre binne, wat se oanmoedige om nei jo te kommen .

Dêrnei komt it meast nijsgjirrige ding: as wy har akkounts op sosjale netwurken sammelje, begripe wa't dizze minsken binne, wêryn se ynteressearre binne, kinne wy ​​(as opsje) in bot meitsje dy't fergelykber is mei dizze minsken; dizze bot sil begjinne te libjen lykas dizze minsken en analysearje hokker advertinsjes it sjocht op ferskate sosjale netwurken. Hjirmei kinne jo sekuer begripe hokker merken binne rjochte op dizze persoan. Dit is ek in frij gewoan ferhaal as jo net allinich moatte analysearje wa't dizze persoan is en hokker ynteresses hy hat, mar ek hokker soarte fan reklame jo potensjele konkurrinten of oare ynteressearre minsken moatte rjochtsje.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Analyse fan ferbiningen yn sosjale netwurken

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

De folgjende nijsgjirrige ding is de analyze fan relaasjes tusken minsken. Eins, de analyze fan ferbinings yn it netwurk, dizze netwurk grafiken - d'r is net in bytsje, neat nij yn dit, elkenien wit dit.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Mar de applikaasje foar advertinsjetaken is it meast ynteressant. Dit is in syktocht nei minsken dy't trends stelle, dit is in syktocht nei minsken dy't ynformaasje ferspriede neffens bepaalde kritearia binnen dit netwurk. Litte wy sizze dat wy binne ynteressearre yn deselde eigners fan in bepaalde BMW model. Troch se allegear byinoar te bringen, kinne wy ​​dejingen fine dy't de publike miening kontrolearje. Dit binne net needsaaklik autobloggers ensafuorthinne. Meastentiids binne dit ienfâldige kameraden dy't op ferskate iepenbiere siden sitte, ynteressearre binne yn wat ynhâld en kinne, yn in heul koarte perioade, jo merk of immen dy't jo ynteressearje kinne lûke yn dit gebiet fan ferantwurdlikens, yn it gebiet fan ynteresse.

Der is hjir sa'n foarbyld. Wy hawwe wat potinsjele minsken, ferbinings tusken minsken. Hjir binne de oranje minsken, de lytse stippen binne mienskiplike groepen, mienskiplike freonen.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

As jo ​​​​al dizze ferbiningen tusken har sammelje, kinne jo heul dúdlik sjen dat der minsken binne dy't in grut oantal mienskiplike groepen hawwe, mienskiplike freonen, se binne der ûnderinoar ... En as dizze selde fisualisaasje ferdield is yn groepen troch ynteresses, troch ynhâld, dy't se ferspriede, hoefolle se mei-inoar omgean... Hjir kinne jo sjen dat de foarige foto sa waard:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Hjir binne de groepen dúdlik te ûnderskieden troch kleur. Yn dit gefal binne dit ús masterstudinten oan 'e Heger School of Economics. Hjir kinne jo sjen dat de poarperen / blau dejingen binne dy't fan Transparency International, Open Russia, en Khodorkovsky's iepenbiere siden hâlde. Linksûnder binne de grienen, dyjingen dy't fan Feriene Ruslân hâlde.

Jo kinne sjen dat de foarige foto wie sa (dit binne gewoan ferbinings tusken minsken), mar is dúdlik ôfstimd wurden. Dat is, alle minsken binne altyd ferbûn mei elkoar, se hawwe deselde ynteresses, se binne freonen mei elkoar. Der binne guon boppe, oaren op 'e boaiem, en guon oare kameraden dêr. En as elk fan dizze lytse subgrafen apart sichtber is mei oare parameters en sjocht nei de snelheid fan fersprieding fan ynhâld (rûchwei sprutsen, wa't wat dêr opnij pleatst), kinne jo yn elk diel ien of twa minsken fine dy't altyd de publike miening yn har hannen hâlde, ynteraksje wêrmei, freegje stjoer in soarte fan post of wat oars - kinne jo krije in reaksje fan dit hiele nijsgjirrige publyk.

Ik haw noch in sa'n foarbyld. Ek in grafyk: dit binne meiwurkers fan BBDO Group fûn op sosjale netwurken as foarbyld. It sjocht der net ynteressant út, grut, grien, ferbiningen tusken har ...

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Mar ik haw in opsje dêr't groepen binne al boud tusken harren. Dan, as immen ynteressearre is, is d'r in ynteraktive ferzje - jo kinne klikke en sjen.

Rjochts boppe binne dyjingen dy't fan Putin hâlde. Hjir binne de poarperen de ûntwerpers; dyjingen dy't ynteressearre binne yn ûntwerp, wat nijsgjirrichs, ensfh. Hjir binne de wite dingen it managementteam (skynber, sa't ik begryp); Dit binne minsken dy't yn 't algemien op gjin inkelde manier ferbûn binne, mar yn likernôch deselde posysjes wurkje. De rest is har mienskiplike groepen, ferbiningen, ensfh.

Merken hawwe gjin bloggers nedich, mar opinylieders

Wy nimme dizze minsken en fine se - dan beslút it reklameburo, it reklamebedriuw sels: it kin jild jaan oan dizze persoan, sadat hy op ien of oare manier ynteraksje mei dizze ynhâld, wat oars, of rjochtsje syn eigen spesifike reklamekampanje nei har. Dit wurdt ek frij faak brûkt, benammen no, om't alle merken mei bloggers wurkje wolle, se wolle dat har ynhâld befoardere wurdt, mar reklameburo's wolle net echt kontakt opnimme (goed, dit bart).

En de echte manier út dizze situaasje is om minsken te finen dy't gjin bloggers binne, gjin skientmebloggers, mar bygelyks guon echte wêzens dy't ynteraksje mei dit merk, dy't kinne skriuwe yn guon jammerdearlike iepenbiere side "Mail.ru Answers", krije in bepaald oantal views. Dizze minsken, dy't hieltyd ynteressearre binne yn 'e ynhâld fan dizze persoan, sille it hiele ding ferspriede, en it merk sil har belutsenens krije.

De twadde opsje foar it brûken fan sokke technology no is frij relevant - sykjen nei bots, myn favorite. Dit is in reputaasjerisiko foar jo konkurrinten, en in kâns om irrelevante minsken út in reklamekampanje en wat oars te weidzjen (kommentaren wiskje, en sykje nei ferbiningen tusken minsken). Ik haw sa'n foarbyld, it is ek grut en ynteraktyf - jo kinne it ferpleatse. Dit binne ferbiningen fan minsken dy't opmerkings skreaun hawwe yn 'e Lentach-mienskip.

Dit foarbyld is sadat jo begripe hoe goed en maklik sichtbere bots binne; en hjirfoar hoege jo gjin technyske kennis te hawwen. Dit betsjut dat "Lentach" in post publisearre oer it FBK-ûndersyk oer Dmitry Medvedev, en guon minsken begûnen opmerkingen te skriuwen. Wy sammele alle minsken dy't opmerkings skreaunen - dizze minsken binne grien. No sil ik it ferpleatse:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

De minsken binne de grienen (dy't de opmerkings skreaun hawwe). Se binne hjir, se binne hjir. De blauwe stippen tusken harren binne harren mienskiplike groepen, de giele stippen binne harren mienskiplike abonnees, freonen, ensafuorthinne. It grutste part fan minsken is ferbûn mei elkoar. Om't, wat de teory fan trije, fjouwer, fiif handshakes ek is, alle minsken binne ferbûn mei elkoar op sosjale netwurken. Der binne gjin minsken dy't fan elkoar skieden binne. Sels myn sosjaal phobyske freonen dy't VKontakte allinich brûke om fideo's te besjen binne noch altyd ynskreaun op guon fan deselde iepenbiere siden as wy.

Navalny brûkt ek bots. Elkenien hat bots

It grutste part fan 'e minsken (hjir is it, hjir) binne ferbûn mei elkoar. Mar der is sa'n lytse groep kameraden dy't allinnich freonen binne mei elkoar. Hjir binne se, de lytse grienen, hjir binne har mienskiplike freonen en groepen. Se foelen hjir sels apart ôf:

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

En troch in lokkich tafal, it wie krekt dizze minsken dy't skreau ûnder dizze post: "Navalny hat gjin bewiis" ensafuorthinne, en skreau deselde opmerkings. Fansels doar ik gjin konklúzjes te lûken. Mar dochs hie ik in oare post op Facebook, doe't der in debat wie tusken Lebedev en Navalny, analysearre ik de opmerkingen op deselde manier: it die bliken dat alle minsken dy't "Lebedev is shit" skreaunen, se hiene net op sosjale netwurken koartlyn fjouwer moannen, net ynskreaun op ien fan 'e iepenbiere siden, ynienen gie nei dizze tige post, skreau dizze krekte opmerking en lofts. Nochris, it is ûnmooglik om konklúzjes fan hjir te lûken, mar ien fan it team fan Navalny skreau my in opmerking dat se gjin bots brûke. No, goed!

Tichter by reklame, tichter by it merk. Elkenien hat no bots! Wy hawwe se, ús konkurrinten hawwe se, en oaren hawwe se. Se moatte útsmiten wurde of litte om goed te libjen; Op grûn fan sokke gegevens (wiist nei de foarige slide), bring se ta folsleinens sadat se lykje op echte minsken en pas dan brûke se. Hoewol it brûken fan bots is min! Dochs, in frij gewoan ferhaal ...

Yn automatyske modus kinne jo soksoarte minsken út jo analyse filterje dy't irrelevant binne foar de analyse, minsken dy't net moatte wurde opnommen yn 'e stekproef, moatte net opnommen wurde yn dizze stúdzje. Hiel faak brûkt. Nochris hawwe net alle auto-eigners eins auto's. Soms binne minsken allinich ynteressearre yn minsken dy't mooglik in auto hawwe, dy't yn guon groepen sitte, mei immen kommunisearje, se hawwe dêr in bepaald publyk.

Analyse fan feiten en mieningen

De folgjende dy't ik haw is ek myn favorite. Dit is in analyze fan feiten en mieningen.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Tsjintwurdich wit elkenien har merk yn ferskate boarnen te neamen. D'r is gjin geheim oan dit. En elkenien liket de tonaliteit te berekkenjen ... Hoewol persoanlik tink ik dat de tonaliteitsmetriek sels net heul ynteressant is, want as jo komme en de kliïnt sizze: "Man, jo hawwe 37% neutraal," en hy seit dat , "Wow! Koel!" Dêrom soe it ynteressanter wêze om wat fierder te gean: fan it beoardieljen fan sentimint oant it beoardieljen fan de mieningen fan wat se sizze oer jo produkt.

En dit is ek in hiel nijsgjirrich ding, om't... ik persoanlik leau dat der yn prinsipe gjin neutrale berjochten wêze kinne, want as in persoan wat skriuwt yn 'e iepenbiere romte, dan is dit berjocht op ien of oare manier ynkleure. Ik persoanlik haw noait in neutraal berjocht sjoen dat in merk neamt. Meastentiids is it in soarte fan smoargens.

As wy in grut oantal fan dizze berjochten nimme (d'r kinne miljoenen, 10 miljoen wêze), markearje it haadidee fan elk berjocht, kombinearje se, wy kinne frij betrouber begripe wat minsken sizze oer dit merk, wat se tinke. "Ik hâld net fan de ferpakking," "Ik hâld net fan de konsistinsje," ensafuorthinne.

Wat tinke minsken oer Transaero, Chupa Chups en de presidint fan 'e Feriene Steaten?

Ik haw in grappich foarbyld: dit is in infografyk oer wat brûkers fan sosjale netwurken soene dwaan mei it Transaero-bedriuw nei syn fallisemint.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

D'r binne in protte nijsgjirrige foarbylden dêr: ferbaarne, deadzje, deportearje nei Europa, d'r wiene sels 2% dy't skreau - "Stjoer se nei Syrië foar militêre operaasjes." Trochgean fan it grappige ding, kin it hast elk merk wêze - fan myn favorite hûnefoer oant guon auto's. Wa’t de ferpakking net fynt, wa’t net fan echte dingen hâldt – hjir kinst altyd mei wurkje, dêr kinst altyd rekken mei hâlde. D'r binne in grut oantal foarbylden doe't minsken de produksje fan har produkten hast feroare, om't se op sosjale netwurken skreaunen dat Chupa Chups net rûn genôch wie of it wie net swiet genôch.

Der is in oar grappich foarbyld. Rikke hokker opmerkings en oer wa?

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Om ien of oare reden, no is de analyze fan mieningen, de analyze fan feiten út berjochten, net heul brûkt en is net heul wiidferspraat. Hoewol dizze technology net supergeheim is, is d'r praktysk gjin know-how yn dit, om't út 'e opmerkingen fan minsken, it útlûken fan it ûnderwerp, predikaat en groepearje se gjin sjeny yn komputertaalkunde fereasket. It is net sa dreech om te dwaan. Mar ik hoopje dat de kommende pear jier minsken dit sille begjinne te brûken, om't ... It sil cool wêze - dit is sa'n automatyske feedback! Jo witte altyd wat se oer jo sizze. No, jo begripe dat dit makke is oer de Amerikaanske presidint.

Antwurd op in fraach fan it publyk:

  • Ja, dit is Facebook yn it Ingelsk. Se wurde hjir oerset yn it Russysk. Dit is earne skreaun.

Big Data en politike technologyen

Eins haw ik in protte ferskillende nijsgjirrige foarbylden fan polityk oer Trump en alle oaren, mar wy besletten om se hjir net te bringen. Mar der is ien polityk foarbyld.

Dit binne ferkiezings foar de Douma. Wannear wiesto? Ôfrûne jier? Hast oardel jier lyn.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Hjir binne minsken dy't har krekte lokaasje bepale koenen, oant in bepaald geopunt, om te begripen yn hokker ferkiezingsgebiet se falle. En dan waerden fan dy lju allinne dejingen helle dy't har definityf miening útsprutsen, dêr't se foar stimme soene.

Ut it eachpunt fan politike technology is dit net hiel korrekt, om't dit hiele ding normalisearre wurde moat troch befolkingstichtens ensafuorthinne. Dochs sille de blues hjir op stimme witte jo wa, de readen sille stimme op opposysjekameraden, fan wa't der trouwens net folle wiene.

Ik leau persoanlik dat Big Data politike technologyen net gau sil berikke, mar as opsje is de kandidaat ek in merk. En dit is ek, foar in part, in analyze fan feiten en mieningen oer jo merk, en in nochal nijsgjirrich ding, om't jo yn realtime kinne begripe wa't dêr wat docht. Ik ken ferskate gefallen fan 'e BBC, doe't se sosjale netwurken yn echte tiid yn guon útstjoeringen kontroleare: d'r wie sa en sa'n antwurd, minsken skriuwe deroer, stelle sa en sa'n fraach - en it is geweldich! Ik tink dat it hiel gau brûkt wurde sil, om't it foar elkenien ynteressant is.

Modeling merk posysjes

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Folgjende haw ik modellering fan merkposysjes. In lyts, koart stikje oer hoe't jo merken kinne rangearje mei ferskate metriken (net leuk fan abonnees op sosjale netwurken, mar mei komplekse metriken, ynteresse yn ynhâld, tiid bestege oan it ûntfangen fan metriken).

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Ik haw in foarbyld fan "pharma" foar in bepaalde reden. Hjir binne de lytse sirkels ynterne, helder - dit is it bedrach fan tekstynhâld dat it merk sels makket, de grutte sirkel is it bedrach fan foto- en fideo-ynhâld dat it merk sels makket.

De tichtby it sintrum lit sjen hoe nijsgjirrich de ynhâld is foar it publyk. D'r is in grut model, d'r binne in bulte fan allerhanne parameters: likes, reposts, reaksjetiid, wa't der yn trochsneed dielde ... Hjir kinne jo sjen: d'r is in prachtige "Kagotsel", dy't in geweldige hoemannichte pompt jild yn it meitsjen fan in eigen ynhâld, en dêrtroch binne se frij ticht by it sintrum. En d'r binne kameraden dy't ek har eigen ynhâld meitsje, mar it publyk is der net yn ynteressearre. Dit is net in heul adekwaat foarbyld, om't al dizze akkounts praktysk dea binne.

Yegor Creed wurdt mear leaf as Basta

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Spitigernôch, de rest ... fan wat te sjen ... No, der binne ek Russyske rappers, as opsje, fan echte bedriuwen.

Wat is it pluspunt? It feit is dat in bedriuw hast alles yn sa'n model sette kin, begjinnend fan it gemiddelde salaris fan abonnees dy't wurkje foar jo merk; elk model dat se leuk fine. Om't elk reklameburo syn eigen metriken oars berekkent, berekkenje merken har eigen metriken oars.

D'r is hjir ek ien - Basta, dy't in grutte hoemannichte ynhâld genereart, mar leit yn 'e perifery, om't dizze ynhâld blykber net heul ynteressant is foar it publyk. Nochris, ik nim my net oan om te oardieljen. Mar dochs is d'r Yegor Creed, dy't, neffens sosjale netwurken, hast de bêste performer fan ús tiid is, mar allinich syn persoanlike foto's publisearret. Dochs hat er in grut tal abonnees: dêr binne er earne sa’n miljoen fan. Ik wit net ûnthâlde it krekte oantal; Ik tink dat it persintaazje fan belutsenens fan dizze minsken folle heger is as 85%, dat is, per miljoen abonnees ûntfangt hy 850 tûzen antwurden fan dizze echte minsken - dit is echte waansin. Dit is wier.

Arthur Khachuyan: "Echte grutte gegevens yn reklame"

Antwurden op fragen fan it publyk:

Hoe lang hat it duorre om it rapperanalysemodel te meitsjen?

  • Elk hat in eigen doelpublyk, de belangen fan dizze minsken wurde foar elk berekkene ... Dit alles wurdt normalisearre nei de ôfstân nei it sintrum sawat, har radiale posysje is net wichtich (it wurdt hjir gewoan smard foar skientme, sadat se dogge net yn elkoar rinne). Allinnich de ûngefear tichtby it sintrum is wichtich. Dit is it model dat wy brûke. Bygelyks, ik fyn de sirkel better, guon minsken dogge it yn gedachten as in heale sirkel.
  • Dit model waard gearstald fluch, yn twa of trije oeren (ja, ien persoan). Hjir waarden allinich metriken ynfoege: wat wy fermannichfâldigje mei wat, it optelle, en dan op ien of oare manier normalisearje. Hinget ôf fan it model. D'r binne minsken dy't ynteressearre binne yn it gemiddelde salaris (dit is gjin grap) fan har abonnees. En hjirfoar moatte jo har kontakten, Avito, fine, alles berekkenje, fermannichfâldigje. It bart dat dit in lange tiid nimt om rekken te hâlden, mar spesifyk dit (wiist nei de foarige slide) - de parameters hjir binne heul ienfâldich: abonnees, reposts, ensfh. It duorre sawat twa oant trije oeren om te foltôgjen. Dêrtroch wurdt dit ding dan yn realtime bywurke, en jo kinne it brûke.

No komt it leuke diel. Ik bin klear mei foarbylden, want it is net nijsgjirrich om lang allinnich te praten. En ik hoopje dat jo no fragen sille stelle, en wy sille trouwens fan ûnderwerp nei ûnderwerp gean, om't ik sokke foarbylden haw fan hoe't technologyen brûkt wurde kinne ensafuorthinne ...

Antwurden op fragen fan it publyk:

  • Ik hie ien en ienige persoanlike saak mei ien, sa te sizzen, "near-casino", doe't in kamera waard pleatst dêr, gesichten waarden werkend, etc. It persintaazje erkende minsken is perfoarst frij grut - sawol ús as ús konkurrinten. Mar it is eins hiel nijsgjirrich. Ik sjoch dit as in nijsgjirrich ding: jo kinne begripe wa't dizze minsken binne en foarsizze hiel goed wêrom krekt se kamen hjir, wat is feroare yn harren libben safolle dat se besletten om te kommen ta it casino. Mar as foar spesifike soarten bedriuwen ... As jo ​​sa'n ding yn in apotheek sette, dan is der gjin punt - jo kinne net foarsizze wêrom't in persoan nei de apotheek kaam.

    De wrâldwide taak hjir wie om in model te bouwen om te begripen wannear't in persoan potensjeel wol ynteressearre wêze yn jo merk, sadat jo him reklame kinne jaan net nei't hy wat kocht hat (sa't no bart), mar him reklame jaan kinne " yn prognose" fan wannear't dit allegear sil barre. It wie nijsgjirrich mei sa'n "near-casino"; der blykte nochal in nijsgjirrich persintaazje fan dizze minsken te wêzen - wêrom: ien krige ynienen in promoasje, in oar krige wat oars - sokke nijsgjirrige ynsjoggen. Mar mei guon winkels, mei detailhannel, mei in winkel fan wat soarte fan pillen, it liket my dat it sil net hiel korrekt.

Wurdt Big Data offline brûkt?

  • It wie offline. Jo moatte gewoan krekt begripe, rûchwei, oft dit model past of net. Nochris mei sprankelwetter... Ik bin eins yn alles ynteressearre, mar ik begryp persoanlik net hoefolle, hoe't de profilen fan dizze minsken, har gedrach ôfhingje kinne fan wannear't se flessenwetter keapje wolle. Hoewol't dit kin echt wêze wier, Ik wit it net.

Hoefolle iepen sosjale media akkounts binne d'r?

  • Wy hawwe spesifyk 11 sosjale netwurken - dit binne "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" en wat lytse dingen (ik kin nei de list sjen, lykas "Mail.ru" ensafuorthinne) . Wy hawwe perfoarst in kopy fan al dizze kameraden op VKontakte. Wy hawwe minsken op VKontakte - dat is 430 miljoen fan elkenien dy't ea bestien hat (wêrfan sawat 200 miljoen konstant aktyf binne); der binne groepen, der binne ferbinings tusken dy minsken en der is ynhâld dy’t ús ynteresseart (tekst), en in part fan de media, mar hiel lyts... Rûchwei sjoen sjogge wy nei dizze foto: as der gesichten binne, wy bewarje se, as d'r in meme is, bewarje wy se Wy bewarje it net, om't sels wy net genôch hawwe om de mediaynhâld te bewarjen.

    Der is in Russysk-talige Facebook. Earne no binne 60-80% Odnoklassniki, oer in pear moannen sille wy se wierskynlik allegear oan it ein krije. Russysk Instagram. Foar al dizze sosjale netwurken binne d'r groepen, minsken, ferbiningen tusken har en tekst.

  • Sa'n 400 miljoen minsken. Der is in subtiliteit: der binne minsken waans stêd is net oantsjutte (se binne mooglik Russysk / net-Russysk); Dêrfan is it gemiddelde foar sosjale netwurken 14% fan sletten akkounts op VKontakte, ik wit it krekte sifer op Facebook net.
  • Wy bewarje ek gjin media op Instagram - allinich as d'r gesichten binne. Wy bewarje sokke (oare) media-ynhâld net. Meastal nijsgjirrich: allinnich tekst, ferbinings tusken minsken; Alle. It meast foarkommende ûndersyk op Instagram is it gewoane ûndersyk nei it publyk: wa't dizze minsken binne, en, it wichtichste, de ferbining fan dizze minsken mei oare sosjale netwurken. Fyn it profyl fan dizze persoan op Vkontakte en Facebook om syn leeftyd te berekkenjen ensafuorthinne.
  • D'r is noch gjin need om elkenien op te nimmen - gewoan om't d'r gjin klanten binne. Oangeande de taal: wy hawwe Russysk, Ingelsk, Spaansk, mar dochs wurdt dit allinnich brûkt foar merken út Ruslân; well, of de bedriuwen dy't bringe se út Ruslân.
  • Wy ynterviewe minsken alle dagen yn in protte, in protte, in protte threads: wy sammelje gegevens troch it web te sammeljen, en aktualisearje dizze yndikatoaren mei Api. Yn 2-3 dagen kinne jo gean troch de hiele "VKontakte", gean troch harren; Oer in wike kinne jo troch it gehiel fan Facebook gean, begripe wa't wat bywurke hat en wat net. En set dy minsken dan apart wer byinoar: wat is der krekt feroare, skriuw dit hiele ferhaal op. Hiel selden yn myn ûnderfining is it âlde sosjale mediaprofyl fan immen brûkt foar wirklik saaklik doel. Dit wie de tiid dat ien politike figuer oanfrege, en syn taak wie om te begripen wat foar minsken nei it haadkertier komme, wa't dizze minsken wiene 6-8 moannen lyn (hawwe se har profyl wiske, mar feitlik foar in oare kandidaat kamen stimbiljetten oan bedjerre).

    En in pear kear - persoanlike ferhalen doe't immen syn foto's waarden publisearre yn it publike domein. It wie nedich om ferbinings te finen, ensfh Spitigernôch is it spitich, mar wy kinne net tsjûgje yn 'e rjochtbank, om't ús databank juridysk illiquid is.

  • MongoDB opslach is myn favoryt.

Sosjale netwurken besykje it sammeljen fan gegevens te bestriden

  • Meastentiids uploade wy allinich in list fan dizze akkounts nei advertearders, en dan brûke se de standert ... Dat is, op sosjale netwurken, op VKontakte kinne jo in list fan dizze minsken opjaan.

    Mar Facebook brûkt kocht cookies. Wy sels wurkje net mei cookies, mar d'r wiene ferskate ferhalen doe't de advertearder sels guon minsken joech, wy ynteraksje mei har - se hawwe dizze netwurken, mei teaser, non-teaser reklame, dizze "cookies". Jo kinne it bine - gjin fraach! Mar ik hâld net echt fan dit spul, om't ik net tink dat it heul autentyk is. Dit is suver nei myn miening, it is lykas TNS, dy't tv's "trackt" - it is net dúdlik oft jo dizze tv sjogge of net, oft jo de skûtel waskje wylst jo tv oan is ... En it is hjir itselde : Ik googel hiel faak wat op ynternet, mar dat betsjut net dat ik it keapje wol.

  • As jo ​​​​in soarte fan standert kontekstuele advertinsjenetwurk brûke: ik hie ferskate ferhalen doe't wy dizze minsken oan har laden en besochten, mei har ynterfaces, se te ferbinen mei "koekjes" op har siden. Mar ik hâld net fan sokke dingen.

Formule foar it berekkenjen fan it salaris fan in ynternetbrûker

  • De algemiene formule foar it gemiddelde salaris: dit is de regio wêr't in persoan wennet, dit is de kategory fan bedriuw wêryn hy wurket (dat is it bedriuw dat syn wurkjouwer is), dan wurdt syn posysje yn dit bedriuw nommen, it gemiddelde salaris foar dizze posysje wurdt rûsd ... Gemiddelde salaris nommen út "Head Hunter" en "Superjob" (en der binne ferskate oare boarnen) foar in opjûne fakatuere yn in opjûne regio en foar in opjûne saaklike kontekst.

    Ut "Avito" en "Avto.ru" ekstra parameters wurde meastal nommen as in persoan hat ferljochte de telefoan. Mei Avito kinne jo sjen hokker soarte dingen in persoan ferkeapet - djoer, goedkeap, brûkt, net brûkt. Mei "Avto.ru" kinne jo sjen oft hy in auto hat - hy hat it, hy hat it net. Dit is earne minder dan 20% fan minsken dy't per ongelok har tillefoan earne falle, en har akkount kin wurde keppele oan dizze gegevens.

Hokker folumes wurket it bedriuw foar gegevenssammeling?

  • It folume fan opsleine foto's yn petabytes is 6,4. Ik kin no krekt it groeitempo net sizze, want yn 2016 binne wy ​​​​begûn mei opnimmen fan "periskopen" en binne gewoan begon mei it opnimmen fan fideo.

    Ik kin net sizze krekt wannear't it wie nul. Wy ferhuze fan bedriuw nei bedriuw - dit binne allegear lange ferhalen. Mar ik kin sizze dat VK, Facebook, Instagram en Twitter - al dit bedriuw (minsken, groepen en ferbiningen tusken harren) mei tekst en ynhâld - dit is eins net in soad gegevens, it is net wierskynlik dat sels in petabyte genôch hat. Ik tink dat it 700 gigabyte is, wierskynlik 800.

Helpje jo kliïnten om de hjoeddeistige niche te bepalen en wêr't te graven?

  • As der in klant komt, stelle wy him sokke dingen foar, mar wy dogge sels, lykas Google Trends, sokke dingen net.
  • Wy hienen ferskate hast sosjologyske ferhalen, mei ferkiezingsskiednis, pre-ferkiezingsskiednis - wy analysearren it allegear. Mei merken en it beoardieljen fan mieningen oer merken komt alles hast altyd oerien. Hjir binne ferkiezings-ferkiezingsferhalen - nee (mei in beoardieling fan hokker kandidaat winne moat). Ik wit net wa't hjir ferkeard is - ús, of dyjingen dy't tinke yn VTsIOM.
  • Meastentiids nimme wy dizze kontrôleresultaten fan it merk sels, se nimme it fan kameraden dy't ûndersyk bestelle - tillefoanûndersyk, marketingûndersyk, ensfh. Plus, dit hiele ding kin wurde kontrolearre mei basis dingen: immen antwurde de mailinglist, immen die enkêtes ... As it is in grut merk (Coca-Cola, bygelyks), se hawwe grif in miljoen of twa ynterne resinsjes fan klanten - dit binne net allinich opmerkings op sosjale netwurken en guon mieningen; Dit binne in soarte fan ynterne systemen, resinsjes, ensfh.

De wet "wit" net wat persoanlike gegevens binne!

  • Wy analysearje eksklusyf iepen gegevensboarnen en wurde noait belutsen by smoarge trúkjes. Us model is boud op it feit dat wy alle iepen gegevens yn guon iepenbiere datasintra opslaan, it earne oars hiere, en it thús analysearje, op ús kantoaren, yn ús servers, en it giet net oeral bûten it territoarium.

    Mar ús wetjouwing op it mêd fan iepen gegevens is tige ûndúdlik.

    Wy hawwe gjin dúdlik begryp fan wat iepen gegevens binne, wat persoanlike gegevens binne - d'r is dizze 152e federale wet, mar dochs ... Hoe telle se? No, as ik jo namme en jo telefoannûmer yn ien databank haw, yn in oare databank haw ik jo tillefoannûmer en jo e-post, yn in tredde haw ik bygelyks jo e-post en jo auto; Dit alles liket net-persoanlike gegevens te wêzen. As jo ​​dit alles byinoar sette, liket it derop dat it neffens de wet persoanlike gegevens wurde.

    Wy komme om dit op twa manieren. De earste is om in server te ynstallearjen mei software foar de kliïnt, en dan geane dizze gegevens net bûten syn grûngebiet, en dan is de kliïnt ferantwurdlik foar de distribúsje fan dizze persoanlike gegevens, net-persoanlike gegevens, ensfh. Of de twadde opsje: as dit in soarte fan ferhaal is wêr't jo in sosjaal netwurk of wat oars moatte oanklage ...

    Wy hienen sa'n stúdzje doe't wy sammelje (d'r wiene foarferkiezings fan Feriene Ruslân) foar Lifenews de akkounts fan dizze kameraden en seagen nei hokker soarte porno se leuk hienen. It wie in grappich ding, mar dochs. Wy ferkeapje dit as ús eigen, persoanlike miening, sûnder wetlik iepenbier te meitsjen yn 'e dokuminten wat wy analysearren - it Unified State Register fan Juridyske Entiteiten, salarissen, sosjale netwurken; Wy ferkeapje saakkundige miening, en dan op 'e sydline ferklearje wy de persoan wat wy analysearren en hoe.
    D'r wiene ferskate ferhalen, mar se wiene relatearre oan guon iepenbiere kommersjele projekten. Wy hawwe bygelyks in fergees non-profit projekt foar dyjingen dy't longboards ride (soksoarte boards binne lang): de taak wie om publikaasjes fan minsken te sammeljen - as immen "Ik gie nei Gorky Park foar in ritsje." En no moat er op de kaart komme, en de minsken om him hinne kinne sjen dat der ien by him is. VK stiek de hollen mei ús oer dit ûnderwerp foar in heul lange tiid, om't se it feit net leuk hienen dat wy dizze ynformaasje publisearje sûnder tastimming fan minsken. Mar doe kaam de saak net foar de rjochter, want binnen ferskate grutte mienskippen ha wy oan de regels tafoege dat de gegevens brûkt wurde koene troch tredden, ynstânsjes, bedriuwen, analyzes ensfh Fansels wie it net bysûnder etysk, mar dochs.

  • Wy realisearre it krekt op 'e tiid en begon ús saakkundige miening oan elkenien te ferkeapjen.

Wurkje jo mei ûnderwiisynstellingen?

  • Wy wurkje gear mei ûnderwiisynstellingen, ja. Wy hawwe in hiele oanbod: wy hawwe in masteroplieding op de Hegerskoalle, en wy wurkje gear mei oare universiteiten. Wy hâlde in protte fan universiteiten!
  • As jo ​​​​myn kontakten hawwe, kinne jo my skriuwe. En in keppeling nei de presintaasje, as immen ynteressearre is - al dizze foarbylden binne der, jo kinne it ferpleatse.
  • As jo ​​witte it telefoannûmer, mail - dit is hast hûndert prosint opsje, gjinien sil fuortsmite. As der gjin telefoannûmer is, is it normaal in foto; as der gjin foto is, is it it jier, wenplak, baan. Dat is, troch jier, wenplak en wurk, hast elkenien kin altyd frij subtyl identifisearre wurde. Mar dit is wer in fraach oer de taak.

    Wy hawwe bygelyks in klant dy't ynternettelevyzje ferkeapet. Immen kocht in abonnemint op dizze "Games of Thrones" fan har, en de taak is om har CRM te brûken om dizze minsken te finen op sosjale netwurken, en dan potinsjele te finen út har gebiet fan ynfloed. Ik bedoel gewoan dat se bygelyks in foarnamme, efternamme en e-mailadres hawwe... En dan is it hiel lestich om wat te dwaan. Yn 'e measte gefallen binne minsken te finen fia e-post.

  • Op grûn fan 'e gearstalling fan ús freonen "oerienkomme" wy meastentiids minsken op sosjale netwurken, mar dit is net altyd korrekt. It is net dat it net altyd goed is - it wurket net altyd. As earste, dit freget in soad arbeid, om't dizze operaasje (oerienkommende minsken) sil moatte wurde útfierd earst foar elk fan 'e freonen - om te begripen oft se kamen út sosjale netwurken of net. En dan - in ûnbekend feit foar elkenien dat wy op VKontakte deselde freonen hawwe, op Facebook hawwe wy ferskate freonen. Net foar elkenien, mar foar my is it bygelyks sa; en dit is ek wier foar de measte minsken.

Hoe wurde de meast folsleine gegevens sammele?

  • It ynstallearjen fan software foar de klant oan syn kant. In server is ynstalleare op har, dy't allinich iepenbiere gegevens fan ús nimt en har persoanlike gegevens yntern ferwurket. In NDA wurdt ôfsletten mei de klant. Dit is fansels net hiel korrekt dat se dit oan ús oerdrage, mar de wetlike ferantwurdlikens leit by de klant - goed, dat is it ynstallearjen fan software foar him, of it oerdragen fan anonime gegevens. Mar dat wie tige seldsum, om't - krekte of ferkearde anonymisaasje - yn de measte gefallen de ôfhinklikens tusken dizze minsken ferlern giet.

Wa keapet software foar gesichtsherkenning?

  • Wy geane hjir eins om't ús haadsoftware dy't wy ferkeapje is gesichtssykjen, korrelaasjeanalyse, en wy ferkeapje it oan oerheidsynstânsjes. En oardel jier lyn hawwe wy besletten dat wy al dizze ferhalen yn reklame, yn marketing, yn 'e publike merk soene sette - dit is hoe't Social Data Hub, in kommersjele juridyske entiteit, waard foarme. En no komme wy hjir mar. Wy hingje hjir al oardel jier út en besykje minsken út te lizzen dat it net nedich is om minsken downloads te jaan mei in fermelding, dat se antwurden krije moatte op fragen, dat der gjin ferlet is fan tonaliteit , ensafuorthinne. Dus it is lestich te sizzen wêr't ...
  • (Wa bedoele jo?) Oan alle kameraden dy't sykje moatte nei terroristen en pedofielen.
    Ik kin daliks sizze (dit sil de folgjende fraach wêze): neffens ús gegevens waarden gjin learkrêften finzen set foar repost.
  • Op VKontakte - 14%; op Facebook is d'r gjin sletten profyl as sadanich (d'r is in sletten list fan freonen, ensafuorthinne). En it meast nijsgjirrige is dat ik krekt in berjocht skreau - no sille se telle en sizze.

Post net wat jo sille skamje!

  • Pleats neat op sosjale netwurken dat jo skamje soe - ik folgje dit persoanlik. Hoewol't ik hie in protte persoanlike, om't ik swarre op Facebook. No, der wie en der wie wat te dwaan ... Net post neat dat soe wêze beskamsume! As jo ​​letter earne yn de Iepenbiere Keamer oan it wurk geane, ja, it is better om gjin kommentaar te jaan. As jo ​​​​dit net sille dwaan, yn 't algemien, makket gjinien der út. Ik kin jo allinich fersekerje dat gjinien jo persoanlike korrespondinsje lêst, en dit alles bouwt dit heule ferhaal op ...

    Elke wike komt der perfoarst ien nei my ta en seit: "No, de foto's fan myn freon binne lekke nei in anonime iepenbiere side! Help! Trouwens, nea wat publisearje op anonime iepenbiere siden.

  • Ik wit net oer oare monitoaringssystemen - wy sille dit perfoarst rekken hâlde, dat de fermelding fan it merk negatyf wie, God ferjou my ... Mar ik kin sizze dat allerhande near-state kameraden allinich ynteressearre binne yn minsken dy't in publyk fan mear as 5 tûzen hawwe, en har publike miening kin immen beynfloedzje. Yn myn ûnderfining is it noait bard dat it HR-buro dat profylbeoardielingen fan ús bestelt sei: "Wa't fan Navalny hâldt, nim gjinien oan!"

Oer it publisearjen fan de resultaten. Hoefolle minsken wurkje yn ûndersyk?

  • Fan de top 10 reklamebedriuwen publisearje no sân. It is dreech om te sizzen: doe't wy dit in jier en in heal lyn begûnen ... Wy hawwe ferskate minsken yn elk gebiet - d'r binne ferskate minsken yn banken, d'r binne ferskate minsken yn HR, d'r binne ferskate minsken yn reklame. En no tinke wy oer wa't mear rendabel is om earst te gean, foar wa't wy moatte begjinne mei it meitsjen fan wat ynterfaces ...
  • (oer it tal minsken per merksegment) Net mear as 25 minsken, want wy hawwe gjinien ferkrêfte.
  • Yn 't algemien wurde dizze technologyen fan' e merk yn prinsipe brûkt, tink ik, mear as 50%. Guon yn reklamekampanjes, guon yn in soarte fan ynterne analytyk. Ik soe sizze dat 40 prosint it brûkt yn ynterne analytiken, 50-60% ferkeapet it om merken te einigjen. Mar dat hinget al fan de reklamebedriuwen sels ôf. Jo sjogge, guon minsken melde gewoan foar it jild dat se útjûn hawwe, de reklame dy't se ynstutsen hawwe, wylst oaren skriuwe hoefolle minsken se brochten, wat foar publyk ... Ik soe it sizze, mar ik kin it mis hawwe - ik wit net echt yntinke hoe't al dizze kameraden wurkje. Ik wit allinnich yn kwantitative gegevens.

Guon advertinsjes 🙂

Tankewol foar it bliuwen by ús. Hâld jo fan ús artikels? Wolle jo mear ynteressante ynhâld sjen? Stypje ús troch in bestelling te pleatsen of oan te befeljen oan freonen, wolk VPS foar ûntwikkelders fan $ 4.99, in unike analoog fan servers op yngongsnivo, dy't troch ús foar jo útfûn is: De hiele wierheid oer VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps fan $19 of hoe te dielen in tsjinner? (beskikber mei RAID1 en RAID10, oant 24 kearnen en oant 40GB DDR4).

Dell R730xd 2 kear goedkeaper yn Equinix Tier IV data sintrum yn Amsterdam? Allinne hjir 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV fan $199 yn Nederlân! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - fan $99! Lêze oer Hoe kinne jo Infrastructure Corp. klasse mei it brûken fan Dell R730xd E5-2650 v4 tsjinners wurdich 9000 euro foar in penny?

Boarne: www.habr.com

Add a comment