Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Þann 14. mars 2017 talaði Arthur Khachuyan, forstjóri Social Data Hub, á BBDO fyrirlestrinum. Arthur talaði um snjallt eftirlit, að byggja upp hegðunarlíkön, þekkja mynd- og myndbandsefni, sem og önnur Social Data Hub verkfæri og rannsóknir sem gera þér kleift að miða á markhópa með því að nota samfélagsnet og Big Data tækni.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Arthur Khachuyan (hér eftir – AH): - Halló! Hæ allir! Ég heiti Arthur Khachuyan, ég rek fyrirtækið Social Data Hub og við erum að fást við ýmsar áhugaverðar vitsmunalegar greiningar á opnum gagnaveitum, upplýsingasviðum og gerum alls kyns áhugaverðar rannsóknir og svo framvegis.

Og í dag báðu samstarfsmenn frá BBDO Group okkur að tala um nútímatækni til að greina stór gögn, stór og ekki svo stór gögn fyrir auglýsingar: hvernig þau eru notuð, sýndu nokkur áhugaverð dæmi. Ég vona að þú spyrjir spurninga í leiðinni, því ég get orðið leiðinleg og ekki opinberað kjarnann og svo framvegis, svo ekki vera feimin.

Reyndar eru helstu leiðbeiningarnar, hvar alltaf einhvers konar „nánast stór-gögn“ lausnir voru notaðar,“ þær eru allar skýrar - þetta er markhópsmiðun, greining, framkvæmd einhvers konar greinandi markaðsrannsókna. En það er alltaf áhugavert hvaða viðbótargögn er að finna, hvaða viðbótarmerkingu er hægt að finna eftir að greiningunni er beitt.

Af hverju þurfum við tækni til að auglýsa?

Hvar byrjum við? Það augljósasta er að auglýsa á samfélagsmiðlum. Í dag tók ég það af mér í morgun: af einhverjum ástæðum finnst VKontakte að ég ætti að sjá þessa tilteknu auglýsingu... Hvort hún er góð eða slæm er önnur spurningin. Við sjáum að ég falli örugglega í flokk herskylduliða:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Það allra fyrsta og áhugaverðasta sem hægt er að taka sem tæknilausn... Það fyrsta sem ég vildi ákveða áður en við byrjum er að skilgreina hugtökin: hvað eru opin gögn og hvað eru stór gögn? Vegna þess að allir hafa sinn eigin skilning á þessu máli, og ég vil ekki þröngva skilmálum mínum upp á neinn, en... Bara svo að það sé ekkert misræmi.

Persónulega held ég að opin gögn séu það eina sem ég get náð án þess að hafa notandanafn eða lykilorð. Þetta er opinn prófíll á samfélagsnetum, þetta eru leitarniðurstöður, þetta eru opnar skrár o.s.frv. Stór gögn, samkvæmt mínum skilningi, sé ég þetta svona: ef það er gagnaplata, þá er það milljarður raða, ef það er einhvers konar af skráargeymslu, það er einhvers staðar petabyte af gögnum. Restin í hugtökum mínum er ekki stór gögn, heldur eitthvað svoleiðis.

Hánákvæmni prófílgreining og prófílskorun

Förum í röð. Það allra fyrsta og áhugaverðasta sem þú getur fundið út úr því að greina opna gagnagjafa er nákvæm snið og prófílskor. Hvað er þetta? Þetta er saga þar sem samfélagsnetsreikningurinn þinn getur ekki aðeins sagt fyrir um hver þú ert, ekki aðeins áhugamál þín.

En núna, með því að sameina ýmsar heimildir, geturðu skilið meðallaunin þín, hvað íbúðin þín kostar og hvar hún er staðsett. Og öll þessi gögn er hægt að nota bókstaflega með tiltækum hætti. Til dæmis, ef þú tekur reikninginn þinn á félagslegu neti, skoðaðu, segðu, hvar þú býrð, hvar þú vinnur; skilja í hvaða hluta fyrirtækisins fyrirtækið sem þú vinnur hjá er; hlaða niður svipuðum lausum störfum frá HH og „Superjob“ ef þú ert sérfræðingur, framkvæmdastjóri osfrv.; skoðaðu hvar þú býrð (grunn, segðu CIAN), skildu hversu mikið það kostar að leigja heimili á þessum stað, hversu mikið það kostar að kaupa heimili á þessum stað, spáðu um það bil hversu mikið þú færð. Ennfremur, með því að nota félagslega netin þín, geturðu skilið hversu mikið þú ferðast, hvar þú ert og hversu tryggur þú ert vinnuveitanda þínum.

Í samræmi við það, út frá svo miklum fjölda mæligilda, getum við gert allt sem við viljum. Við getum kynnt þér vöru sem vekur áhuga þinn. Geturðu ímyndað þér netverslun? Þú ferð þangað - þessi netverslun grípur reikninginn þinn á samfélagsneti og segir þér: "Masha, þú hættir bara með kærastanum þínum, hér eru nokkrar ákveðnar vörur fyrir þig." Þetta er ekki á næstunni...

Hvernig er landfræðileg staðsetning einstaklings ákvörðuð?

Svör við spurningum úr sal:

  • Venjulega eru 80% af öllum innritunum talin vera nákvæmlega búsetustaðurinn. En fyrir fólk sem skráir sig hvergi inn, þá eru nokkrir möguleikar: annað hvort innritun eða landfræðileg staðsetning, eða þetta er greining á færslum og ritum fyrir allan þann tíma sem einstaklingur skrifaði eitthvað... Og einhvers staðar, eitthvað mun skjóta upp kollinum eins og "Mig langar að kaupa kerru nálægt Akademicheskaya" eða "Ég sá nýlega ljótt veggjakrot á veggnum hér." Það er, fyrir næstum 80% fólks er hægt að ákvarða landfræðilega staðsetningu þeirra, vinnustað og búsetu með því að nota gögn eða lýsigögn sem hægt er að safna af samfélagsnetum.

    Þetta er aftur greining á færslum. Í einfaldasta skilningi er þetta greining á innritunum og landfræðilegum staðsetningum á samfélagsnetum, sem eyða ekki jpeg lýsigögnum (þú getur fundið eitthvað út úr því). En fyrir fólkið sem eftir er eru þetta venjulega textaútsendingar: annað hvort „skínir“ einstaklingur staðsetningu sína þegar hann skrifar um eitthvað, eða hann „læsir“ símann sinn, þar sem þú getur fundið eitthvað af auglýsingum hans á Avito eða reikninginn hans á " Auto HR". Byggt á þessum gögnum geturðu sameinað (til dæmis "Ég er að selja bíl nálægt Mayakovskaya") og í grófum dráttum gert ráð fyrir þessu.

  • Fólk birtir þetta venjulega á samfélagsmiðlum. Við vinnum eingöngu með opna heimildir og hér erum við eingöngu að tala um opna heimildir. Þeir birta venjulega auglýsingar, það er að segja í sextíu prósent tilvika, algengasta sagan þegar fólk „sýnir“ núverandi farsímanúmerið sitt eru auglýsingar um sölu á einhverju. Annað hvort í sumum hópum skrifar maður ("ég sel þetta eða hitt þar") eða fer eitthvað.

    Já! Þeir tjá sig venjulega eins og: „Svaraðu mér eða sendu mér SMS, hringdu í númerið mitt. Þetta gerist mjög oft fyrir fólk sem selur eitthvað, kaupir eitthvað á samfélagsnetum, hefur samskipti við einhvern... Með því að nota þetta númer geturðu tengt prófílinn hans á CIAN við það, ef hann hefur einhvern tíma birt eitthvað, eða aftur, á Avito. Þetta eru einfaldlega vinsælustu, efstu heimildirnar, það verður lengra komið - þetta eru Avito, CIAN og svo framvegis.

  • Hér er átt við netverslun. Næst verður tæknin við andlitsgreiningu og samsvörun sniðs (við munum tala um það). Hreint fræðilega séð er hægt að nota þetta á ónettengda verslun. Og almennt séð er stóri draumurinn minn að þegar götuborðar birtast, þegar þú gengur framhjá myndavél, þá „heldur“ það andlit þitt. En þetta mál verður bannað með lögum vegna þess að það er brot á friðhelgi einkalífs. Ég vona að það gerist fyrr eða síðar.
  • Af persónulegri reynslu. Mjög oft, þegar maður skrifar eitthvað til þín, þá vinnur þú á einhverjum staðreyndum úr lífi hans sem þú ættir ekki að vita... Fólk verður í flestum tilfellum hræddur. En! Miðað við nýlegar tölur hefur fjöldi lokaðra reikninga á samfélagsnetum fækkað um 14%. Fölsunum fjölgar, opnum reikningum fjölgar - fólk færist í auknum mæli í átt að hreinskilni. Ég held að eftir 3-4 ár muni þeir hætta að bregðast svo hart við því að einhver viti upplýsingar um þá sem þeir ættu hugsanlega ekki að vita. En það er í raun mjög auðvelt að komast með því að horfa á vegginn hans.

Hvað er hægt að taka úr opnum heimildum?

Það er áætlaður listi yfir hluti sem hægt er að skilja með nokkuð miklum áreiðanleika frá opnum heimildum. Í raun eru enn fleiri mismunandi mælikvarðar; það fer eftir viðskiptavinum slíkra rannsókna. Það er einhver mannauðsstofnun sem hefur áhuga á því hvort þú blótar á samfélagsmiðlum eða einhvers staðar í opinberu rými. Einhver hefur áhuga á því hvort þér líkar við útgáfur Navalny eða öfugt, útgáfur Sameinað Rússlands, eða einhvers konar klámfengið efni - slíkt gerist nokkuð oft.

Þau helstu eru fjölskyldugildi, áætlaður kostnaður við íbúð, heimili, leit að bíl og svo framvegis. Út frá þessu má skipta fólki í þjóðfélagshópa. Þetta eru Moskvu Tinder notendur, hverjir þeir eru (samkvæmt myndum þeirra sem finnast á Facebook reikningum þeirra); út frá áhugasviðum sínum er þeim skipt í ýmsa þjóðfélagshópa:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Ef við færumst nær auglýsingum, þá höfum við farið hægt og rólega frá venjulegri auglýsingamiðun, þegar þú velur á VKontakte að þú hafir áhuga á 18 ára körlum sem eru áskrifendur að ákveðnum hópum. Ég á þessa mynd næst, ég skal sýna þér núna:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Niðurstaðan er sú að flestar núverandi þjónustur sem greina, í grundvallaratriðum, fólk sem greinir samfélagsnet, tekur þátt í að greina áhugamál... Það fyrsta sem kemur upp í huga fólks er að greina efstu hópa áskrifenda sinna. Kannski virkar þetta fyrir suma, en persónulega held ég að það sé í grundvallaratriðum rangt. Hvers vegna?

Líkunum þínum er safnað og greind

Taktu nú símana þína, skoðaðu efstu hópana þína - það verða örugglega meira en 50% hópa sem þú hefur þegar gleymt, þetta er einhvers konar efni sem kemur þér í raun ekkert við. Þú neytir þess alls ekki, en engu að síður mun kerfið rekja þig samkvæmt þeim: að þú hafir gerst áskrifandi að uppskriftum, að sumum vinsælum hópum. Það er, þú munt brjóta í bága við kerfið sem greinir prófílinn þinn og hagsmunir þínir verða ekki réttlættir.

Áfram... Hvað er þarna? Við gerum ráð fyrir því sem aðrir eru að gera. Að okkar mati er fullnægjandi leiðin til að meta hagsmuni notenda líkar. Til dæmis, á VKontakte er ekkert líkar straumur og fólk heldur að enginn viti hvað þeim líkar. Já, sum líkin eru kynnt á Instagram, við sjáum eitthvað á Facebook en megnið af efni í ákveðnum hópum sendir þetta ekki út í sameiginlegu straumi og fólk lifir og heldur að enginn muni vita hvað þeim líkar.

Og með því að safna ákveðnu efni af einhverju tagi sem vekur áhuga okkar, safna þessum færslum, safna þessum lækum og athuga síðan þennan aðila með því að nota þennan gagnagrunn, getum við ákvarðað með mikilli nákvæmni hver hann er, hver örlög hans eru, hverju hann hefur áhuga á. Settu hann nákvæmlega í ákveðinn félagslegan hóp og átt samskipti við hann.

Að kaupa bíl breytir hegðun

Ég á svona dæmi. Ég tek strax fyrirvara um að dæmin mín séu nálægt auglýsingum og næstum markaðssetningu, vegna þess að þú veist, flest mál eru vernduð af NDA og svo framvegis. En það verður samt margt áhugavert. Svo, sagan með þetta fólk: þetta eru menn sem keyptu bíl á árunum 2010 til 2015. Hvernig félagsleg hegðun þeirra á netinu hefur breyst er gefið til kynna með lit. Hlutfall stúlkna meðal áskrifenda hefur breyst, ég gerðist áskrifandi að „strákalegum“ opinberum síðum, fann fastan bólfélaga...

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Allt þetta mál er sundurliðað eftir bílategundum og fjölda fólks. Héðan er hægt að draga margar áhugaverðar ályktanir um hegðun fólks og hvernig þetta virkar allt saman. Ég get sagt að Porsche Cayenne og gróðursettur Priora séu nánast eins hvað varðar fjölda áhorfenda. Gæði þessa áhorfenda og hegðun þeirra eru mismunandi, en magnið er nokkurn veginn það sama. Ályktunin sem þú getur dregið héðan er hvað sem þú vilt, nær markaðnum þínum. Ef þú selur Audi, býrðu til slagorðið "Kauptu Audi og farðu frá foreldrum þínum!" og svo framvegis.

Já, þetta er fyndið dæmi um það að hegðun fólks sem byggir á greiningu á like, byggt á því í hvaða hóp það flytur, hvaða efni það greinir - með næstum 100% líkum kemur það skýrt fram hver þú ert. Vegna þess að ef þú hefur ekki aðgang að netumferð og lest ekki persónuleg skilaboð, munu likes alltaf segja þér hver þessi manneskja er - ólétt kona, móðir, hermaður, lögreglumaður. Og fyrir þig, sem getur auglýst, er þetta mikið högg á markið.

Svör við spurningum úr sal:

  • Hver dálkur er fjöldi fólks í þessum bíl; hvernig hegðunarmynstur þeirra hefur breyst. Sjáðu: fólk sem keypti Porsche Cayenne - um það bil 550 manns (gult), hlutfall stúlkna meðal áskrifenda hefur aukist.
  • Úrtakið er notendur samfélagsnetanna „Vkontakte“, „Facebook“, „Instagram“ frá 2010 til 2015. Eina skýringin: bílarnir sem valdir eru hér eru þeir sem hægt er að bera kennsl á á ljósmyndum með meira en 80% nákvæmni með tilteknum verkfærum.
  • Á tilteknu tímabili var bíllinn hans (jæja, það er ekki hans, við látum það eftir samfélagsnetum)... Á vissum tíma var maður stöðugt myndaður með bílnum, var með honum, útgáfurnar voru mismunandi, myndirnar voru frá mismunandi sjónarhornum og svo framvegis. Það verður síðan mynd af því hvaða fólk er að taka myndir með hvaða bílum og... Já, þetta er önnur spurningin - traust á gögnum á samfélagsnetum.
  • Þar sem við tókum það upp, því miður, eru gögn á samfélagsmiðlum ekki alltaf réttar. Fólk hefur ekki alltaf tilhneigingu til að birta upplýsingar sínar. Persónulega framkvæmdi ég slíka rannsókn: Ég bar saman fjölda útskriftarnema í Moskvuháskólum við fjölda fólks sem er skráð á samfélagsmiðlum. Að meðaltali eru 60% fleiri skráðir á samfélagsmiðla - útskrifaðir frá Moskvu State University á tilteknu ári í ákveðnum sérgreinum - en raun ber vitni. Svo já - það er náttúrulega hlutfall af villum hér og enginn leynir því. Hér er einfaldlega lagt til grundvallar þá bíla sem hægt er að bera kennsl á með meira en 80% líkum.

Listi yfir heimildir fyrir líkanaþjálfun

Hér er sýnishorn af heimildum sem hægt er að nota, sem er notað til að ákvarða með mikilli vissu félagslegan prófíl einstaklings, hver hann er.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Við tökum prófíl frá samfélagsnetum, frá CIAN - kostnaður við íbúð er um það bil "Head-Hunter", "Superjob" - þetta eru meðallaun fyrir tiltekinn einstakling. Ég vona að það séu engir Head Hunter fulltrúar hér, því þeir telja að það sé ekki mjög gott að taka þessi gögn frá þeim. Hins vegar eru þetta meðallaun á ákveðnum svæðum fyrir ákveðnar tegundir starfsemi fyrir laus störf.

„Avito“, „Avto.ru“: mjög oft, þegar kveikt er á símanum þeirra, hefur það hann örugglega (í mörgum tilfellum) að minnsta kosti eitthvað á „Avito“ eða á „Avto.ru“ eða á öðrum nokkrum síðum þar sem þú getur skilið hverjir þeir eru. Ef kerra eða bíll var seldur í þessum síma... Rosstat og Sameinað ríkis lögaðilaskrá eru enn fleiri skrár með hjálp sem þú getur raðað fyrirtækinu sem vinnur - samkvæmt einhverri formúlu, samkvæmt líkani sem allir manneskja getur stillt (þú getur gróflega ákvarðað peninga þessa einstaklings o.s.frv.).

Tinder hjálpar til við að safna upplýsingum um aðstæður fólks

Auk þess er svo áhugaverður hlutur (að öðrum kosti er það mjög fyndið í rannsókninni) - þetta er, aftur, gagnasöfnun frá Moskvu Tinder með því að nota vélmenni fyrir þetta Tinder. Fjarlægðin til fólks var ákvörðuð og síðan var áætluð staðsetning þeirra ákveðin.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Markmið þessarar rannsóknar var að ákvarða fjölda Tinder reikninga á yfirráðasvæði ríkisstofnana - í Dúmunni, skrifstofu saksóknara og svo framvegis. En þú, sem auglýsandi, getur ímyndað þér hvað sem þú vilt: það gæti verið til dæmis Starbucks eða einhver annar... Það er að segja hversu margir á Tinder drekka kaffi hjá þér, panta eitthvað, eru í verslunum Varðandi þessa landfræðilega staðsetningu: þetta er hægt að gera með hvaða þjónustu sem er.

Svar við spurningu úr sal:

  • Tinder? Þú veist ekki? Tinder er stefnumótaforrit þar sem þú skoðar myndir (vinstri-hægri) og þetta app sýnir þér fjarlægðina til viðkomandi. Ef þú færð fjarlægðina til þessa einstaklings frá þremur mismunandi stöðum geturðu um það bil (+ 5-7 metrar) ákvarðað staðsetninguna. Í þessu tilviki, fyrir ákvörðun á yfirráðasvæði saksóknara eða Dúmunnar, er það ekki svo erfitt. En aftur, það gæti verið verslunin þín, hún gæti verið hvað sem er.

Til dæmis, fyrir löngu, löngu síðan lentum við í slíku tilviki (ekki rannsókn), þegar við fengum frá einum farsímafyrirtækinu gögn um umferðarþéttleika, gögn um þéttleika hreyfingar farsímapunkta og allar þessar upplýsingar voru lagðar ofan á á hnit auglýsingaskilta sem staðsett eru á þjóðvegum . Og verkefni farsímafyrirtækisins er að ákvarða um það bil hversu margir fara framhjá og gætu hugsanlega séð þessa auglýsingaskilti.

Ef það eru auglýsingaskilti sérfræðingar hér, geturðu sagt: það er ómögulegt að skilja með ofuráreiðanleika - einhver kemur, einhver leit ekki, einhver horfði... Engu að síður er þetta dæmi um hvernig það eru 20 milljarðar marghyrningar af þetta í Moskvu, þar sem þéttleiki þessa fólks er á klukkutíma fresti eftir ákveðnum leiðum... Þú getur séð hvað þetta fólk átti leið framhjá hverju sinni og áætlað farþegaflæðið gróflega.

Svar við spurningu úr sal:

  • Enginn gefur slík gögn. Við gerðum slíka rannsókn fyrir einn rekstraraðila; þetta er eingöngu innri saga, svo því miður er hún ekki sett fram í formi mynda. En oft eiga stórar auglýsingastofur ekki í neinum vandræðum með að hafa samband við rekstraraðila. Að minnsta kosti í Moskvu eru mörg fordæmi þegar, til dæmis, tryggingafélög leita til fyrirtækja eins og GetTaxi, sem veita ópersónulegar upplýsingar um aldur ökumanns, hvernig þeir keyra (gott - slæmt, kærulaust - nei), til að spá fyrir um. stefnur og svo framvegis. Allir glíma við þetta, en á einhverju innra stigi að gefa nafnlaus gögn - ég held að enginn hafi slík vandamál.

Mynd- og mynsturgreining

Gjörðu svo vel. Uppáhaldið mitt er myndgreining. Það verður smá þáttur um leit að fólki eftir andlitum, en við tökum að mestu leyti ekki þennan þátt. Við tökum sérstaklega myndgreiningu og ákveðum hvað er á þessari mynd - gerð bílsins, litur hans og svo framvegis.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Ég er með þetta fyndna dæmi:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Það var slík rannsókn á leit að húðflúrum á ýmsum samfélagsmiðlum. Í samræmi við það er hægt að nota það sama fyrir hvaða vörumerki sem er, hvaða sjónræna mynd sem er, nánast hvaða sjónræna mynd sem er. Það eru þeir sem ekki er hægt að ákvarða á áreiðanlegan hátt (við tökum þá ekki).

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Hér er uppáhaldið mitt. Bílamerki snúa sér frekar oft að þessu verkefni vegna þess að verkefni þeirra er til dæmis að finna alla eigendur einhverra BMW X6, skilja hverjir þeir eru, hvernig þeir tengjast hvert öðru, hverju þeir hafa áhuga á o.s.frv. Þetta tengist spurningunni um hvaða bíla fólk tekur myndir með á samfélagsmiðlum.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Hér var alls engin síun: hluturinn var þeirra, bíllinn var ekki þeirra; Þetta er bara sundurliðun bíla - aldur og svo framvegis. En sjónræn myndgreining er notuð nokkuð oft: þetta er leitin að óléttum konum og leitin að vörumerkjamerkjum í einhvers konar fjölmiðlum (hver birtir hvað).

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Uppáhaldsmálið mitt (sem er notað af ýmsum veitingastöðum): hvers konar rúllur eru settar á samfélagsnet. Þetta er fyndið, en í rauninni gerir það þér kleift að skilja margt áhugavert, í fyrsta lagi um þína eigin viðskiptavini: hverjir komu til þín og hvers vegna þeir gerðu það. Vegna þess að það er ekkert leyndarmál að á sushi börum taka flestir (ég segi ekki „stelpur“) myndir til að kíkja inn, taka mynd af einhverju o.s.frv.

Vörumerkið getur nýtt sér þetta. Vörumerkið hefur áhuga á hvers konar vörum það þarf til að mynda fallega og birta, hvers konar fólk kom þangað. Þetta er hægt að gera með næstum hvað sem er, allt frá mat.

Myndbandsmynsturþekking

Svar við spurningu úr sal:

  • Ekki á myndbandi. Við erum með það í prófunarham. Við reyndum þessa tækni, en það kemur í ljós að... Hún þekkir allt með myndbandi nokkuð vel, en við höfum ekki fundið forrit fyrir það neins staðar. Bless. Fyrir utan að greina hversu mikið og hvaða myndbandsbloggarar eru að tala einhvers staðar... Það var svona rannsókn. Hversu mörg andlit þeirra hittast, hversu oft. En vörumerki hafa ekki fundið út hvar á að koma með þetta ennþá. Kannski kemur það einhvern tíma.

Aftur, þetta er matur, það geta verið óléttar konur, karlar (ekki óléttir), bílar - hvað sem er.

Sem valkostur var nýársrannsókn fyrir einn fjölmiðil. Líka langt frá því að auglýsa, en samt. Þetta er hvers konar mat fólk fastaði um áramótin:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Það er líka sundurliðað eftir aldri hér. Þú getur séð slíka fylgni að ungt fólk pantar að mestu mat, fullorðnir búa aðallega til hefðbundið borð. Það er fyndið, en með því að ímynda þér það sem vörumerkjaeiganda geturðu metið fjölda hluta: hver meðhöndlar vöruna þína og hvernig, hvað þeir skrifa um hana. Oft nefnir fólk ekki alltaf vörumerkið sjálft í textanum og hefðbundin greiningareftirlitskerfi geta ekki alltaf skilið og fundið þessa umtalningu á vörumerkinu eingöngu vegna þess að það er ekki nefnt í textanum. Eða textinn er rangt stafsettur, það eru engin hassmerki eða neitt.

Myndirnar eru sýnilegar. Með ljósmyndun geturðu séð hvort það er miðmynd rammans eða ekki miðmynd rammans. Þá geturðu séð hvað þessi manneskja skrifaði. En oftast er það notað sem leit að hugsanlegum áhorfendum sem hafa ekið ákveðnum bílum og svo framvegis. Og svo munum við gera margt áhugavert með þessa bíla.

Bottum er kennt að líkja eftir mönnum

Það var líka slíkur möguleiki til að nota fólk að telja:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Það er möguleiki til að bera saman fólk, þegar þú þarft að finna fólk sem notar einhverjar ljósmyndir, skilja félagslegan prófíl þeirra, hver það er. Aftur snúum við okkur að þeirri spurningu að ef við erum með myndavél í verslun án nettengingar þá er þetta nokkuð góð leið til að skilja hver kemur til þín, hver þetta fólk er, hvað það hefur áhuga á, hvað varð til þess að það kom til þín .

Næst kemur það áhugaverðasta: ef við söfnum reikningum þeirra á samfélagsnetum, skiljum hver þetta fólk er, hverju það hefur áhuga á, getum við (sem valkostur) búið til botn sem líkist þessu fólki; þessi vélmenni mun byrja að lifa eins og þetta fólk og greina hvaða auglýsingar það sér á ýmsum samfélagsmiðlum. Þetta gerir þér kleift að skilja nákvæmlega hvaða vörumerki eru miðuð að þessum einstaklingi. Þetta er líka frekar algeng saga þegar þú þarft ekki aðeins að greina hver þessi manneskja er og hvaða áhugamál hann hefur, heldur líka hvers konar auglýsingar hugsanlegir keppinautar þínir eða annað áhugasamt fólk ætti að miða við.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Greining á tengingum í samfélagsnetum

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Næsta áhugaverða atriðið er greining á samskiptum fólks. Reyndar greining á tengingum í netinu, þessi netgrafík - það er ekkert smá, ekkert nýtt í þessu, þetta vita allir.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

En umsóknin um auglýsingaverkefni er áhugaverðust. Þetta er leit að fólki sem setur stefnur, þetta er leit að fólki sem miðlar upplýsingum eftir ákveðnum forsendum innan þessa nets. Segjum að við höfum áhuga á sömu eigendum ákveðinnar BMW gerð. Með því að koma þeim öllum saman getum við fundið þá sem stjórna almenningsálitinu. Þetta eru ekki endilega bílabloggarar og svo framvegis. Venjulega eru þetta einfaldir félagar sem sitja á ýmsum opinberum síðum, hafa áhuga á einhverju efni og geta á mjög skömmum tíma laðað vörumerkið þitt eða einhvern áhugaverðan inn á þetta ábyrgðarsvið, inn á sviðið áhuga.

Það er svona dæmi hér. Við erum með hugsanlegt fólk, tengsl milli fólks. Hér eru appelsínugulir fólk, litlir punktar eru sameiginlegir hópar, sameiginlegir vinir.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Ef þú safnar öllum þessum tengslum á milli þeirra, þá sérðu mjög greinilega að það er fólk sem á fjöldann allan af sameiginlegum hópum, sameiginlegum vinum, þeir eru þarna sín á milli... Og ef þessi sama sjónmynd er skipt í hópa eftir áhugamálum, eftir efni, sem þeir dreifa, hversu mikið þeir hafa samskipti sín á milli... Hér má sjá að fyrri myndin varð svona:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Hér eru hóparnir greinilega aðgreindir með lit. Í þessu tilviki eru þetta meistaranemar okkar við Hagfræðiskólann. Hér geturðu séð að fjólubláu/bláu eru þeir sem elska Transparency International, Open Russia og opinberar síður Khodorkovsky. Neðst til vinstri eru þeir grænu, þeir sem elska Sameinað Rússland.

Þú sérð að fyrri myndin var svona (þetta eru bara tengingar á milli fólks), en er orðin greinilega afmörkuð. Það er að segja að allir eru alltaf tengdir hvort öðru, þeir hafa sömu áhugamál, þeir eru vinir hvert við annað. Það eru sumir á toppnum, aðrir á botninum og sumir aðrir félagar þar. Og ef hver og einn af þessum litlu undirritum er sýndur sérstaklega með öðrum breytum og lítur á hraða efnisdreifingar (í grófum dráttum, hver endurbirtir hvað þar), geturðu fundið í hverjum hluta einn eða tvo einstaklinga sem alltaf hafa almenningsálitið í höndum sér, hafa samskipti við það, biðja um að senda einhvers konar færslu eða eitthvað annað - þú getur fengið viðbrögð frá öllum þessum áhugaverðu áhorfendum.

Ég er með annað slíkt dæmi. Einnig línurit: þetta eru starfsmenn BBDO Group sem finnast á samfélagsnetum sem dæmi. Það lítur óáhugavert út, stórt, grænt, tengingar á milli þeirra...

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

En ég hef valmöguleika þar sem hópar eru þegar byggðir á milli þeirra. Síðan, ef einhver hefur áhuga, er til gagnvirk útgáfa - þú getur smellt og skoðað.

Efst til hægri eru þeir sem elska Pútín. Hér eru þeir fjólubláu hönnuðir; þeir sem hafa áhuga á hönnun, einhverju áhugaverðu og svo framvegis. Hér eru hvítu hlutirnir stjórnendahópurinn (að því er virðist, eins og ég skil); Þetta er fólk sem almennt er ekki tengt á neinn hátt heldur vinnur í nokkurn veginn sömu stöðunum. Restin eru sameiginlegir hópar þeirra, tengingar og svo framvegis.

Vörumerki þurfa ekki bloggara, heldur álitsgjafa

Við tökum þetta fólk og finnum það - þá ákveður auglýsingastofan, auglýsingafyrirtækið sjálft: það getur gefið þessum einstaklingi peninga þannig að hann á einhvern hátt samskipti við þetta efni, eitthvað annað, eða beint eigin tilteknu auglýsingaherferð til þeirra. Þetta er líka notað nokkuð oft, sérstaklega núna, vegna þess að öll vörumerki vilja vinna með bloggurum, þau vilja að efni þeirra sé kynnt, en auglýsingastofur vilja ekki hafa samband (jæja, þetta gerist).

Og raunverulega leiðin út úr þessu ástandi er að finna fólk sem er ekki bloggarar, ekki fegurðarbloggarar, heldur til dæmis nokkrar raunverulegar verur sem hafa samskipti við þetta vörumerki, sem geta skrifað á einhverja ömurlega opinbera síðu „Mail.ru Answers“, fengið ákveðinn fjölda skoðana. Þetta fólk, sem hefur stöðugan áhuga á efni þessa einstaklings, mun dreifa öllu og vörumerkið mun fá aðkomu sína.

Annar möguleikinn til að nota slíka tækni núna er alveg viðeigandi - að leita að vélmennum, uppáhalds minn. Þetta er orðsporsáhætta fyrir keppinauta þína og tækifæri til að eyða óviðkomandi fólki frá auglýsingaherferð og öllu öðru (eyða athugasemdum og leita að tengingum á milli fólks). Ég er með svona dæmi, það er líka stórt og gagnvirkt - þú getur hreyft það. Þetta eru tengsl fólks sem skrifaði athugasemdir í Lentach samfélaginu.

Þetta dæmi er til þess að þú skiljir hversu vel og auðsýnileg vélmenni eru; og til þess þarftu ekki að hafa neina tækniþekkingu. Þetta þýðir að "Lentach" birti færslu um FBK rannsóknina um Dmitry Medvedev og ákveðnir menn fóru að skrifa athugasemdir. Við tókum saman allt fólkið sem skrifaði athugasemdir - þetta fólk er grænt. Nú flyt ég það:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Fólkið er það græna (sem skrifaði athugasemdirnar). Þeir eru hér, þeir eru hér. Bláu punktarnir á milli þeirra eru sameiginlegir hópar þeirra, gulu punktarnir eru sameiginlegir áskrifendur þeirra, vinir og svo framvegis. Meirihluti fólks tengist hvert öðru. Vegna þess að hver svo sem kenningin um þrjú, fjögur, fimm handtök er, eru allir tengdir hvert öðru á samfélagsnetum. Það er ekkert fólk sem er aðskilið hvert frá öðru. Jafnvel félagsfælnir vinir mínir sem nota VKontakte eingöngu til að horfa á myndbönd eru enn áskrifendur að sumum af sömu opinberu síðunum og við.

Navalny notar líka vélmenni. Allir eru með vélmenni

Meirihluti fólks (hér er það, hér) tengist hvert öðru. En það er svo lítill hópur félaga sem eru eingöngu vinir hver annars. Hér eru þau, litlu grænu, hér eru sameiginlegir vinir þeirra og hópar. Þeir féllu meira að segja frá sér hér:

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Og fyrir heppna tilviljun var það einmitt þetta fólk sem skrifaði undir þessa færslu: "Navalny hefur engar sannanir" og svo framvegis, skrifaði sömu athugasemdir. Auðvitað þori ég ekki að draga ályktanir. En engu að síður, ég var með aðra færslu á Facebook, þegar það var kappræður milli Lebedev og Navalny, greindi ég ummælin á sama hátt: það kom í ljós að allt fólkið sem skrifaði "Lebedev er skítur", þeir höfðu ekki verið á félagslegum netkerfi nýlega í fjóra mánuði, ekki áskrifandi að neinni af opinberu síðunum, fóru skyndilega á þessa tilteknu færslu, skrifaði nákvæmlega þessa athugasemd og fór. Aftur, það er ómögulegt að draga ályktanir héðan, en einhver úr teymi Navalny skrifaði mér athugasemd um að þeir noti ekki vélmenni. Jæja, allt í lagi!

Nær auglýsingum, nær vörumerkinu. Allir eru með vélmenni núna! Við höfum þá, samkeppnisaðilar okkar hafa þá og aðrir. Þeim verður að henda út eða láta þau lifa vel; Byggt á slíkum gögnum (bendir á fyrri glæru), færðu þau til fullkomnunar þannig að þau líti út eins og raunverulegt fólk og notaðu þá aðeins. Þó það sé slæmt að nota vélmenni! Engu að síður, frekar algeng saga...

Í sjálfvirkri stillingu gerir slíkt þér kleift að sía út úr greiningu þinni fólk sem er óviðkomandi greiningunni, fólk sem ætti ekki að vera með í úrtakinu ætti ekki að vera með í þessari rannsókn. Mjög oft notað. Þá eiga ekki allir bíleigendur í raun bíla. Stundum hefur fólk bara áhuga á fólki sem hugsanlega á bíl, sem situr í einhverjum hópum, hefur samskipti við einhvern, það hefur ákveðna áhorfendur þar.

Greining á staðreyndum og skoðunum

Sú næsta sem ég á er líka í uppáhaldi hjá mér. Þetta er greining á staðreyndum og skoðunum.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Nú á dögum vita allir hvernig á að nefna vörumerkið sitt í ýmsum heimildum. Það er ekkert leyndarmál við þetta. Og allir virðast geta reiknað út tón... Þó persónulega held ég að tónmælingin sjálf sé ekki mjög áhugaverð, því þegar þú kemur og segir við viðskiptavininn: "Maður, þú ert með 37% hlutlausan," og hann segir það. , " Vá! Flott!" Þess vegna væri áhugaverðara að fara aðeins lengra: frá því að meta viðhorf til að meta skoðanir á því sem þeir segja um vöruna þína.

Og þetta er líka mjög áhugavert, vegna þess að... ég persónulega trúi því að í grundvallaratriðum megi ekki vera hlutlaus skilaboð, því ef maður skrifar eitthvað í opinberu rými er þessi skilaboð einhvern veginn lituð á einhvern hátt. Ég persónulega hef aldrei séð hlutlaus skilaboð þar sem minnst er á vörumerki. Venjulega er það einhvers konar óhreinindi.

Ef við tökum mikinn fjölda af þessum skilaboðum (það gætu verið milljónir, 10 milljónir), tökum fram meginhugmyndina úr hverju skeyti, sameinum þau, við getum skilið nokkuð áreiðanlega hvað fólk segir um þetta vörumerki, hvað það hugsar. „Mér líkar ekki umbúðirnar,“ „Mér líkar ekki samkvæmnin,“ og svo framvegis.

Hvað finnst fólki um Transaero, Chupa Chups og forseta Bandaríkjanna?

Ég er með fyndið dæmi: þetta er upplýsingamynd um hvað notendur samfélagsneta myndu gera við Transaero fyrirtækið eftir gjaldþrot þess.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Það eru mörg áhugaverð dæmi þar: brenna, drepa, vísa til Evrópu, það voru meira að segja 2% sem skrifuðu - "Sendu þá til Sýrlands til hernaðaraðgerða." Ef þú heldur áfram frá því fyndna, gæti það verið næstum hvaða tegund sem er - allt frá uppáhalds hundamatnum mínum til sumra bíla. Sá sem líkar ekki við umbúðirnar, þeim sem líkar ekki við raunverulega hluti - þú getur alltaf unnið með þetta, þú getur alltaf tekið þetta með í reikninginn. Það er mikill fjöldi dæma þegar fólk nánast breytti framleiðslu á vörum sínum vegna þess að það skrifaði á samfélagsmiðla að Chupa Chups væri ekki nógu kringlótt eða ekki nógu sætt.

Það er annað fyndið dæmi. Gettu hvaða athugasemdir og um hverja?

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Einhverra hluta vegna er nú greining á skoðunum, greining á staðreyndum sem dregnar eru úr skilaboðum, lítið notuð og ekki mjög útbreidd. Þrátt fyrir að þessi tækni sé ekki ofurleyndarmál, þá er nánast engin kunnátta í þessu, vegna þess að út frá athugasemdum fólks þarf ekki snillingur í tölvumálvísindum að draga efnið, forsögn og flokka þau saman. Það er ekki svo erfitt að gera. En ég vona að á næstu árum muni fólk byrja að nota þetta, því... Þetta verður flott - þetta er svo sjálfvirk endurgjöf! Þú veist alltaf hvað þeir eru að segja um þig. Jæja, þú skilur að þetta var gert um Bandaríkjaforseta.

Svar við spurningu úr sal:

  • Já, þetta er Facebook á ensku. Þau eru þýdd á rússnesku hér. Þetta var skrifað einhvers staðar.

Stór gögn og pólitísk tækni

Reyndar hef ég mörg mismunandi áhugaverð dæmi um pólitík um Trump og alla aðra, en við ákváðum að koma þeim ekki hingað. En það er eitt pólitískt dæmi.

Þetta eru kosningar til dúmunnar. Hvenær varstu? Síðasta ár? Fyrir tæpu einu og hálfu ári síðan.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Hér er fólk sem gat ákvarðað nákvæma staðsetningu sína, niður að ákveðnum landpunkti, til að skilja í hvaða kjördæmi þeir falla. Og þá voru aðeins teknir frá þessu fólki, sem sögðu sína ákveðnu skoðun, sem þeir myndu kjósa.

Frá sjónarhóli pólitískrar tækni er þetta ekki mjög rétt, vegna þess að þetta mál þarf að staðla með íbúaþéttleika og svo framvegis. Engu að síður ætla þeir bláu hér að kjósa, þú veist hvern, þeir rauðu ætla að kjósa stjórnarandstöðufélaga, af þeim voru, að vísu, ekki margir.

Ég persónulega trúi því að Big Data muni ekki ná til pólitískrar tækni í bráð, en sem valkostur er frambjóðandinn líka vörumerki. Og þetta er líka að einhverju leyti greining á staðreyndum og skoðunum um vörumerkið þitt og frekar áhugavert, því þú getur skilið í rauntíma hver er að gera hvað. Ég þekki nokkur tilvik frá BBC, þegar þeir fylgdust með samfélagsnetum í rauntíma í einhverri útsendingu: það var svona og svo viðbrögð, fólk skrifar um það, spyr svona og svo spurningar - og það er frábært! Ég held að það verði notað mjög fljótlega, því það er áhugavert fyrir alla.

Módelstöður vörumerkja

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Næst er ég með líkanagerð af stöðu vörumerkja. Lítið, stutt stykki um hvernig þú getur raðað vörumerkjum með því að nota ýmsar mælikvarða (ekki eins og áskrifendur á samfélagsnetum, heldur með flóknum mæligildum, áhuga á efni, tíma sem fer í að fá mælikvarða).

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Ég er með dæmi um "lyf" af ákveðinni ástæðu. Hér eru litlu hringirnir innri, bjartir - þetta er magn textaefnis sem vörumerkið sjálft býr til, stóri hringurinn er magn mynda- og myndbandaefnis sem vörumerkið sjálft býr til.

Nálægð við miðju sýnir hversu áhugavert efnið er fyrir áhorfendur. Það er stórt líkan, það er fullt af alls kyns breytum: líkar við, endurpóstar, viðbragðstími, hver deildi þar að meðaltali... Hér geturðu séð: það er dásamlegt „Kagotsel“ sem dælir gríðarlegu magni af peninga til að búa til sitt eigið efni og vegna þessa eru þeir nokkuð nálægt miðjunni. Og það eru félagar sem búa líka til sitt eigið efni, en áhorfendur hafa ekki áhuga á því. Þetta er ekki mjög fullnægjandi dæmi, því allir þessir reikningar eru nánast dauðir.

Yegor Creed er elskaður meira en Basta

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Því miður, restin... frá því sem á að sýna... Ja, það eru líka rússneskir rapparar, sem valkostur, frá alvöru fyrirtækjum.

Hver er plúsinn? Staðreyndin er sú að fyrirtæki getur sett nánast hvað sem er í slíkt líkan, frá meðallaunum áskrifenda sem vinna fyrir vörumerkið þitt; hvaða gerð sem þeim líkar. Vegna þess að hver auglýsingastofa reiknar sínar eigin mæligildi á annan hátt, reikna vörumerki sín eigin mæligildi öðruvísi.

Það er líka einn hér - Basta, sem býr til mikið magn af efni, en er staðsett á jaðrinum, vegna þess að þetta efni er greinilega ekki mjög áhugavert fyrir áhorfendur. Aftur, ég þori ekki að dæma. En engu að síður er Yegor Creed, sem, samkvæmt samfélagsmiðlum, er næstum besti flytjandi okkar tíma, en birtir aðeins persónulegar ljósmyndir sínar. Engu að síður er hann með mikinn fjölda áskrifenda: þeir eru einhvers staðar í kringum milljón. Ég man ekki nákvæma tölu; Ég man að hlutfall þátttöku þessa fólks er miklu hærra en 85%, það er að segja á hverja milljón áskrifenda sem hann fær 850 þúsund svör frá þessu alvöru fólki - þetta er algjört brjálæði. Þetta er satt.

Arthur Khachuyan: „Alvöru stór gögn í auglýsingum“

Svör við spurningum úr sal:

Hversu langan tíma tók það að búa til rapparagreiningarlíkanið?

  • Hver hefur sinn markhóp, hagsmunir þessa fólks eru reiknaðir út fyrir hvern... Allt þetta er staðlað í fjarlægð til miðju um það bil, geislamyndastaða þeirra skiptir ekki máli (það er einfaldlega smurt hér fyrir fegurð, svo að þeir gera það ekki rekist á hvort annað). Aðeins áætluð nálægð við miðju er mikilvæg. Þetta er líkanið sem við notum. Mér líkar til dæmis betur við hringinn, sumir gera hann í huga sem hálfhring.
  • Þetta líkan var tekið saman fljótt, á tveimur eða þremur klukkustundum (já, ein manneskja). Hér var aðeins sett inn mæligildi: það sem við margföldum með hverju, leggjum það saman og staðreynum það síðan einhvern veginn. Fer eftir fyrirmyndinni. Það er fólk sem hefur áhuga á meðallaunum (þetta er ekki grín) áskrifenda sinna. Og fyrir þetta þarftu að finna tengiliði þeirra, Avito, reikna það allt, margfalda það. Það kemur fyrir að þetta tekur langan tíma að taka með í reikninginn, en sérstaklega þetta (bendir á fyrri glæruna) - breyturnar hér eru mjög einfaldar: áskrifendur, endurpóstar og svo framvegis. Það tók um tvo til þrjá tíma að klára. Í samræmi við það er þessi hlutur síðan uppfærður í rauntíma og þú getur notað hann.

Nú kemur skemmtilegi þátturinn. Ég er búinn með dæmi, því það er ekki áhugavert að tala í langan tíma einn. Og ég vona að þú spyrjir nú spurninga og við munum í raun og veru fara frá efni til efnis því ég hef svona dæmi um hvernig hægt er að nota tækni og svo framvegis...

Svör við spurningum úr sal:

  • Ég var með eitt og eina persónulega mál með einu, ef svo má segja, „near-casino“, þegar myndavél var sett þar, andlit þekktust og svo framvegis. Hlutfall fólks sem er viðurkennt er örugglega nokkuð hátt - bæði okkar og keppinauta okkar. En það er reyndar nokkuð áhugavert. Ég lít á þetta sem áhugaverðan hlut: þú getur skilið hver þetta fólk er og spáð nokkuð vel fyrir um hvers vegna þeir komu hingað, hvað hefur breyst svo mikið í lífi þeirra að þeir ákváðu að koma í spilavítið. En eins og fyrir sérstakar tegundir viðskipta ... Ef þú setur slíkt í apótek, þá er ekkert mál - þú getur ekki spáð fyrir um hvers vegna maður kom í apótekið.

    Hið alþjóðlega verkefni hér var að búa til líkan til að skilja hvenær einstaklingur vill hugsanlega hafa áhuga á vörumerkinu þínu, svo að þú getir gefið honum auglýsingar ekki eftir að hann hefur keypt eitthvað (eins og er að gerast núna), heldur gefið honum auglýsingar “ í spá“ um hvenær þetta gerist allt saman. Það var áhugavert með svona „near-casino“; það reyndist vera nokkuð áhugavert hlutfall af þessu fólki - hvers vegna: einhver fékk skyndilega stöðuhækkun, einhver annar fékk eitthvað annað - svo áhugaverð innsýn. En með sumar búðir, með smásölu, með búð af einhvers konar pillum, sýnist mér að það verði ekki mjög rétt.

Er Big Data notað án nettengingar?

  • Það var offline. Þú þarft bara að skilja nákvæmlega, í grófum dráttum, hvort þetta líkan passar eða ekki. Aftur, með freyðivatni... Ég hef reyndar áhuga á öllu, en ég persónulega skil ekki hversu mikið, hvernig prófílar þessa fólks, hegðun þeirra getur verið háð því hvenær það vill kaupa vatn á flöskum. Þó að þetta geti verið satt, þá veit ég það ekki.

Hversu margir opnir samfélagsmiðlareikningar eru til?

  • Við höfum sérstaklega 11 samfélagsnet - þetta eru „Vkontakte“, „Facebook“, „Twitter“, „Odnoklassniki“, „Instagram“ og nokkur smáatriði (ég get skoðað listann, eins og „Mail.ru“ og svo framvegis) . Á VKontakte höfum við örugglega afrit af öllum þessum félögum. Við höfum fólk á VKontakte - það eru 430 milljónir af öllum sem hafa verið til (þar af eru um 200 milljónir stöðugt virkar); það eru hópar, það eru tengsl á milli þessa fólks og það er efni sem vekur áhuga okkar (texti), og hluti af fjölmiðlum, en mjög lítill... Í grófum dráttum horfum við á þessa mynd: ef það eru andlit þarna þá erum við vista þá, ef það er meme, við vistum þá Við vistum það ekki, því jafnvel við hefðum ekki nóg til að vista fjölmiðlaefni.

    Það er Facebook á rússnesku. Einhvers staðar núna eru 60-80% Odnoklassniki, eftir nokkra mánuði munum við líklega ná þeim öllum til enda. Rússneska Instagram. Fyrir öll þessi samfélagsnet eru hópar, fólk, tengingar á milli þeirra og texta.

  • Um 400 milljónir manna. Það er lúmskur: það er fólk sem borgin er ekki tilgreind (þau eru hugsanlega rússneskt / ekki-rússneskt); Þar af er meðaltalið fyrir samfélagsnet 14% af lokuðum reikningum á VKontakte, ég veit ekki nákvæma tölu á Facebook.
  • Við vistum heldur ekki fjölmiðla á Instagram - aðeins ef það eru andlit þar. Við geymum ekki slíkt (annað) fjölmiðlaefni. Venjulega áhugavert: aðeins texti, tengsl milli fólks; Allt. Algengasta rannsóknin á Instagram er venjuleg rannsókn á áhorfendum: hver þetta fólk er, og síðast en ekki síst, tengsl þessa fólks við önnur samfélagsnet. Finndu prófíl þessa einstaklings á Vkontakte og Facebook til að reikna út aldur hans og svo framvegis.
  • Það er engin þörf á að taka við öllum öðrum ennþá - einfaldlega vegna þess að það eru engir viðskiptavinir. Varðandi tungumálið: við höfum rússnesku, ensku, spænsku, en samt er þetta eingöngu notað fyrir vörumerki frá Rússlandi; vel, eða fyrirtækin sem koma þeim frá Rússlandi.
  • Við tökum viðtöl við fólk á hverjum degi í mörgum, mörgum, mörgum þráðum: við söfnum gögnum með því að safna vefnum og uppfærum þessar vísbendingar með Api. Á 2-3 dögum geturðu farið í gegnum allt "VKontakte", farið í gegnum þá; Eftir um það bil viku geturðu farið í gegnum allt Facebook og skilið hver hefur uppfært hvað og hvað ekki. Og settu síðan saman þetta fólk sérstaklega: hvað nákvæmlega hefur breyst, skrifaðu niður alla þessa sögu. Afar sjaldan, samkvæmt minni reynslu, hefur gamall samfélagsmiðlasnið einhvers verið notaður í raunverulegum viðskiptatilgangi. Þetta var tíminn þegar einn stjórnmálamaður sótti um, og verkefni hans var að skilja hvers konar fólk kemur í höfuðstöðvarnar, hverjir þetta voru fyrir 6-8 mánuðum síðan (eyddu það prófílnum sínum, en reyndar fyrir annan frambjóðanda komu kjörseðlar spilla).

    Og nokkrum sinnum - persónulegar sögur þegar ljósmyndir einhvers voru birtar í almenningseigu. Það var nauðsynlegt að finna tengingar o.s.frv. Því miður er það miður, en við getum ekki borið vitni fyrir dómstólum, því gagnagrunnurinn okkar er lagalega illseljanlegur.

  • MongoDB geymsla er í uppáhaldi hjá mér.

Samfélagsnet eru að reyna að berjast gegn gagnasöfnun

  • Venjulega sendum við aðeins lista yfir þessa reikninga til auglýsenda, og þá nota þeir venjulegan... Það er, á félagslegur net, á VKontakte, geturðu tilgreint lista yfir þetta fólk.

    En Facebook notar keyptar vafrakökur. Við sjálf vinnum ekki með smákökur, en það voru nokkrar sögur þegar auglýsandinn sjálfur gaf fólki, við áttum samskipti við það - þeir eru með þessi net, með kynningarauglýsingum, án kynningarauglýsinga, þessar „kökur“. Þú getur bundið það - engin spurning! En mér líkar ekki við þetta efni því mér finnst það ekki mjög ekta. Þetta er eingöngu að mínu mati, þetta er eins og TNS, sem “fylgir” sjónvörpum - það er ekki ljóst hvort þú ert að horfa á þetta sjónvarp eða ekki, hvort þú ert að vaska upp á meðan kveikt er á sjónvarpinu... Og það er það sama hér : Ég googla mjög oft eitthvað á netinu, en það þýðir ekki að ég vilji kaupa það.

  • Ef þú ert að nota einhvers konar staðlað samhengisauglýsinganet: Ég fékk nokkrar sögur þegar við sendum þetta fólk til þeirra og reyndum, með því að nota viðmót þeirra, að tengja það við „fótspor“ á síðum þeirra. En mér líkar ekki við svona hluti.

Formúla til að reikna út laun netnotanda

  • Almenn formúla fyrir meðallaun: þetta er svæðið þar sem einstaklingur býr, þetta er flokkur fyrirtækja sem hann starfar í (þ.e. fyrirtækið sem er vinnuveitandi hans), þá er staða hans í þessu fyrirtæki tekin, meðaltalið laun fyrir þessa stöðu eru áætluð... Meðallaun tekin úr „Head Hunter“ og „Superjob“ (og það eru nokkrar aðrar heimildir) fyrir tiltekið laust starf á tilteknu svæði og fyrir tiltekið viðskiptasamhengi.

    Frá „Avito“ og „Avto.ru“ eru viðbótarfæribreytur venjulega teknar ef einstaklingur hefur lýst upp símann. Með Avito geturðu séð hvers konar hluti maður er að selja - dýrt, ódýrt, notað, ónotað. Með "Avto.ru" geturðu séð hvort hann eigi bíl - hann á hann, hann á hann ekki. Þetta eru einhvers staðar innan við 20% fólks sem missti símann sinn fyrir slysni einhvers staðar og hægt er að tengja reikning þeirra við þessi gögn.

Hvaða magn rekur gagnasöfnunarfyrirtækið?

  • Rúmmál geymdra mynda í petabætum er 6,4. Ég get ekki sagt nákvæmlega um vöxtinn núna, því árið 2016 byrjuðum við að taka upp „periscope“ og byrjuðum bara að taka upp myndband.

    Ég get ekki sagt nákvæmlega hvenær það var núll. Við fluttum frá fyrirtæki til fyrirtækis - þetta eru allt langar sögur. En ég get sagt að VK, Facebook, Instagram og Twitter - öll þessi viðskipti (fólk, hópar og tengingar á milli þeirra) með texta og efni - þetta er í raun ekki mikið af gögnum, það er ólíklegt að jafnvel petabæti hafi fengið nóg. Ég held að það sé 700 gígabæt, líklega 800.

Hjálpar þú viðskiptavinum að ákvarða núverandi sess og hvar á að grafa?

  • Þegar viðskiptavinur kemur þá stingum við honum upp á slíkt en við sjálf, eins og Google Trends, gerum ekki slíkt.
  • Við áttum nokkrar næstum félagsfræðilegar sögur, með kosningasögu, fyrir kosningar - við greindum þetta allt. Með vörumerki og mat á skoðunum um vörumerki er allt næstum alltaf sammála. Hér eru kosningasögur - nei (með mati á því hvaða frambjóðandi ætti að vinna). Ég veit ekki hver hefur rangt fyrir sér hér - við, eða þeir sem hugsa í VTsIOM.
  • Yfirleitt tökum við þessar eftirlitsniðurstöður frá vörumerkinu sjálfu, þær taka þær frá félögum sem panta rannsóknir - símarannsóknir, markaðsrannsóknir og svo framvegis. Auk þess er hægt að athuga þetta allt með helstu hlutum: einhver svaraði póstlistanum, einhver gerði kannanir... Ef það er stórt vörumerki (t.d. Coca-Cola), er hann örugglega með milljón eða tvær innri umsagnir frá viðskiptavinum - þetta eru ekki aðeins athugasemdir á samfélagsnetum og sumar skoðanir; Þetta eru einhvers konar innri kerfi, umsagnir og svo framvegis.

Lögin „veita“ ekki hvað persónuupplýsingar eru!

  • Við greinum eingöngu opna gagnagjafa og tökum aldrei þátt í neinum óhreinum brögðum. Líkanið okkar byggir á þeirri staðreynd að við geymum öll opin gögn í sumum opinberum gagnaverum, leigjum þau annars staðar og greinum þau heima, á skrifstofum okkar, á netþjónum okkar og þau fara hvergi út fyrir landsvæðið.

    En löggjöf okkar á sviði opinna gagna er mjög óljós.

    Við höfum ekki skýran skilning á því hvað opin gögn eru, hvað persónuleg gögn eru - það eru þessi 152. alríkislög, en samt... Hvernig telja þau? Nú, ef ég er með nafnið þitt og símanúmerið þitt í einum gagnagrunni, í öðrum gagnagrunni er ég með símanúmerið þitt og tölvupóstinn þinn, í þeim þriðja hef ég til dæmis tölvupóstinn þinn og bílinn þinn; Allt virðist þetta vera ópersónuleg gögn. Ef þú setur þetta allt saman virðist sem að samkvæmt lögum verði þetta persónuupplýsingar.

    Við komumst í kringum þetta á tvo vegu. Í fyrsta lagi er að setja upp netþjón með hugbúnaði fyrir viðskiptavininn og þá fara þessi gögn ekki út fyrir yfirráðasvæði hans og svo ber viðskiptavinurinn ábyrgð á dreifingu á þessum persónuupplýsingum, ópersónulegum gögnum o.s.frv. Eða seinni kosturinn: ef þetta er einhvers konar saga þar sem þú þarft að lögsækja samfélagsnet eða eitthvað annað...

    Við gerðum slíka rannsókn þegar við söfnuðum (það voru forkosningar í sameinuðu Rússlandi) fyrir Lifenews frásögnum þessara félaga og skoðuðum hvers konar klám þeim líkaði. Þetta var fyndið en samt. Við seljum þetta sem okkar eigin, persónulega skoðun, án þess að upplýsa löglega í skjölunum hvað við greindum - Sameinað ríkisskrá yfir lögaðila, laun, samfélagsnet; Við seljum sérfræðiálit og útskýrum svo á hliðarlínunni fyrir viðkomandi hvað við greindum og hvernig.
    Það voru nokkrar sögur, en þær tengdust nokkrum opinberum verslunarverkefnum. Til dæmis erum við með ókeypis sjálfseignarverkefni fyrir þá sem hjóla á langbretti (slík bretti eru löng): verkefnið var að safna ritum fólks - þegar einhver skrifar „Ég fór í Gorky-garðinn í bíltúr“. Og nú ætti hann að komast á kortið og fólk í kringum hann getur séð að einhver er nálægt honum. VK rakst á hausinn við okkur um þetta efni í mjög langan tíma, vegna þess að þeim líkaði ekki við að við birtum þessar upplýsingar án leyfis fólks. En svo kom málið ekki fyrir dómstóla, því innan nokkurra stórra samfélaga bættum við við reglurnar um að gögnin gætu nýst þriðja aðila, stofnunum, fyrirtækjum, greiningum o.s.frv.. Auðvitað var það ekkert sérstaklega siðferðilegt, en samt.

  • Við áttum okkur bara á því í tæka tíð og byrjuðum að selja sérfræðiálit okkar til allra.

Vinnur þú með menntastofnunum?

  • Við erum í samstarfi við menntastofnanir, já. Við erum með allt svið: við erum með meistaranám í Framhaldsskólanum og erum í samstarfi við aðra háskóla. Við elskum háskóla mjög mikið!
  • Ef þú hefur tengiliðina mína geturðu skrifað mér. Og hlekkur á kynninguna, ef einhver hefur áhuga - öll þessi dæmi eru til staðar, þú mátt færa hana.
  • Ef þú veist símanúmerið, tölvupóstinn - þetta er næstum hundrað prósent valkostur, enginn mun fjarlægja það. Ef það er ekkert símanúmer er það venjulega mynd; ef það er engin mynd er það árið, búsetu, starf. Það er, eftir ár, búsetu og vinnu, næstum alla er alltaf hægt að bera kennsl á nokkuð lúmskur. En þetta er aftur spurning um verkefnið.

    Við erum til dæmis með viðskiptavin sem selur netsjónvarp. Einhver keypti áskrift að þessum „Games of Thrones“ af þeim og verkefnið er að nota CRM þeirra til að finna þetta fólk á samfélagsnetum og finna síðan hugsanlega frá áhrifasvæði þeirra. Ég meina bara að þeir hafi til dæmis fornafn, eftirnafn og tölvupóst... Og svo er mjög erfitt að gera neitt. Í flestum tilfellum er hægt að finna fólk með tölvupósti.

  • Miðað við samsetningu vina okkar „pörum“ við venjulega fólk á samfélagsmiðlum, en það er ekki alltaf rétt. Það er ekki það að það sé ekki alltaf rétt - það virkar ekki alltaf. Í fyrsta lagi, þetta krefst mikillar vinnu, vegna þess að þessi aðgerð (samsvörun fólk) verður að fara fram fyrst fyrir hvern vin - til að skilja hvort þeir komu frá samfélagsnetum eða ekki. Og svo - óþekkt staðreynd fyrir alla að á VKontakte eigum við sömu vini, á Facebook eigum við mismunandi vini. Ekki fyrir alla, en fyrir mig, til dæmis, er þetta svona; og þetta á líka við um flesta.

Hvernig er fullkomnustu gögnunum safnað?

  • Að setja upp hugbúnað fyrir viðskiptavininn á hlið hans. Á þeim er settur upp netþjónn sem tekur aðeins opinber gögn frá okkur og vinnur persónuleg gögn þeirra innbyrðis. NDA er gert með viðskiptavininum. Þetta er auðvitað ekki mjög rétt að þeir flytji þetta til okkar, en lagaleg ábyrgð hvílir á viðskiptavininum - tja, það er að setja upp hugbúnað fyrir hann, eða flytja nafnlaus gögn. En þetta var mjög sjaldgæft, vegna þess að - rétt eða röng nafnleynd - í flestum tilfellum er ósjálfstæði milli þessa fólks glatað.

Hver kaupir andlitsþekkingarhugbúnað?

  • Við erum í raun að fara hingað vegna þess að aðalhugbúnaðurinn okkar sem við seljum er andlitsleit, fylgnigreining og við seljum hann til ríkisstofnana. Og fyrir einu og hálfu ári síðan ákváðum við að setja allar þessar sögur í auglýsingar, í markaðssetningu, á almennan markað - þannig var Social Data Hub, viðskiptalegur lögaðili, stofnaður. Og nú erum við bara að koma hingað. Við höfum hangið hérna í eitt og hálft ár núna og reynt að útskýra fyrir fólki að það sé engin þörf á að gefa fólki niðurhal með því að nefna, að það þurfi að fá svör við spurningum, að það sé engin þörf á tónum. , og svo framvegis. Svo það er erfitt að segja hvar...
  • (Hver áttu við?) Til allra félaga sem þurfa að leita að hryðjuverkamönnum og barnaníðingum.
    Ég get sagt strax (þetta verður næsta spurning): samkvæmt gögnum okkar voru engir kennarar fangelsaðir fyrir endursendingar.
  • Á VKontakte - 14%; á Facebook er enginn lokaður prófíll sem slíkur (það er lokaður listi yfir vina osfrv.). Og það áhugaverðasta er að ég skrifaði bara skilaboð - nú munu þeir telja og segja.

Ekki birta eitthvað sem þú munt skammast þín fyrir!

  • Ekki birta neitt á samfélagsnetum sem myndi skammast þín - ég fylgist persónulega með þessu. Þó ég hefði mikið af persónulegum, vegna þess að ég sver á Facebook. Jæja, það var og það var eitthvað að gera... Ekki senda neitt sem væri vandræðalegt! Ef þú ætlar að vinna einhvers staðar í almenningssalnum seinna, já, þá er betra að tjá þig ekki. Ef þú ætlar ekki að gera þetta, í stórum dráttum, þá er engum sama. Ég get bara fullvissað þig um að enginn les persónulegar bréfaskriftir þínar og allt þetta er að byggja upp alla þessa sögu...

    Í hverri viku kemur örugglega einhver til mín og segir: „Jæja, myndum vinar míns var lekið á einhverja nafnlausa opinbera síðu! Hjálp! Við the vegur, aldrei birta neitt á nafnlausum opinberum síðum.

  • Ég veit ekki með önnur eftirlitskerfi - við munum örugglega taka þetta með í reikninginn, að umtalið um vörumerkið var neikvætt, guð fyrirgefi mér... En ég get sagt að alls kyns félagar í návígi við ríki hafa bara áhuga á fólki sem hafa meira en 5 þúsund áhorfendur og almenningsálit þeirra getur haft áhrif á einhvern. Mín reynsla er sú að það hefur aldrei gerst að starfsmannaskrifstofan sem pantar prófílmat frá okkur hafi sagt: „Hver ​​sem líkar við Navalny, ekki ráða neinn!

Um að birta niðurstöðurnar. Hversu margir starfa við rannsóknir?

  • Af 10 efstu auglýsingafyrirtækjum eru nú sjö að birta. Það er erfitt að segja: þegar við byrjuðum á þessu fyrir einu og hálfu ári síðan... Við erum með nokkra menn á hverju svæði - það eru nokkrir í bönkum, það eru nokkrir í HR, það eru nokkrir í auglýsingum. Og nú erum við að hugsa um hver er arðbærari að fara til fyrst, fyrir hvern þurfum við að byrja að búa til nokkur viðmót...
  • (um fjölda fólks á hvern markaðshluta) Ekki meira en 25 manns, því við nauðguðum engum.
  • Almennt, í grundvallaratriðum, er þessi tækni frá markaðnum notuð, held ég, um meira en 50%. Sumir í auglýsingaherferðum, sumir í einhvers konar innri greiningu. Ég myndi segja að 40 prósent noti það í innri greiningu, 50-60% selja það til enda vörumerkja. En þetta veltur nú þegar á auglýsingafyrirtækjum sjálfum. Þú sérð, sumir segja einfaldlega frá peningunum sem þeir hafa eytt, auglýsingunum sem þeir settu á staðinn, á meðan aðrir skrifa um hversu marga þeir komu með, hvers konar áhorfendur... Ég myndi segja það, en ég gæti haft rangt fyrir mér - ég geri það ekki ekki ímynda mér hvernig allir þessir félagar vinna. Ég veit aðeins í magngögnum.

Nokkrar auglýsingar 🙂

Þakka þér fyrir að vera hjá okkur. Líkar þér við greinarnar okkar? Viltu sjá meira áhugavert efni? Styðjið okkur með því að leggja inn pöntun eða mæla með því við vini, cloud VPS fyrir forritara frá $4.99, einstök hliðstæða upphafsþjóna, sem var fundið upp af okkur fyrir þig: Allur sannleikurinn um VPS (KVM) E5-2697 v3 (6 kjarna) 10GB DDR4 480GB SSD 1Gbps frá $19 eða hvernig á að deila netþjóni? (fáanlegt með RAID1 og RAID10, allt að 24 kjarna og allt að 40GB DDR4).

Dell R730xd 2x ódýrari í Equinix Tier IV gagnaveri í Amsterdam? Aðeins hér 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 sjónvarp frá $199 í Hollandi! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - frá $99! Lestu um Hvernig á að byggja upp infrastructure Corp. flokki með notkun Dell R730xd E5-2650 v4 netþjóna að verðmæti 9000 evrur fyrir eyri?

Heimild: www.habr.com

Bæta við athugasemd