Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

14 сакавіка 2017 года ў лекторыі BBDO выступіў Артур Хачуян, генеральны дырэктар Social Data Hub. Артур распавёў пра інтэлектуальны маніторынг, пабудову паводніцкіх мадэляў, распазнанне фота- і відэакантэнту, а таксама пра іншыя інструменты і даследаванні Social Data Hub, якія дазваляюць таргетаваць аўдыторыю, выкарыстоўваючы сацыяльныя сеткі і тэхналогіі Big Data.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Артур Хачуян (далей - АХ): - Добры дзень! Ўсім прывітанне! Мяне клічуць Артур Хачуян, я кірую кампаніяй Social Data Hub, і мы займаемся розным цікавым інтэлектуальным аналізам адкрытых крыніц дадзеных, інфаполя і які робіцца ўсякія цікавыя даследаванні і гэтак далей.

І сёння калегі з BBDO Group папрасілі расказаць аб сучасных тэхналогіях аналізу вялікіх даных, вялікіх і не вельмі даных для рэкламы: як гэта прымяняецца, паказаць некалькі цікавых прыкладаў. Я спадзяюся, вы будзеце задаваць пытанні прамы па ходзе, таму што я магу пачаць прымушаць і не раскрываць сутнасці і гэтак далей, так што не саромейцеся.

Уласна, асноўныя кірункі, дзесьці калі-небудзь прымяняліся нейкія «колалобигдатные» рашэнні», яны ўсё зразумелыя - гэта таргетаванне аўдыторыі, аналіз, правядзенне нейкіх аналіз-маркетынгавых даследаванняў. Але заўсёды цікава, якія дадатковыя дадзеныя можна знайсці, якія можна знайсці дадатковыя сэнсы пасля прымянення аналізу.

Навошта патрэбны тэхналогіі для рэкламы?

З чаго мы пачнем? Самае зразумелае - гэта рэклама ў сацыяльных сетках. Сёння зняў з раніцы: чамусьці "Вконтакте" лічыць я менавіта гэтую рэкламу павінен бачыць… Добра гэта ці дрэнна - гэта ўжо другое пытанне. Бачым, пад катэгорыю прызыўнікоў я трапляю дакладна:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Самае першае і цікавае, што можна ўзяць як тэхналагічнае рашэнне… Першае, што я хацеў вырашыць, перад тым як мы пачнем, - вызначыцца з тэрмінамі: што такое адкрытыя дадзеныя і што такое вялікія дадзеныя? Таму што ва ўсіх людзей сваё разуменне на гэты конт, і я нікому не хачу навязваць свае тэрміны, але… Проста каб не было ніякіх разыходжанняў.

Асабіста я лічу, адкрытыя дадзеныя - усе тыя, да якіх я магу дацягнуцца без якога-небудзь лагіна або пароля. Гэта адкрыты профіль у сацыяльных сетках, гэта пошукавая выдача, гэта адкрытыя рэестры і г. д. Вялікія дадзеныя, у маім уласным разуменні, я бачу так: калі гэта таблічка з дадзенымі - гэта мільярд радкоў, калі гэта нейкае файлавае сховішча - гэта недзе петабайт дадзеных. Астатняе ў маёй тэрміналогіі - гэта не вялікія дадзеныя, а нешта каля.

Высокадакладнае прафіляванне і скорынг профіляў

Ідзем па парадку. Самае першае і цікавае, што можна прыдумаць з аналізу адкрытых крыніц дадзеных - гэта высокадакладнае прафіляванне і скоринг профіляў. Што гэта? Гэта гісторыя, калі па вашым акаўнце ў сацыяльнай сетцы можна прадказаць не толькі хто вы, не толькі вашыя інтарэсы.

Але цяпер, аб'ядноўваючы розныя крыніцы, можна зразумець сярэдні ўзровень вашага заробку, колькі каштуе ваша кватэра, дзе яна знаходзіцца. І ўсе гэтыя дадзеныя можна выкарыстоўваць літаральна з падручных сродкаў. Напрыклад, калі ўзяць ваш рахунак у сацыяльнай сетцы, паглядзець, скажам, дзе вы жывяце, дзе вы працуеце; зразумець, у якой секцыі бізнэсу знаходзіцца кампанія, у якой вы працуеце; ўзяць выгрузку падобных вакансій з HH і "Суперджоба", калі вы аналітык, менеджэр і т. д.; паглядзець, дзе вы жывяце (базу, скажам ЦЫЯНА), зразумець, колькі каштуе арэнда жылля ў гэтым месцы, колькі каштуе купля жылля ў гэтым месцы, прадказаць прыкладна, колькі вы зарабляеце. Далей па вашых сацсетках можна зразумець, колькі вы падарожнічаеце, дзе вы знаходзіцеся, наколькі вы лаяльныя да працадаўцы.

Адпаведна, з такой вялікай колькасці метрык мы можам зрабіць усё, што заўгодна. Мы можам прадставіць вам прадукт, які вам цікавы. Уяўляеце, інтэрнэт-краму? Вы заходзіце туды – гэтая інтэрнэт-крама адлоўлівае ваш рахунак у сацыяльнай сетцы і кажа вам: «Маша, ты толькі што расталася з хлопцам, вось табе вось такія, пэўныя прадукты». Гэта не бліжэйшая будучыня…

Як вызначаюць геоположение чалавека?

Адказы на пытанні з аўдыторыі:

  • Звычайна дакладным месцам жыхарства лічыцца 80% усіх check-in'аў. Але для людзей, якія не чэкіняцца нідзе – некалькі варыянтаў: альбо чэк-ін, альбо геапазіцыя, альбо гэта аналіз пастоў і публікацый за ўвесь перыяд часу, калі што б там ні было пісаў чалавек… І дзе-небудзь, ды ўсплыве што-небудзь тыпу "Хачу купіць каляску каля Акадэмічнай" або "Бачыў тут нядаўна графіці на сцяне брыдкае". Гэта значыць, практычна ў 80% людзей можна вызначыць іх геастановішча, іх месца працы і іх месца жыхарства па дадзеных альбо па метададзеных, якія можна сабраць з сацыяльных сетак.

    Гэта, зноў жа, аналіз пастоў. У самым простым разуменні - гэта аналіз чэк-інаў і геолокаций у сацсетках, якія не выдаляюць метададзеныя jpeg'а (можна па іх нешта разабраць). Але для пакінутых людзей - гэта звычайна тэкставыя трансляцыі: альбо чалавек "свеціць" сваё месцазнаходжанне, калі піша пра штосьці, альбо ён "свеціць" свой тэлефон, па якім можна знайсці якую-небудзь яго рэкламу на "Авіто" або яго рахунак на «Авто.ру». Па гэтых дадзеных можна аб'яднаць (напрыклад, "Я прадаю аўтамабіль каля Маякоўскай") і прыкладна выказаць здагадку гэта.

  • Звычайна людзі публікую гэта ў сацыяльных сетках. Мы працуем толькі з адкрытымі крыніцамі і тут гаворка ідзе выключна аб адкрытых крыніцах. Звычайна публікуюць аб'явы, гэта значыць працэнтах у шасцідзесяці выпадкаў самая частая гісторыя, калі людзі «свецяць» свой актуальны сотавы нумар тэлефона - гэта аб'явы аб продажы чагосьці. Альбо ў нейкіх групах чалавек піша («Я прадаю там тое, тое), альбо кудысьці заходзіць.

    Так! Каментуюць звычайна, тыпу: «Адкажыце мне ці кіньце смс-ку, патэлефануйце мне на нумар. Такое вельмі часта бывае з людзьмі, якія штосьці прадаюць, купляюць у сацыяльных сетках, з кімсьці камуніцыруюць… Адпаведна, па гэтым нумары потым можна прывязаць да яго ягоны профіль на ЦІАНе, калі ён калісьці нешта публікаваў, альбо , зноў жа, на «Авіто». Гэта проста самыя папулярныя, топ крыніц, ён далей будзе - гэта "Авіто", ЦІАН і гэтак далей.

  • Маецца на ўвазе анлайн-крама. Далей будзе тэхналогія распазнання асоб і мэтчынга профіляў (мы аб ёй пагаворым). Чыста тэарэтычна такое можна прымяніць і для афлайн-крамы. І наогул, мая вялікая мара - калі з'явяцца вулічныя банеры, калі ты праходзіш міма камеры, яна "трэчыць" твар. Але заканадаўча гэтую справу забароняць, бо гэта парушэньне прыватнасьці. Я спадзяюся, што раней ці пазьней гэта будзе.
  • У мяне з асабістага досведу. Вельмі часта, калі чалавек табе нешта піша, ты аперуеш нейкімі фактамі з яго жыцця, якія ты нібыта не павінен даведацца… Людзі ў большасці выпадкаў палохаюцца. Але! Зыходзячы са статыстыкі за апошні час, на 14% зменшылася колькасць закрытых акаўнтаў у сацыяльных сетках. Колькасць фэйкаў павялічваецца, колькасць адкрытых акаўнт расце - людзі ўсё больш рухаюцца да адкрытасці. Я думаю, што праз 3-4 гады яны перастануць так востра рэагаваць на тое, што нехта ведае пра іх інфармацыю, якую ён патэнцыйна не павінен ведаць. Але насамрэч гэта вельмі лёгка атрымаць, паглядзеўшы яго сцяну.

Што можна ўзяць з адчыненых крыніц?

Прыкладны спіс рэчаў, якія можна зразумець з дастаткова высокай дакладнасцю з адкрытых крыніц, - ён ёсць. Насамрэч ёсць яшчэ больш усякіх розных метрык; гэта залежыць ад замоўца такіх даследаванняў. Ёсць якое-небудзь HR-агенцтва, якому цікава, лаешся ты мацюком у сацыяльных сетках ці дзесьці ў публічнай прасторы. Камусьці цікава, ці ставіш ты лайкі пад публікацыямі Навальнага ці, наадварот, пад публікацыямі "Адзінай Расіі", ці нейкі парнаграфічны кантэнт - такія рэчы досыць часта здараюцца.

Асноўныя з іх - гэта сямейныя каштоўнасці, прыкладны кошт кватэры, жылля, пошук аўтамабіля і гэтак далей. Таму людзей можна разбіць па сацыяльных групах. Гэта карыстачы маскоўскага «Тындера», хто яны (па іх малюнках, знойдзеным іх акаўнтам у «Фэйсбуку»); на падставе іх інтарэсаў разбітыя па ўсякіх сацыяльных групах:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Калі рухацца бліжэй да рэкламы, то мы ўжо паціху адышлі ад стандартнага таргетынгу рэкламы, калі ты выбіраеш ва ўмоўным "Вконтакте", што цябе цікавяць мужчыны 18 гадоў, падпісаныя на пэўныя групы. У мяне далей ёсць такая карцінка, зараз вам пакажу:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Сутнасць у тым, што большасць бягучых сэрвісаў, якія займаюцца аналізам, у прынцыпе людзі, якія займаюцца аналізам сацыяльных сетак, менавіта займаюцца аналізам інтарэсаў… Першае, што прыходзіць у галаву людзям - гэта прааналізаваць топ груп сваіх падпісчыкаў. Магчыма, з кімсьці гэта працуе, але асабіста я лічу, што гэта кардынальна няслушна. Чаму?

Вашы лайкі збіраюць і аналізуюць

Вось вазьміце зараз свае тэлефоны, паглядзіце на свой топ гуртоў – абавязкова там будзе больш за 50% гуртоў, пра якія вы ўжо забыліся, гэта нейкі кантэнт насамрэч нерэлевантны для вас. Вы яго зусім не спажываеце, але тым не менш сістэма будзе строіць вас па іх: што вы на рэцэпты падпісаны, на нейкія папулярныя групы. Гэта значыць, вы парушыце сістэму, якая аналізуе ваш профіль, і вашы інтарэсы будуць не апраўданыя.

Рухаючыся далей... Што там? Мы мяркуем, што робяць астатнія людзі. Самы, на наш погляд, адэкватны спосаб ацаніць інтарэсы карыстальнікаў - гэта лайкі. Напрыклад, ва "Вконтакте" няма стужкі лайкаў, і людзі думаюць, што ніхто не ведае пра тое, чаму яны ставяць лайкі. Так, частка лайкаў уведзеная ў «Інстаграме», у «Фэйсбуку» мы нешта бачым, але большасць кантэнту ў пэўных групах не транслюе гэта агульнай стужкай, і людзі жывуць і думаюць, што ніхто не даведаецца, на што яны ставяць лайк.

І, сабраўшы пэўны, які цікавіць нас кантэнт нейкага зместу, сабраўшы гэтыя пасты, сабраўшы гэтыя лайкі, потым па гэтай базе праверыўшы гэтага чалавека, мы можам з высокай дакладнасцю вызначыць, хто ён, які ў яго лёс, чым ён цікавіцца. Вызначыць дакладна ў пэўную сацыяльную групу і праўзаемадзейнічаць з ім.

Купля аўто мяняе паводзіны

У мяне ёсьць такі прыклад. Адразу абмоўлюся, што ў мяне прыклады калярэкламныя і околомаркетинговые, таму што, самі разумееце, большасць кейсаў абараняюць NDA і гэтак далей. Але ўсё ж такі будзе шмат чаго цікавага. Значыць, гісторыя з гэтымі людзьмі: гэта мужчыны, якія набылі аўтамабіль у прамежку 2010 па 2015 год. Тое, як змяніліся іх сацыяльныя паводзіны ў сетцы, адзначана колерам. Працэнт дзяўчат у падпісчыках змяніўся, падпісаўся на «пацанскія» паблікі, знайшоў сталага сэксуальнага партнёра…

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Уся гэтая справа разбіта па марках аўтамабіляў і па колькасці людзей. Адсюль можна зрабіць шмат цікавых высноваў аб паводзінах людзей, як гэта ўсё працуе. Магу сказаць, што «Порш Каен» і пасаджаная «Прыёра» па колькасці прыцягнутай аўдыторыі практычна аднолькавыя. Якасць гэтай аўдыторыі, іх паводзіны розныя, але колькасць прыкладна аднолькавая. Выснова адсюль можна зрабіць, бліжэй да вашага рынку, які заўгодна. Прадаеце вы "Аўдзі" - робіце слоган "Купі "Аўдзі" - "з'едзь" ад бацькоў!" і гэтак далей.

Гэта так, смешны прыклад да таго, што паводзіны людзей, заснаванае на аналізе лайкаў, на падставе таго з якой групы ў якую яны пераходзяць, які яны кантэнт аналізуюць - практычна са 100% верагоднасцю дае зразумець, хто вы. Таму што, калі вы не валодаеце доступам да сеткавага трафіку, не чытаеце асабістыя паведамленні, лайкі заўсёды падкажуць, хто гэты чалавек - цяжарная жанчына, мама, вайсковец, паліцыянт. А для вас, як для чалавека, які можа размяшчаць рэкламу, гэта вялікае трапленне ў мэту.

Адказы на пытанні аўдыторыі:

  • Кожны слупок - гэта колькасць чалавек дадзенага аўтамабіля; як змяніўся патэрн іх паводзін. Вось глядзіце: людзі, якія набылі «Порш Каен» - 550 прыкладна чалавек (жоўтае), працэнт дзяўчат у падпісчыках павялічыўся.
  • Выбарка - гэта карыстальнікі сацыяльных сетак «Вконтаке», «Фэйсбук», «Інстаграм» з 2010 па 2015 год. Адзінае ўдакладненне: тут абраныя машыны, якія з больш за 80% дакладнасцю можна вызначыць на фатаграфіях з дапамогай вызначаных прылад.
  • За пэўны прамежак часу яго машына (ну, гэта значыць не яго, гэта мы ўжо пакідаем на паверку сацыяльных сетак)… За пэўны прамежак часу чалавек увесь час з аўтамабілем фатаграфаваўся, знаходзіўся з ім, публікацыі былі розныя, фатаграфіі былі з розных кутоў і гэтак далей . Там далей будзе карцінка, якія людзі з якімі машынамі фатаграфуюцца і… Так, гэта другое пытанне - давер дадзеным сацыяльных сетак.
  • Раз ужо мы яго паднялі - нажаль, не заўсёды дадзеныя сацыяльных сетак дакладныя. Людзі не заўсёды схільныя публікаваць сваю інфармацыю. Асабіста я праводзіў такое даследаванне: параўноўваў колькасць выпускнікоў маскоўскіх ВНУ з тым, якая колькасць людзей зарэгістравана ў сацыяльных сетках. У сярэднім на 60% людзей больш у сацыяльных сетках зарэгістравана - выпускнікоў МДУ за пэўны год па пэўных спецыяльнасцях, чым іх на самой справе ў прынцыпе існуе. Так што так - тут, натуральна, ёсць працэнт памылак, і ніхто гэта не хавае. Тут проста за аснову ўзяты тыя аўтамабілі, якія можна з больш за 80% верагоднасцю вызначыць.

Спіс крыніц для навучання мадэлі

Вось прыкладны спіс крыніц, які можна выкарыстоўваць, які выкарыстоўваецца для таго, каб з вялікай дакладнасцю вызначыць сацыяльны профіль чалавека, хто ён.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

З сацыяльных сетак мы бярэм профіль, з ЦИАНа - кошт кватэры прыкладна, «Хед-Хантэр», «Суперджоб» - гэта сярэдняя зарплата для дадзенага чалавека. Спадзяюся, тут няма прадстаўнікоў "Хэд-Хантэра", таму што яны лічаць, што не вельмі добра ў іх гэтыя дадзеныя браць. Тым не менш гэта сярэдняя зарплата па пэўных рэгіёнах для пэўных тыпаў дзейнасці па вакансіях.

"Авіто", "Авто.ру": вельмі часта людзі, калі засвяцілі свой тэлефон, ён у іх абавязкова ёсць (у вялікай колькасці выпадкаў) хоць нешта на "Авито", альбо на "Авто.ру", ці яшчэ на некалькіх сайтах, з якіх можна зразумець, хто яны. Калі па гэтым тэлефоне прадавалі каляску ці аўтамабіль… Расстат і ЕГРЮЛ – гэта ўсё ж такі больш рэестры, з дапамогай якіх можна ранжыраваць кампанію-працадаўцу – па нейкай формуле, па мадэлі, якую можа задаць любы чалавек (можна прыкладна вызначыць грошы гэтага чалавека і г.д.).

«Тындер» дапамагае збіраць дадзеныя аб становішчы людзей

Плюс, ёсць такая цікавая штука (як варыянт, вельмі смешна ў даследаванні) – гэта, ізноў жа, збор дадзеных з маскоўскага "Тындэра" з дапамогай робатаў для гэтага "Тындэра". Вызначалася адлегласць да людзей, а далей вызначалася іх прыкладнае месцазнаходжанне.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Задачай гэтага даследавання было вызначыць колькасць акаўнтаў "Тындера" на тэрыторыі дзяржаўных устаноў - у Думе, пракуратуры і гэтак далей. Але вы сабе, як рэкламадаўца, можаце ўявіць як заўгодна: гэта можа быць, напрыклад, «Старбакс» ці яшчэ нехта… Гэта значыць колькасць людзей таго ж «Тындэра», якія п'юць у вас каву, нешта заказваюць, знаходзяцца ў крамах. Наконт гэтага геоположения: так можна паступіць з любым сэрвісам.

Адказ на пытанне з аўдыторыі:

  • "Тындер"? Вы не ведаеце? «Тындер» - гэта такое прыкладанне для знаёмстваў, дзе вы праглядаеце фатаграфіі (налева-направа), і гэта дадатак паказваем вам адлегласць да чалавека. Калі вы з трох розных кропак атрымаеце адлегласць да гэтага чалавека, вы можаце прыкладна (+ 5-7 метраў) вызначыць месцазнаходжанне. У дадзеным выпадку, для вызначэння на тэрыторыі пракуратуры ці Дзярждумы, гэта не так складана. Але, зноў жа, гэта можа быць ваша крама, гэта можа быць што заўгодна.

У нас, напрыклад, даўно-даўно быў такі кейс (не даследаванне), калі мы атрымлівалі ад аднаго з аператараў сотавай сувязі дадзеныя аб шчыльнасці струменя, дадзеныя аб шчыльнасці перасоўвання сотавых кропак, і гэтая ўся інфармацыя накладвалася на каардынаты рэкламных шчытоў, змешчаных на аўтамагістралях . І задача сотавага аператара – вызначыць, якая прыкладна колькасць чалавек праязджае і патэнцыйна можа бачыць гэтую шчытавую рэкламу.

Калі тут ёсць спецыялісты па шчытавой рэкламе, вы можаце сказаць: супер-дакладна нельга зразумець - хтосьці едзе, хтосьці не паглядзеў, хтосьці паглядзеў ... Тым не менш гэта прыклад таго, як 20 мільярдаў палігончыкаў такіх па Маскве, на якіх ёсць шчыльнасць гэтых людзей у кожную гадзіну па пэўных маршрутах… Можна паглядзець, міма чаго гэтыя людзі праходзілі ў любы момант і прыкладна ацаніць пасажырапаток.

Адказ на пытанне з аўдыторыі:

  • Ніхто такія звесткі не дае. Мы праводзілі такое даследаванне для аднаго з аператараў, гэта выключна ўнутраная гісторыя, таму яна, на жаль, не прадстаўлена ў выглядзе карцінак. Але часта буйныя рэкламныя агенцтвы не маюць праблем з тым, каб звярнуцца да аператара. Прынамсі, у Маскве ёсць шмат прэцэдэнтаў, калі, напрыклад, страхавыя кампаніі звяртаюцца да кампаній тыпу «ГетТаксі», якія даюць абязлічаныя дадзеныя аб тым, які ўзрост кіроўцы, як яны ездзяць (добра - дрэнна, ліхачаць - не), для таго каб прагназаваць полісы і гэтак далей. Усё з гэтым змагаюцца, але на нейкім унутраным узроўні ананімныя дадзеныя даць - я думаю, што такой праблемы няма ні ў каго.

Распазнаванне малюнкаў і вобразаў

Ідзем далей. Маё любімае - распазнанне малюнкаў. Тут будзе невялікі кавалачак пра пошук людзей па тварах, але мы ў асноўным гэтую частку не бярэм. Мы бярэм менавіта распазнанне выяў і азначэнні, што на гэтым малюнку марка аўтамабіля, колер яго і гэтак далей.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

У мяне ёсць такі жартоўны прыклад:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Было такое даследаванне па пошуку татуіровак у розных сацыяльных сетках. Адпаведна, гэта ж можна ўжыць да любога брэнда, да любой візуальнай выявы, практычна да любой візуальнай выявы. Ёсць тыя, якія нельга вызначыць дастаткова дакладна (мы іх не бярэм).

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Вось маё каханае. Аўтамабільныя брэнды досыць часта звяртаюцца за такой задачай, таму што іх задача, напрыклад, знайсці ўсіх уладальнікаў якіх-небудзь BMW X6, зразумець, хто яны, як яны паміж сабой злучаны, чым яны цікавяцца і гэтак далей. Гэта да пытання аб тым, з якімі аўтамабілямі фатаграфуюцца людзі ў сацыяльных сетках.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Тут увогуле не было ніякага фільтравання: прадмет іх, аўтамабіль не іх; проста такая разбіўка аўтамабіляў узрост і гэтак далей. Але візуальнае распазнанне выяў выкарыстоўваецца досыць часта: гэта і пошук цяжарных жанчын, і пошук лагатыпаў брэндаў у нейкім мас-медыя (хто і што посціць).

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Самы мой каханы кейс (якім карыстаюцца розныя рэстараны): якія ролы посцяць у сацыяльнай сетцы. Смешная штука, але насамрэч гэта дазваляе шмат чаго цікавага зразумець, па-першае, аб уласных пакупніках: хто да цябе прыйшоў і чаму яны гэта зрабілі. Таму што не сакрэт, што ў сушы-барах большасць людзей (не буду казаць "дзяўчат") фоткаецца, каб зачакініцца, сфатаграфаваць нешта і г.д.

Брэнд гэтым можа скарыстацца. Брэнду цікава, якую менавіта прадукцыю яму трэба прыгожа фатаграфаваць і выкладваць, якія людзі туды прыходзілі. Такую рэч можна пракруціць практычна з чым заўгодна, пачынальна ад ежы.

Распазнаванне вобразаў на відэа

Адказ на пытанне з аўдыторыі:

  • На відэа - не. Яно ў нас ёсць у тэставым рэжыме. Мы спрабавалі такую ​​тэхналогію, але атрымліваецца, што… Яна дастаткова добра распазнае ўсю справу з відэа, але прымяненне гэтаму мы нікуды не знайшлі. Пакуль. Акрамя як аналіз таго, колькі, якія відэаблогеры недзе гавораць… Было такое даследаванне. Колькі іх твары сустракаюцца, як часта. Але для брэндаў пакуль не прыдумалі куды гэта прыдумаць. Магчыма, калі-небудзь гэта прыйдзе.

Зноў жа, гэта ежа, гэта могуць быць цяжарныя жанчыны, мужчыны (не цяжарныя), аўтамабілі - усё, што заўгодна.

Як варыянт было такое навагодняе даследаванне для аднаго СМІ. Таксама далёка ад рэкламы, але тым не менш. Гэта - якую ежу людзі пасцілі на Новы год:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Яно тут яшчэ разбіта па ўзросце. Можна прагледзець такую ​​карэляцыю, што маладыя людзі ежу ў асноўным заказваюць, дарослыя ў асноўным робяць традыцыйны стол. Жартоўная рэч, але, уяўляючы яе сабе як уладальнік брэнда, вы можаце ацаніць вялікую колькасць рэчаў: хто і як з вашай прадукцыяй звяртаецца, што пра яе пішуць. Часцяком не заўсёды людзі згадваюць сам брэнд у тэксце, і традыцыйныя маніторынгавыя сістэмы аналітычныя не заўсёды могуць зразумець, знайсці гэтую згадку брэнда выключна таму, што ў тэксце ён не згаданы. Ці ў тэксце ён напісаны з памылкамі, няма хэш-тэгаў ці нешта заўгодна.

Фатаграфіі відаць. З фатаграфіяй можна зразумець, ці цэнтральны гэта аб'ект кадра, не цэнтральны аб'ект кадра. Далей можна паглядзець, што гэты чалавек напісаў. Але часцей за ўсё гэта выкарыстоўваецца як пошук патэнцыйнай аўдыторыі, якая ездзіла на пэўных аўтамабілях і гэтак далей. А потым мы з гэтымі аўтамабілямі будзем рабіць шмат чаго цікавага.

Ботаў вучаць пераймаць чалавеку

Вось такі варыянт прымянення падліку людзей таксама быў:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Бывае варыянт супастаўлення людзей, калі трэба па нейкіх фатаграфіях знайсці людзей, зразумець іх сацыяльны профіль, хто яны. Зноў жа, вяртаемся да пытання аб тым, што калі ў нас стаіць камера ў афлайн-краме, то гэта дастаткова добры спосаб зразумець, хто да вас прыходзіць, хто гэтыя людзі, чым яны цікавяцца, што іх падштурхнула да вас прыйсці.

Далей самае цікавае: калі мы збярэм іх акаўнты ў сацыяльных сетках, зразумеем, хто гэтыя людзі, чым яны цікавяцца, мы зможам (як варыянт) зрабіць робата, падобнага на гэтых людзей; гэты робат пачне жыць, як гэтыя людзі, і аналізаваць, якую рэкламу ён бачыць у розных сацыяльных сетках. Гэта дазволіць дастаткова дакладна зразумець, якія брэнды на гэтага чалавека арыентаваны. Гэта таксама дастаткова частая гісторыя, калі неабходна не проста прааналізаваць, хто гэты чалавек і якія ў яго інтарэсы, а яшчэ і якую рэкламу на яго патэнцыйна канкурэнты вашыя ці іншыя зацікаўленыя людзі таргетаваць.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Аналіз сувязей у сацыяльных сетках

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Наступная штука цікавая: гэта аналіз узаемасувязяў паміж людзьмі. Сам, уласна, аналіз сувязяў у сетцы, гэтыя сеткавыя графы - у гэтым няма наогул ні кроплі, нічога новага, гэта ўсім вядома.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Але прымяненне да рэкламных задач - гэта самае цікавае. Гэта пошук людзей, якія задаюць трэнды, гэта пошук людзей, якія распаўсюджваюць інфармацыю па пэўных крытэрыях унутры гэтай сеткі. Скажам, нас цікавяць тыя ж уладальнікі вызначанай мадэлі БМВ. Сабраўшы іх усіх разам, мы можам знайсці тых, хто трымае ў сябе ў руках грамадскую думку. Гэта неабавязкова блогеры аўтамабільныя і гэтак далей. Звычайна гэта простыя таварышы, якія сядзяць у розных пабліках, цікавяцца нейкім кантэнтам і могуць за вельмі кароткі прамежак часу завабіць у гэтую зону адказнасці, у зону цікавасці ваш брэнд ці кагосьці цікавіць для вас.

Тут ёсьць такі прыклад. Ёсць у нас патэнцыйныя нейкія людзі, сувязі паміж людзьмі. Тут аранжавыя - гэта людзі, дробныя кропкі - гэта агульныя групы, агульныя сябры.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Калі сабраць усе гэтыя сувязі паміж імі, можна вельмі выразна паглядзець, што ёсць людзі, у якіх паміж сабой ёсць вялікая колькасць агульных груп, агульных сяброў, яны там знаходзяцца паміж сабой… А калі гэтую ж візуалізацыю разбіць на групы па інтарэсах, па кантэнце, які яны распаўсюджваюць, наколькі яны ўзаемадзейнічаюць адзін з адным… Вось тут можна паглядзець, што папярэдні малюнак стаў вось такім чынам:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Тут выразна вылучыліся колерам гурта. У дадзеным выпадку гэта ўзяты студэнты нашай магістратуры ў Вышэйшай школе эканомікі. Тут бачна, што фіялетавыя / сінія - гэта тыя, хто любяць Transparency International, «Адкрытую Расію», паблікі Хадаркоўскага. Знізу злева - зялёныя, тыя, хто любіць «Адзіную Расію».

Можна паглядзець, што папярэдняя карцінка была вось такая (гэта проста сувязі паміж людзьмі), а стала выразна размежаванай. Гэта значыць, усе людзі заўсёды звязаныя паміж сабой, у іх ёсць аднолькавыя інтарэсы, яны сябруюць адзін з адным. Зверху адны, знізу другія, там яшчэ нейкія таварышы. І калі кожны з гэтых маленькіх падграфаў асобна правізуалізаваць з іншымі параметрамі і паглядзець хуткасць распаўсюджвання кантэнту (грубіянска кажучы, хто там што рэпостыт), можна знайсці ў кожнай частцы аднаго-двух чалавек, якія заўсёды трымаюць у руках грамадская думка, провзаимодействовавши з якім, папытаўшы адправіць пасаду нейкі ці яшчэ-што - можна атрымаць водгук усёй гэтай цікавай аўдыторыі.

У мяне ёсць яшчэ адзін прыклад. Таксама граф: гэта супрацоўнікі BBDO Group, знойдзеныя ў сацсетках як прыклад. Выглядае як нецікавае, вялікае, зялёнае, сувязі паміж імі…

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Але ў мяне ёсць варыянт, дзе паміж імі ўжо пабудаваны групы. Потым, калі каму-небудзь будзе цікава, ёсць інтэрактыўная версія - можна паклікаць, паглядзець.

Зверху справа - тыя, хто любіць Пуціна. Вось тут фіялетавыя - гэта дызайнеры; тыя, хто захапляецца дызайнам, нечым такім цікавым і гэтак далей. Тут белыя штукі - гэта кіруючы склад (мабыць, я так зразумеў); гэта людзі, якія ніяк, увогуле, не злучаны, але працуюць прыкладна на аднолькавых пазіцыях. Астатняе - гэта іх агульныя групы, сувязі і гэтак далей.

Брэндам патрэбны не блогеры, а лідэры меркаванняў

Бярэм гэтых людзей і знаходзім - далей рэкламнае агенцтва, рэкламная кампанія вырашае сама: яна можа грошай даць гэтаму чалавеку, каб ён неяк провзаимодействовал з гэтым кантэнтам, яшчэ нешта, або накіраваць на іх сваю пэўную рэкламную кампанію. Таксама досыць часта ўжываецца, асабліва цяпер, таму што ўсе брэнды жадаюць працаваць з блогерамі, жадаюць, каб прасовалі іх кантэнт, а рэкламныя агенцтвы не вельмі жадаюць кантактаваць (ну, бывае такое).

І рэальнае выйсце з гэтай сітуацыі – знайсці людзей, якія не блогеры, не б'юці-блогеры, а напрыклад, нейкія рэальныя істоты, якія ўзаемадзейнічаюць з гэтым брэндам, могуць у якім-небудзь убогім сваім пабліку «Мэйл.ру Адказы» напісаць, атрымаць пэўную колькасць праглядаў. Гэтыя людзі, якія ўвесь час цікавяцца кантэнтам гэтага чалавека, яны ўсю гэтую справу распаўсюдзяць, і брэнд атрымае сваю ўцягнутасць.

Другі варыянт, як выкарыстоўваць падобную тэхналогію цяпер, дастаткова актуальны – гэта пошук робатаў, маё каханае. Гэта і рэпутацыйная рызыка для вашых канкурэнтаў, і магчымасць адсеяць ад рэкламнай кампаніі нерэлевантных людзей, і ўсё, што заўгодна (і выдаленне каментароў, і пошук сувязяў паміж людзьмі). У мяне ёсць такі прыклад, ён таксама ёсць вялікі інтэрактыўны - яго можна падштурхоўваць. Гэта сувязі людзей, якія пісалі каментары ў суполцы «Стужка».

Такі прыклад – для таго, каб вы разумелі, наколькі добра і проста відаць ботаў; і для гэтага не трэба валодаць нейкімі тэхнічнымі ведамі. Значыць, "Лентач" выпусціў пасаду аб расследаванні ФБК пра Дзмітрыя Мядзведзева, і пэўныя людзі сталі пісаць каментары. Мы сабралі ўсіх людзей, якія пісалі каментары - гэтыя людзі зялёныя. Цяпер пасуну:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Людзі - гэта зялёныя (якія пісалі каментары). Яны ёсць тут, яны ёсць тут. Блакітныя кропкі паміж імі - гэта іх агульныя групы, жоўтыя - агульныя падпісчыкі, сябры і гэтак далей. Вось асноўная маса людзей звязана паміж сабой. Таму што, якая б ні была тэорыя трох, чатырох, пяці поціскаў рукі, усе людзі звязаныя паміж сабой у сацыяльных сетках. Няма людзей, якія аддзеленыя сябар ад сябра. Нават мае сябры-сацыяфобы, якія выкарыстоўваюць «Вконтакте» выключна для прагляду відэа, усё роўна на нейкія аднолькавыя з намі паблікі падпісаны.

Навальны таксама выкарыстоўвае ботаў. Боты ёсць ва ўсіх

Асноўная маса людзей (вось яна, тут) злучаны паміж сабой. Але ёсць такая маленькая групка таварышаў, якая знаходзіцца ў сябрах выключна сябар у сябра. Вось яны, зялёненькія, вось іх агульныя сябры і гурты. Яны нават асобна тут адваліліся:

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

І па шчаслівай выпадковасці менавіта гэтыя людзі менавіта пад гэтай пасадай пісалі: "У Навального няма доказаў" і гэтак далей, пісалі аднолькавыя каментары. Высновы рабіць я, вядома, не бяруся. Але тым не менш, у мяне быў іншы пост у «Фэйсбуку», калі былі дэбаты Лебедзева і Навальнага, я дакладна гэтак жа аналізаваў каментары: там атрымалася, што ўсе людзі, якія напісалі «Лебедзеў - лайно», яны не заходзілі ў сацсеткі апошнія чатыры месяцы, не падпісаныя ні на адзін з паблікаў, раптоўна зайшлі менавіта ў гэтую пасаду, напісалі менавіта гэты каментар і сышлі. Высновы, зноў, адсюль рабіць нельга, але хтосьці з каманды Навальнага мне напісаў камент, што робатаў яны не выкарыстоўваюць. Ну і добра!

Бліжэй да рэкламы, бліжэй да брэнда. Боты зараз ёсць ва ўсіх! Яны ёсць і ў нас, ёсць і ў канкурэнтаў, яшчэ ў некага. Іх трэба выкідаць ці пакідаць, каб яны добра жылі; на падставе такіх дадзеных (паказвае на папярэдні слайд) даводзіць іх да дасканаласці, каб яны выглядалі як рэальныя людзі і толькі тады імі карыстацца. Хоць карыстацца ботамі дрэнна! Тым не менш дастаткова частая гісторыя…

У аўтаматычным рэжыме такая рэч дазваляе адфільтраваць са свайго аналізу людзей нерэлевантных для аналізу, людзей, якія не павінны патрапіць у выбарку, не павінны патрапіць у гэтае даследаванне. Вельмі часта выкарыстоўваецца. Ізноў жа, не ўсе ўладальнікі аўтамабіляў сапраўды з'яўляюцца ўладальнікамі аўтамабіляў. Часам цікавыя толькі людзі, у якіх ёсць патэнцыйна аўтамабіль, якія сядзяць у нейкіх групах, з кімсьці размаўляюць, у іх там ёсць пэўная аўдыторыя.

Аналіз фактаў і меркаванняў

Наступнае, што ў мяне ёсць, таксама маё каханае. Гэта аналіз фактаў і меркаванняў.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Згадка аб сваім брэндзе ў розных крыніцах зараз умеюць рабіць усё. У гэтым няма ніякага сакрэту. І танальнасць накшталт усё ўмеюць лічыць… Хаця асабіста я лічу, што сама па сабе метрыка танальнасці не вельмі цікавая, таму што, калі ты прыходзіш і кажаш кліенту, – «Мужык, у цябе 37% нейтрала, – і ён такі кажа, – « Нічога сабе! Стромка!» Таму цікавей было б рушыць крыху далей: ад ацэнкі танальнасці да ацэнкі меркаванняў таго, што пра ваш прадукт гавораць.

І гэта таксама вельмі цікавая рэч, таму што… Я асабіста лічу, што нейтральных паведамленняў у прынцыпе быць не можа, бо, калі чалавек нешта піша ў публічнай прасторы, гэтае паведамленне па-любому неяк афарбавана. Вось я асабіста ніколі не бачыў нейтральнага паведамлення са згадваннем нейкага брэнда. Звычайна гэта нейкі бруд.

Калі возьмем вялікую колькасць гэтых паведамленняў (іх можа быць мільёнаў, 10 мільёнаў), вылучым з кожнага паведамлення галоўную думку, аб'яднаем іх, мы можам зразумець дастаткова дакладна, што людзі кажуць пра гэты брэнд, што яны лічаць. "Мне не падабаецца ўпакоўка", "Мне не падабаецца кансістэнцыя" і гэтак далей.

Што думаюць пра «Трансаэра», чупа-чупс і прэзідэнта ЗША

Смешны прыклад у мяне ёсць такі: гэта інфаграфіка аб тым, што б зрабілі карыстачы сацыяльных сетак з кампаніяй «Трансаэра» пасля яе банкруцтва.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Там ёсць шмат цікавых прыкладаў: спаліць, забіць, выслаць у Еўропу, былі нават 2%, якія напісалі - "Адправіць іх у Сірыю на ваенныя дзеянні". Рухаючыся ад смешнай штукі, гэта можа быць любы брэнд практычна пачынальна ад маіх каханых сабачых кормаў, сканчаючы якімі-небудзь аўтамабілямі. Каму не падабаецца ўпакоўка, каму не падабаюцца рэальныя рэчы - з гэтым заўсёды можна працаваць, з гэтым заўсёды можна лічыцца. Ёсць вялікая колькасць прыкладаў, калі людзі ледзь не вытворчасць сваёй прадукцыі мянялі, таму што ў сацсетках пісалі, што чупа-чупс недастаткова круглы ці ён недастаткова салодкі.

Ёсць яшчэ такі смешны прыклад. Здагадайцеся, якія каментары і пра каго?

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Чамусьці зараз менавіта аналіз меркаванняў, аналіз фактаў, што выдзяляюцца з паведамленняў, не вельмі выкарыстоўваецца, не вельмі шырока распаўсюджаны. Хоць гэтая тэхналогія не суперсакрэтная, у гэтым наогул практычна няма ніякага ноў-хаў, таму што з каментароў людзей вылучыць дзейнік, выказнік і згрупаваць іх - для гэтага не трэба быць геніем кампутарнай лінгвістыкі. Гэта зрабіць ня так складана. Але я спадзяюся, што ў бліжэйшыя пару гадоў людзі пачнуць гэта выкарыстоўваць, таму што… Будзе класна - гэта такі аўтаматычны фідбэк! Ведаеш заўсёды, што пра цябе гавораць. Ну, вы зразумелі, што гэта пра прэзыдэнта ЗША зроблена.

Адказ на пытанне з аўдыторыі:

  • Так, гэта «Фэйсбук» англамоўны. Яны тут перакладзены на рускую мову. Недзе гэта пісалася.

Big Data і паліттэхналогіі

Насамрэч у мяне ёсць шмат розных цікавых прыкладаў палітыканскіх пра Трамп і пра ўсіх астатніх, але вырашылі іх сюды не прыводзіць. Але палітыканскі прыклад ёсьць адзін.

Гэта выбары ў Дзярждуму. Калі былі? У мінулым годзе? Амаль паўтара гады таму.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Тут людзі, у якіх удалося вызначыць іх дакладнае месцазнаходжанне, аж да пэўнай геакропкі, каб зразумець, у які яны выбарчы УВК трапляюць. А далей з гэтых людзей узятыя толькі тыя, якія выказалі сваю пэўную думку, за каго яны пойдуць галасаваць.

З пункту гледжання паліттэхналогій, гэта не вельмі правільна, таму што ўсю гэтую справу трэба нарміраваць на шчыльнасць насельніцтва і гэтак далей. Тым не менш сінія тут збіраюцца галасаваць самі ведаеце за каго, чырвоныя - за апазіцыйных таварышаў, якіх было, дарэчы, не так шмат.

Я асабіста лічу, што Big Data да паліттэхналогій яшчэ вельмі няхутка дойдзе, але, як варыянт, кандыдат - таксама брэнд. І гэта таксама ў нейкай ступені аналіз фактаў і меркаванняў аб сваім брэндзе, і дастаткова цікавая рэч, таму што можна ў рэальным часе разумець, хто там пра што робіць. Я вось ведаю некалькі кейсаў у BBC, калі яны ў рэжыме рэальнага часу ў нейкай трансляцыі маніторылі сацсеткі: водгук вось такой, людзі пішуць пра гэта, задавай вось такое пытанне – і гэта класна! Я думаю, што будзе вельмі хутка прымяняцца, таму што цікава ўсім.

Мадэляванне пазіцый брэндаў

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Далей у мяне мадэляванне пазіцый брэндаў. Маленькая такая, кароткая штука аб тым, як з дапамогай розных метрык (не лайкаў падпісчыкаў у сацсетках, а з дапамогай комплексных метрык, цікавасці да кантэнту, часу, праведзенага за атрыманнем метрык) можна ранжыраваць брэнды.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

У мяне прыклад ёсць па "фарме" па вызначанай. Тут маленькія кругляшкі ўнутраныя, яркія - гэта колькасць тэкставага кантэнту, які стварае сам брэнд, вялікі кругляшак - гэта колькасць фота-і відэакантэнту, які стварае сам брэнд.

Блізкасць да цэнтру паказвае, наколькі гэты кантэнт цікавы аўдыторыі. Тамака вялікая мадэль, ёсць куча ўсякіх параметраў: лайкі, рэпосты, час водгуку, хто тамака падзяліўся ў сярэднім… Тут можна паглядзець: ёсць выдатны «Кагоцел», які ўбухвае велізарную колькасць грошай у стварэнне ўласнага кантэнту, і яны за рахунак гэтага знаходзяцца досыць блізка да цэнтру. А ёсць таварышы, якія таксама свой кантэнт ствараюць, але ён аўдыторыі нецікавы. Такі, не вельмі адэкватны прыклад, таму што ўсе гэтыя акаўнты практычна мёртвыя.

Ягора Крыда любяць больш Басты

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Нажаль, астатнія… з таго, што паказаць… Вось, ёсць яшчэ рускія рэперы, як варыянт, з рэальных кампаній.

У чым плюс? У тым, што кампанія можа ў такую ​​мадэль закласці практычна ўсё, што заўгодна, пачынаючы ад сярэдняга заробку падпісчыкаў, якія сядзяць у цябе ў брэндзе; любую мадэль, якая ім падабаецца. Таму што кожнае рэкламнае агенцтва ўласныя метрыкі лічыць па-рознаму, брэнды ўласныя метрыкі лічаць па-рознаму.

Тут таксама ёсць такі - Баста, якія генерыруе вялікую колькасць кантэнту, але пры гэтым знаходзіцца на перыферыі, таму што гэты кантэнт, мабыць, не вельмі цікавы аўдыторыі. Зноў жа, меркаваць я не бяруся. Але тым не менш ёсць Ягор Крыд, які, паводле звестак сацыяльных сетак, увогуле ледзь не лепшы выканаўца сучаснасці, а публікуе пры гэтым толькі свае асабістыя фатаграфіі. Тым не менш у яго вялікая колькасць падпісчыкаў: іх недзе каля мільёна чалавек. Я не памятаю дакладную колькасць; памятаю, што працэнт уцягнутасці гэтых людзей значна вышэй за 85%, гэта значыць на мільён падпісчыкаў ён атрымлівае 850 тысяч водгукаў гэтых рэальных людзей - гэта рэальнае вар'яцтва. Гэта так.

Артур Хачуян: "Сапраўдная Big Data ў рэкламе"

Адказы на пытанні аўдыторыі:

Колькі часу пайшло на складанне мадэлі аналізу рэпераў?

  • Для кожнага ўзята свая мэтавая аўдыторыя, свае інтарэсы гэтых людзей, для кожнага палічаны… Усё гэта нарміравана на адлегласць да цэнтра прыкладна, радыяльнае іх становішча не важна (яно тут проста для прыгажосці размазана, каб яны адзін на аднаго не наязджалі). Важна толькі прыкладная блізкасць да цэнтру. Гэта мадэль, якую мы выкарыстоўваем. Мне, напрыклад, круг больш падабаецца, нехта гэта робіць на ўвазе паўкола.
  • Гэтая мадэль складалася хутка, гадзіны за дзве, за тры (так, аднаго чалавека). Тут выключна метрыкі ўстаўлялі: што на што памнажаем, складаем, далей неяк нарміруецца. Залежыць ад мадэлі. Бываюць людзі, якім цікавы сярэдні заробак (гэта не жарт) іх падпісчыкаў. А для гэтага трэба іх кантакты знайсці, "Авіто", усё гэта палічыць, памножыць. Бывае, такое доўга лічыцца, але менавіта гэта (паказвае на папярэдні слайд) - тут простыя параметры: падпісанты, рэпосты і гэтак далей. Яна рабілася недзе дзве-тры гадзіны. Адпаведна, гэтая рэч потым у рэальным часе абнаўляецца, ёю можна скарыстацца.

Цяпер самае цікавае. У мяне з прыкладамі ўсё, таму што нецікава доўга казаць аднаму. І я спадзяюся, што вы зараз будзеце задаваць пытанні, і мы далей, уласна, ад тэмы да тэмы рушым, таму што ў мяне такія прыклады таго, як тэхналогіі могуць выкарыстоўвацца і гэтак далей…

Адказы на пытанні аўдыторыі:

  • У мяне быў адзін-адзіны асабісты кейс з адным, калі так можна сказаць, «каляказіно», калі там ставілася камера, распазнаваліся твары і гэтак далей. Працэнт распазнаных людзей сапраўды дастаткова вялікі - што ў нас, што ў канкурэнтаў. Але насамрэч гэта дастаткова цікава. Я гэта бачу як цікавую рэч: можна зразумець, хто гэтыя людзі, і дастаткова добра спрагназаваць, чаму менавіта яны прыйшлі сюды, што ў іх у жыцці так змянілася, што яны вырашылі прыйсці ў казіно. Але наконт канкрэтных відаў бізнэсу… Калі ставіць такую ​​рэч у аптэцы, то тут сэнсу няма – ніяк ты не спрагназуеш, чаму чалавек прыйшоў менавіта ў аптэку.

    Глабальная задача тут была - пабудаваць мадэль, для таго каб зразумець, калі чалавек патэнцыйна захоча зацікавіць тваім брэндам, каб яму рэкламу даць не пасля таго, як ён нешта купіў (як гэта адбываецца цяпер), а рэкламу яму даць "у прагноз" таго, калі гэта ўсё гэта адбудзецца. З такім "каляказіно" было цікава; там атрымаўся даволі цікавы працэнт гэтых людзей - чаму: хтосьці раптам павышэнне атрымліваў, хто яшчэ нешта - цікавыя такія інсайты. А вось з нейкімі крамамі, з рытэйлам, з крамай якіх-небудзь таблетак, мне здаецца, будзе не надта правільна.

Ці ўжываецца Big Data у афлайне?

  • У афлайне яно было. Трэба толькі разумець дакладна, прыкладна - гэтая мадэль сыдзецца, не сыдзецца. Ізноў жа, з вадой газаванай… Мне насамрэч усё цікава, але я асабіста не разумею, наколькі, як могуць залежаць профілі гэтых людзей, іх паводзіны ад таго, калі яны захочуць купіць ваду ў бутэлечках. Хаця гэта, можа, сапраўды так, я не ведаю.

Колькі адкрытых акаўнтаў у сацсетках?

  • У нас канкрэтна 11 сацсетак - гэта "Вконтакте", "Фэйсбук", "Твітэр", "Аднакласнікі", "Інстаграм" і нейкія там дробязі (я магу паглядзець спіс, тыпу "Мэйл.ру" і гэтак далей). "Вконтакте" у нас сапраўды ёсць копія ўсіх гэтых таварышаў. У нас ёсць людзі «Вконтакте» - гэта 430 мільёнаў усіх, якія калі-небудзь існавалі (з іх дзесьці 200 млн - пастаянна актыўныя); ёсць гурты, ёсць сувязі паміж гэтымі людзьмі і ёсць кантэнт, які нас цікавіць (тэкставы), і частка медыя, але вельмі маленькая… Груба кажучы, мы глядзім на гэтую карцінку: калі там ёсць твары – мы іх захоўваем, калі мемасік – мы яго не захоўваем, таму што на захаванне мэдыякантэнту нават у нас не хапіла б нічога.

    Ёсць рускамоўны «Фэйсбук». Дзесьці зараз 60-80% - «Аднакласнікаў», праз пару месяцаў мы іх дабяром, напэўна, усіх да канца. Рускі «Інстаграм». Для ўсіх гэтых сацсетак ёсць групы, людзі, сувязі паміж імі і тэкст.

  • Каля 400 мільёнаў чалавек. Ёсць тонкасць: ёсць людзі, у якіх не пазначаны горад (яны патэнцыйна рускія / нярускія); з іх у сярэднім па сацсетках, вось - па «Вконтакте» 14% зачыненых акаўнтаў, у «Фэйсбуку» не ведаю дакладную лічбу.
  • У «Інстаграме» таксама не захоўваем медыя – выключна, калі толькі там твары ёсць. Такі (іншы) медыякантэнт мы не захоўваем. Звычайна цікава: толькі тэкст, сувязі паміж людзьмі; усё. Самыя частыя даследаванні па «Інстаграме» – гэта звычайныя даследаванні па аўдыторыі: хто гэтыя людзі, як і, найважнейшае тут, сувязь гэтых людзей з іншымі сацсеткамі. Знайсці профіль гэтага чалавека ва "Вконтакте" і "Фэйсбуку" для таго, каб разлічыць яго ўзрост і гэтак далей.
  • Няма пакуль патрэбы браць усіх астатніх - проста таму, што няма заказчыкаў. Наконт мовы: у нас ёсць руская, англійская, іспанская, але ўсё роўна гэта выкарыстоўваецца пакуль выключна для брэндаў з Расіі; ну, ці кампаній, якія вядуць іх з Расіі.
  • Мы штодня ў шматліка-шмат-шмат патокаў апытваем людзей: збіраем мы дадзеныя, збіраючы вэб, а абнаўляем гэтыя паказчыкі, выкарыстоўваючы Api. За 2-3 дні можна прайсці ўвесь «Вконтакте», прашэрсціўшы іх; дзесьці за тыдзень можна прайсці ўвесь «Фэйсбук», зразумеўшы ў каго там што абнавілася, што - не. А далей ужо гэтых людзей асобна перасабраць: што канкрэтна змянілася, запісаць усю гэтую гісторыю. На маёй памяці вельмі рэдка для нейкай рэальнай бізнэс-задачы быў скарыстаны чыйсьці стары профіль у сацыяльных сетках. Гэта быў раз, калі звяртаўся адзін палітычны дзеяч, і яго задачай было зразумець, што за людзі прыходзяць у штаб, кім гэтыя людзі былі 6-8 месяцаў таму (ці не выдалілі яны свой профіль, а насамрэч за іншага кандыдата, прыйшлі бюлетэні псаваць).

    І пару разоў - асабістыя гісторыі, калі нечыя фатаграфіі ў адкрытым доступе апублікавалі. Неабходна было сувязі знайсці і г. д. На жаль, вельмі шкада, але ў судзе мы сведчыць не можам, бо наша база юрыдычна неліквідная.

  • Сховішча MongoDB - маё самае каханае.

Сацсеткі спрабуюць весці барацьбу са зборам дадзеных

  • Звычайна мы рэкламадаўцам выгружаем выключна спіс гэтых акаўнтаў, а далей яны выкарыстоўваюць стандартную… Гэта значыць, у сацыяльных сетках, ва «Вконтакте» там, можна спіс гэтых людзей паказаць.

    Але для "Фэйсбука" выкарыстоўваюцца "кукі" набытыя. Мы самі з "кукамі" не працуем, але было некалькі гісторый, калі рэкламадавец сам даваў нейкіх людзей, мы з імі ўзаемадзейнічалі - у іх ёсць сеткі вось гэтыя вось, з тизерной, не тизерной рэкламай, гэтыя "куки". Прывязаць можна - не пытанне! Але я не вельмі люблю гэтыя штукі, бо лічу, што гэта не вельмі дакладна. Гэта чыста на мой погляд, гэта як TNS, якая "трачыць" тэлевізары - незразумела, глядзіш ты гэты тэлевізар, не глядзіш, посуд ты мыеш, пакуль у цябе тэлевізар працуе… І тут тое ж самае: я вельмі часта нешта гуглю ў інтэрнэце, але гэта не значыць, што я хачу гэта купіць.

  • Калі вы выкарыстоўваеце стандартную нейкую сетку кантэкстнай рэкламы: у мяне было некалькі гісторый, калі мы ім выгружалі гэтых людзей, спрабавалі з дапамогай іх інтэрфейсаў перавязаць іх з "кукамі" на іх сайтах. Але я ня надта люблю такія рэчы.

Формула вылічэння зарплаты інтэрнет-карыстальніка

  • Агульная формула для сярэдняга заробку: гэта рэгіён, дзе чалавек пражывае, гэта катэгорыя бізнэсу, у якой працуе ён (гэта значыць кампанія, якая з'яўляецца яго працадаўцам), далей яго бярэцца яго пасада ў гэтай кампаніі, прыкідваецца сярэдняя зарплата на гэтай пасадзе… Сярэдні заробак бярэцца з "Хед-Хантера" і "Суперджоба" (і там некалькі яшчэ крыніц) для дадзенай вакансіі ў дадзеным рэгіёне і для дадзенага кантэксту бізнесу.

    З "Авіто" і "Авто.ру" звычайна бяруцца дадатковыя параметры, калі чалавек засвяціў тэлефон. З «Авіто» можна паглядзець, якія рэчы чалавек прадае - дарагія, недарагія, б/к, не б/к. З Авто.ру можна паглядзець, ці ёсць у яго аўтамабіль валодае ён, не валодае. Гэта недзе менш за 20% людзей, якія выпадкова недзе выпусцілі свой тэлефон, і іх рахунак можна з гэтымі дадзенымі перавязаць.

Якімі аб'ёмамі аперуе кампанія, занятая зборам дадзеных?

  • Аб'ём захоўваюцца фатаграфій у петабайтах - 6,4. Хуткасць росту зараз дакладна сказаць не магу, таму што ў 2016 годзе мы пачалі «перыскопы» запісваць і крыху пачалі запісваць відэа.

    Я не магу дакладна сказаць, калі быў нуль. Мы з кампаніі ў кампанію пераходзілі - усё гэта доўгія такія гісторыі. Але магу сказаць, што ВК, "Фэйсбук", "Інстаграм" і "Твітэр" - уся гэта справа (людзі, групы і сувязі паміж імі) з тэкстам і кантэнтам - гэта на самой справе не так шмат дадзеных, наўрад ці там нават петабайт набраўся. Я думаю, што гэта гігабайт 700, мусіць, 800.

Дапамагаеце кліентам вызначыць актуальную нішу, куды "капаць"?

  • Калі кліент прыходзіць, мы такія рэчы яму падказваем, але самі, як Гугл Трэндс, такімі рэчамі не займаемся.
  • У нас было некалькі гісторый калясацыялагічных, з выбарнай, перадвыбарнай гісторыяй - мы гэта ўсё аналізавалі. З брэндамі і ацэнкай меркаванняў аб брэндах практычна заўсёды ўсё сыходзіцца. Вось выбарныя-перадвыбарныя гісторыі - не (з ацэнкай, які кандыдат павінен выйграць). Ужо хто тут не мае рацыю - мы, ці тыя, хто лічыць ва УЦВГД - не ведаю.
  • Звычайна мы бярэм у самога брэнда гэтыя кантрольныя вынікі, яны гэта бяруць у таварышаў, якія заказваюць даследаванні - тэлефонныя там, маркетынгавыя і гэтак далей. Плюс, гэтую ўсю справу можна праверыць з элементарнымі рэчамі: нехта там на рассылку адказваў, нехта апытанні… Калі гэта буйны брэнд («Кока-Кола», напрыклад), у іх ёсць абавязкова мільён-два ўнутраныя свае водгукі ад кліентаў - гэта не толькі каментары ў сацсетках і нейкія меркаванні; гэта ўнутраныя нейкія сістэмы, водгукі і гэтак далей.

Закон не "ведае", што такое персанальныя дадзеныя!

  • Мы аналізуем выключна адкрытыя крыніцы дадзеных, ніколі ні ў якую брудную чарнуху не лезем. Мадэль наша пабудавана на тым, што ўсе адчыненыя дадзеныя мы захоўваем у нейкіх публічных дата-цэнтрах, яшчэ дзесьці арандуем, а аналізуем у сябе, на тэрыторыі офісаў, у сваіх серверах, і нікуды гэта за тэрыторыю не выходзіць.

    Але наша заканадаўства ў сферы адкрытых звестак вельмі расплывістае.

    У нас няма выразнага разумення, што такое адкрытыя дадзеныя, што такое персанальныя - ёсць гэты 152-й ФЗ, але ўсё роўна ... Яны лічаць як? Вось, калі ў мяне ў адной базе ёсць ваша імя і ваш тэлефон, у іншай базе ў мяне ёсць ваш тэлефон і ваш e-mail, у трэцяй ёсць, скажам, ваш e-mail і ваш аўтамабіль; усё гэта - накшталт як не персанальныя дадзеныя. Калі гэта ўсё разам злучыць, нібыта па законе гэта стане персанальнымі дадзенымі.

    Мы абыходзім гэта двума спосабамі. Першы - гэта ставім кліенту сервера з софтам, і тады гэтыя дадзеныя не выходзяць за яго тэрыторыю, і тады кліент нясе адказнасць за распаўсюджванне гэтых персанальных дадзеных, не персанальных дадзеных і гэтак далей. Альбо другі варыянт: калі гэта нейкая гісторыя, дзе давядзецца судзіцца з сацсеткай ці яшчэ нешта…

    У нас было такое даследаванне, калі мы збіралі (быў праймерыз "Адзінай Расіі") для "Лайфньюс" акаўнты гэтых таварышаў і глядзелі, якое яны порна лайкаюць. Смешная штука была, але тым не менш. Мы прадаем гэта як наша ўласнае, асабістае меркаванне, не раскрываючы юрыдычна ў дакументах, што мы аналізавалі - ЕГРЮЛ, зарплату, сацыяльныя сеткі; прадаем экспертную думку, а там ужо ў кулуарах чалавеку тлумачым, што мы аналізавалі і як.
    Было некалькі гісторый, але яны былі зьвязаныя зь нейкімі публічнымі камэрцыйнымі праектамі. Напрыклад, у нас ёсць вольныя некамерцыйны праект для тых, хто катаецца на лонгбордах (такія дошкі доўгія): задача была збіраць публікацыі людзей – калі нехта посціць «Я паехаў у парк Горкага катацца». І вось ён павінен патрапіць на карту, і людзі вакол яго могуць убачыць, што нехта побач з ім. ВК вельмі доўга бадалася з намі на гэтую тэму, таму што ім не падабалася, што мы без дазволу людзей публікуем гэтую інфармацыю. Але да суда тады справа не дайшла, таму што мы ўсярэдзіне некалькіх буйных супольнасцяў у правілы дапісалі, што дадзеныя могуць выкарыстоўвацца іншымі, агенцтвамі, кампаніямі, аналізы і т. д. Вядома, не асоба этычна было, але тым не менш.

  • Мы проста вельмі своечасова спахапіліся і пачалі ўсім прадаваць экспертную думку.

З адукацыйнымі ўстановамі працуеце?

  • З адукацыйнымі супрацоўнічаем, так. У нас ёсць цэлы шэраг: у нас у Вышэйшай школе ёсць магістратура, з іншымі ВНУ мы супрацоўнічаем. ВНУ мы вельмі любім!
  • Ёсць кантакты мае - можна напісаць. І спасылачка на прэзентацыю, калі каму будзе цікава - там усе гэтыя прыклады, можна рухаць.
  • Калі вядомы тэлефон, пошта - гэта амаль стопрацэнтны варыянт, ніхто не прыбярэ. Калі тэлефона няма - звычайна гэта карцінка, карцінкі няма - гэта год, месца жыхарства, праца. Гэта значыць па годзе, месцы жыхарства і рабоце практычна ўсіх заўсёды можна ідэнтыфікаваць дастаткова тонка. Але гэта, зноў жа, пытанне аб задачы.

    Ёсць у нас, скажам, кліент, які прадае інтэрнет-тэлебачанне. Вось у іх хтосьці купіў падпіску на гэтыя «Гульні пасадаў», і задача - з іх CRM знайсці гэтых людзей у сацыяльных сетках, а потым знайсці патэнцыйных з іх арэала ўплыву. Я проста да таго, што ў іх ёсць, скажам, імя, прозвішча і e-mail… І надалей вельмі складана таму нешта зрабіць. Па e-mail'у можна знайсці прыкладна ў большасці выпадкаў людзей.

  • Па складзе сяброў мы людзей сацсеткамі звычайна "мэтчым", але гэта не заўсёды правільна. Не тое, што не заўсёды правільна - гэта не заўсёды працуе. Па-першае, для гэтага патрэбны вялікія працавыдаткі, таму што гэтую аперацыю (па мэтчынгу людзей) давядзецца правесці спачатку для кожнага з сяброў - зразумець, перайшлі яны з сацсетак, ці не. А потым - ні для каго не невядомы факт, што «Вконтакте» у нас адны сябры, у «Фэйсбуку» у нас іншыя сябры. Не ва ўсіх, але ў мяне, напрыклад, так; і ў большасці людзей гэта таксама так.

Як збіраюць максімальна поўныя даныя?

  • Устаноўкай софту кліенту на яго бок. Ставіцца да іх сервер, які забірае ад нас толькі публічныя дадзеныя, а ўсярэдзіне апрацоўвае іх персанальныя. З кліентам заключаецца NDA. Гэта, вядома, не вельмі правільна, што яны нам гэта перадаюць, але юрыдычная адказнасць ускладаецца на кліента - ну, гэта значыць усталёўкай софту яму, альбо перадача ананімных дадзеных. Але гэта было вельмі рэдка, таму што - правільныя, няправільныя ананімізацыі - губляецца ў большасці выпадкаў залежнасць паміж гэтымі людзьмі.

Хто купляе ПЗ для распазнання асоб?

  • Мы насамрэч сюды ідзем, таму што ў нас асноўны софт, які мы прадаём, - гэта пошук па асобах, аналіз узаемасувязяў, - і прадаем гэта дзяржаўным органам. І паўтара гады назад мы вырашылі, што ўсе гэтыя гісторыі засунем у рэкламу, у маркетынг, у публічны рынак - так утварылася Social Data Hub, камерцыйная юрыдычная асоба. І вось мы сюды толькі зараз прыходзім. Паўтара гады тут ужо тусуемся, спрабуем людзям растлумачыць, што не трэба людзям выгрузкі даваць са згадваннем, што трэба ім адказы на пытанні даваць, што не трэба там танальнасці і гэтак далей. Так што цяжка сказаць, куды…
  • (Каго вы маеце на ўвазе?) Усякім таварышам, якім трэба шукаць тэрарыстаў, педафілаў.
    Магу адразу сказаць (гэта наступнае пытанне будзе): ніякіх настаўнікаў, паводле нашых звестак, за рэпост не пасадзілі.
  • Ва "Вконтакте" - 14%, у "Фэйсбуку" няма як такога закрытага профілю (там бывае закрыты спіс сяброў і гэтак далей). І самае цікавае, я вось зараз напісаў паведамленне - зараз палічаць і скажуць.

Не публікуйце тое, за што будзе сорамна!

  • Не пасціць у сацсетцы нічога, за што будзе сорамна - я асабіста гэтым кіруюся. Хоць у мяне было шмат асабістых такіх, таму што я мацюком лаюся ў «Фэйсбуку». Ну, было і было, што зрабіць... Не пасціць нічога, за што будзе сорамна! Калі вы збіраецеся потым кудысьці ў Грамадскую палату працаваць - так, лепш не каментаваць. Калі вы не збіраецеся гэтага рабіць - па вялікім рахунку, усім напляваць. Магу толькі запэўніць, што ніхто не чытае вашу асабістую перапіску, і ўсё гэтае нагнятанне ўсёй гэтай гісторыі…

    Да мяне штотыдзень дакладна абавязкова хто-небудзь прыходзіць і кажа: «Вось, у мяне там у сябра фатаграфіі вылілі ў паблік нейкі ананімны! Дапамажы!» Дарэчы, ніколі не публікуйце нічога ў ананімныя паблікі.

  • Я не ведаю, як астатнія маніторынгавыя сістэмы – мы дакладна гэта ўлічым, што згадка брэнда была негатыўная, прабач божа… Але магу сказаць, што ўсякія калядзяржаўныя таварышы цікавяцца толькі людзьмі, у якіх больш за 5 тысяч аўдыторыя, і іх грамадская думка можа на каго- тое паўплываць. У маёй практыцы ні разу такога не было, каб HR-агенцтва, якое заказвае ў нас адзнаку профіляў, сказала: "Хто Навальнага лайкае - мне нікога не бярыце"!

Аб публікацыі вынікаў. Колькі людзей занята ў даследаваннях?

  • З топ-10 рэкламных кампаній зараз сем публікуюць. Складана сказаць: калі мы паўтара гады таму гэта пачалі… У нас ёсць па некалькі чалавек у кожнай сферы - у банках ёсць некалькі чалавек, у HR-ах ёсць некалькі чалавек, ёсць некалькі чалавек у рэкламшчыках. І вось мы зараз думаем, да каго больш выгадна ісці першым, пад каго трэба пачынаць інтэрфейсы нейкія рабіць…
  • (Пра колькасць людзей на сегмент рынку) Не больш за 25 чалавек, таму што мы нікога не гвалтавалі.
  • Наогул, у прынцыпе гэтыя тэхналогіі з рынку выкарыстоўваюць, я думаю, больш за 50%. Хто ў рэкламных кампаніях, хто ў нейкай унутранай аналітыцы. Я б сказаў, што працэнтаў 40 выкарыстоўваюць гэта ва ўнутранай аналітыцы, 50-60% прадаюць гэта для канчатковых брэндаў. Але гэта залежыць ад саміх рэкламных кампаній. Разумееце, хтосьці дае справаздачу проста за выдаткаваныя грошы, падкручаную рэкламу, а хтосьці піша, сапраўды колькі людзей прывялі, якую аўдыторыю… Я б сказаў так, але я магу памыляцца – не вельмі сабе ўяўляю, як усе гэтыя таварышы працуюць. Ведаю толькі ў колькасных звестках.

Крыху рэкламы 🙂

Дзякуй, што застаяцеся з намі. Вам падабаюцца нашыя артыкулы? Жадаеце бачыць больш цікавых матэрыялаў? Падтрымайце нас, аформіўшы замову ці парэкамендаваўшы знаёмым, хмарныя VPS для распрацоўшчыкаў ад $4.99, унікальны аналаг entry-level сервераў, які быў прыдуманы намі для Вас: Уся праўда аб VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps ад $19 ці як правільна дзяліць сервер? (даступныя варыянты з RAID1 і RAID10, да 24 ядраў і да 40GB DDR4).

Dell R730xd у 2 разы танней у дата-цэнтры Equinix Tier IV у Амстэрдаме? Толькі ў нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТБ ад $199 у Нідэрландах! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – ад $99! Чытайце аб тым Як пабудаваць інфраструктуру корп. класа c ужываннем сервераў Dell R730xd Е5-2650 v4 коштам 9000 еўра за капейкі?

Крыніца: habr.com

Дадаць каментар