Артур Хачуян: «Справжня Big Data у рекламі»

14 березня 2017 року у лекторії BBDO виступив Артур Хачуян, генеральний директор Social Data Hub. Артур розповів про інтелектуальний моніторинг, побудову поведінкових моделей, розпізнавання фото- та відеоконтенту, а також про інші інструменти та дослідження Social Data Hub, які дозволяють таргетувати аудиторію, використовуючи соціальні мережі та технології Big Data.

Артур Хачуян: «Справжня Big Data у рекламі»

Артур Хачуян (далі – АХ): - Вітаю! Всім привіт! Мене звуть Артур Хачуян, я керую компанією Social Data Hub, і ми займаємось різним цікавим інтелектуальним аналізом відкритих джерел даних, інфополя і робимо різноманітні цікаві дослідження тощо.

І сьогодні колеги з BBDO Group попросили розповісти про сучасні технології аналізу великих даних, великих та не дуже даних для реклами: як це застосовується, показати кілька цікавих прикладів. Я сподіваюся, ви будете ставити питання прямо по ходу, тому що я можу почати нудити і не розкривати суті і так далі, так що не соромтеся.

Власне, основні напрямки, десь коли-небудь застосовувалися якісь «колобидатні» рішення», вони всі зрозумілі – це таргетування аудиторії, аналіз, проведення якихось аналіз-маркетингових досліджень. Але завжди цікаво, які додаткові дані можна знайти, які можна знайти додаткові значення після застосування аналізу.

Навіщо потрібні технології реклами?

З чого ми почнемо? Найзрозуміліше – це реклама у соціальних мережах. Сьогодні зняв з ранку: чомусь «Вконтакте» вважає я саме цю рекламу маю бачити… Добре це чи погано – це вже друге питання. Бачимо, під категорію призовників я потрапляю точно:

Артур Хачуян: «Справжня Big Data у рекламі»

Найперше і найцікавіше, що можна взяти як технологічне рішення… Перше, що я хотів вирішити, перед тим як ми почнемо, – визначитися з термінами: що таке відкриті дані та що таке великі дані? Тому що у всіх людей своє розуміння щодо цього, і я нікому не хочу нав'язувати свої терміни, але… Просто щоб не було жодних розбіжностей.

Особисто я вважаю, відкриті дані – всі ті, до яких я можу дотягнутися без будь-якого логіну чи пароля. Це відкритий профіль у соціальних мережах, це пошукова видача, це відкриті реєстри і т. д. Великі дані, у моєму власному розумінні, я бачу так: якщо це табличка з даними – це мільярд рядків, якщо це якесь файлове сховище – це десь петабайт даних. Решта у моїй термінології – це не великі дані, а щось навколо.

Високоточне профілювання та скоринг профілів

Ідемо по порядку. Найперше і найцікавіше, що можна придумати з аналізу відкритих джерел даних – це високоточне профільування та скоринг профілів. Що це? Це історія, коли за вашим обліковим записом у соціальній мережі можна передбачити не тільки хто ви, не тільки ваші інтереси.

Але зараз, поєднуючи різні джерела, можна зрозуміти середній рівень вашої зарплати, скільки коштує ваша квартира, де вона знаходиться. І всі ці дані можна використовувати буквально із підручних засобів. Наприклад, якщо взяти ваш обліковий запис у соціальній мережі, подивитися, скажімо, де ви живете, де ви працюєте; зрозуміти, в якій секції бізнесу знаходиться компанія, де ви працюєте; взяти вивантаження схожих вакансій з HH та «Суперджоба», якщо ви аналітик, менеджер тощо; подивитися, де ви живете (базу, скажімо ЦІАН), зрозуміти, скільки коштує оренда житла в цьому місці, скільки коштує покупка житла в цьому місці, передбачити приблизно, скільки ви заробляєте. Далі вашими соцмережами можна зрозуміти, скільки ви подорожуєте, де ви знаходитесь, наскільки ви лояльні до роботодавця.

Відповідно, з такої величезної кількості метрик ми можемо зробити все, що завгодно. Ми можемо уявити вам продукт, який вам цікавий. Уявляєте інтернет-магазин? Ви заходите туди – цей інтернет-магазин відловлює ваш аккаунт у соціальній мережі і каже вам: «Маша, ти щойно розлучилася з хлопцем, ось тобі такі, певні продукти». Це не найближче майбутнє…

Як визначають геоположення людини?

Відповіді на запитання з аудиторії:

  • Зазвичай точним місцем проживання вважається 80% усіх check-in'ів. Але для людей, які не чекіняться ніде – кілька варіантів: або чек-ін, або геопозиція, або це аналіз постів і публікацій за весь період часу, коли будь-що писала людина… І де-небудь, та спливе що-небудь типу «Хочу купити коляску біля Академічної» або «Бачив тут нещодавно графіті на стіні негарне». Тобто практично у 80% людей можна визначити їхнє геостановище, їхнє місце роботи та їх місце проживання за даними або за метаданими, які можна зібрати з соціальних мереж.

    Це, знову ж таки, аналіз постів. У найпростішому розумінні – це аналіз чек-інів та геолокацій у соцмережах, які не видаляють метадані jpeg'а (можна по них щось розібрати). Але для людей, що залишилися – це зазвичай текстові трансляції: або людина «світить» своє місцезнаходження, коли пише про щось, або вона «світить» свій телефон, за яким можна знайти якусь його рекламу на «Авіто» або його акаунт на "Авто ру". За цими даними можна об'єднати (наприклад, "Я продаю автомобіль біля Маяковської") і приблизно припустити це.

  • Зазвичай люди публікую це у соціальних мережах. Ми працюємо тільки з відкритими джерелами і тут йдеться виключно про відкриті джерела. Зазвичай публікують оголошення, тобто відсотках у шістдесяти випадків найчастіша історія, коли люди світять свій актуальний стільниковий номер телефону – це оголошення про продаж чогось. Або в якихось групах людина пише («Я продаю там те, те), або кудись заходить.

    Так! Коментують зазвичай, на кшталт: «Відповідайте мені або киньте смс-ку, зателефонуйте мені на номер. Таке дуже часто буває з людьми, які щось продають, купують у соціальних мережах, з кимось комунікують… Відповідно, за цим номером потім можна прив'язати до нього його профіль на ЦІАН, якщо він колись щось публікував, або , Знову ж таки, на «Авіто». Це просто найпопулярніші, топ-джерел, він далі буде – це «Авіто», ЦІАН і так далі.

  • Мається на увазі онлайн-магазин. Далі буде технологія розпізнавання облич та метчингу профілів (ми про неї поговоримо). Чисто теоретично це можна застосувати і для офлайн-магазину. І взагалі, моя велика мрія – коли з'являться вуличні банери, коли ти проходиш повз камеру, вона «тречить» обличчя. Але законодавчо цю справу заборонять, бо це є порушення приватності. Я сподіваюся, що рано чи пізно це буде.
  • В мене з особистого досвіду. Дуже часто, коли людина тобі щось пише, ти оперуєш якимись фактами з її життя, які ти начебто не мусиш дізнатися… Люди здебільшого лякаються. Але! Виходячи зі статистики останнім часом, на 14% зменшилася кількість закритих облікових записів у соціальних мережах. Кількість фейків збільшується, кількість відкритих облікових записів зростає – люди все більше рухаються до відкритості. Я думаю, що через 3-4 роки вони перестануть так гостро реагувати на те, що хтось знає про них інформацію, яку потенційно він не повинен знати. Але насправді це дуже легко отримати, переглянувши його стіну.

Що можна взяти із відкритих джерел?

Приблизний список речей, які можна зрозуміти з досить високою достовірністю з відкритих джерел, є. Насправді є ще більше різних метрик; це залежить від замовника таких досліджень. Є якесь HR-агентство, якому цікаво, чи ти лаєшся матом у соціальних мережах або десь у публічному просторі. Комусь цікаво, чи ставиш лайки під публікаціями Навального чи, навпаки, під публікаціями «Єдиної Росії», чи якийсь порнографічний контент – такі речі досить часто трапляються.

Основні з них – це сімейні цінності, приблизна вартість квартири, житла, пошук автомобіля тощо. Тому людей можна розбити за соціальними групами. Це користувачі московського «Тіндера», хто вони (за їхніми картинками, знайденими їхнім акаунтам у «Фейсбуці»); на підставі їхніх інтересів розбиті за будь-якими соціальними групами:

Артур Хачуян: «Справжня Big Data у рекламі»

Якщо рухатися ближче до реклами, то ми вже потихеньку втекли від стандартного націлювання реклами, коли ти обираєш в умовному «Вконтакті», що тебе цікавлять чоловіки 18 років, підписані на певні групи. У мене далі є така картинка, зараз вам покажу:

Артур Хачуян: «Справжня Big Data у рекламі»

Суть у тому, що більшість поточних сервісів, які займаються аналізом, у принципі люди, які займаються аналізом соціальних мереж, саме займаються аналізом інтересів… Перше, що спадає на думку людям – це проаналізувати топ груп своїх передплатників. Можливо, з кимось це працює, але особисто я вважаю, що це кардинально неправильно. Чому?

Ваші лайки збирають та аналізують

Ось візьміть зараз свої телефони, подивіться на свій топ груп – обов'язково там буде понад 50% груп, про які ви вже забули, це якийсь контент насправді нерелевантний для вас. Ви його зовсім не споживаєте, проте система буде стрімчити вас по них: що ви на рецепти підписані, на якісь популярні групи. Тобто ви порушите систему, яка аналізує ваш профіль і ваші інтереси будуть не виправдані.

Рухаючись далі… Що там? Ми припускаємо, що роблять решта людей. Самий, на наш погляд, адекватний спосіб оцінити інтереси користувачів – це лайки. Наприклад, у Вконтакті немає стрічки лайків, і люди думають, що ніхто не знає про те, чому вони ставлять лайки. Так, частину лайків запроваджено в «Інстаграмі», у «Фейсбуку» ми щось бачимо, але більшість контенту в певних групах не транслює це спільною стрічкою, і люди живуть і думають, що ніхто не дізнається, на що вони ставлять лайк.

І, зібравши певний контент якогось змісту, який нас цікавить, зібравши ці пости, зібравши ці лайки, потім по цій базі перевіривши цю людину, ми можемо з високою точністю визначити, хто вона, яка у неї доля, чим вона цікавиться. Визначити точно певну соціальну групу і провзаимодействовать із нею.

Купівля авто змінює поведінку

Я маю такий приклад. Відразу зазначу, що у мене приклади навколорекламні та навколомаркетингові, тому що самі розумієте, більшість кейсів захищають NDA і так далі. Але все-таки буде багато чого цікавого. Отже, історія з цими людьми: це чоловіки, які купили автомобіль у проміжку 2010-2015 років. Те, як змінилася їхня соціальна поведінка в мережі, відзначено кольором. Відсоток дівчат у передплатниках змінився, підписався на пацанські паблики, знайшов постійного сексуального партнера.

Артур Хачуян: «Справжня Big Data у рекламі»

Вся ця справа розбита за марками автомобілів та за кількістю людей. Звідси можна зробити багато цікавих висновків щодо поведінки людей, як це все працює. Можу сказати, що "Порш Кайєнн" і посаджена "Пріора" за кількістю залученої аудиторії практично однакові. Якість цієї аудиторії, їхня поведінка різні, але кількість приблизно однакова. Висновок звідси можна зробити ближче до вашого ринку, який завгодно. Продаєте ви "Ауді" - робите слоган "Купи "Ауді" - "уїдь" від батьків!" і так далі.

Це так, кумедний приклад до того, що поведінка людей, заснована на аналізі лайків, на підставі того з якої групи в яку вони переходять, який вони контент аналізують - майже зі 100% ймовірністю дає зрозуміти, хто ви. Тому що, якщо ви не маєте доступу до мережного трафіку, не читаєте особисті повідомлення, лайки завжди підкажуть, хто ця людина – вагітна жінка, мама, військовий, поліцейський. А для вас, як для людини, яка може розміщувати рекламу, це велике влучення в ціль.

Відповіді на запитання аудиторії:

  • Кожен стовпчик – це кількість людей даного автомобіля; як змінився паттерн їхньої поведінки. Ось дивіться: люди, які купили «Порш Кайєнн» – 550 чоловік (жовте), відсоток дівчат у передплатниках збільшився.
  • Вибірка – це користувачі соціальних мереж «Вконтаке», «Фейсбук», «Інстаграм» з 2010 до 2015 року. Єдине уточнення: тут вибрано машини, які з більш ніж 80% точністю можна визначити на фотографіях за допомогою певних інструментів.
  • За певний проміжок часу його машина (ну, тобто не його, це ми вже залишаємо на перевірку соціальних мереж)… За певний проміжок часу людина постійно з автомобілем фотографувалася, перебувала з нею, публікації були різні, фотографії були з різних кутів тощо . Там далі буде картинка, які люди з якими машинами фотографуються і… Так, це друге питання – довіра соціальних мереж.
  • Якщо ми його підняли – на жаль, не завжди дані соціальних мереж вірні. Люди не завжди схильні публікувати свою інформацію. Особисто я проводив таке дослідження: порівнював кількість випускників московських ВНЗ з тим, скільки людей зареєстровано у соціальних мережах. У середньому на 60% людей більше в соціальних мережах зареєстровано – випускників МДУ за певний рік за певними спеціальностями, ніж їх насправді існує. Так що так – тут, звісно, ​​є відсоток помилок, і ніхто це не приховує. Тут просто за основу взято ті автомобілі, які можна з більш ніж 80% ймовірністю визначити.

Список джерел для навчання моделі

Ось зразковий список джерел, який можна використати, який використовується для того, щоб з великою достовірністю визначити соціальний профіль людини, хто він.

Артур Хачуян: «Справжня Big Data у рекламі»

З соціальних мереж ми беремо профіль, з ЦІАН – вартість квартири приблизно, «Хед-Хантер», «Суперджоб» – це середня зарплата для цієї людини. Сподіваюся, тут немає представників Хед-Хантера, тому що вони вважають, що не дуже добре у них ці дані брати. Проте це середня зарплата за певними регіонами для певних типів діяльності з вакансій.

"Авіто", "Авто.ру": дуже часто люди, коли засвітили свій телефон, він у них обов'язково є (у великій кількості випадків) хоч щось на "Авіто", або на "Авто.ру", або ще на кількох сайтах, з яких можна зрозуміти, хто вони. Якщо по цьому телефону продавали візок або автомобіль… Росстат і ЄГРЮЛ – це все-таки більше реєстри, за допомогою яких можна ранжувати компанію-роботодавця – за якоюсь формулою, за моделлю, яку може задати будь-яка людина (можна приблизно визначити гроші цієї людини і т.д.).

"Тиндер" допомагає збирати дані про становище людей

Плюс, є така цікава штука (як варіант, дуже смішно в дослідженні) – це, знову ж таки, збір даних з московського Тиндера за допомогою ботів для цього Тиндера. Визначалася відстань до людей, а далі визначалося їхнє зразкове розташування.

Артур Хачуян: «Справжня Big Data у рекламі»

Завданням цього дослідження було визначити кількість акаунтів «Тіндера» на території державних установ – у Думі, прокуратурі тощо. Але ви собі, як рекламодавець, можете уявити як завгодно: це може бути, наприклад, «Старбакс» чи ще хтось… Тобто кількість людей того ж таки «Тиндера», які п'ють у вас каву, щось замовляють, перебувають у магазинів. З цього приводу: так можна вчинити з будь-яким сервісом.

Відповідь на запитання з аудиторії:

  • "Тіндер"? Ви не знаєте? «Тіндер» – це така програма для знайомств, де ви переглядаєте фотографії (ліворуч-праворуч), і ця програма показуємо вам відстань до людини. Якщо ви з трьох різних точок отримаєте відстань до цієї людини, ви можете приблизно (+ 5-7 метрів) визначити місцезнаходження. В даному випадку, для визначення на території прокуратури чи Держдуми це не так складно. Але, знову ж таки, це може бути ваш магазин, це може бути будь-що.

У нас, наприклад, давно був такий кейс (не дослідження), коли ми отримували від одного з операторів стільникового зв'язку дані про щільність потоку, дані про щільність переміщення стільникових точок, і ця вся інформація накладалася на координати рекламних щитів, що знаходяться на автомагістралях . І завдання стільникового оператора – визначити, яка приблизно кількість людей проїжджає та потенційно може бачити цю щитову рекламу.

Якщо тут є фахівці з щитової реклами, ви можете сказати: супер-достовірно не можна зрозуміти – хтось їде, хтось не подивився, хтось подивився… Проте це приклад того, як 20 мільярдів таких полігончиків по Москві, на яких є щільність цих людей у ​​кожну годину за певними маршрутами ... Можна подивитися, мимо чого ці люди проходили в будь-який момент і приблизно оцінити пасажиропотік.

Відповідь на запитання з аудиторії:

  • Ніхто таких даних не дає. Ми проводили дослідження для одного з операторів, це виключно внутрішня історія, тому вона, на жаль, не представлена ​​у вигляді картинок. Але часто великі рекламні агенції не мають проблем з тим, щоб звернутися до оператора. Принаймні, у Москві є багато прецедентів, коли, наприклад, страхові компанії звертаються до компаній типу «ГетТаксі», які дають знеособлені дані про те, який вік водія, як вони їздять (добре – погано, лихачать – ні), для того щоб прогнозувати поліси тощо. Всі з цим борються, але на якомусь внутрішньому рівні дати анонімні дані – я думаю, що такої проблеми немає ні в кого.

Розпізнавання зображень та образів

Йдемо далі. Моє улюблене – розпізнавання зображень. Тут буде невеликий шматочок про пошук людей по обличчях, але ми здебільшого цю частину не беремо. Ми беремо саме розпізнавання образів та визначення, що на цьому зображенні – марка автомобіля, колір його тощо.

Артур Хачуян: «Справжня Big Data у рекламі»

У мене є такий жартівливий приклад:

Артур Хачуян: «Справжня Big Data у рекламі»

Було таке дослідження з пошуку татуювань у різних соціальних мережах. Відповідно, це можна застосувати до будь-якого бренду, до будь-якого візуального образу, практично до будь-якого візуального образу. Є ті, які не можна визначити достовірно (ми їх не беремо).

Артур Хачуян: «Справжня Big Data у рекламі»

Ось моє улюблене. Автомобільні бренди досить часто звертаються за таким завданням, тому що їхнє завдання, наприклад, – знайти всіх власників якихось BMW X6, зрозуміти, хто вони, як вони між собою пов'язані, чим вони цікавляться і таке інше. Це до питання, з якими автомобілями фотографуються люди в соціальних мережах.

Артур Хачуян: «Справжня Big Data у рекламі»

Тут взагалі було ніякої фільтрації: предмет їх, автомобіль їх; просто така розбивка автомобілів – вік тощо. Але візуальне розпізнавання образів використовується досить часто: це пошук вагітних жінок, і пошук логотипів брендів у якомусь мас-медіа (хто і що постить).

Артур Хачуян: «Справжня Big Data у рекламі»

Самий мій улюблений кейс (яким користуються різні ресторани): які ролі постять у соціальній мережі. Смішна штука, але насправді це дозволяє багато чого цікавого зрозуміти, по-перше, про своїх покупців: хто до тебе прийшов і чому вони це зробили. Тому що не секрет, що в суші-барах більшість людей (не говоритиму «дівчат») фоткається, щоб зачекінитися, сфотографувати щось і т.д.

Бренд цим може скористатися. Бренду цікаво, яку саме продукцію йому потрібно гарно фотографувати та викладати, які люди туди приходили. Таку річ можна провернути практично із чим завгодно, починаючи від їжі.

Розпізнавання образів на відео

Відповідь на запитання з аудиторії:

  • На відео – ні. Воно у нас є у тестовому режимі. Ми пробували таку технологію, але виходить, що… Вона досить добре розпізнає всю справу з відео, але цього ми нікуди не знайшли. Бувай. Окрім аналізу того, скільки, які відеоблогери десь говорять… Було таке дослідження. Скільки їхні особи трапляються, як часто. Але для брендів поки що не придумали, куди це придумати. Можливо, колись це прийде.

Знову ж таки, це їжа, це можуть бути вагітні жінки, чоловіки (не вагітні), автомобілі – все, що завгодно.

Як варіант було таке новорічне дослідження для одного ЗМІ. Теж далеко від реклами, проте. Це – яку їжу люди постили на Новий рік:

Артур Хачуян: «Справжня Big Data у рекламі»

Воно тут ще розбите за віком. Можна переглянути таку кореляцію, що молоді люди в основному замовляють їжу, дорослі в основному роблять традиційний стіл. Жартівлива річ, але уявляючи її собі як власник бренду, ви можете оцінити велику кількість речей: хто і як з вашою продукцією звертається, що про неї пишуть. Найчастіше не завжди люди згадують сам бренд у тексті, і традиційні моніторингові системи аналітичні не завжди можуть зрозуміти, знайти цю згадку бренду виключно тому, що в тексті він не згадується. Або в тексті він написаний з помилками, немає хеш-тегів або будь-що.

Фотографії видно. З фотографією можна зрозуміти, чи це центральний об'єкт кадру, чи не центральний об'єкт кадру. Далі можна подивитися, що ця людина написала. Але найчастіше це використовується як пошук потенційної аудиторії, яка їздила на певних автомобілях тощо. А потім ми з цими автомобілями робитимемо багато чого цікавого.

Ботов вчать наслідувати людину

Ось такий варіант застосування підрахунку людей також був:

Артур Хачуян: «Справжня Big Data у рекламі»

Буває варіант зіставлення людей, коли потрібно за якимись фотографіями знайти людей, зрозуміти їхній соціальний профіль, хто вони. Знову ж таки, повертаємося до питання про те, що якщо у нас стоїть камера в офлайн-магазині, то це досить хороший спосіб зрозуміти, хто до вас приходить, хто ці люди, чим вони цікавляться, що їх спонукало до вас прийти.

Далі найцікавіше: якщо ми зберемо їхні акаунти в соціальних мережах, зрозуміємо, хто ці люди, чим вони цікавляться, ми зможемо (як варіант) зробити бота, схожого на цих людей; цей бот почне жити, як ці люди, та аналізувати, яку рекламу він бачить у різних соціальних мережах. Це дозволить досить точно зрозуміти, які бренди на цю людину орієнтовані. Це теж досить часто історія, коли необхідно не просто проаналізувати, хто ця людина і які у неї інтереси, а ще й яку рекламу на неї потенційно конкуренти ваші чи інші зацікавлені люди таргетувати.

Артур Хачуян: «Справжня Big Data у рекламі»

Аналіз зв'язків у соціальних мережах

Артур Хачуян: «Справжня Big Data у рекламі»

Наступна річ цікава: це аналіз взаємозв'язків між людьми. Сам, власне, аналіз зв'язків у мережі, ці мережеві графи – у цьому немає взагалі жодної краплі, нічого нового, це всім відомо.

Артур Хачуян: «Справжня Big Data у рекламі»

Але застосування до рекламних завдань – це найцікавіше. Це пошук людей, які задають тренди, це пошук людей, які розповсюджують інформацію за певними критеріями всередині цієї мережі. Скажімо, нас цікавлять ті самі власники певної моделі БМВ. Зібравши їх усіх разом, ми можемо знайти тих, хто тримає в руках громадську думку. Це необов'язково блогери автомобільні і таке інше. Зазвичай це прості товариші, які сидять у різних пабликах, цікавляться якимось контентом і можуть за дуже короткий проміжок часу залучити до цієї зони відповідальності, до зони інтересу ваш бренд чи когось, хто цікавить вас.

Тут є такий приклад. Є у нас потенційні люди, зв'язки між людьми. Тут помаранчеві – це люди, дрібні точки – це спільні групи, спільні друзі.

Артур Хачуян: «Справжня Big Data у рекламі»

Якщо зібрати всі ці зв'язки між ними, можна дуже чітко подивитися, що є люди, які мають між собою велику кількість спільних груп, спільних друзів, вони там знаходяться між собою… А якщо цю ж візуалізацію розбити на групи за інтересами, за контентом, який вони поширюють, наскільки вони взаємодіють один з одним… Ось тут можна подивитися, що попередня картинка стала таким чином:

Артур Хачуян: «Справжня Big Data у рекламі»

Тут чітко виділилися кольором групи. В даному випадку це взято студентів нашої магістратури у Вищій школі економіки. Тут видно, що фіолетові/сині – це ті, хто любить Transparency International, «Відкриту Росію», паблики Ходорковського. Знизу ліворуч – зелені, ті, хто любить «Єдину Росію».

Можна подивитися, що попередня картинка була така (це просто зв'язки між людьми), а стала чітко розмежованою. Тобто всі люди завжди пов'язані між собою, вони мають однакові інтереси, вони дружать один з одним. Згори одні, знизу інші, там ще якісь товариші. І якщо кожен з цих маленьких підграф окремо провізуалізувати з іншими параметрами і подивитися швидкість поширення контенту (грубо кажучи, хто там що репостит), можна знайти в кожній частині одного-двох людей, які завжди тримають в руках громадську думку, провзаємодіявши з яким, попросивши відправити пост якийсь або ще-що - можна отримати відгук всієї цієї цікавої аудиторії.

Я маю ще один такий приклад. Теж граф: це співробітники BBDO Group, знайдені у соцмережах як приклад. Виглядає як нецікавий, великий, зелений, зв'язок між ними…

Артур Хачуян: «Справжня Big Data у рекламі»

Але я маю варіант, де між ними вже побудовані групи. Потім, якщо комусь буде цікаво, є інтерактивна версія – можна покликати, подивитись.

Зверху праворуч – ті, хто любить Путіна. Ось тут фіолетові – це дизайнери; ті, хто захоплюється дизайном, чимось таким цікавим і таке інше. Тут білі штуки – це керівний склад (мабуть, я так зрозумів); це люди, які ніяк загалом не пов'язані, але працюють приблизно на однакових позиціях. Решта – це їхні спільні групи, зв'язки тощо.

Брендам потрібні не блогери, а лідери думок

Беремо цих людей і знаходимо - далі рекламне агентство, рекламна компанія вирішує сама: вона може грошей дати цій людині, щоб вона якось провзаємодіяла з цим контентом, ще щось, або направити на них свою певну рекламну кампанію. Теж досить часто застосовується, особливо зараз, тому що всі бренди хочуть працювати з блогерами, хочуть, щоб просували їхній контент, а рекламні агенції не дуже хочуть контактувати (ну, буває таке).

І реальний вихід із цієї ситуації – знайти людей, які не блогери, не б'юті-блогери, а наприклад, якісь реальні істоти, які взаємодіють із цим брендом, можуть у якомусь убогому своєму паблику «Мейл.ру Відповіді» написати, отримати певну кількість переглядів. Ці люди, які постійно цікавляться контентом цієї людини, вони цю справу поширять, і бренд отримає свою залученість.

Другий варіант, як використовувати подібну технологію зараз, досить актуальний – це пошук ботів, моє улюблене. Це репутаційний ризик для ваших конкурентів, і можливість відсіяти від рекламної кампанії нерелевантних людей, і все, що завгодно (і видалення коментарів, і пошук зв'язків між людьми). У мене є такий приклад, він також є великий інтерактивний – його можна спонукати. Це зв'язки людей, які писали коментарі у співтоваристві «Лентач».

Такий приклад – щоб ви розуміли, наскільки добре і просто видно ботів; і для цього не потрібно мати якісь технічні знання. Отже, «Лентач» випустив посаду про розслідування ФБК про Дмитра Медведєва, і деякі люди почали писати коментарі. Ми зібрали всіх людей, котрі писали коментарі – ці люди зелені. Зараз посуну:

Артур Хачуян: «Справжня Big Data у рекламі»

Люди – це зелені (які писали коментарі). Вони тут, вони є тут. Блакитні точки між ними – це їхні спільні групи, жовті – спільні передплатники, друзі тощо. Ось основна маса людей пов'язана між собою. Тому що, якою б не була теорія трьох, чотирьох, п'яти потисків рук, всі люди пов'язані між собою в соціальних мережах. Немає людей, які відокремлені один від одного. Навіть мої друзі-соціофоби, які використовують «Вконтакте» виключно для перегляду відео, все одно на якісь пабліки з нами підписані.

Навальний також використовує ботів. Боти є у всіх

Переважна більшість людей (ось вона, тут) пов'язані між собою. Але є така маленька група товаришів, яка знаходиться у друзях виключно один у одного. Ось вони, зелененькі, ось їхні спільні друзі та групи. Вони навіть окремо тут відвалилися:

Артур Хачуян: «Справжня Big Data у рекламі»

І завдяки щасливому випадку саме ці люди саме під цим постом писали: «У Навального немає доказів» і так далі, писали однакові коментарі. Висновки робити я, звісно, ​​не беруся. Проте, у мене був інший пост у «Фейсбуці», коли були дебати Лебедєва та Навального, я так само аналізував коментарі: там вийшло, що всі люди, які написали «Лебедєв – гівно», вони не заходили до соцмережі останніх чотири місяці, не підписані на жодний з пабліків, раптово зайшли саме на цю посаду, написали саме цей коментар і пішли. Висновки знову звідси робити не можна, але хтось із команди Навального мені написав комент, що ботів вони не використовують. Ну і добре!

Ближче до реклами, ближче до бренду. Боти зараз є у всіх! Вони є і в нас, є і в конкурентів, ще в когось. Їх треба викидати чи залишати, щоб вони добре жили; на підставі таких даних (вказує на попередній слайд) доводити їх до досконалості, щоб вони виглядали як реальні люди і тільки тоді користуватися ними. Хоча користуватися ботами погано! Проте досить часта історія…

В автоматичному режимі така річ дозволяє відфільтрувати зі свого аналізу людей нерелевантних для аналізу людей, які не повинні потрапити у вибірку, не повинні потрапити до цього дослідження. Дуже часто використовується. Знову ж таки, не всі власники автомобілів дійсно є власниками автомобілів. Іноді цікаві лише люди, які мають потенційно автомобіль, які сидять у якихось групах, з кимось спілкуються, у них там є певна аудиторія.

Аналіз фактів та думок

Наступне, що я маю, теж моє улюблене. Це аналіз фактів та думок.

Артур Хачуян: «Справжня Big Data у рекламі»

Згадка про свій бренд у різних джерелах зараз уміють робити все. У цьому немає жодного секрету. І тональність начебто всі вміють рахувати… Хоча особисто я вважаю, що сама по собі метрика тональності не дуже цікава, бо коли ти приходиш і кажеш клієнту, – «Мужику, у тебе 37% нейтралу, – і він такий каже, – « Нічого собі! Круто!» Тому цікавіше було б рушити трохи далі: від оцінки тональності до оцінки думок того, що про ваш продукт говорять.

І це теж дуже цікава річ, тому що… Я особисто вважаю, що нейтральних повідомлень у принципі бути не може, тому що, якщо людина щось пише у публічному просторі, це повідомлення будь-яким чином пофарбоване. Ось я особисто ніколи не бачив нейтрального повідомлення зі згадкою якогось бренду. Зазвичай це якийсь бруд.

Якщо візьмемо велику кількість цих повідомлень (їх може бути мільйонів, 10 мільйонів), виділимо з кожного повідомлення головну думку, об'єднаємо їх, ми можемо зрозуміти достовірно, що люди говорять про цей бренд, що вони вважають. "Мені не подобається упаковка", "Мені не подобається консистенція" і так далі.

Що думають про «Трансаеро», чупа-чупса і президента США

Смішний приклад у мене є такий: це інфографіка про те, що зробили б користувачі соціальних мереж з компанією «Трансаеро» після її банкрутства.

Артур Хачуян: «Справжня Big Data у рекламі»

Там є багато цікавих прикладів: спалити, убити, вислати до Європи, були навіть 2%, які написали – «Надіслати їх до Сирії на військові дії». Рухаючись від кумедної штуки, це може бути будь-який бренд практично – починаючи від моїх улюблених собачих кормів, до яких-небудь автомобілів. Кому не подобається упаковка, кому не подобаються реальні речі – на це завжди можна працювати, на це завжди можна зважати. Є велика кількість прикладів, коли люди мало не виробництво своєї продукції змінювали, тому що в соцмережах писали, що чупа-чупс недостатньо круглий або недостатньо солодкий.

Є ще такий кумедний приклад. Здогадайтеся, які коментарі та про кого?

Артур Хачуян: «Справжня Big Data у рекламі»

Чомусь зараз саме аналіз думок, аналіз фактів, що виділяються з повідомлень, не дуже використовується, не дуже поширений. Хоча ця технологія не суперсекретна, у цьому взагалі практично немає жодного ноу-хау, тому що з коментарів людей виділити підлягає, присудок і згрупувати їх – для цього не потрібно бути генієм комп'ютерної лінгвістики. Це зробити не так складно. Але я сподіваюся, що в найближчі кілька років люди почнуть це використовувати, тому що… Буде класно – це автоматичний фідбек! Знаєш завжди, що про тебе кажуть. Ну ви зрозуміли, що це про президента США зроблено.

Відповідь на запитання з аудиторії:

  • Так, це Фейсбук англомовний. Вони тут перекладені російською мовою. Десь це писалося.

Big Data та політтехнології

Насправді я маю багато різних цікавих прикладів політиканських про Трампа і про всіх інших, але вирішили їх сюди не наводити. Але політиканський приклад є одним.

Це вибори до Держдуми. Коли були? В минулому році? Майже півтора роки тому.

Артур Хачуян: «Справжня Big Data у рекламі»

Тут люди, у яких вдалося визначити їхнє точне місце розташування, аж до певної геоточки, щоб зрозуміти, в який вони виборчий ДВК потрапляють. А далі з цих людей взяті лише ті, які висловили свою певну думку, за кого вони голосуватимуть.

З погляду політтехнологій, це не дуже правильно, тому що всю цю справу потрібно нормувати на густину населення і так далі. Проте сині тут збираються голосувати самі, знаєте за кого, червоні – за опозиційних товаришів, яких було, до речі, не так багато.

Я особисто вважаю, що Big Data до політтехнологій ще дуже нескоро дійде, але, як варіант, кандидат теж бренд. І це теж певною мірою аналіз фактів та думок про свій бренд, і досить цікава річ, тому що можна в реальному часі розуміти, хто там про що робить. Я ось знаю кілька кейсів у BBC, коли вони в режимі реального часу в якійсь трансляції моніторили соцмережі: відгук такий-то, люди пишуть про це, ставте питання - і це класно! Я думаю, що дуже скоро застосовуватиметься, бо цікаво всім.

Моделювання позицій брендів

Артур Хачуян: «Справжня Big Data у рекламі»

Далі маю моделювання позицій брендів. Маленька така, коротка штука про те, як за допомогою різних метрик (не лайків передплатників у соцмережах, а за допомогою комплексних метрик, інтересу до контенту, часу, проведеного за отриманням метрик), можна ранжувати бренди.

Артур Хачуян: «Справжня Big Data у рекламі»

У мене приклад є за «фармою» за певною. Тут маленькі кругляшки внутрішні, яскраві – це кількість текстового контенту, що створює сам бренд, великий кругляшок – це кількість фото- та відеоконтенту, який створює сам бренд.

Близькість до центру показує, наскільки цей контент цікавий для аудиторії. Там велика модель, є купа будь-яких параметрів: лайки, репости, час відгуку, хто там поділився в середньому… Тут можна подивитися: є чудовий «Кагоцел», який вбухує величезну кількість грошей у створення власного контенту, і за рахунок цього досить близько. до центру. А є товариші, які теж свій контент створюють, але аудиторії він нецікавий. Такий, не дуже адекватний приклад, тому що всі ці облікові записи практично мертві.

Єгора Крида люблять більше Басти

Артур Хачуян: «Справжня Big Data у рекламі»

На жаль, решта ... з того, що показати ... Ось, є ще російські репери, як варіант, з реальних компаній.

У чому плюс? У тому, що компанія може закласти в таку модель практично все, що завгодно, починаючи від середньої зарплати передплатників, які сидять у тебе в бренді; будь-яку модель, яка їм подобається. Тому що кожна рекламна агенція власні метрики вважає по-різному, бренди власні метрики вважають по-різному.

Тут теж є такий - Баста, які генерує велику кількість контенту, але при цьому знаходиться на периферії, тому що цей контент, мабуть, не дуже цікавий аудиторії. Знову ж таки, судити я не беруся. Проте є Єгор Крід, який, за даними соціальних мереж, взагалі чи не найкращий виконавець сучасності, а публікує при цьому лише свої особисті фотографії. Проте він має велику кількість передплатників: їх десь близько мільйона людей. Я не пам'ятаю точну кількість; пам'ятаю, що відсоток залучення цих людей набагато вищий за 85%, тобто на мільйон передплатників він отримує 850 тисяч відгуків цих реальних людей – це реальне божевілля. Це так.

Артур Хачуян: «Справжня Big Data у рекламі»

Відповіді на запитання аудиторії:

Скільки часу пішло на складання моделі аналізу реперів?

  • Для кожного взято свою цільову аудиторію, свої інтереси цих людей, для кожного пораховано… Все це нормоване на відстань до центру приблизно, радіальне їхнє становище не важливо (воно тут просто для краси розмазано, щоб вони один на одного не наїжджали). Важлива лише приблизна близькість до центру. Це модель, яку ми використовуємо. Мені, наприклад, коло більше подобається, хтось це робить на увазі півкола.
  • Ця модель складалася швидко, години за дві, за три (так, одну людину). Тут виключно метрики вставляли: що на що множимо, складаємо, далі якось нормується. Залежить від моделі. Бувають люди, яким цікава середня зарплата (це не жарт) їхніх передплатників. А для цього потрібно їх контакти знайти, "Авіто", все це порахувати, помножити. Буває, таке довго вважається, але саме це (вказує на попередній слайд) – тут прості параметри: передплатники, репости і так далі. Вона робилася десь дві-три години. Відповідно, ця річ потім у реальному часі оновлюється, нею можна скористатися.

Тепер найцікавіше. У мене з прикладами все, бо нецікаво довго говорити одному. І я сподіваюся, що ви зараз ставитимете питання, і ми далі, власне, від теми до теми рушимо, тому що в мене такі приклади того, як технології можуть використовуватися і таке інше…

Відповіді на запитання аудиторії:

  • У мене був один єдиний особистий кейс з одним, якщо так можна сказати, «околоказино», коли там ставилася камера, розпізнавались обличчя і так далі. Відсоток розпізнаних людей досить великий – що в нас, що у конкурентів. Але насправді це досить цікаво. Я це бачу як цікаву річ: можна зрозуміти, хто ці люди, і досить добре спрогнозувати, чому саме вони прийшли сюди, що в них так змінилося, що вони вирішили прийти в казино. Але щодо конкретних видів бізнесу… Якщо ставити таку річ в аптеці, то тут немає сенсу – ніяк ти не спрогнозуєш, чому людина прийшла саме в аптеку.

    Глобальне завдання тут було – побудувати модель, щоб зрозуміти, коли людина потенційно захоче зацікавити твоїм брендом, щоб їй рекламу дати не після того, як вона щось купила (як це відбувається зараз), а рекламу їй дати «в прогноз» того, коли це все це станеться. З таким «колоказино» було цікаво; там вийшов досить цікавий відсоток цих людей – чому: хтось раптово підвищення отримував, хтось ще щось – цікаві такі інсайти. А ось з якимись магазинами, з рітейлом, з магазином якихось пігулок, мені здається, буде не дуже правильно.

Чи використовується Big Data в офлайні?

  • В офлайні воно було. Потрібно тільки розуміти точно, приблизно – ця модель зійдеться, не зійдеться. Знову ж таки, з газованою водою… Мені насправді все цікаво, але я особисто не розумію, наскільки, як можуть залежати профілі цих людей, їхня поведінка від того, коли вони захочуть купити воду в пляшечках. Хоча це, може, справді так, я не знаю.

Скільки відкритих облікових записів у соцмережах?

  • У нас саме 11 соцмереж – це "Вконтакте", "Фейсбук", "Твіттер", "Однокласники", "Інстаграм" і якісь там дрібниці (я можу подивитися список, типу "Мейл.ру" і так далі). "Вконтакте" у нас точно є копія всіх цих товаришів. У нас є люди «Вконтакте» — це 430 мільйонів усіх, які будь-коли існували (з них десь 200 млн – постійно активні); є групи, є зв'язки між цими людьми і є контент, який нас цікавить (текстовий), та частина медіа, але дуже маленька… Грубо кажучи, ми дивимося на цю картинку: якщо там є особи – ми їх зберігаємо, якщо мемасик – ми його не зберігаємо, тому що на збереження медіаконтенту навіть у нас не вистачило б нічого.

    Є російськомовний "Фейсбук". Десь зараз 60-80% — «Однокласників», за кілька місяців ми їх доберемо, мабуть, усіх до кінця. Російський "Інстаграм". Для всіх цих соцмереж є групи, люди, зв'язки між ними і текст.

  • Близько 400 мільйонів людей. Є тонкість: є люди, у яких не вказано місто (вони потенційно російські/неросійські); з них у середньому за соцмережами, ось – за «Вконтактом» 14% закритих акаунтів, у «Фейсбуку» не знаю точної цифри.
  • В «Інстаграмі» теж не зберігаємо медіа – виключно, якщо тільки там є обличчя. Такий (інший) медіаконтент ми не зберігаємо. Зазвичай цікаво: лише текст, зв'язок між людьми; Усе. Найчастіші дослідження з «Інстаграму» — це звичайні дослідження з аудиторії: хто ці люди, як і найважливіше тут, зв'язок цих людей з іншими соцмережами. Знайти профіль цієї людини у «Вконтакті» та «Фейсбуку» для того, щоб розрахувати її вік і таке інше.
  • Немає поки що потреби брати всіх інших - просто тому, що немає замовників. Щодо мови: у нас є російська, англійська, іспанська, але все одно це використовується поки що виключно для брендів з Росії; ну, чи компаній, які ведуть їх із Росії.
  • Ми щодня багато-багато-багато потоків опитуємо людей: збираємо ми дані, збираючи веб, а оновлюємо ці показники, використовуючи Api. За 2-3 дні можна пройти весь «Вконтакте», прошерстивши їх; десь за тиждень можна пройти весь «Фейсбук», зрозумівши у когось там що оновилося, що – ні. А далі цих людей окремо перезбирати: що конкретно змінилося, записати всю цю історію. На моїй пам'яті дуже рідко для якогось реального бізнес-завдання був використаний старий профіль у соціальних мережах. Це був раз, коли звертався один політичний діяч, і його завданням було зрозуміти, що за люди приходять до штабу, ким ці люди були 6-8 місяців тому (чи не видалили вони свій профіль, а насправді іншого кандидата, прийшли бюлетені псувати).

    І кілька разів – особисті історії, коли чиїсь фотографії у відкритому доступі опублікували. Потрібно було зв'язку знайти і т. д. На жаль, дуже шкода, але в суді ми свідчити не можемо, бо наша база є юридично неліквідною.

  • Сховище MongoDB – моє улюблене.

Соцмережі намагаються боротися зі збором даних

  • Зазвичай ми рекламодавцям вивантажуємо виключно список цих облікових записів, а далі вони використовують стандартну... Тобто в соціальних мережах, у Вконтакті там, можна список цих людей вказати.

    Але для "Фейсбуку" використовуються "куки" куплені. Ми самі з «куками» не працюємо, але було кілька історій, коли рекламодавець сам давав якихось людей, ми з ними взаємодіяли – у них є мережі ось ці ось, із тизерною, не тизерною рекламою, ці «куки». Прив'язати можна не питання! Але я не дуже люблю ці штуки, бо вважаю, що це не дуже вірогідно. Це чисто на мій погляд, це як TNS, яка «тречить» телевізори – незрозуміло, дивишся ти цей телевізор, не дивишся, посуд ти миєш, доки у тебе телевізор працює… І тут те саме: я дуже часто щось гуглю в Інтернет, але це не означає, що я хочу це купити.

  • Якщо ви використовуєте стандартну мережу контекстної реклами: у мене було кілька історій, коли ми їм вивантажували цих людей, намагалися за допомогою їх інтерфейсів перев'язати їх з «куками» на їхніх сайтах. Але я не дуже люблю такі речі.

Формула обчислення зарплати інтернет-користувача

  • Загальна формула для середньої зарплати: це регіон, де людина проживає, це категорія бізнесу, в якій працює він (тобто компанія, яка є його роботодавцем), далі його береться на посаду в цій компанії, прикидається середня зарплата на цій посаді... Середня зарплата береться з «Хед-Хантера» і «Суперджоба» (і там ще кілька джерел) для даної вакансії в даному регіоні і для даного контексту бізнесу.

    З «Авіто» та «Авто.ру» зазвичай беруться додаткові параметри, якщо людина засвітила телефон. З «Авіто» можна подивитися, які речі людина продає – дорогі, недорогі, не вживані. З "Авто.ру" можна подивитися, чи є в нього автомобіль - володіє він, не володіє. Це десь менше 20% людей, які випадково десь упустили свій телефон, і їхній обліковий запис можна з цими даними перев'язати.

Якими обсягами оперує компанія, зайнята збиранням даних?

  • Об'єм фотографій, що зберігаються в петабайтах - 6,4. Швидкість зростання зараз точно сказати не можу, тому що у 2016 році ми почали «перископи» записувати та трохи почали записувати відео.

    Я не можу точно сказати, коли був нуль. Ми з компанії в компанію переходили – це довгі такі історії. Але можу сказати, що ВК, «Фейсбук», «Інстаграм» та «Твіттер» — вся ця справа (люди, групи та зв'язки між ними) з текстом та контентом – це насправді не так багато даних, навряд чи там навіть петабайт набрався. Я думаю, що це гігабайт 700, мабуть, 800.

Допомагаєте клієнтам визначити актуальну нішу, куди копати?

  • Коли клієнт приходить, ми такі речі йому підказуємо, але самі, як Гугл Трендс, такими речами не займаємося.
  • Ми мали кілька історій навколосоціологічних, з виборною, передвиборчою історією – ми це все аналізували. З брендами та оцінкою думок про бренди практично завжди все сходиться. Ось виборні-передвиборчі історії – ні (з оцінкою, який кандидат має виграти). Вже хто тут не має рації – ми, або ті, хто вважає у ВЦВГД – не знаю.
  • Зазвичай ми беремо у самого бренду ці контрольні результати, вони беруть це у товаришів, які замовляють дослідження – телефонні там, маркетингові і так далі. Плюс, цю справу можна перевірити з елементарними речами: хтось там на розсилку відповідав, хтось опитування… Якщо це великий бренд («Кока-Кола», наприклад), у них обов'язково є мільйон-два внутрішніх своїх відгуків від клієнтів – це не лише коментарі у соцмережах та якісь думки; це внутрішні якісь системи, відгуки тощо.

Закон не знає, що таке персональні дані!

  • Ми аналізуємо виключно відкриті джерела даних, ніколи в жодну брудну чорнуху не ліземо. Модель наша побудована на тому, що всі відкриті дані ми зберігаємо в якихось публічних дата-центрах, десь орендуємо, а аналізуємо у себе, на території офісів, у своїх серверах, і нікуди це за територію не виходить.

    Але наше законодавство у сфері відкритих даних є дуже розпливчастим.

    Ми не маємо чіткого розуміння, що таке відкриті дані, що таке персональні – є цей 152-й ФЗ, але все одно… Вони вважають як? Ось, якщо у мене в одній базі є ваше ім'я та ваш телефон, в іншій базі у мене є ваш телефон та ваш e-mail, у третій є, скажімо, ваш e-mail та ваш автомобіль; все це – як не персональні дані. Якщо це все разом з'єднати, як за законом це стане персональними даними.

    Ми обходимо це двома способами. Перший - це ставимо клієнту сервера з софтом, і тоді ці дані не виходять за його територію, і тоді клієнт відповідає за поширення цих персональних даних, не персональних даних і так далі. Або другий варіант: якщо це якась історія, де доведеться позиватися до соцмережі або ще щось…

    У нас було таке дослідження, коли ми збирали (був праймеріз "Єдиної Росії") для "Лайфньюс" акаунти цих товаришів і дивилися, яке вони гавкають. Смішна штука була, проте. Ми продаємо це як нашу власну особисту думку, не розкриваючи юридично в документах, що ми аналізували – ЄДРЮЛ, зарплату, соціальні мережі; продаємо експертну думку, а там уже в кулуарах людині пояснюємо, що ми аналізували і як.
    Було кілька історій, але вони пов'язані з якимись публічними комерційними проектами. Наприклад, ми маємо вільні некомерційний проект для тих, хто катається на лонгбордах (такі дошки довгі): завдання було збирати публікації людей – коли хтось постить «Я поїхав у парк Горького кататися». І ось він має потрапити на карту, і люди навколо нього можуть побачити, що хтось поруч із ним. ВК дуже довго ходила з нами на цю тему, бо їм не подобалося, що ми без дозволу людей публікуємо цю інформацію. Але до суду тоді справа не дійшла, тому що ми всередині кількох великих спільнот до правил дописали, що дані можуть використовуватися сторонніми, агентствами, компаніями, аналізи і т. д. Звичайно, не особливо етично було, але тим не менш.

  • Ми просто дуже вчасно схаменулися і почали всім продавати експертну думку.

З освітніми закладами працюєте?

  • З освітніми співпрацюємо, так. У нас є ціла низка: у нас у Вищій школі є магістратура, з іншими ВНЗ ми співпрацюємо. ВНЗ ми дуже любимо!
  • Є мої контакти – можна написати. І посилання на презентацію, якщо комусь буде цікаво – там усі ці приклади, можна рухати.
  • Якщо відомий телефон, пошта – це майже стовідсотковий варіант, ніхто не прибере. Якщо телефону немає - зазвичай це картинка, картинки немає - це рік, місце проживання, робота. Тобто за роком, місцем проживання та роботою практично всіх завжди можна ідентифікувати досить тонко. Але це, знову ж таки, питання завдання.

    Маємо, скажімо, клієнта, який продає інтернет-телебачення. Ось у них хтось купив підписку на ці «Ігри престолів», і завдання – з їхнього CRM знайти цих людей у ​​соціальних мережах, а потім знайти потенційних з їхнього ареалу впливу. Я просто до того, що в них є, скажімо, ім'я, прізвище та e-mail… І далі дуже складно щось зробити. По e-mail'у можна знайти приблизно в більшості випадків людей.

  • За складом друзів ми людей соцмережами зазвичай «метчім», але це не завжди правильно. Не те, що не завжди правильно, це не завжди працює. По-перше, для цього потрібні великі трудовитрати, тому що цю операцію (за метчингом людей) доведеться провести спочатку для кожного з друзів – зрозуміти, чи перейшли вони із соцмереж, чи ні. А потім – ні для кого не невідомий факт, що «Вконтакті» у нас одні друзі, у «Фейсбуці» у нас інші друзі. Не у всіх, але в мене, наприклад, так; і більшість людей це теж так.

Як збирають максимально повні дані?

  • Встановлення софту клієнту на його бік. Ставиться до них сервер, який забирає від нас лише публічні дані, а всередині опрацьовує їх персональні. З клієнтом є NDA. Це, звичайно, не дуже правильно, що вони нам це передають, але юридична відповідальність покладається на клієнта – ну, тобто встановлення софта йому, або передача анонімних даних. Але це було дуже рідко, бо – правильні, неправильні анонімізації – втрачається здебільшого залежність між цими людьми.

Хто купує програмне забезпечення для розпізнавання осіб?

  • Ми насправді сюди йдемо, тому що у нас основний софт, який ми продаємо – це пошук по особах, аналіз взаємозв'язків – і продаємо це державним органам. І півтора роки тому ми вирішили, що всі ці історії засунемо в рекламу, в маркетинг, у публічний ринок - так утворилася Social Data Hub, комерційна юрособа. І ось ми сюди тільки зараз приходимо. Півтора роки тут уже тусуємося, намагаємося людям пояснити, що не потрібно людям вивантаження давати зі згадкою, що потрібно їм відповіді на запитання давати, що не потрібно там тональності тощо. Тож складно сказати, куди…
  • (Кого ви маєте на увазі?) Будь-яким товаришам, яким потрібно шукати терористів, педофілів.
    Можу одразу сказати (це наступне питання буде): жодних учителів, за нашими даними, за ріпост не посадили.
  • У «Вконтакті» – 14%, у «Фейсбуку» немає закритого профілю (там буває закритий список друзів і так далі). І найцікавіше, я зараз написав повідомлення – зараз порахують і скажуть.

Не публікуйте те, за що буде соромно!

  • Не постити у соцмережі нічого, за що буде соромно – я особисто цим керуюсь. Хоча в мене було багато особистих таких, бо я матом лаюся у «Фейсбуку». Ну, було й було, що вдієш… Не постити нічого, за що буде соромно! Якщо ви збираєтеся потім кудись у Громадську палату працювати – краще не коментувати. Якщо ви не збираєтеся цього робити - за великим рахунком, усім начхати. Можу тільки запевнити, що ніхто не читає ваше особисте листування, і все це нагнітання цієї історії…

    До мене щотижня точно обов'язково хтось приходить і каже: «Ось, у мене там у друга фотографії вилили в паблік якийсь анонімний! Допоможи!» До речі, ніколи не публікуйте нічого в анонімні паблики.

  • Я не знаю, як решта моніторингових систем – ми точно це врахуємо, що згадка бренду була негативна, прости господи… Але можу сказати, що всякі навколодержавні товариші цікавляться лише людьми, у яких більше 5 тисяч аудиторія, і їхня громадська думка може на когось. то вплинути. У моїй практиці жодного разу такого не було, щоб HR-агенція, яка замовляє у нас оцінку профілів, сказала: «Хто Навального гавкає – мені нікого не беріть»!

Про публікацію результатів. Скільки людей зайнято у дослідженнях?

  • Із топ-10 рекламних компаній зараз сім публікують. Складно сказати: коли ми півтора роки тому це почали… У нас є по кілька людей у ​​кожній сфері – у банках є кілька людей, у HR-ах є кілька людей, є кілька людей у ​​рекламниках. І ось ми зараз думаємо, до кого вигідніше йти першим, під кого треба починати якісь інтерфейси робити…
  • (про кількість людей на сегмент ринку) Не більше 25 осіб, бо ми нікого не ґвалтували.
  • Взагалі, в принципі, ці технології з ринку використовують, я думаю, більше 50 %. Хтось у рекламних кампаніях, хтось у якійсь внутрішній аналітиці. Я б сказав, що 40 відсотків використовують це у внутрішній аналітиці, 50-60 % продають це для кінцевих брендів. Але це вже залежить від рекламних компаній. Розумієте, хтось звітує просто за витрачені гроші, підкручену рекламу, а хтось пише, справді скільки людей привели, яку аудиторію… Я сказав би так, але я можу помилятися – не дуже уявляю, як усі ці товариші працюють. Знаю лише у кількісних даних.

Небагато реклами 🙂

Дякую, що залишаєтеся з нами. Вам подобаються наші статті? Бажаєте бачити більше цікавих матеріалів? Підтримайте нас, оформивши замовлення або порекомендувавши знайомим, хмарні VPS для розробників від $4.99, унікальний аналог entry-level серверів, який був винайдений нами для Вас: Вся правда про VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps від $19 чи як правильно ділити сервер? (Доступні варіанти з RAID1 і RAID10, до 24 ядер і до 40GB DDR4).

Dell R730xd вдвічі дешевше в дата-центрі Equinix Tier IV в Амстердамі? Тільки в нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТБ від $199 у Нідерландах! Dell R420 – 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB – від $99! Читайте про те Як побудувати інфраструктуру корп. класу із застосуванням серверів Dell R730xd Е5-2650 v4 вартістю 9000 євро за копійки?

Джерело: habr.com

Додати коментар або відгук