Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

W dniu 14 marca 2017 r. na wykładzie BBDO przemawiał Arthur Khachuyan, dyrektor generalny Social Data Hub. Arthur mówił o inteligentnym monitorowaniu, budowaniu modeli behawioralnych, rozpoznawaniu treści fotograficznych i wideo, a także innych narzędziach i badaniach Social Data Hub, które pozwalają docierać do odbiorców za pomocą sieci społecznościowych i technologii Big Data.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Arthur Khachuyan (dalej – AH): - Cześć! Cześć wszystkim! Nazywam się Arthur Khachuyan, prowadzę firmę Social Data Hub i zajmujemy się różnymi interesującymi analizami intelektualnymi otwartych źródeł danych, pól informacyjnych, przeprowadzamy wszelkiego rodzaju ciekawe badania i tak dalej.

A dziś koledzy z Grupy BBDO poprosili nas, abyśmy opowiedzieli o nowoczesnych technologiach analizy big data, big data i nie tak big data na potrzeby reklamy: w jaki sposób są one wykorzystywane, pokazali kilka ciekawych przykładów. Mam nadzieję, że przy okazji będziecie zadawać pytania, bo mogę się znudzić i nie zdradzać istoty itd., więc nie wstydźcie się.

Właściwie główne kierunki, w których kiedykolwiek zastosowano rozwiązania „near-big data” są jasne – jest to targetowanie do odbiorców, analiza, prowadzenie pewnego rodzaju analitycznych badań marketingowych. Ale zawsze ciekawe, jakie dodatkowe dane można znaleźć, jakie dodatkowe znaczenia można znaleźć po zastosowaniu analizy.

Dlaczego potrzebujemy technologii do reklamy?

Gdzie zaczynamy? Najbardziej oczywistą rzeczą jest reklama w sieciach społecznościowych. Dzisiaj zdjąłem to rano: z jakiegoś powodu VKontakte uważa, że ​​powinienem zobaczyć tę konkretną reklamę... To, czy jest dobra, czy zła, to drugie pytanie. Widzimy, że zdecydowanie zaliczam się do kategorii poborowych:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Pierwszą i najciekawszą rzeczą, którą można uznać za rozwiązanie technologiczne... Pierwszą rzeczą, o której chciałem zdecydować, zanim zaczniemy, jest zdefiniowanie pojęć: czym są otwarte dane i czym są duże zbiory danych? Bo każdy ma w tej kwestii swoje zdanie i ja nie chcę nikomu narzucać swoich warunków, ale... tak po prostu, żeby nie było rozbieżności.

Osobiście uważam, że otwarte dane to wszystko, do czego mogę dotrzeć bez loginu i hasła. To jest otwarty profil w sieciach społecznościowych, to są wyniki wyszukiwania, to są otwarte rejestry itp. Big data, w moim rozumieniu, widzę to tak: jeśli to tabliczka znamionowa, to miliard wierszy, jeśli to jakiś rodzaj miejsca na pliki, to gdzieś petabajt danych. Reszta w mojej terminologii to nie duże zbiory danych, ale coś w tym rodzaju.

Precyzyjne profilowanie i punktacja profili

Chodźmy po kolei. Pierwszą i najciekawszą rzeczą, jaką można wyciągnąć z analizy otwartych źródeł danych, jest bardzo precyzyjne profilowanie i ocenianie profili. Co to jest? To historia, w której Twoje konto w sieci społecznościowej może przewidzieć nie tylko to, kim jesteś, ale także Twoje zainteresowania.

Ale teraz, łącząc różne źródła, możesz zrozumieć średni poziom swojej pensji, ile kosztuje Twoje mieszkanie i gdzie się znajduje. A wszystkie te dane można wykorzystać dosłownie z dostępnych środków. Na przykład, jeśli założysz swoje konto w sieci społecznościowej, spójrz, powiedzmy, gdzie mieszkasz, gdzie pracujesz; zrozumieć, w jakiej branży działa firma, w której pracujesz; pobierz podobne oferty pracy z HH i „Superjob”, jeśli jesteś analitykiem, menadżerem itp.; spójrz, gdzie mieszkasz (baza, powiedzmy CIAN), zrozum, ile kosztuje wynajęcie domu w tym miejscu, ile kosztuje zakup domu w tym miejscu, przewiduj w przybliżeniu, ile zarabiasz. Co więcej, korzystając z sieci społecznościowych, możesz dowiedzieć się, ile podróżujesz, gdzie jesteś i jak lojalny jesteś wobec swojego pracodawcy.

W związku z tym z tak ogromnej liczby metryk możemy zrobić wszystko, co chcemy. Możemy przedstawić Ci produkt, który Cię interesuje. Wyobrażasz sobie sklep internetowy? Idziesz tam - ten sklep internetowy łapie Twoje konto w sieci społecznościowej i mówi Ci: „Masza, właśnie zerwałaś ze swoim chłopakiem, oto kilka określonych produktów dla Ciebie”. To nie jest najbliższa przyszłość...

Jak określa się geolokalizację danej osoby?

Odpowiedzi na pytania widzów:

  • Zazwyczaj za 80% wszystkich meldowań uznaje się dokładne miejsce zamieszkania. Ale dla osób, które nigdzie się nie meldują, opcji jest kilka: albo melduje się, albo geolokalizacja, albo jest to analiza postów i publikacji za cały okres, kiedy dana osoba coś napisała... I gdzieś, pojawi się coś w stylu: „Chcę kupić wózek w pobliżu Akademiczeskiej” lub „Niedawno widziałem tu brzydkie graffiti na ścianie”. Oznacza to, że w przypadku prawie 80% ludzi ich geolokalizację, miejsce pracy i miejsce zamieszkania można określić za pomocą danych lub metadanych, które można zebrać z sieci społecznościowych.

    To znowu analiza postów. W najprostszym sensie jest to analiza meldowań i geolokalizacji w sieciach społecznościowych, które nie usuwają metadanych JPEG (można z tego coś wywnioskować). Ale dla pozostałych osób są to zazwyczaj transmisje tekstowe: albo osoba „świeci” swoją lokalizacją, gdy o czymś pisze, albo „świeci” swoim telefonem, dzięki któremu można znaleźć część jego reklam w Avito lub jego koncie na „ Auto RU”. Na podstawie tych danych możesz połączyć (na przykład „Sprzedaję samochód w pobliżu Majakowskiej”) i z grubsza to założyć.

  • Ludzie zazwyczaj publikują to w mediach społecznościowych. Pracujemy tylko z otwartymi źródłami i tutaj mówimy wyłącznie o otwartych źródłach. Zwykle publikują reklamy, czyli w sześćdziesięciu procentach przypadków najczęstszą historią, gdy ludzie „pokazali” swój aktualny numer telefonu komórkowego, jest reklama czegoś na sprzedaż. Albo w niektórych grupach ktoś pisze („Sprzedaję tam to czy tamto”), albo gdzieś idzie.

    Tak! Zwykle komentują w stylu: „Odpowiedz mi lub wyślij SMS, zadzwoń na mój numer. Bardzo często zdarza się to osobom, które coś sprzedają, kupują coś na portalach społecznościowych, komunikują się z kimś... W związku z tym za pomocą tego numeru można następnie powiązać z nim jego profil na CIAN, jeśli kiedykolwiek coś opublikował, lub ponownie na Avito. To po prostu najpopularniejsze, topowe źródła, o czym będzie mowa dalej – są to Avito, CIAN i tak dalej.

  • Dotyczy to sklepu internetowego. Następna będzie technologia rozpoznawania twarzy i dopasowywania profili (o tym porozmawiamy). Czysto teoretycznie można to zastosować do sklepu offline. I w ogóle moim wielkim marzeniem jest, aby kiedy pojawiają się uliczne banery, kiedy przechodzisz obok kamery, „uwięzi” ona Twoją twarz. Ale ta sprawa będzie prawnie zabroniona, ponieważ stanowi naruszenie prywatności. Mam nadzieję, że prędzej czy później to nastąpi.
  • Z osobistego doświadczenia. Bardzo często, gdy ktoś do Ciebie coś pisze, opierasz się na faktach z jego życia, o których nie powinieneś wiedzieć... Ludzie w większości przypadków się boją. Ale! Z najnowszych statystyk wynika, że ​​liczba zamkniętych kont na portalach społecznościowych spadła o 14%. Rośnie liczba podróbek, rośnie liczba otwartych kont – ludzie coraz częściej zmierzają w stronę otwartości. Myślę, że za 3-4 lata przestaną tak mocno reagować na fakt, że ktoś zna o nich informacje, których potencjalnie nie powinni znać. Ale w rzeczywistości bardzo łatwo to osiągnąć, patrząc na jego ścianę.

Co można czerpać z otwartych źródeł?

Istnieje przybliżona lista rzeczy, które można zrozumieć z dość dużą niezawodnością z otwartych źródeł. W rzeczywistości istnieje jeszcze więcej różnych wskaźników; zależy to od klienta takich badań. Jest pewna agencja HR, która interesuje się tym, czy przeklinasz na portalach społecznościowych, czy gdzieś w przestrzeni publicznej. Ktoś jest zainteresowany tym, czy lubisz publikacje Nawalnego, czy odwrotnie, publikacje Jednej Rosji, czy jakieś treści pornograficzne - takie rzeczy zdarzają się dość często.

Najważniejsze z nich to wartości rodzinne, przybliżony koszt mieszkania, domu, poszukiwania samochodu i tak dalej. Na tej podstawie można podzielić ludzi na grupy społeczne. Są to użytkownicy moskiewskiego Tindera, kim są (według ich zdjęć znalezionych na ich kontach na Facebooku); ze względu na zainteresowania dzieli się ich na różne grupy społeczne:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Jeśli zbliżymy się do reklamy, to powoli odejdziemy od standardowego targetowania reklam, kiedy na VKontakte wybierzesz, że interesują Cię 18-latkowie subskrybujący określone grupy. Mam następne zdjęcie, teraz ci pokażę:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Najważniejsze jest to, że większość obecnych usług, które w zasadzie analizują osoby analizujące sieci społecznościowe, zajmuje się analizą zainteresowań... Pierwszą rzeczą, która przychodzi ludziom na myśl, jest analiza najlepszych grup ich subskrybentów. Być może dla niektórych to działa, ale osobiście uważam, że jest to zasadniczo błędne. Dlaczego?

Twoje polubienia są zbierane i analizowane

A teraz weźcie telefony, spójrzcie na swoje topowe grupy – na pewno będzie ponad 50% grup, o których już zapomnieliście, to jest jakiś rodzaj treści, który tak naprawdę jest dla Was nieistotny. W ogóle go nie spożywasz, ale mimo to system będzie Cię śledzić według nich: czy subskrybujesz przepisy, jakieś popularne grupy. Oznacza to, że naruszysz system analizujący Twój profil, a Twoje zainteresowania nie będą uzasadnione.

Idziemy dalej... Co tam jest? Zakładamy, co robią inni ludzie. Naszym zdaniem najbardziej adekwatnym sposobem oceny zainteresowań użytkowników są polubienia. Na przykład na VKontakte nie ma kanału polubień i ludzie myślą, że nikt nie wie, co im się podoba. Tak, część lajków pojawia się na Instagramie, widzimy coś na Facebooku, ale większość treści w niektórych grupach nie transmituje tego we wspólnym kanale, a ludzie żyją i myślą, że nikt nie będzie wiedział, co im się podoba.

A zbierając określone treści, które nas interesują, zbierając te posty, zbierając te polubienia, a następnie sprawdzając tę ​​osobę za pomocą tej bazy, możemy z dużą dokładnością określić, kim ona jest, jakie jest jej przeznaczenie, czym się interesuje. Umieść go dokładnie w określonej grupie społecznej i wejdź z nim w interakcję.

Kupno samochodu zmienia zachowanie

Mam taki przykład. Od razu zastrzegam, że moje przykłady mają charakter niemal reklamowy i marketingowy, bo wiadomo, większość przypadków jest chroniona NDA i tak dalej. Ale nadal będzie wiele ciekawych rzeczy. A więc historia tych ludzi: są to mężczyźni, którzy kupili samochód w latach 2010–2015. Kolor zmienia się w ich zachowaniach społecznych w Internecie. Zmienił się odsetek dziewcząt wśród subskrybentów, zasubskrybowałem „chłopięce” strony publiczne, znalazłem stałego partnera seksualnego…

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Całość jest rozbita ze względu na markę samochodu i liczbę osób. Stąd można wyciągnąć wiele interesujących wniosków na temat zachowań ludzi i tego, jak to wszystko działa. Mogę powiedzieć, że Porsche Cayenne i zasadzona Priora są niemal identyczne pod względem liczby przyciągniętych widzów. Jakość tej publiczności i jej zachowanie są różne, ale ilość jest w przybliżeniu taka sama. Wniosek, jaki możesz z tego wyciągnąć, jest taki, jaki chcesz, bliżej swojego rynku. Jeśli sprzedajesz Audi, formułujesz hasło „Kup Audi i uciekaj od rodziców!” i tak dalej.

Tak, to zabawny przykład tego, że zachowanie ludzi oparte na analizie polubień, na podstawie tego, do której grupy się przechodzą, jakie treści analizują – z niemal 100% prawdopodobieństwem wyjaśnia, kim jesteś. Bo jeśli nie masz dostępu do ruchu sieciowego i nie czytasz prywatnych wiadomości, polubienia zawsze powiedzą Ci, kim jest ta osoba - kobieta w ciąży, matka, wojskowy, policjant. A dla Ciebie, jako osoby umiejącej się reklamować, jest to strzał w dziesiątkę.

Odpowiedzi na pytania widzów:

  • Każda kolumna to liczba osób w tym samochodzie; jak zmieniły się ich wzorce zachowań. Spójrz: osób, które kupiły Porsche Cayenne – około 550 osób (żółty), wzrósł odsetek dziewcząt wśród abonentów.
  • Próbą są użytkownicy sieci społecznościowych „Vkontakte”, „Facebook”, „Instagram” w latach 2010–2015. Jedyne wyjaśnienie: wybrane tutaj samochody to te, które można zidentyfikować na zdjęciach z dokładnością większą niż 80% przy użyciu określonych narzędzi.
  • Przez pewien czas jego samochód (no cóż, nie jego, zostawiamy to sieciom społecznościowym)... Przez pewien okres czasu osoba była stale fotografowana z samochodem, była z nim, publikacje były różne, zdjęcia robione były pod różnymi kątami i tak dalej. Pojawi się wtedy zdjęcie, którzy ludzie robią zdjęcia jakim samochodom i… Tak, to drugie pytanie – zaufanie do danych z sieci społecznościowych.
  • Ponieważ o tym wspomnieliśmy, niestety dane z mediów społecznościowych nie zawsze są prawidłowe. Ludzie nie zawsze są skłonni do publikowania swoich informacji. Osobiście przeprowadziłem takie badanie: porównałem liczbę absolwentów moskiewskich uniwersytetów z liczbą osób zarejestrowanych na portalach społecznościowych. Średnio o 60% więcej osób jest zarejestrowanych w sieciach społecznościowych - absolwentów Moskiewskiego Uniwersytetu Państwowego w danym roku na określonych specjalnościach - niż w zasadzie. Więc tak – jest tu oczywiście pewien procent błędów i nikt tego nie ukrywa. Tutaj po prostu bierzemy za podstawę te samochody, które można zidentyfikować z prawdopodobieństwem większym niż 80%.

Lista źródeł uczenia modeli

Oto przykładowa lista źródeł, z których można skorzystać, która służy do określenia z dużą pewnością profilu społecznego danej osoby, kim ona jest.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Pobieramy profil z portali społecznościowych, z CIAN - koszt mieszkania to w przybliżeniu "Head-Hunter", "Superjob" - to średnia pensja danej osoby. Mam nadzieję, że nie ma tu przedstawicieli Head Huntera, bo uważają, że nie jest dobrze brać od nich takie dane. Jest to jednak średnie wynagrodzenie w niektórych regionach za określone rodzaje działalności w przypadku wolnych miejsc pracy.

„Avito”, „Avto.ru”: bardzo często ludzie, gdy ich telefon się świeci, na pewno mają (w dużej liczbie przypadków) przynajmniej coś na „Avito” lub na „Avto.ru” lub na kilku innych stronach, z których możesz zrozumieć, kim są. Jeżeli pod tym numerem telefonu sprzedawano wózek lub samochód... Rosstat i Jednolity Państwowy Rejestr Podmiotów Prawnych to jeszcze więcej rejestrów, za pomocą których można uszeregować firmę zatrudniającą - według jakiegoś wzoru, według modelu, który może ustawić dowolna osoba (można z grubsza określić pieniądze tej osoby itp.).

Tinder pomaga zbierać dane o sytuacji ludzi

Poza tym jest taka ciekawa rzecz (alternatywnie jest to bardzo zabawne w badaniu) - to znowu zbieranie danych z moskiewskiego Tindera za pomocą botów dla tego Tindera. Określano odległość do ludzi, a następnie określano ich przybliżoną lokalizację.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Celem tego badania było ustalenie liczby kont Tinder na terenie instytucji rządowych – w Dumie, prokuraturze i tak dalej. Ale Ty, jako reklamodawca, możesz sobie wyobrazić, co chcesz: może to być na przykład Starbucks lub ktoś inny... Czyli liczba osób na Tinderze, które piją od Ciebie kawę, zamawiają coś, są w sklepach Jeśli chodzi o geolokalizację: można to zrobić za pomocą dowolnej usługi.

Odpowiedź na pytanie publiczności:

  • Tinder? Nie wiesz? Tinder to aplikacja randkowa, w której przeglądasz zdjęcia (od lewej do prawej), a ta aplikacja pokazuje odległość do danej osoby. Jeśli uzyskasz odległość do tej osoby z trzech różnych punktów, możesz w przybliżeniu (+ 5-7 metrów) określić lokalizację. W tym przypadku ustalenie na terenie prokuratury lub Dumy Państwowej nie jest takie trudne. Ale znowu, może to być Twój sklep, może to być cokolwiek.

Przykładowo dawno, dawno temu mieliśmy taki przypadek (nie badanie), kiedy otrzymaliśmy od jednego z operatorów komórkowych dane o natężeniu ruchu, dane o natężeniu ruchu punktów komórkowych i wszystkie te informacje zostały nałożone na siebie na współrzędnych billboardów umieszczonych przy autostradach. Zadaniem operatora komórkowego jest określenie w przybliżeniu, ile osób przechodzi obok i może potencjalnie zobaczyć tę reklamę na billboardzie.

Jeśli są tu specjaliści od reklamy na billboardach, to można powiedzieć: nie da się tego zrozumieć z super-rzetelnością – ktoś idzie, ktoś nie patrzył, ktoś patrzył… Niemniej jednak to jest przykład tego, jak wielokątów jest 20 miliardów. te w Moskwie, na których jest zagęszczenie tych ludzi w każdej godzinie na określonych trasach... W każdej chwili można zobaczyć, obok czego ci ludzie przechodzili i z grubsza oszacować potok pasażerów.

Odpowiedź na pytanie publiczności:

  • Nikt nie podaje takich danych. Takie badanie przeprowadziliśmy dla jednego z operatorów, jest to historia wyłącznie wewnętrzna, dlatego niestety nie jest ona przedstawiona w formie zdjęć. Ale często duże agencje reklamowe nie mają problemów ze skontaktowaniem się z operatorem. Przynajmniej w Moskwie istnieje wiele precedensów, gdy na przykład firmy ubezpieczeniowe zwracają się do firm takich jak GetTaxi, które dostarczają bezosobowych danych na temat wieku kierowcy, sposobu, w jaki prowadzi (dobrze – źle, lekkomyślnie – nie), aby przewidzieć polityki i tak dalej. Każdy się z tym boryka, ale na jakimś wewnętrznym poziomie podawanie anonimowych danych – chyba nikt nie ma takiego problemu.

Rozpoznawanie obrazu i wzorca

Zacząć robić. Moim ulubionym jest rozpoznawanie obrazu. Będzie mały artykuł o wyszukiwaniu ludzi po twarzach, ale w większości nie bierzemy tego pod uwagę. Zajmujemy się w szczególności rozpoznawaniem obrazu i ustalaniem, co się na nim znajduje – marka samochodu, jego kolor i tak dalej.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Mam taki zabawny przykład:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Przeprowadzono takie badanie dotyczące wyszukiwania tatuaży w różnych sieciach społecznościowych. W związku z tym to samo można zastosować do dowolnej marki, do dowolnego obrazu wizualnego, do prawie każdego obrazu wizualnego. Są takie, których nie da się wiarygodnie określić (nie bierzemy ich).

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Oto mój ulubiony. Marki samochodów dość często zwracają się do tego zadania, ponieważ ich zadaniem jest na przykład odnalezienie wszystkich właścicieli jakiegoś BMW X6, zrozumienie, kim są, w jaki sposób są ze sobą powiązani, czym się interesują i tak dalej. Wiąże się to z pytaniem, jakimi samochodami ludzie robią sobie zdjęcia w sieciach społecznościowych.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Nie było tu żadnego filtrowania: przedmiot był ich, samochód nie był ich; To po prostu awaria samochodów – wiek i tak dalej. Jednak wizualne rozpoznawanie obrazu jest stosowane dość często: jest to wyszukiwanie kobiet w ciąży i wyszukiwanie logo marki w środkach masowego przekazu (kto co publikuje).

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Mój ulubiony przypadek (z którego korzystają różne restauracje): jakie bułki są publikowane w sieci społecznościowej. To zabawna rzecz, ale tak naprawdę pozwala zrozumieć wiele ciekawych rzeczy, po pierwsze, o własnych klientach: kto do Ciebie przyszedł i dlaczego to zrobił. Bo nie jest tajemnicą, że w barach sushi większość osób (nie powiem „dziewczyny”) robi zdjęcia w celu zameldowania się, zrobienia sobie zdjęcia itp.

Marka może to wykorzystać. Markę interesuje, jakich produktów potrzebuje, aby pięknie sfotografować i opublikować post, jacy ludzie tam przyszli. Można to zrobić z prawie wszystkim, począwszy od jedzenia.

Rozpoznawanie wzorców wideo

Odpowiedź na pytanie publiczności:

  • Nie na wideo. Mamy go w trybie testowym. Próbowaliśmy tej technologii, ale okazuje się, że... Całkiem nieźle rozpoznaje wszystko z wideo, ale nigdzie nie znaleźliśmy dla niej zastosowania. Do widzenia. Oprócz analizy, ile i którzy wideoblogerzy gdzieś rozmawiają… Było takie badanie. Ile ich twarzy się spotyka, jak często. Ale marki nie wymyśliły jeszcze, gdzie to wymyślić. Być może kiedyś nadejdzie.

Ponownie, jest to jedzenie, mogą to być kobiety w ciąży, mężczyźni (nie w ciąży), samochody - wszystko.

Opcjonalnie dla jednego z mediów przeprowadzono opracowanie noworoczne. Daleko też do reklamy, ale jednak. Oto, jakiego rodzaju jedzenie ludzie pościli na Nowy Rok:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Tutaj również jest to podzielone ze względu na wiek. Widać taką zależność, że młodzi ludzie najczęściej zamawiają jedzenie, dorośli najczęściej przygotowują tradycyjny stół. To zabawne, ale wyobrażając sobie go jako właściciela marki, możesz ocenić wiele rzeczy: kto i jak obsługuje Twój produkt, co o nim pisze. Często ludzie nie zawsze wspominają samą markę w tekście, a tradycyjne systemy monitorowania analitycznego nie zawsze mogą zrozumieć i znaleźć wzmiankę o marce tylko dlatego, że nie jest ona wspomniana w tekście. Lub tekst jest błędnie napisany, nie ma żadnych tagów skrótu ani niczego.

Zdjęcia są widoczne. Dzięki fotografii można stwierdzić, czy jest to centralny obiekt kadru, czy też nie. Wtedy będziesz mógł zobaczyć, co napisała ta osoba. Najczęściej jednak służy do wyszukiwania potencjalnych odbiorców, którzy jeździli określonymi samochodami i tak dalej. A potem zrobimy z tymi samochodami wiele ciekawych rzeczy.

Boty uczą się naśladować ludzi

Była też taka opcja wykorzystania liczenia osób:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Istnieje możliwość porównania osób, gdy trzeba znaleźć osoby na podstawie zdjęć, poznać ich profil społecznościowy, kim są. Ponownie wracamy do pytania, że ​​jeśli mamy aparat w sklepie offline, to jest to dość dobry sposób, aby zrozumieć, kto do Ciebie przychodzi, kim są te osoby, czym się interesują, co skłoniło je do przyjścia do Ciebie .

Następnie następuje najciekawsza rzecz: jeśli zbierzemy ich konta w sieciach społecznościowych, zrozumiemy, kim są te osoby, czym się interesują, możemy (opcjonalnie) stworzyć bota podobnego do tych osób; ten bot zacznie żyć jak ci ludzie i będzie analizował, jakie reklamy widzi w różnych sieciach społecznościowych. Dzięki temu będziesz mógł dokładnie zrozumieć, jakie marki są skierowane do tej osoby. To także dość częsta historia, gdy trzeba nie tylko przeanalizować, kim jest ta osoba i jakie ma zainteresowania, ale także na jaki rodzaj reklamy powinni kierować się Twoi potencjalni konkurenci lub inne zainteresowane osoby.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Analiza powiązań w sieciach społecznościowych

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Następną interesującą rzeczą jest analiza relacji między ludźmi. Właściwie analiza połączeń w sieci, te wykresy sieciowe - nie ma w tym ani trochę, nic nowego, wszyscy to wiedzą.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Ale najciekawsze jest zastosowanie do zadań reklamowych. To wyszukiwanie osób, które wyznaczają trendy, to wyszukiwanie osób, które w ramach tej sieci rozpowszechniają informacje według określonych kryteriów. Załóżmy, że interesują nas ci sami właściciele określonego modelu BMW. Łącząc je wszystkie, możemy znaleźć tych, którzy kontrolują opinię publiczną. Niekoniecznie są to blogerzy motoryzacyjni i tak dalej. Zwykle są to zwykli towarzysze, którzy siedzą na różnych stronach publicznych, są zainteresowani jakąś treścią i mogą w bardzo krótkim czasie przyciągnąć Twoją markę lub interesującą Cię osobę do tego obszaru odpowiedzialności, do obszaru ​zainteresowanie.

Tutaj jest taki przykład. Mamy potencjalnych ludzi, powiązania między ludźmi. Tutaj pomarańczowe to ludzie, małe kropki to wspólne grupy, wspólni przyjaciele.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Jeśli zbierzesz wszystkie te powiązania między nimi, bardzo wyraźnie zobaczysz, że są ludzie, którzy mają dużą liczbę wspólnych grup, wspólnych przyjaciół, są tam między sobą... A jeśli tę samą wizualizację podzielimy na grupy według zainteresowań, według treści, które rozpowszechniają, jak bardzo ze sobą współdziałają... Tutaj widać, że poprzedni obraz wyglądał tak:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Tutaj grupy są wyraźnie odróżnione kolorem. W tym przypadku są to nasi magistranci w Wyższej Szkole Ekonomicznej. Tutaj widać, że fioletowo-niebiescy to ci, którzy kochają strony publiczne Transparency International, Otwartej Rosji i Chodorkowskiego. Na dole po lewej stronie są zieloni, ci, którzy kochają Jedną Rosję.

Widać, że poprzednie zdjęcie wyglądało właśnie tak (to tylko powiązania między ludźmi), ale zostało wyraźnie rozgraniczone. Oznacza to, że wszyscy ludzie są zawsze ze sobą powiązani, mają te same zainteresowania, przyjaźnią się ze sobą. Niektórzy są na górze, inni na dole i jeszcze kilku towarzyszy. A jeśli każdy z tych małych podgrafów zwizualizuje się osobno z innymi parametrami i przyjrzy się szybkości rozpowszechniania treści (z grubsza mówiąc, kto co tam repostuje), to w każdej części można znaleźć jedną lub dwie osoby, które zawsze trzymają opinię publiczną w swoich rękach, wchodząc w interakcję z czym, prosząc o przesłanie jakiegoś postu lub czegoś innego - możesz uzyskać odpowiedź od całej tej interesującej publiczności.

Mam jeszcze jeden taki przykład. Oraz wykres: są to przykładowi pracownicy Grupy BBDO znalezieni na portalach społecznościowych. Wygląda nieciekawie, duże, zielone, połączenia między nimi...

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Ale mam opcję, w której grupy są już zbudowane między nimi. Następnie, jeśli ktoś jest zainteresowany, dostępna jest wersja interaktywna - można kliknąć i obejrzeć.

U góry po prawej stronie znajdują się ci, którzy kochają Putina. Tutaj fioletowi są projektanci; tych, którzy interesują się designem, czymś interesującym i tak dalej. Tutaj białe rzeczy to zespół zarządzający (najwyraźniej, jak rozumiem); Są to ludzie, którzy na ogół nie są ze sobą powiązani, ale pracują na mniej więcej tych samych stanowiskach. Reszta to ich wspólne grupy, powiązania i tak dalej.

Marki nie potrzebują blogerów, ale liderów opinii

Bierzemy te osoby i znajdujemy je - wtedy agencja reklamowa, firma reklamowa sama decyduje: może dać tej osobie pieniądze, aby w jakiś sposób weszła w interakcję z tą treścią, czymś innym, albo skierować do nich własną, konkretną kampanię reklamową. To też jest dość często stosowane, szczególnie teraz, bo wszystkie marki chcą współpracować z blogerami, chcą, aby ich treści były promowane, ale agencje reklamowe nie bardzo chcą się kontaktować (no cóż, to się zdarza).

Prawdziwym wyjściem z tej sytuacji jest znalezienie ludzi, którzy nie są blogerami, nie blogerami zajmującymi się urodą, ale na przykład prawdziwymi istotami, które wchodzą w interakcję z tą marką, które mogą pisać na jakiejś nędznej publicznej stronie „Mail.ru Answers”, uzyskać określoną liczbę wyświetleń. Ci ludzie, którzy są stale zainteresowani treściami tej osoby, rozproszą całą sprawę, a marka się zaangażuje.

Druga opcja korzystania z takiej technologii jest teraz dość istotna - wyszukiwanie botów, moje ulubione. Jest to ryzyko utraty reputacji dla konkurencji i szansa na wyeliminowanie nieistotnych osób z kampanii reklamowej i czegokolwiek innego (usuwanie komentarzy i wyszukiwanie powiązań między ludźmi). Mam taki przykład, też jest duży i interaktywny - można go przesuwać. Są to powiązania osób, które napisały komentarze w społeczności Lentach.

Ten przykład ma na celu pomóc Ci zrozumieć, jak dobrze i łatwo widoczne są boty; i do tego nie trzeba posiadać żadnej wiedzy technicznej. Oznacza to, że „Lentach” opublikował post dotyczący śledztwa FBK w sprawie Dmitrija Miedwiediewa, a niektóre osoby zaczęły pisać komentarze. Zebraliśmy wszystkie osoby, które napisały komentarze – ci ludzie są zieloni. Teraz to przeniosę:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Ludzie są zieloni (którzy napisali komentarze). Oni są tutaj, oni są tutaj. Niebieskie kropki między nimi to ich wspólne grupy, żółte kropki to ich wspólni subskrybenci, przyjaciele i tak dalej. Większość ludzi jest ze sobą połączona. Ponieważ niezależnie od teorii trzech, czterech, pięciu uścisków dłoni, wszyscy ludzie są ze sobą połączeni w sieciach społecznościowych. Nie ma ludzi oddzielonych od siebie. Nawet moi znajomi z fobią społeczną, którzy korzystają z VKontakte wyłącznie do oglądania filmów, nadal subskrybują niektóre z tych samych stron publicznych co my.

Nawalny również korzysta z botów. Każdy ma boty

Większość ludzi (tutaj, tutaj) jest ze sobą połączona. Ale jest taka mała grupa towarzyszy, którzy przyjaźnią się wyłącznie ze sobą. Oto oni, mali zieloni, oto ich wspólni przyjaciele i grupy. Tutaj nawet odpadli osobno:

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

I szczęśliwym zbiegiem okoliczności to właśnie ci ludzie napisali pod tym postem: „Nawalny nie ma dowodów” i tak dalej, napisali te same komentarze. Oczywiście nie odważę się wyciągać wniosków. Niemniej jednak na Facebooku zamieściłem kolejny post, kiedy toczyła się dyskusja Lebiediewa z Nawalnym, w ten sam sposób analizowałem komentarze: okazało się, że wszyscy, którzy napisali „Lebiediew to gówno”, nie byli na portalach społecznościowych sieci przez ostatnie cztery miesiące nie subskrybowały żadnej publicznej strony, nagle weszły do ​​tego konkretnego wpisu, napisały dokładnie ten komentarz i wyszły. Znowu nie da się z tego wyciągnąć wniosków, ale ktoś z zespołu Nawalnego napisał mi komentarz, że nie używają botów. Cóż, OK!

Bliżej reklamy, bliżej marki. Każdy ma teraz boty! Mamy je my, mają je nasi konkurenci i mają je inni. Należy je wyrzucić lub pozostawić, aby żyły dobrze; Na podstawie takich danych (wskazuje na poprzedni slajd) doprowadź je do perfekcji, aby wyglądały jak prawdziwi ludzie i dopiero wtedy je wykorzystaj. Chociaż używanie botów jest złe! Niemniej jednak dość popularna historia...

W trybie automatycznym pozwala to na odfiltrowanie z analizy osób nieistotnych dla analizy, osób, które nie powinny być uwzględnione w próbie, nie powinny być uwzględniane w tym badaniu. Bardzo często używany. Z drugiej strony nie wszyscy właściciele samochodów faktycznie są właścicielami samochodów. Czasami ludzie interesują się tylko ludźmi, którzy potencjalnie mają samochód, którzy siedzą w jakichś grupach, komunikują się z kimś, mają tam określoną publiczność.

Analiza faktów i opinii

Następny, który mam, jest również moim ulubionym. To analiza faktów i opinii.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

W dzisiejszych czasach każdy wie, jak wspomnieć o swojej marce w różnych źródłach. Nie ma w tym żadnej tajemnicy. I chyba każdy potrafi obliczyć tonację... Chociaż osobiście uważam, że sama miara tonalności nie jest zbyt interesująca, bo kiedy przychodzisz i mówisz klientowi: „Człowieku, masz 37% neutralności”, a on tak mówi , " Wow! Fajny!" Dlatego ciekawiej byłoby pójść nieco dalej: od oceny sentymentów do oceny opinii na temat tego, co mówią o Twoim produkcie.

A to też jest bardzo ciekawa sprawa, bo... Osobiście uważam, że w zasadzie nie może być przekazów neutralnych, bo jeśli ktoś napisze coś w przestrzeni publicznej, to przekaz ten zostanie w jakiś sposób podkoloryzowany. Osobiście nigdy nie spotkałem się z neutralnym przekazem wspominającym o marce. Zwykle jest to jakiś brud.

Jeśli weźmiemy dużą liczbę tych przekazów (mogą być miliony, 10 milionów), podkreślimy główną ideę z każdego przekazu, połączymy je, możemy całkiem wiarygodnie zrozumieć, co ludzie mówią o tej marce, co myślą. „Nie podoba mi się opakowanie”, „Nie podoba mi się konsystencja” i tak dalej.

Co ludzie myślą o Transaero, Chupa Chups i Prezydencie Stanów Zjednoczonych?

Mam zabawny przykład: to infografika przedstawiająca, co użytkownicy sieci społecznościowych zrobiliby z firmą Transaero po jej bankructwie.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Jest tam wiele ciekawych przykładów: palić, zabijać, deportować do Europy, było nawet 2%, które napisało – „Wyślij ich do Syrii na operacje wojskowe”. Przechodząc od najśmieszniejszej rzeczy, może to być prawie każda marka – od mojej ulubionej karmy dla psów po niektóre samochody. Komu nie podoba się opakowanie, komu nie podobają się prawdziwe rzeczy – zawsze można z tym popracować, zawsze można to wziąć pod uwagę. Przykładów, kiedy ludzie prawie zmienili produkcję swoich produktów, jest mnóstwo, bo na portalach społecznościowych napisali, że Chupa Chups nie jest wystarczająco okrągły lub nie jest wystarczająco słodki.

Jest jeszcze jeden zabawny przykład. Zgadnijcie, jakie komentarze i o kim?

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Z jakiegoś powodu obecnie analiza opinii, analiza faktów wydobytych z przekazów nie jest zbyt popularna i nie jest zbyt rozpowszechniona. Chociaż ta technologia nie jest super tajna, praktycznie nie ma w tym żadnego know-how, ponieważ z komentarzy ludzi wydobycie tematu, orzeczenia i ich grupowanie nie wymaga geniuszu lingwistyki obliczeniowej. Nie jest to takie trudne. Ale mam nadzieję, że za kilka lat ludzie zaczną z tego korzystać, bo... Będzie fajnie – to taki automatyczny feedback! Zawsze wiesz, co o Tobie mówią. Rozumie pan, że chodziło o prezydenta USA.

Odpowiedź na pytanie publiczności:

  • Tak, to jest Facebook w języku angielskim. Tutaj są przetłumaczone na język rosyjski. To zostało gdzieś napisane.

Big Data i technologie polityczne

Tak naprawdę mam wiele różnych interesujących przykładów polityki dotyczących Trumpa i wszystkich innych, ale postanowiliśmy ich tutaj nie przytaczać. Ale jest jeden przykład polityczny.

To są wybory do Dumy Państwowej. Kiedy byłeś? Ostatni rok? Prawie półtora roku temu.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Oto osoby, którym udało się określić ich dokładną lokalizację, aż do określonego punktu geograficznego, aby zrozumieć, do którego okręgu wyborczego się należą. I wtedy z tych osób brano tylko tych, którzy wyrazili swoje zdecydowane zdanie, na których by głosowali.

Z punktu widzenia technologii politycznej nie jest to zbyt poprawne, ponieważ całą tę sprawę należy znormalizować według gęstości zaludnienia i tak dalej. Niemniej jednak, niebiescy tutaj będą głosować na wiadomo kogo, czerwoni będą głosować na towarzyszy opozycji, których, notabene, było niewielu.

Osobiście uważam, że Big Data nie dotrze prędko do technologii politycznych, ale opcjonalnie kandydatem jest także marka. I to także w pewnym stopniu analiza faktów i opinii na temat Twojej marki, i to dość ciekawa sprawa, bo w czasie rzeczywistym można zrozumieć, kto co robi. Znam kilka przypadków z BBC, kiedy w jakiejś audycji monitorowano sieci społecznościowe w czasie rzeczywistym: reakcja jest taka a taka, ludzie o tym piszą, zadają takie a takie pytanie – i jest świetnie! Myślę, że już niedługo zostanie wykorzystany, bo zainteresuje każdego.

Modelowanie pozycji marki

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Następnie zajmuję się modelowaniem pozycji marki. Mały, krótki artykuł o tym, jak możesz oceniać marki za pomocą różnych wskaźników (nie upodobań subskrybentów w sieciach społecznościowych, ale złożonych wskaźników, zainteresowania treścią, czasu spędzonego na otrzymywaniu wskaźników).

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Nie bez powodu mam przykład „farmaceutyki”. Tutaj małe kółka są wewnętrzne, jasne - to ilość treści tekstowych, które tworzy sama marka, duże kółko to ilość treści fotograficznych i wideo, które tworzy sama marka.

Bliskość centrum pokazuje, jak interesująca dla odbiorców jest treść. Jest duży model, jest cała masa parametrów: polubienia, reposty, czas reakcji, kto średnio tam udostępnił... Tutaj widać: jest cudowny „Kagotsel”, który pompuje ogromną ilość pieniądze w tworzenie własnych treści, dzięki czemu są dość blisko centrum. Są też towarzysze, którzy również tworzą własne treści, ale publiczność nie jest nimi zainteresowana. Nie jest to zbyt adekwatny przykład, ponieważ wszystkie te konta są praktycznie martwe.

Jegor Creed jest kochany bardziej niż Basta

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Niestety reszta...z czego pokazać...No cóż, są też rosyjscy raperzy, opcjonalnie, z prawdziwych firm.

Jaki jest plus? Faktem jest, że firma może włożyć w taki model niemal wszystko, zaczynając od średniej pensji subskrybentów pracujących dla Twojej marki; dowolny model, który im się podoba. Ponieważ każda agencja reklamowa inaczej oblicza swoje wskaźniki, marki inaczej je obliczają.

Jest tu też jedna – Basta, która generuje dużą ilość treści, ale jest zlokalizowana na peryferiach, bo treści te najwyraźniej nie są zbyt interesujące dla odbiorców. Powtórzę: nie mam zamiaru oceniać. Niemniej jednak istnieje Jegor Creed, który według sieci społecznościowych jest prawie najlepszym wykonawcą naszych czasów, ale publikuje tylko swoje osobiste zdjęcia. Niemniej jednak ma dużą liczbę abonentów: jest ich około miliona. Nie pamiętam dokładnej liczby; Pamiętam, że procent zaangażowania tych osób jest znacznie wyższy niż 85%, czyli na milion subskrybentów otrzymuje 850 tysięcy odpowiedzi od tych prawdziwych osób – to prawdziwe szaleństwo. To prawda.

Arthur Khachuyan: „Prawdziwe Big Data w reklamie”

Odpowiedzi na pytania widzów:

Ile czasu zajęło stworzenie modelu analizy rapera?

  • Każdy ma swoją własną grupę docelową, zainteresowania tych ludzi są obliczane dla każdego... Wszystko to jest znormalizowane w przybliżeniu do odległości do środka, ich promieniowe położenie nie jest ważne (tutaj jest po prostu rozmazane dla urody, aby tak było nie wpadać na siebie). Ważna jest tylko przybliżona odległość od centrum. To jest model, którego używamy. Na przykład bardziej podoba mi się okrąg, niektórzy robią to z myślą o półkolu.
  • Model ten powstał szybko, w dwie, trzy godziny (tak, jedna osoba). Tutaj wprowadzono jedynie metryki: co mnożymy przez co, dodajemy, a potem jakoś normalizujemy. Zależy od modelu. Są ludzie, których interesuje średnie wynagrodzenie (to nie jest żart) swoich abonentów. I do tego musisz znaleźć ich kontakty, Avito, obliczyć to wszystko, pomnożyć. Zdarza się, że liczenie rzeczy zajmuje dużo czasu, ale konkretnie to (wskazuje na poprzedni slajd) - parametry tutaj są bardzo proste: subskrybenci, reposty i tak dalej. Całość zajęła około dwóch do trzech godzin. W związku z tym ta rzecz jest następnie aktualizowana w czasie rzeczywistym i można z niej korzystać.

Teraz zaczyna się zabawa. Skończyłem z przykładami, bo nie jest ciekawie rozmawiać długo w samotności. I mam nadzieję, że teraz będziecie zadawać pytania i tak naprawdę będziemy przechodzić od tematu do tematu, bo mam takie przykłady, jak można wykorzystać technologie i tak dalej...

Odpowiedzi na pytania widzów:

  • Miałem jeden i jedyny przypadek osobisty z jednym, że tak powiem, „przy kasynie”, kiedy umieszczono tam kamerę, rozpoznawano twarze i tak dalej. Odsetek wyróżnionych osób jest na pewno dość duży – zarówno nasz, jak i naszej konkurencji. Ale właściwie to całkiem interesujące. Uważam to za interesującą rzecz: można zrozumieć, kim są ci ludzie i całkiem dobrze przewidzieć, dlaczego dokładnie tu przybyli, co zmieniło się w ich życiu na tyle, że zdecydowali się przyjechać do kasyna. Ale co do konkretnych rodzajów działalności... Jeśli umieścisz coś takiego w aptece, to nie ma sensu - nie możesz przewidzieć, po co dana osoba przyszła do apteki.

    Globalnym zadaniem tutaj było zbudowanie modelu, aby zrozumieć, kiedy dana osoba potencjalnie chce zainteresować się Twoją marką, tak abyś mógł dać mu reklamę nie po tym, jak coś kupi (jak to ma miejsce teraz), ale dać mu reklamę „ w prognozie”, kiedy to wszystko się stanie. Ciekawie było z takim „blisko kasyna”; okazało się, że jest całkiem ciekawy odsetek tych osób – dlaczego: ktoś nagle dostał awans, ktoś inny dostał coś innego – takie ciekawe spostrzeżenia. Ale w przypadku niektórych sklepów, sprzedaży detalicznej, sklepu z jakimiś tabletkami, wydaje mi się, że nie będzie to zbyt poprawne.

Czy Big Data jest wykorzystywany offline?

  • To było offline. Musisz tylko dokładnie, z grubsza zrozumieć, czy ten model będzie pasował, czy nie. Znowu woda gazowana... Właściwie wszystko mnie interesuje, ale osobiście nie rozumiem, jak bardzo, w jaki sposób profile tych osób, ich zachowanie może zależeć od tego, kiedy będą chcieli kupić wodę butelkowaną. Chociaż może to być prawdą, nie wiem.

Ile jest otwartych kont w mediach społecznościowych?

  • Mamy w szczególności 11 sieci społecznościowych - są to „Vkontakte”, „Facebook”, „Twitter”, „Odnoklassniki”, „Instagram” i kilka drobiazgów (mogę spojrzeć na listę, np. „Mail.ru” i tak dalej) . Na VKontakte zdecydowanie mamy kopię wszystkich tych towarzyszy. Mamy ludzi na VKontakte – to 430 milionów wszystkich, którzy kiedykolwiek istnieli (z czego około 200 milionów jest stale aktywnych); są grupy, są powiązania między tymi ludźmi i są treści, które nas interesują (tekst) i część mediów, ale bardzo mała... Z grubsza rzecz biorąc, patrzymy na ten obraz: jeśli są tam twarze, to my ratujmy je, jeśli jest mem, to je ratujemy. Nie zapisujemy tego, bo nawet nas nie starczyłoby na uratowanie treści medialnych.

    Istnieje rosyjskojęzyczny Facebook. Gdzieś teraz 60-80% to Odnoklassniki, za kilka miesięcy prawdopodobnie uda nam się je wszystkie dokończyć. Rosyjski Instagram. Dla wszystkich tych sieci społecznościowych istnieją grupy, ludzie, powiązania między nimi i tekst.

  • Około 400 milionów ludzi. Jest pewna subtelność: są ludzie, których miasto nie jest określone (są potencjalnie Rosjanami/nie-Rosjanami); Spośród nich średnia dla sieci społecznościowych wynosi 14% zamkniętych kont na VKontakte, nie znam dokładnej liczby na Facebooku.
  • Nie zapisujemy też multimediów na Instagramie – tylko jeśli są tam twarze. Nie przechowujemy takich (innych) treści medialnych. Zwykle interesujące: tylko tekst, powiązania między ludźmi; Wszystko. Najczęstszym badaniem na Instagramie jest zwykłe badanie odbiorców: kim są ci ludzie i, co najważniejsze, powiązania tych osób z innymi sieciami społecznościowymi. Znajdź profil tej osoby na Vkontakte i Facebooku, aby obliczyć jej wiek i tak dalej.
  • Nie ma jeszcze potrzeby przyjmować wszystkich innych - po prostu dlatego, że nie ma klientów. Jeśli chodzi o język: mamy rosyjski, angielski, hiszpański, ale nadal jest on używany wyłącznie w przypadku marek z Rosji; cóż, lub firmy, które przywożą je z Rosji.
  • Codziennie przeprowadzamy wywiady z ludźmi w wielu, wielu, wielu wątkach: zbieramy dane z sieci i aktualizujemy te wskaźniki za pomocą API. W ciągu 2-3 dni możesz przejść przez całe „VKontakte”, przeglądając je; W ciągu około tygodnia możesz przejrzeć cały Facebook i dowiedzieć się, kto co zaktualizował, a co nie. A potem zmontuj tych ludzi osobno: co dokładnie się zmieniło, zapisz całą tę historię. Z mojego doświadczenia wynika, że ​​bardzo rzadko zdarza się, aby czyjś stary profil w mediach społecznościowych był wykorzystywany do jakichkolwiek rzeczywistych celów biznesowych. To był czas, kiedy zgłosił się jeden polityk, a jego zadaniem było zrozumieć, jacy ludzie przychodzą do centrali, kim byli ci ludzie 6-8 miesięcy temu (czy usunęli profil, ale tak naprawdę na innego kandydata dotarły karty do głosowania) zepsuć).

    I kilka razy - osobiste historie, gdy czyjeś zdjęcia zostały opublikowane w domenie publicznej. Trzeba było szukać powiązań itp. Niestety szkoda, ale nie możemy zeznawać w sądzie, bo nasza baza danych jest prawnie niepłynna.

  • Pamięć MongoDB jest moją ulubioną.

Sieci społecznościowe próbują walczyć z gromadzeniem danych

  • Zwykle przesyłamy reklamodawcom tylko listę tych kont, a następnie korzystają ze standardowej... Oznacza to, że w sieciach społecznościowych na VKontakte możesz określić listę tych osób.

    Ale Facebook używa zakupionych plików cookie. Sami nie pracujemy z plikami cookie, ale było kilka historii, kiedy sam reklamodawca dał niektórym osobom, wchodziliśmy z nimi w interakcję - mają te sieci, z reklamami zwiastunowymi, reklamami nie-teaserowymi, tymi „plikami cookie”. Można go zawiązać – bez dwóch zdań! Ale nie podobają mi się te rzeczy, bo nie sądzę, żeby były zbyt autentyczne. To tylko moje zdanie, trochę jak TNS, które „śledzi” telewizory – nie jest jasne, czy oglądasz tę telewizję, czy nie, czy zmywasz naczynia, gdy telewizor jest włączony… I tutaj jest tak samo : Bardzo często wyszukuję coś w Internecie, ale to nie znaczy, że chcę to kupić.

  • Jeśli korzystasz z jakiejś standardowej sieci reklam kontekstowych: miałem kilka historii, kiedy przekazaliśmy im te osoby i próbowaliśmy, korzystając z ich interfejsów, połączyć ich z „plikami cookie” na ich stronach. Ale bardzo nie lubię takich rzeczy.

Wzór na obliczenie wynagrodzenia internauty

  • Ogólny wzór na średnie wynagrodzenie: jest to region, w którym dana osoba mieszka, jest to kategoria działalności, w której pracuje (to znaczy firma będąca jego pracodawcą), następnie zajmowane jest jego stanowisko w tej firmie, średnia wynagrodzenie na to stanowisko szacowane jest... Średnie wynagrodzenie pobierane z „Head Hunter” i „Superjob” (a jest jeszcze kilka innych źródeł) na dany wakat w danym regionie i dla danego kontekstu biznesowego.

    Z „Avito” i „Avto.ru” zwykle pobierane są dodatkowe parametry, jeśli dana osoba podświetliła telefon. Dzięki Avito możesz zobaczyć, jakie rzeczy dana osoba sprzedaje – drogie, niedrogie, używane, nieużywane. Dzięki „Avto.ru” możesz sprawdzić, czy ma samochód – jest jego właścicielem, nie jest jego właścicielem. To niecałe 20% osób, które przypadkowo upuściły gdzieś telefon, a ich konto można powiązać z tymi danymi.

Jakie wolumeny obsługuje firma gromadząca dane?

  • Objętość przechowywanych zdjęć w petabajtach wynosi 6,4. Nie potrafię teraz dokładnie określić tempa wzrostu, bo w 2016 roku rozpoczęliśmy nagrywanie „peryskopów” i dopiero rozpoczęliśmy nagrywanie wideo.

    Nie potrafię dokładnie powiedzieć, kiedy było zero. Przechodziliśmy od firmy do firmy – to długie historie. Ale mogę powiedzieć, że VK, Facebook, Instagram i Twitter - cały ten biznes (ludzie, grupy i połączenia między nimi) z tekstem i treścią - to w rzeczywistości nie jest dużo danych, jest mało prawdopodobne, że nawet petabajt wystarczy. Myślę, że to 700 gigabajtów, prawdopodobnie 800.

Czy pomagasz klientom określić obecną niszę i gdzie kopać?

  • Kiedy przychodzi klient, sugerujemy mu takie rzeczy, ale my sami, podobnie jak Google Trends, takich rzeczy nie robimy.
  • Mieliśmy kilka historii o charakterze niemal socjologicznym, z historią wyborczą, przedwyborczą – wszystko analizowaliśmy. Z markami i ocenianiem opinii o markach prawie zawsze wszystko się zgadza. Oto historie wyborczo-wyborcze - nie (z oceną, który kandydat powinien wygrać). Nie wiem, kto tu się myli – my, czy ci, którzy myślą w VTsIOM.
  • Zwykle bierzemy te wyniki kontroli od samej marki, oni czerpią od towarzyszy, którzy zlecają badania - badania telefoniczne, badania marketingowe i tak dalej. Poza tym całą sprawę można sprawdzić za pomocą podstawowych rzeczy: ktoś odpowiedział na listę mailingową, ktoś przeprowadził ankietę... Jeśli jest to duża marka (np. Coca-Cola), na pewno ma milion lub dwie wewnętrzne recenzje od klientów – to nie tylko komentarze na portalach społecznościowych i niektóre opinie; Są to pewnego rodzaju systemy wewnętrzne, recenzje i tak dalej.

Prawo nie „wie” czym są dane osobowe!

  • Analizujemy wyłącznie otwarte źródła danych i nigdy nie dajemy się nabrać na żadne brudne sztuczki. Nasz model opiera się na fakcie, że wszystkie otwarte dane przechowujemy w niektórych publicznych centrach danych, wynajmujemy je gdzie indziej i analizujemy w domu, w naszych biurach, na naszych serwerach i nie trafiają one nigdzie poza terytorium.

    Jednak nasze ustawodawstwo w dziedzinie otwartych danych jest bardzo niejasne.

    Nie mamy jasnego zrozumienia, czym są otwarte dane, czym są dane osobowe – istnieje 152. ustawa federalna, ale mimo to… Jak się je liczy? Teraz, jeśli mam Twoje imię i nazwisko oraz numer telefonu w jednej bazie danych, w innej mam Twój numer telefonu i Twój e-mail, w trzeciej mam, powiedzmy, Twój e-mail i Twój samochód; Wszystko to wydaje się być danymi nieosobowymi. Jeśli to wszystko zsumować, wydaje się, że zgodnie z prawem staną się to danymi osobowymi.

    Można to obejść na dwa sposoby. Pierwsza polega na zainstalowaniu serwera z oprogramowaniem dla klienta, wtedy dane te nie wychodzą poza jego terytorium, a następnie klient jest odpowiedzialny za rozpowszechnianie tych danych osobowych, danych nieosobowych i tak dalej. Albo druga opcja: jeśli jest to jakaś historia, w której trzeba pozwać sieć społecznościową lub coś innego…

    Przeprowadziliśmy takie badanie, gdy zebraliśmy dla Lifenews (były prawybory Zjednoczonej Rosji) relacje tych towarzyszy i sprawdziliśmy, jaki rodzaj porno lubili. To była zabawna rzecz, ale jednak. Sprzedajemy to jako naszą własną, osobistą opinię, bez prawnego ujawniania w dokumentach tego, co analizowaliśmy - Jednolity Państwowy Rejestr Podmiotów Prawnych, wynagrodzenia, sieci społecznościowe; Sprzedajemy opinię eksperta, a potem na marginesie wyjaśniamy danej osobie, co i w jaki sposób analizowaliśmy.
    Historii było kilka, ale były one związane z niektórymi publicznymi projektami komercyjnymi. Na przykład mamy bezpłatny projekt non-profit dla osób jeżdżących na longboardach (takie deski są długie): zadaniem było zbieranie publikacji ludzi - gdy ktoś napisze „Pojechałem na przejażdżkę do Parku Gorkiego”. A teraz powinien trafić na mapę, a ludzie wokół niego będą mogli zobaczyć, że ktoś jest blisko niego. VK bardzo długo kłóciło się z nami w tej sprawie, ponieważ nie podobało im się, że publikujemy te informacje bez zgody ludzi. Ale wtedy sprawa nie trafiła do sądu, bo w ramach kilku dużych społeczności dodaliśmy do zasad, że dane mogą być wykorzystane przez osoby trzecie, agencje, firmy, analizy itp. Oczywiście nie było to szczególnie etyczne, ale jednak.

  • Po prostu zdaliśmy sobie z tego sprawę na czas i zaczęliśmy sprzedawać wszystkim naszą ekspercką opinię.

Czy współpracujesz z instytucjami edukacyjnymi?

  • Współpracujemy z instytucjami edukacyjnymi, tak. Mamy całą ofertę: mamy studia magisterskie w Szkole Wyższej, współpracujemy z innymi uczelniami. Bardzo kochamy uniwersytety!
  • Jeśli masz moje kontakty, możesz do mnie napisać. I link do prezentacji, jeśli ktoś jest zainteresowany - wszystkie te przykłady tam są, można przenieść.
  • Jeśli znasz numer telefonu, pocztę - jest to opcja prawie stuprocentowa, nikt jej nie usunie. Jeśli nie ma numeru telefonu, jest to zazwyczaj zdjęcie, jeśli nie ma zdjęcia, jest to rok, miejsce zamieszkania, praca. Czyli według roku, miejsca zamieszkania i pracy, prawie każdego zawsze można dość subtelnie zidentyfikować. Ale to znowu jest pytanie o zadanie.

    Mamy np. klienta sprzedającego telewizję internetową. Ktoś kupił od nich subskrypcję tych „Gry o tron”, a zadaniem jest za pomocą ich CRM znaleźć te osoby na portalach społecznościowych, a następnie znaleźć potencjalnych z ich obszaru wpływów. Chodzi mi o to, że mają, powiedzmy, imię, nazwisko i e-mail... I wtedy bardzo trudno jest cokolwiek zrobić. W większości przypadków osoby można znaleźć poprzez e-mail.

  • Na podstawie składu naszych znajomych zazwyczaj „dopasowujemy” osoby w sieciach społecznościowych, ale nie zawsze jest to prawidłowe. To nie tak, że nie zawsze jest to słuszne – to nie zawsze działa. Po pierwsze, wymaga to dużo pracy, ponieważ tę operację (dopasowywanie osób) trzeba będzie najpierw wykonać dla każdego ze znajomych - aby zrozumieć, czy pochodzą z sieci społecznościowych, czy nie. A potem - nieznany fakt dla nikogo, że na VKontakte mamy tych samych znajomych, na Facebooku mamy różnych przyjaciół. Nie dla wszystkich, ale dla mnie na przykład jest tak; i dotyczy to również większości ludzi.

W jaki sposób gromadzone są najbardziej kompletne dane?

  • Instalacja oprogramowania u klienta po jego stronie. Jest na nich zainstalowany serwer, który pobiera od nas wyłącznie dane publiczne, a wewnętrznie przetwarza ich dane osobowe. Z klientem zostaje zawarta umowa NDA. To oczywiście nie jest do końca poprawne, że nam to przekazują, ale odpowiedzialność prawna spoczywa na kliencie - cóż, czyli za zainstalowanie dla niego oprogramowania, czy przesłanie anonimowych danych. Było to jednak bardzo rzadkie, ponieważ – prawidłowa lub nieprawidłowa anonimizacja – w większości przypadków dochodzi do utraty zależności między tymi osobami.

Kto kupuje oprogramowanie do rozpoznawania twarzy?

  • Właściwie idziemy tutaj, ponieważ naszym głównym oprogramowaniem, które sprzedajemy, jest wyszukiwanie twarzy i analiza korelacji i sprzedajemy je agencjom rządowym. A półtora roku temu postanowiliśmy, że wszystkie te historie wprowadzimy w reklamę, marketing, na rynek publiczny - tak powstał Social Data Hub, komercyjna osoba prawna. A teraz po prostu tu przyjeżdżamy. Spędzamy tu już półtora roku, próbując ludziom wytłumaczyć, że nie ma potrzeby dawać ludziom plików do pobrania z wzmianką, że trzeba im dać odpowiedzi na pytania, że ​​nie ma potrzeby dawania tonalności , i tak dalej. Trudno więc powiedzieć, gdzie...
  • (Kogo masz na myśli?) Do wszystkich towarzyszy, którzy muszą szukać terrorystów i pedofilów.
    Od razu mogę powiedzieć (to będzie kolejne pytanie): z naszych danych wynika, że ​​żaden nauczyciel nie był karany za delegowanie.
  • Na VKontakte - 14%, na Facebooku nie ma zamkniętego profilu jako takiego (jest zamknięta lista znajomych i tak dalej). A najciekawsze jest to, że właśnie napisałem wiadomość - teraz policzą i powiedzą.

Nie publikuj czegoś, czego będziesz się wstydzić!

  • Nie publikuj na portalach społecznościowych niczego, co mogłoby Cię zawstydzić – osobiście tego przestrzegam. Chociaż miałem wiele osobistych, bo przysięgam na Facebooku. No cóż, było i było co robić... Nie publikuj niczego, co byłoby żenujące! Jeśli będziesz później pracować gdzieś w Izbie Społecznej, to tak, lepiej nie komentować. Jeśli tego nie zrobisz, w zasadzie nikogo to nie obchodzi. Mogę Cię tylko zapewnić, że nikt nie czyta Twojej prywatnej korespondencji, a to wszystko buduje całą tę historię...

    Co tydzień na pewno ktoś do mnie przychodzi i mówi: „No cóż, zdjęcia mojej przyjaciółki wyciekły na jakąś anonimową stronę publiczną! Pomoc! Przy okazji, nigdy nie publikuj niczego na anonimowych stronach publicznych.

  • Nie wiem jak inne systemy monitoringu – na pewno weźmiemy to pod uwagę, że wzmianka o marce była negatywna, niech Bóg mi wybaczy… Ale mogę powiedzieć, że wszelkiego rodzaju towarzysze bliskopaństwowi interesują się tylko ludźmi którzy mają ponad 5-tysięczną publiczność, a ich opinia publiczna może na kogoś wpłynąć. Z mojego doświadczenia wynika, że ​​nigdy nie zdarzyło się, aby agencja HR zlecająca nam ocenę profilu powiedziała: „Kto lubi Nawalnego, niech nikogo nie zatrudnia!”

O opublikowaniu wyników. Ile osób jest zatrudnionych w badaniach?

  • Spośród 10 największych firm reklamowych siedem prowadzi obecnie działalność publikującą. Trudno powiedzieć: kiedy zaczynaliśmy to półtora roku temu… W każdym obszarze mamy po kilka osób – kilka osób w bankach, kilka osób w HR, kilka osób w reklamie. A teraz zastanawiamy się, do kogo bardziej opłaca się udać w pierwszej kolejności, dla kogo musimy zacząć tworzyć pewne interfejsy...
  • (o liczbie osób w segmencie rynku) Nie więcej niż 25 osób, bo nikogo nie zgwałciliśmy.
  • Ogólnie rzecz biorąc, te technologie z rynku są wykorzystywane, jak sądzę, w ponad 50%. Niektórzy w kampaniach reklamowych, inni w ramach wewnętrznych analiz. Powiedziałbym, że 40 procent wykorzystuje je w analizach wewnętrznych, a 50–60% sprzedaje je markom końcowym. Ale to już zależy od samych firm reklamowych. Widzisz, niektórzy ludzie zgłaszają się po prostu ze względu na wydane pieniądze, reklamy, które włożyli, podczas gdy inni piszą, ile osób przyciągnęli, jaką publiczność... Powiedziałbym tak, ale mogę się mylić – tak naprawdę nie mam pojęcia wyobraźcie sobie, jak działają ci wszyscy towarzysze. Znam to tylko z danych ilościowych.

Kilka reklam 🙂

Dziękujemy za pobyt z nami. Podobają Ci się nasze artykuły? Chcesz zobaczyć więcej ciekawych treści? Wesprzyj nas składając zamówienie lub polecając znajomym, VPS w chmurze dla programistów od 4.99 USD, unikalny odpowiednik serwerów klasy podstawowej, który został przez nas wymyślony dla Ciebie: Cała prawda o VPS (KVM) E5-2697 v3 (6 rdzeni) 10GB DDR4 480GB SSD 1Gbps od 19$ czyli jak udostępnić serwer? (dostępne z RAID1 i RAID10, do 24 rdzeni i do 40 GB DDR4).

Dell R730xd 2 razy taniej w centrum danych Equinix Tier IV w Amsterdamie? Tylko tutaj 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4x960 GB SSD 1 Gb/s 100 Telewizor od 199 USD w Holandii! Dell R420 — 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2x960 GB SSD 1 Gb/s 100 TB — od 99 USD! Czytać o Jak zbudować firmę infrastrukturalną klasy z wykorzystaniem serwerów Dell R730xd E5-2650 v4 o wartości 9000 euro za grosz?

Źródło: www.habr.com

Dodaj komentarz