Arthur Khachuyan: „Echte Big Data in der Werbung“

Am 14. März 2017 sprach Arthur Khachuyan, CEO von Social Data Hub, beim BBDO-Vortrag. Arthur sprach über intelligente Überwachung, den Aufbau von Verhaltensmodellen, das Erkennen von Foto- und Videoinhalten sowie über andere Social Data Hub-Tools und Forschung, die es Ihnen ermöglichen, Zielgruppen mithilfe sozialer Netzwerke und Big-Data-Technologien anzusprechen.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Artur Khachuyan (im Folgenden: AH): - Guten Tag! Hallo zusammen! Mein Name ist Arthur Khachuyan, ich leite das Unternehmen Social Data Hub, und wir beschäftigen uns mit verschiedenen interessanten intellektuellen Analysen offener Datenquellen, Informationsfeldern und führen alle möglichen interessanten Recherchen usw. durch.

Und heute haben uns Kollegen von der BBDO Group gebeten, über moderne Technologien zur Analyse von Big Data, Big Data und weniger Big Data für die Werbung zu sprechen: Wie sie verwendet werden, zeigen einige interessante Beispiele. Ich hoffe, dass Sie nebenbei Fragen stellen, denn ich kann langweilig werden und das Wesentliche nicht preisgeben und so weiter, also seien Sie nicht schüchtern.

Tatsächlich sind die Hauptrichtungen, in denen jemals „Near-Big-Data“-Lösungen eingesetzt wurden, allen klar: Zielgruppen-Targeting, Analyse, Durchführung einer Art analytischer Marketingforschung. Aber es ist immer interessant, welche zusätzlichen Daten sich finden lassen, welche zusätzlichen Bedeutungen sich nach Anwendung der Analyse ergeben.

Warum brauchen wir Technologie für die Werbung?

Wo fangen wir an? Am offensichtlichsten ist die Werbung in sozialen Netzwerken. Heute Morgen habe ich es abgenommen: Aus irgendeinem Grund meint VKontakte, ich sollte diese spezielle Werbung sehen ... Ob sie gut oder schlecht ist, ist die zweite Frage. Wir sehen, dass ich definitiv in die Kategorie der Wehrpflichtigen falle:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Das Allererste und Interessanteste, was man als technologische Lösung betrachten kann... Bevor wir beginnen, wollte ich zunächst die Begriffe definieren: Was sind Open Data und was ist Big Data? Denn jeder Mensch hat in dieser Angelegenheit sein eigenes Verständnis und ich möchte niemandem meine Bedingungen aufzwingen, aber... Nur damit es keine Unstimmigkeiten gibt.

Persönlich denke ich, dass offene Daten alles sind, was ich ohne Login oder Passwort erreichen kann. Das ist ein offenes Profil in sozialen Netzwerken, das sind Suchergebnisse, das sind offene Register usw. Big Data sehe ich nach meinem Verständnis so: Wenn es ein Datenschild ist, sind es eine Milliarde Zeilen, wenn es irgendetwas ist Bei der Dateispeicherung handelt es sich um ein Petabyte an Daten. Der Rest ist in meiner Terminologie nicht Big Data, sondern so etwas in der Art.

Hochpräzise Profilierung und Profilbewertung

Gehen wir der Reihe nach vor. Das allererste und interessanteste Ergebnis, das sich aus der Analyse offener Datenquellen ergeben kann, ist die hochpräzise Profilerstellung und Profilbewertung. Was ist das? Dies ist eine Geschichte, in der Ihr soziales Netzwerkkonto nicht nur vorhersagen kann, wer Sie sind, sondern auch Ihre Interessen.

Aber jetzt können Sie durch die Kombination verschiedener Quellen nachvollziehen, wie hoch Ihr durchschnittliches Gehalt ist, wie viel Ihre Wohnung kostet und wo sie liegt. Und all diese Daten können im wahrsten Sinne des Wortes mit den verfügbaren Mitteln genutzt werden. Wenn Sie beispielsweise Ihr Konto in einem sozialen Netzwerk eröffnen, schauen Sie beispielsweise, wo Sie leben, wo Sie arbeiten; Verstehen Sie, in welchem ​​Geschäftsbereich das Unternehmen, für das Sie arbeiten, tätig ist; Laden Sie ähnliche Stellenangebote von HH und „Superjob“ herunter, wenn Sie Analyst, Manager usw. sind; Schauen Sie sich an, wo Sie wohnen (Stützpunkt, sagen wir CIAN), verstehen Sie, wie viel es kostet, an diesem Ort ein Haus zu mieten, wie viel es kostet, an diesem Ort ein Haus zu kaufen, und sagen Sie ungefähr voraus, wie viel Sie verdienen. Darüber hinaus können Sie mithilfe Ihrer sozialen Netzwerke nachvollziehen, wie viel Sie reisen, wo Sie sich befinden und wie loyal Sie Ihrem Arbeitgeber gegenüber sind.

Dementsprechend können wir aus einer so großen Anzahl von Kennzahlen alles machen, was wir wollen. Wir können Ihnen ein Produkt vorstellen, das Sie interessiert. Können Sie sich einen Online-Shop vorstellen? Du gehst dorthin – dieser Online-Shop erfasst dein Konto in einem sozialen Netzwerk und sagt dir: „Mascha, du hast gerade mit deinem Freund Schluss gemacht, hier sind einige bestimmte Produkte für dich.“ Das ist nicht die nahe Zukunft...

Wie wird die Geolokalisierung einer Person bestimmt?

Antworten auf Fragen aus dem Publikum:

  • Typischerweise wird bei 80 % aller Check-ins der genaue Wohnort berücksichtigt. Aber für Leute, die nirgendwo einchecken, gibt es mehrere Möglichkeiten: entweder Einchecken oder Geolokalisierung, oder das ist eine Analyse von Beiträgen und Veröffentlichungen für den gesamten Zeitraum, in dem eine Person etwas geschrieben hat... Und irgendwo, Es wird etwas auftauchen wie „Ich möchte einen Kinderwagen in der Nähe von Akademicheskaya kaufen“ oder „Ich habe hier kürzlich hässliche Graffiti an der Wand gesehen.“ Das heißt, für fast 80 % der Menschen können ihre Geolokalisierung, ihr Arbeitsort und ihr Wohnort mithilfe von Daten oder Metadaten bestimmt werden, die aus sozialen Netzwerken gesammelt werden können.

    Dies ist wiederum eine Analyse von Beiträgen. Im einfachsten Sinne handelt es sich hierbei um eine Analyse von Check-ins und Geolocations in sozialen Netzwerken, die keine JPEG-Metadaten löschen (daraus kann man etwas herausfinden). Für den Rest handelt es sich jedoch in der Regel um Textsendungen: Entweder „strahlt“ eine Person ihren Standort an, wenn sie über etwas schreibt, oder sie „strahlt“ ihr Telefon, über das Sie einen Teil ihrer Werbung auf Avito oder ihr Konto auf „ Auto RU". Basierend auf diesen Daten können Sie kombinieren (z. B. „Ich verkaufe ein Auto in der Nähe von Mayakovskaya“) und grob davon ausgehen.

  • Die Leute posten dies normalerweise in den sozialen Medien. Wir arbeiten ausschließlich mit Open Source und sprechen hier ausschließlich von Open Source. Sie veröffentlichen in der Regel Werbung, das heißt, in XNUMX Prozent der Fälle ist die häufigste Geschichte, in der Menschen ihre aktuelle Handynummer „zeigen“, Werbung für den Verkauf von etwas. Entweder schreibt jemand in einigen Gruppen („Ich verkaufe dies oder das dort“) oder er geht irgendwohin.

    Ja! Normalerweise kommentieren sie so: „Antworten Sie mir oder schicken Sie mir eine SMS, rufen Sie meine Nummer an.“ Das passiert sehr oft Leuten, die etwas verkaufen, etwas in sozialen Netzwerken kaufen, mit jemandem kommunizieren ... Dementsprechend können Sie mit dieser Nummer dann sein Profil auf CIAN damit verknüpfen, falls er jemals etwas veröffentlicht hat, oder, noch einmal, auf Avito. Das sind einfach die beliebtesten Top-Quellen, darauf wird weiter unten noch eingegangen – das sind Avito, CIAN und so weiter.

  • Gemeint ist ein Online-Shop. Als nächstes wird es um die Technologie der Gesichtserkennung und des Profilabgleichs gehen (wir werden darüber sprechen). Rein theoretisch lässt sich dies auf einen Offline-Shop übertragen. Und im Allgemeinen ist es mein großer Traum, dass, wenn Straßenbanner auftauchen und man an einer Kamera vorbeigeht, das Gesicht „eingefangen“ wird. Dieser Fall wird jedoch gesetzlich verboten sein, da es sich um eine Verletzung der Privatsphäre handelt. Ich hoffe, dass es früher oder später passieren wird.
  • Aus persönlicher Erfahrung. Wenn Ihnen jemand etwas schreibt, gehen Sie sehr oft von Fakten aus seinem Leben aus, die Sie scheinbar nicht kennen sollten ... In den meisten Fällen bekommen die Menschen Angst. Aber! Aktuellen Statistiken zufolge ist die Zahl der geschlossenen Konten in sozialen Netzwerken um 14 % zurückgegangen. Die Zahl der Fälschungen nimmt zu, die Zahl der offenen Konten nimmt zu – die Menschen bewegen sich immer mehr in Richtung Offenheit. Ich denke, dass sie in drei bis vier Jahren nicht mehr so ​​stark auf die Tatsache reagieren werden, dass jemand Informationen über sie weiß, die sie möglicherweise nicht wissen sollten. Aber es ist tatsächlich sehr einfach, es zu erkennen, wenn man sich seine Wand ansieht.

Was kann aus offenen Quellen entnommen werden?

Es gibt eine ungefähre Liste von Dingen, die aus offenen Quellen mit ziemlich hoher Zuverlässigkeit verstanden werden können. Tatsächlich gibt es sogar noch mehr unterschiedliche Metriken; es hängt vom Kunden einer solchen Forschung ab. Es gibt eine Personalagentur, die sich dafür interessiert, ob man in sozialen Netzwerken oder irgendwo im öffentlichen Raum flucht. Jemand interessiert sich dafür, ob Ihnen die Veröffentlichungen von Nawalny oder umgekehrt die Veröffentlichungen von „Einiges Russland“ oder irgendwelche pornografischen Inhalte gefallen – so etwas passiert ziemlich oft.

Die wichtigsten sind Familienwerte, die ungefähren Kosten einer Wohnung, eines Hauses, der Suche nach einem Auto usw. Auf dieser Grundlage lassen sich Menschen in soziale Gruppen einteilen. Dies sind Moskauer Tinder-Benutzer, wer sie sind (gemäß ihren Bildern, die sie auf ihren Facebook-Konten gefunden haben); Aufgrund ihrer Interessen werden sie in verschiedene soziale Gruppen eingeteilt:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Wenn wir uns der Werbung nähern, dann haben wir uns langsam von der Standard-Werbeausrichtung entfernt, bei der Sie auf VKontakte auswählen, dass Sie an 18-jährigen Männern interessiert sind, die bestimmte Gruppen abonniert haben. Als nächstes habe ich dieses Bild, ich zeige es euch jetzt:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Die Quintessenz ist, dass die meisten aktuellen Dienste, die im Prinzip Menschen analysieren, die soziale Netzwerke analysieren, sich mit der Analyse von Interessen befassen... Das erste, was den Menschen in den Sinn kommt, ist die Analyse der Top-Gruppen ihrer Abonnenten. Vielleicht funktioniert das für einige, aber ich persönlich halte es für grundlegend falsch. Warum?

Ihre Likes werden gesammelt und analysiert

Nehmen Sie jetzt Ihre Telefone und schauen Sie sich Ihre Top-Gruppen an – es wird definitiv mehr als 50 % der Gruppen geben, die Sie bereits vergessen haben. Dabei handelt es sich um Inhalte, die für Sie eigentlich irrelevant sind. Sie konsumieren es überhaupt nicht, aber das System verfolgt Sie trotzdem entsprechend: dass Sie Rezepte und einige beliebte Gruppen abonniert haben. Das heißt, Sie verstoßen gegen das System, das Ihr Profil analysiert, und Ihre Interessen werden nicht gerechtfertigt.

Weiter geht's... Was ist da? Wir gehen davon aus, was andere Leute tun. Der geeignetste Weg, die Interessen der Nutzer einzuschätzen, sind unserer Meinung nach Likes. Auf VKontakte gibt es beispielsweise keinen Likes-Feed und die Leute denken, dass niemand weiß, was ihnen gefällt. Ja, einige der Likes werden auf Instagram eingeführt, wir sehen etwas auf Facebook, aber die meisten Inhalte in bestimmten Gruppen verbreiten dies nicht in einem gemeinsamen Feed, und die Leute leben und denken, dass niemand wissen wird, was ihnen gefällt.

Und indem wir bestimmte Inhalte sammeln, die uns interessieren, diese Beiträge sammeln, diese Likes sammeln und dann diese Person mithilfe dieser Datenbank überprüfen, können wir mit hoher Genauigkeit feststellen, wer sie ist, was ihr Schicksal ist und woran sie interessiert ist. Ordnen Sie ihn genau einer bestimmten sozialen Gruppe zu und interagieren Sie mit ihm.

Der Kauf eines Autos verändert das Verhalten

Ich habe so ein Beispiel. Ich mache sofort einen Vorbehalt, dass es sich bei meinen Beispielen um Near-Werbung und Near-Marketing handelt, denn, wie Sie wissen, sind die meisten Fälle durch Geheimhaltungsvereinbarungen usw. geschützt. Aber es wird noch viel Interessantes geben. Also, die Geschichte mit diesen Leuten: Das sind Männer, die zwischen 2010 und 2015 ein Auto gekauft haben. Wie sich ihr Online-Sozialverhalten verändert hat, wird durch die Farbe angezeigt. Der Anteil der Mädchen unter den Abonnenten hat sich verändert, ich habe „jungenhafte“ öffentliche Seiten abonniert, einen festen Sexualpartner gefunden ...

Arthur Khachuyan: „Echte Big Data in der Werbung“

Das Ganze ist nach Automarke und Anzahl der Personen aufgeschlüsselt. Daraus lassen sich viele interessante Schlussfolgerungen über das Verhalten der Menschen und deren Funktionsweise ziehen. Ich kann sagen, dass der Porsche Cayenne und der gepflanzte Priora hinsichtlich der Anzahl der angezogenen Zuschauer nahezu identisch sind. Die Qualität dieses Publikums und sein Verhalten sind unterschiedlich, die Quantität ist jedoch ungefähr gleich. Die Schlussfolgerung, die Sie daraus ziehen können, ist, was auch immer Sie wollen, näher an Ihrem Markt. Wenn Sie einen Audi verkaufen, machen Sie den Slogan „Kauf einen Audi und geh weg von deinen Eltern!“ usw.

Ja, das ist ein lustiges Beispiel dafür, dass das Verhalten von Menschen anhand der Analyse von Likes, anhand der Gruppe, zu der sie wechseln, welche Inhalte sie analysieren – mit fast 100-prozentiger Wahrscheinlichkeit deutlich macht, wer man ist. Denn wenn Sie keinen Zugriff auf den Netzwerkverkehr haben und keine persönlichen Nachrichten lesen, erfahren Sie durch Likes immer, wer diese Person ist – eine schwangere Frau, eine Mutter, ein Militär, ein Polizist. Und für Sie als Werbetreibenden ist das ein Volltreffer.

Antworten auf Fragen aus dem Publikum:

  • Jede Spalte gibt die Anzahl der Personen in diesem Auto an; wie sich ihre Verhaltensmuster verändert haben. Schauen Sie: Menschen, die einen Porsche Cayenne gekauft haben – etwa 550 Menschen (gelb), der Anteil der Mädchen unter den Abonnenten ist gestiegen.
  • Die Stichprobe besteht aus Nutzern der sozialen Netzwerke „Vkontakte“, „Facebook“ und „Instagram“ von 2010 bis 2015. Einzige Klarstellung: Die hier ausgewählten Autos sind solche, die mit bestimmten Werkzeugen auf Fotos mit mehr als 80 % Genauigkeit identifiziert werden können.
  • Über einen gewissen Zeitraum hinweg wurde sein Auto (naja, also nicht seins, das überlassen wir den sozialen Netzwerken)... Über einen gewissen Zeitraum wurde ständig eine Person mit dem Auto fotografiert, war dabei, die Veröffentlichungen waren unterschiedlich, die Fotos wurden aus verschiedenen Blickwinkeln aufgenommen und so weiter. Es wird dann ein Bild davon geben, welche Personen mit welchen Autos fotografieren und... Ja, das ist die zweite Frage – Vertrauen in die Daten sozialer Netzwerke.
  • Da wir es angesprochen haben, sind die Social-Media-Daten leider nicht immer korrekt. Menschen sind nicht immer geneigt, ihre Informationen zu veröffentlichen. Persönlich habe ich eine solche Studie durchgeführt: Ich habe die Zahl der Absolventen der Moskauer Universitäten mit der Zahl der in sozialen Netzwerken registrierten Personen verglichen. Im Durchschnitt sind in sozialen Netzwerken 60 % mehr Menschen – Absolventen der Moskauer Staatsuniversität in einem bestimmten Jahr in bestimmten Fachgebieten – registriert, als es im Prinzip tatsächlich gibt. Also ja – hier gibt es natürlich einen Prozentsatz an Fehlern, und niemand verheimlicht ihn. Dabei legen wir einfach die Autos zugrunde, die mit einer Wahrscheinlichkeit von über 80 % identifiziert werden können.

Liste der Quellen für das Modelltraining

Hier ist eine beispielhafte Liste verwendbarer Quellen, die dazu dient, mit großer Sicherheit das soziale Profil einer Person zu bestimmen, wer sie ist.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Wir nehmen ein Profil aus sozialen Netzwerken, von CIAN – die Kosten für eine Wohnung betragen ungefähr, „Head-Hunter“, „Superjob“ – das ist das durchschnittliche Gehalt einer bestimmten Person. Ich hoffe, dass hier keine Head Hunter-Vertreter sind, denn sie finden es nicht sehr gut, ihnen diese Daten wegzunehmen. Hierbei handelt es sich jedoch um das durchschnittliche Gehalt in bestimmten Regionen für bestimmte Tätigkeitsarten bei offenen Stellen.

„Avito“, „Avto.ru“: Sehr oft haben Menschen, wenn ihr Telefon leuchtet, definitiv (in vielen Fällen) zumindest etwas auf „Avito“ oder auf „Avto.ru“ oder Auf einer anderen Seite gibt es mehrere Websites, auf denen Sie verstehen können, wer sie sind. Если по этому телефону продавали коляску или автомобиль… Росстат и ЕГРЮЛ – это всё-таки больше реестры, с помощью которых можно ранжировать компанию-работодателя – по какой-то формуле, по модели, которую может задать любой человек (можно примерно определить деньги этого человека usw.).

Tinder hilft dabei, Daten über die Situation der Menschen zu sammeln

Außerdem gibt es noch eine so interessante Sache (alternativ ist es in der Studie sehr lustig) – dies ist wiederum die Sammlung von Daten von Moskau Tinder mithilfe von Bots für diesen Tinder. Es wurde die Entfernung zu den Personen bestimmt und anschließend deren ungefähre Position ermittelt.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Ziel dieser Studie war es, die Anzahl der Tinder-Konten auf dem Territorium staatlicher Institutionen – in der Duma, der Staatsanwaltschaft usw. – zu ermitteln. Aber Sie als Werbetreibender können sich vorstellen, was Sie wollen: Es könnte zum Beispiel Starbucks oder jemand anderes sein... Das heißt, die Anzahl der Leute auf Tinder, die bei Ihnen Kaffee trinken, etwas bestellen, in Geschäften sind Bezüglich dieser Geolokalisierung: Dies kann mit jedem Dienst erfolgen.

Antwort auf eine Frage aus dem Publikum:

  • Tinder? Sie wissen nicht? Tinder ist eine Dating-App, bei der Sie Fotos durchsehen (von links nach rechts) und diese App Ihnen die Entfernung zur Person anzeigt. Wenn Sie die Entfernung zu dieser Person von drei verschiedenen Punkten aus ermitteln, können Sie den Standort ungefähr (+ 5-7 Meter) bestimmen. In diesem Fall ist die Feststellung auf dem Territorium der Staatsanwaltschaft oder der Staatsduma nicht so schwierig. Aber auch hier könnte es Ihr Geschäft sein, es könnte alles Mögliche sein.

Zum Beispiel hatten wir vor langer, langer Zeit einen solchen Fall (keine Studie), als wir von einem der Mobilfunkbetreiber Daten zur Verkehrsdichte und Daten zur Bewegungsdichte von Mobilfunkpunkten erhielten und all diese Informationen überlagert wurden auf den Koordinaten von Werbetafeln an Autobahnen. Und die Aufgabe des Mobilfunkbetreibers besteht darin, ungefähr zu ermitteln, wie viele Menschen vorbeikommen und möglicherweise diese Plakatwerbung sehen könnten.

Wenn es hier Spezialisten für Plakatwerbung gibt, kann man sagen: Das ist mit absoluter Zuverlässigkeit nicht zu verstehen - jemand kommt, jemand hat nicht geschaut, jemand hat geschaut... Dennoch ist dies ein Beispiel dafür, wie es 20 Milliarden Polygone gibt Diese in Moskau, auf denen die Dichte dieser Menschen zu jeder Stunde auf bestimmten Strecken angegeben ist... Sie können jederzeit sehen, an was diese Menschen vorbeikamen, und den Passagierstrom grob abschätzen.

Antwort auf eine Frage aus dem Publikum:

  • Niemand gibt solche Daten. Wir haben eine solche Studie für einen der Betreiber durchgeführt; es handelt sich hierbei um eine ausschließlich interne Geschichte, die daher leider nicht in Form von Bildern präsentiert wird. Doch oft haben große Werbeagenturen keine Probleme, einen Betreiber zu kontaktieren. Zumindest in Moskau gibt es viele Präzedenzfälle, wenn sich beispielsweise Versicherungsunternehmen an Unternehmen wie GetTaxi wenden, die unpersönliche Daten über das Alter des Fahrers und sein Fahrverhalten (gut – schlecht, rücksichtslos – nein) bereitstellen, um Vorhersagen zu treffen Richtlinien und so weiter. Jeder hat damit zu kämpfen, aber auf einer internen Ebene hat die Angabe anonymer Daten meiner Meinung nach niemand ein solches Problem.

Bild- und Mustererkennung

Fortfahren. Mein Favorit ist die Bilderkennung. Es wird einen kleinen Teil über die Suche nach Personen anhand von Gesichtern geben, aber diesen Teil übernehmen wir größtenteils nicht. Wir kümmern uns speziell um die Bilderkennung und bestimmen, was sich in diesem Bild befindet – die Marke des Autos, seine Farbe und so weiter.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Ich habe dieses lustige Beispiel:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Es gab eine solche Studie zur Suche nach Tattoos in verschiedenen sozialen Netzwerken. Dementsprechend kann das Gleiche auf jede Marke, auf jedes visuelle Bild, auf fast jedes visuelle Bild angewendet werden. Es gibt solche, die nicht zuverlässig bestimmt werden können (wir nehmen sie nicht).

Arthur Khachuyan: „Echte Big Data in der Werbung“

Hier ist mein Favorit. Automarken wenden sich häufig dieser Aufgabe zu, da ihre Aufgabe beispielsweise darin besteht, alle Besitzer eines BMW X6 zu finden, zu verstehen, wer sie sind, wie sie miteinander verbunden sind, woran sie interessiert sind und so weiter. Dabei geht es um die Frage, mit welchen Autos Menschen in sozialen Netzwerken fotografieren.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Hier gab es überhaupt keine Filterung: Das Objekt gehörte ihnen, das Auto gehörte nicht ihnen; Es ist nur die Panne der Autos – Alter und so weiter. Die visuelle Bilderkennung wird jedoch häufig verwendet: Dies ist die Suche nach schwangeren Frauen und die Suche nach Markenlogos in einer Art Massenmedium (wer postet was).

Arthur Khachuyan: „Echte Big Data in der Werbung“

Mein Lieblingsfall (der von verschiedenen Restaurants verwendet wird): Welche Brötchen werden in einem sozialen Netzwerk gepostet? Es ist eine lustige Sache, aber tatsächlich ermöglicht es Ihnen, viele interessante Dinge zu verstehen, erstens über Ihre eigenen Kunden: Wer ist zu Ihnen gekommen und warum haben sie es getan? Denn es ist kein Geheimnis, dass in Sushi-Bars die meisten Leute (ich sage nicht „Mädchen“) Fotos machen, um einzuchecken, ein Foto von etwas zu machen usw.

Davon kann die Marke profitieren. Die Marke interessiert sich dafür, welche Art von Produkten sie braucht, um schön zu fotografieren und zu posten, welche Art von Menschen dorthin gekommen sind. Dieses Ding kann mit fast allem gemacht werden, vom Essen.

Videomustererkennung

Antwort auf eine Frage aus dem Publikum:

  • Nicht auf Video. Wir haben es im Testmodus. Wir haben diese Technologie ausprobiert, aber es stellte sich heraus, dass ... Sie alles mit Video ganz gut erkennt, aber wir haben nirgendwo eine Anwendung dafür gefunden. Tschüss. Abgesehen von der Analyse, wie viel und welche Videoblogger irgendwo reden ... Es gab eine solche Studie. Wie viele ihrer Gesichter treffen sich, wie oft. Aber die Marken haben noch nicht herausgefunden, wo sie das hinbekommen sollen. Vielleicht kommt es eines Tages.

Auch hier handelt es sich um Lebensmittel, es können schwangere Frauen, Männer (nicht schwanger), Autos – alles sein.

Als Option gab es eine Neujahrsstudie für ein Medienunternehmen. Auch fernab von Werbung, aber dennoch. Dies ist, was die Menschen für das neue Jahr fasteten:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Hier erfolgt auch eine Aufschlüsselung nach Alter. Sie können einen solchen Zusammenhang erkennen, dass junge Leute meistens Essen bestellen, Erwachsene meistens einen traditionellen Tisch decken. Es ist eine lustige Sache, aber wenn man es sich als Markeninhaber vorstellt, kann man viele Dinge beurteilen: Wer geht mit Ihrem Produkt um und wie, was wird darüber geschrieben? Oft wird die Marke selbst im Text nicht immer erwähnt, und herkömmliche analytische Überwachungssysteme können diese Erwähnung der Marke nicht immer verstehen und finden, nur weil sie im Text nicht erwähnt wird. Oder der Text ist falsch geschrieben, es gibt keine Hash-Tags oder ähnliches.

Die Fotos sind sichtbar. Beim Fotografieren können Sie erkennen, ob es sich um das mittlere Motiv des Rahmens handelt oder nicht. Dann können Sie sehen, was diese Person geschrieben hat. Am häufigsten wird es jedoch zur Suche nach potenziellen Zielgruppen verwendet, die bestimmte Autos usw. gefahren sind. Und dann werden wir mit diesen Autos viele interessante Dinge machen.

Bots wird beigebracht, Menschen zu imitieren

Es gab auch eine solche Möglichkeit, die Personenzählung zu nutzen:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Es gibt eine Option zum Vergleichen von Personen, wenn Sie anhand einiger Fotos Personen finden möchten, um deren soziales Profil zu verstehen und herauszufinden, wer sie sind. Wir kommen noch einmal auf die Frage zurück: Wenn wir eine Kamera in einem Offline-Shop haben, dann ist dies eine ziemlich gute Möglichkeit zu verstehen, wer zu Ihnen kommt, wer diese Leute sind, wofür sie interessiert sind und was sie dazu bewogen hat, zu Ihnen zu kommen .

Als nächstes kommt das Interessanteste: Wenn wir ihre Konten in sozialen Netzwerken sammeln, verstehen, wer diese Leute sind und woran sie interessiert sind, können wir (optional) einen Bot erstellen, der diesen Leuten ähnlich ist; Dieser Bot beginnt, wie diese Menschen zu leben und analysiert, welche Werbung er in verschiedenen sozialen Netzwerken sieht. Dadurch können Sie genau verstehen, welche Marken auf diese Person ausgerichtet sind. Dies kommt auch recht häufig vor, wenn Sie nicht nur analysieren müssen, wer diese Person ist und welche Interessen sie hat, sondern auch, auf welche Art von Werbung Ihre potenziellen Konkurrenten oder andere Interessenten abzielen sollten.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Analyse von Verbindungen in sozialen Netzwerken

Arthur Khachuyan: „Echte Big Data in der Werbung“

Das nächste interessante Thema ist die Analyse der Beziehungen zwischen Menschen. Eigentlich ist die Analyse von Verbindungen im Netzwerk, diese Netzwerkdiagramme, nichts Neues daran, das weiß jeder.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Am interessantesten ist jedoch die Anwendung auf Werbeaufgaben. Das ist eine Suche nach Menschen, die Trends setzen, das ist eine Suche nach Menschen, die innerhalb dieses Netzwerks Informationen nach bestimmten Kriterien verbreiten. Nehmen wir an, wir interessieren uns für die gleichen Besitzer eines bestimmten BMW-Modells. Indem wir sie alle zusammenbringen, können wir diejenigen finden, die die öffentliche Meinung kontrollieren. Das sind nicht unbedingt Automobil-Blogger und so weiter. In der Regel handelt es sich dabei um einfache Kameraden, die auf verschiedenen öffentlichen Seiten sitzen, sich für bestimmte Inhalte interessieren und Ihre Marke oder jemanden, der Sie interessiert, in kürzester Zeit in diesen Verantwortungsbereich, in den Bereich ​, locken können Interesse.

Ein solches Beispiel gibt es hier. Wir haben einige potenzielle Leute, Verbindungen zwischen Menschen. Hier sind die orangefarbenen Menschen Menschen, die kleinen Punkte sind gemeinsame Gruppen, gemeinsame Freunde.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Wenn Sie all diese Verbindungen zwischen ihnen sammeln, können Sie sehr deutlich erkennen, dass es Menschen gibt, die viele gemeinsame Gruppen haben, gemeinsame Freunde, sie sind untereinander … Und wenn dieselbe Visualisierung nach Interessen in Gruppen unterteilt wird, nach Inhalten, die sie verbreiten, wie viel sie miteinander interagieren... Hier können Sie sehen, dass das vorherige Bild so geworden ist:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Hier werden die Gruppen farblich deutlich unterschieden. In diesem Fall handelt es sich um unsere Masterstudierenden der Higher School of Economics. Hier können Sie sehen, dass die Lila/Blauen diejenigen sind, die Transparency International, Open Russia und Chodorkowskis öffentliche Seiten lieben. Unten links sind die Grünen, diejenigen, die „Einiges Russland“ lieben.

Sie können sehen, dass das vorherige Bild so war (das sind nur Verbindungen zwischen Menschen), aber klar abgegrenzt ist. Das heißt, alle Menschen sind immer miteinander verbunden, sie haben die gleichen Interessen, sie sind miteinander befreundet. Es gibt einige oben, andere unten und einige andere Kameraden dort. Und wenn man jeden dieser kleinen Untergraphen separat mit anderen Parametern visualisiert und die Geschwindigkeit der Inhaltsverbreitung betrachtet (grob gesagt, wer was dort repostet), findet man in jedem Teil ein oder zwei Personen, die die öffentliche Meinung immer in ihren Händen halten, Wenn Sie mit dem interagieren, fragen Sie nach einem Beitrag oder etwas anderem, können Sie von diesem gesamten interessanten Publikum eine Antwort erhalten.

Ich habe noch ein solches Beispiel. Außerdem eine Grafik: Dies sind beispielhaft Mitarbeiter der BBDO-Gruppe, die in sozialen Netzwerken zu finden sind. Es sieht uninteressant aus, groß, grün, Verbindungen zwischen ihnen ...

Arthur Khachuyan: „Echte Big Data in der Werbung“

Aber ich habe eine Option, bei der bereits Gruppen zwischen ihnen gebildet sind. Dann gibt es für alle Interessierten eine interaktive Version – zum Anklicken und Anschauen.

Oben rechts sind diejenigen, die Putin lieben. Hier sind die Lilafarbenen die Designer; diejenigen, die sich für Design, etwas Interessantes usw. interessieren. Hier sind die weißen Dinger das Managementteam (anscheinend, soweit ich weiß); Dabei handelt es sich um Menschen, die im Allgemeinen in keiner Weise miteinander verbunden sind, aber in etwa den gleichen Positionen arbeiten. Der Rest sind ihre gemeinsamen Gruppen, Verbindungen usw.

Marken brauchen keine Blogger, sondern Meinungsführer

Wir nehmen diese Leute und finden sie – dann entscheidet die Werbeagentur, das Werbeunternehmen selbst: Sie kann dieser Person Geld geben, damit sie irgendwie mit diesem Inhalt oder etwas anderem interagiert, oder ihre eigene spezifische Werbekampagne an sie richten. Dies wird auch recht häufig verwendet, insbesondere jetzt, da alle Marken mit Bloggern zusammenarbeiten und deren Inhalte beworben werden möchten, Werbeagenturen jedoch nicht wirklich Kontakt aufnehmen möchten (naja, das kommt vor).

Und der wirkliche Ausweg aus dieser Situation besteht darin, Leute zu finden, die keine Blogger sind, keine Beauty-Blogger, sondern zum Beispiel echte Wesen, die mit dieser Marke interagieren und die auf irgendeiner erbärmlichen öffentlichen Seite „Mail.ru Answers“ schreiben können eine bestimmte Anzahl von Ansichten. Diese Leute, die ständig an den Inhalten dieser Person interessiert sind, werden das Ganze verbreiten und die Marke wird involviert.

Die zweite Option für den Einsatz dieser Technologie ist jetzt durchaus relevant – die Suche nach Bots, mein Favorit. Dies stellt ein Reputationsrisiko für Ihre Konkurrenten dar und bietet die Möglichkeit, irrelevante Personen aus einer Werbekampagne und allem anderen auszuschließen (Kommentare löschen und nach Verbindungen zwischen Personen suchen). Ich habe so ein Beispiel, es ist auch groß und interaktiv – man kann es verschieben. Dabei handelt es sich um Verbindungen von Personen, die in der Lentach-Community Kommentare verfasst haben.

Dieses Beispiel soll Ihnen zeigen, wie gut und leicht Bots sichtbar sind. und hierfür benötigen Sie keine technischen Kenntnisse. Das bedeutet, dass „Lentach“ einen Beitrag über die FBK-Ermittlungen gegen Dmitri Medwedew veröffentlichte und einige Leute begannen, Kommentare zu schreiben. Wir haben alle Leute gesammelt, die Kommentare geschrieben haben – diese Leute sind grün. Jetzt verschiebe ich es:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Die Leute sind die Grünen (die die Kommentare geschrieben haben). Sie sind hier, sie sind hier. Die blauen Punkte dazwischen sind ihre gemeinsamen Gruppen, die gelben Punkte sind ihre gemeinsamen Abonnenten, Freunde usw. Der Großteil der Menschen ist miteinander verbunden. Denn egal, wie die Theorie des drei-, vier- oder fünfhändigen Händedrucks lautet: In den sozialen Netzwerken sind alle Menschen miteinander verbunden. Es gibt keine Menschen, die voneinander getrennt sind. Sogar meine sozialphobischen Freunde, die VKontakte ausschließlich zum Ansehen von Videos nutzen, haben immer noch einige der gleichen öffentlichen Seiten wie wir abonniert.

Auch Nawalny nutzt Bots. Jeder hat Bots

Der Großteil der Menschen (hier ist es, hier) ist miteinander verbunden. Aber es gibt so eine kleine Gruppe von Kameraden, die ausschließlich miteinander befreundet sind. Hier sind sie, die kleinen Grünen, hier sind ihre gemeinsamen Freunde und Gruppen. Hier sind sie sogar einzeln abgefallen:

Arthur Khachuyan: „Echte Big Data in der Werbung“

Und durch einen glücklichen Zufall schrieben genau diese Leute unter diesem Beitrag: „Nawalny hat keine Beweise“ und so weiter, die gleichen Kommentare. Natürlich traue ich mich nicht, Schlussfolgerungen zu ziehen. Aber trotzdem hatte ich einen anderen Beitrag auf Facebook, als es eine Debatte zwischen Lebedew und Nawalny gab, und ich analysierte die Kommentare auf die gleiche Weise: Es stellte sich heraus, dass alle Leute, die „Lebedew ist Scheiße“ geschrieben hatten, nicht in den sozialen Netzwerken gewesen waren Netzwerke vor vier Monaten, keine der öffentlichen Seiten abonniert, plötzlich zu diesem bestimmten Beitrag gegangen, genau diesen Kommentar geschrieben und gegangen. Auch hier ist es unmöglich, Schlussfolgerungen daraus zu ziehen, aber jemand aus Nawalnys Team hat mir einen Kommentar geschrieben, dass sie keine Bots verwenden. Na ja, okay!

Näher an der Werbung, näher an der Marke. Jeder hat jetzt Bots! Wir haben sie, unsere Konkurrenten haben sie und andere haben sie. Sie müssen weggeworfen oder gut leben gelassen werden; Basierend auf solchen Daten (zeigt auf die vorherige Folie) perfektionieren Sie sie, damit sie wie echte Menschen aussehen, und verwenden Sie sie erst dann. Obwohl die Verwendung von Bots schlecht ist! Dennoch eine ziemlich häufige Geschichte...

Im automatischen Modus können Sie so Personen aus Ihrer Analyse herausfiltern, die für die Analyse irrelevant sind, also Personen, die nicht in die Stichprobe einbezogen werden sollten, nicht in diese Studie einbezogen werden sollten. Sehr oft verwendet. Andererseits besitzen nicht alle Autobesitzer tatsächlich ein Auto. Manchmal interessieren sich die Leute nur für Leute, die potenziell ein Auto haben, die in irgendwelchen Gruppen sitzen, mit jemandem kommunizieren, sie haben dort ein bestimmtes Publikum.

Analyse von Fakten und Meinungen

Das nächste, das ich habe, ist auch mein Favorit. Dies ist eine Analyse von Fakten und Meinungen.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Heutzutage weiß jeder, wie er seine Marke in verschiedenen Quellen erwähnt. Das ist kein Geheimnis. И тональность вроде все умеют считать… Хотя лично я считаю, что сама по себе метрика тональности не очень интересная, потому что, когда ты приходишь и говоришь клиенту, – «Мужик, у тебя 37% нейтрала, – и он такой говорит, – « Wow! Cool!" Daher wäre es interessanter, etwas weiter zu gehen: von der Beurteilung der Stimmung hin zur Beurteilung der Meinungen darüber, was über Ihr Produkt gesagt wird.

Und das ist auch eine sehr interessante Sache, denn... Ich persönlich glaube, dass es grundsätzlich keine neutralen Botschaften geben kann, denn wenn jemand im öffentlichen Raum etwas schreibt, wird diese Botschaft irgendwie irgendwie gefärbt. Ich persönlich habe noch nie eine neutrale Botschaft gesehen, in der eine Marke erwähnt wurde. Normalerweise ist es eine Art Schmutz.

Wenn wir eine große Anzahl dieser Nachrichten (es könnten Millionen, 10 Millionen sein) nehmen, die Hauptidee jeder Nachricht hervorheben und sie kombinieren, können wir ziemlich zuverlässig verstehen, was die Leute über diese Marke sagen, was sie denken. „Mir gefällt die Verpackung nicht“, „Mir gefällt die Konsistenz nicht“ und so weiter.

Was denken die Leute über Transaero, Chupa Chups und den Präsidenten der Vereinigten Staaten?

Ich habe ein lustiges Beispiel: Dies ist eine Infografik darüber, was Nutzer sozialer Netzwerke nach der Insolvenz des Unternehmens Transaero tun würden.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Es gibt dort viele interessante Beispiele: Verbrennen, töten, nach Europa deportieren, es gab sogar 2 %, die schrieben: „Schickt sie für Militäreinsätze nach Syrien.“ Abgesehen von der lustigen Sache: Es könnte fast jede Marke sein – von meinem Lieblingshundefutter bis hin zu einigen Autos. Wem die Verpackung nicht gefällt, wer echte Dinge nicht mag – damit kann man immer arbeiten, man kann das immer berücksichtigen. Es gibt eine Vielzahl von Beispielen, bei denen Menschen beinahe die Produktion ihrer Produkte umgestellt hätten, weil sie in sozialen Netzwerken schrieben, Chupa Chups sei nicht rund genug oder es sei nicht süß genug.

Es gibt noch ein weiteres lustiges Beispiel. Ratet mal, welche Kommentare und über wen?

Arthur Khachuyan: „Echte Big Data in der Werbung“

Aus irgendeinem Grund wird die Analyse von Meinungen, die Analyse von aus Nachrichten extrahierten Fakten, heute nicht mehr sehr häufig verwendet und ist nicht sehr verbreitet. Obwohl diese Technologie nicht streng geheim ist, gibt es praktisch überhaupt kein Know-how dazu, denn aus den Kommentaren von Menschen das Subjekt, das Prädikat und die Gruppierung zu extrahieren, erfordert kein Genie in der Computerlinguistik. Das ist gar nicht so schwer. Aber ich hoffe, dass die Leute in den nächsten Jahren anfangen werden, dies zu nutzen, denn ... Es wird cool sein – das ist so ein automatisches Feedback! Du weißt immer, was sie über dich sagen. Nun, Sie verstehen, dass es hier um den US-Präsidenten ging.

Antwort auf eine Frage aus dem Publikum:

  • Ja, das ist Facebook auf Englisch. Sie werden hier ins Russische übersetzt. Das wurde irgendwo geschrieben.

Big Data und politische Technologien

Tatsächlich habe ich viele verschiedene interessante Beispiele für die Politik über Trump und alle anderen, aber wir haben uns entschieden, sie hier nicht anzuführen. Aber es gibt ein politisches Beispiel.

Dies sind Wahlen zur Staatsduma. Wann warst du? Letztes Jahr? Vor fast anderthalb Jahren.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Hier sind Menschen, die ihren genauen Standort bis zu einem bestimmten Geopunkt bestimmen konnten, um zu verstehen, in welchen Wahlbezirk sie fallen. Und dann wurden von diesen Menschen nur diejenigen genommen, die ihre eindeutige Meinung äußerten und für die sie stimmen würden.

Aus politischer Sicht ist das nicht ganz richtig, denn das Ganze muss durch Bevölkerungsdichte usw. normalisiert werden. Nichtsdestotrotz werden die Blauen hier für Sie stimmen, die Roten werden für Oppositionsgenossen stimmen, von denen es übrigens nicht viele gab.

Ich persönlich glaube nicht, dass Big Data in naher Zukunft politische Technologien erreichen wird, aber als Option ist der Kandidat auch eine Marke. Und das ist in gewisser Weise auch eine Analyse von Fakten und Meinungen über Ihre Marke, und eine ziemlich interessante Sache, weil Sie in Echtzeit verstehen können, wer was tut. Ich kenne mehrere Fälle von der BBC, in denen sie soziale Netzwerke in Echtzeit in irgendeiner Sendung überwacht haben: Es gab die eine oder andere Reaktion, die Leute schreiben darüber, stellen die eine oder andere Frage – und es ist großartig! Ich denke, dass es sehr bald zum Einsatz kommen wird, da es für jeden interessant ist.

Modellierung von Markenpositionen

Arthur Khachuyan: „Echte Big Data in der Werbung“

Als nächstes habe ich die Modellierung von Markenpositionen. Ein kleiner, kurzer Artikel darüber, wie Sie Marken anhand verschiedener Kennzahlen bewerten können (nicht die Likes von Abonnenten in sozialen Netzwerken, sondern anhand komplexer Kennzahlen, Interesse an Inhalten, Zeitaufwand für den Empfang von Kennzahlen).

Arthur Khachuyan: „Echte Big Data in der Werbung“

Ich habe aus einem bestimmten Grund ein Beispiel für „Pharma“. Hier sind die kleinen Kreise innenliegend und hell – das ist die Menge an Textinhalten, die die Marke selbst erstellt, der große Kreis ist die Menge an Foto- und Videoinhalten, die die Marke selbst erstellt.

Die Nähe zum Zentrum zeigt, wie interessant der Inhalt für das Publikum ist. Es gibt ein großes Modell, es gibt eine Menge aller möglichen Parameter: Likes, Reposts, Reaktionszeit, wer dort im Durchschnitt geteilt hat ... Hier können Sie sehen: Es gibt ein wunderbares „Kagotsel“, das eine Menge pumpt Geld in die Erstellung eigener Inhalte stecken und sind daher ziemlich nah am Zentrum. Und es gibt Kameraden, die auch eigene Inhalte erstellen, aber das Publikum interessiert sich nicht dafür. Dies ist kein sehr angemessenes Beispiel, da alle diese Konten praktisch tot sind.

Yegor Creed wird mehr geliebt als Basta

Arthur Khachuyan: „Echte Big Data in der Werbung“

Leider ist der Rest... von dem, was man zeigen soll... Nun, es gibt auch russische Rapper, optional von echten Unternehmen.

Was ist das Plus? Tatsache ist, dass ein Unternehmen fast alles in ein solches Modell stecken kann, angefangen beim Durchschnittsgehalt der Abonnenten, die für Ihre Marke arbeiten; jedes Modell, das ihnen gefällt. Da jede Werbeagentur ihre eigenen Kennzahlen unterschiedlich berechnet, berechnen Marken ihre eigenen Kennzahlen unterschiedlich.

Auch hier gibt es einen – Basta, der zwar große Mengen an Inhalten generiert, aber an der Peripherie angesiedelt ist, weil diese Inhalte für das Publikum offenbar nicht sehr interessant sind. Auch hier maße ich mir kein Urteil an. Dennoch gibt es Jegor Creed, der laut sozialen Netzwerken fast der beste Künstler unserer Zeit ist, aber nur seine persönlichen Fotos veröffentlicht. Dennoch hat er eine große Zahl an Abonnenten: Es sind rund eine Million. Ich erinnere mich nicht an die genaue Zahl; Ich erinnere mich, dass der Prozentsatz des Engagements dieser Leute viel höher als 85 % ist, das heißt, pro Million Abonnenten erhält er 850 Antworten von diesen echten Leuten – das ist echter Wahnsinn. Ist das so.

Arthur Khachuyan: „Echte Big Data in der Werbung“

Antworten auf Fragen aus dem Publikum:

Wie lange hat die Erstellung des Rapper-Analysemodells gedauert?

  • Jeder hat seine eigene Zielgruppe, die Interessen dieser Menschen werden für jeden berechnet... All dies ist ungefähr auf den Abstand zum Zentrum normiert, ihre radiale Position ist nicht wichtig (sie wird hier einfach aus Schönheitsgründen verschmiert, damit sie es tun nicht ineinander stoßen). Wichtig ist nur die ungefähre Nähe zum Zentrum. Dies ist das Modell, das wir verwenden. Mir gefällt zum Beispiel der Kreis besser, manche machen ihn im Kopf als Halbkreis.
  • Dieses Modell wurde schnell zusammengestellt, in zwei oder drei Stunden (ja, eine Person). Hier wurden nur Metriken eingefügt: was wir mit was multiplizieren, addieren und es dann irgendwie normalisieren. Hängt vom Modell ab. Es gibt Leute, die sich für das Durchschnittsgehalt (das ist kein Scherz) ihrer Abonnenten interessieren. Und dafür müssen Sie ihre Kontakte finden, Avito, alles berechnen und multiplizieren. Es kommt vor, dass es lange dauert, dies zu berücksichtigen, aber speziell dies (zeigt auf die vorherige Folie) – die Parameter hier sind sehr einfach: Abonnenten, Reposts und so weiter. Die Fertigstellung dauerte etwa zwei bis drei Stunden. Dementsprechend wird dieses Ding dann in Echtzeit aktualisiert und Sie können es verwenden.

Jetzt kommt der spaßige Teil. Ich bin mit den Beispielen fertig, weil es nicht interessant ist, lange alleine zu reden. Und ich hoffe, dass Sie jetzt Fragen stellen, und wir werden tatsächlich von Thema zu Thema wechseln, weil ich solche Beispiele habe, wie Technologien eingesetzt werden können und so weiter ...

Antworten auf Fragen aus dem Publikum:

  • Ich hatte einen und einzigen persönlichen Fall mit einem sozusagen „Casino-nahen“, als dort eine Kamera platziert wurde, Gesichter erkannt wurden und so weiter. Der Prozentsatz der anerkannten Personen ist auf jeden Fall recht groß – sowohl bei uns als auch bei unseren Mitbewerbern. Aber eigentlich ist es ganz interessant. Ich halte das für eine interessante Sache: Man kann verstehen, wer diese Leute sind und ziemlich gut vorhersagen, warum genau sie hierher gekommen sind, was sich in ihrem Leben so sehr verändert hat, dass sie sich entschieden haben, ins Casino zu kommen. Aber was bestimmte Geschäftsarten angeht... Wenn man so etwas in eine Apotheke bringt, hat das keinen Sinn – man kann nicht vorhersagen, warum jemand in die Apotheke gekommen ist.

    Die globale Aufgabe bestand hier darin, ein Modell zu erstellen, um zu verstehen, wann eine Person potenziell an Ihrer Marke interessiert sein möchte, damit Sie ihr Werbung geben können, nicht nachdem sie etwas gekauft hat (wie es jetzt der Fall ist), sondern ihr Werbung geben können. in der Prognose“, wann das alles passieren wird. Es war interessant mit so einem „Kasino-nahe“; Es stellte sich heraus, dass es einen recht interessanten Prozentsatz dieser Leute gab – warum: Jemand wurde plötzlich befördert, jemand anderes bekam etwas anderes – so interessante Erkenntnisse. Aber bei einigen Geschäften, beim Einzelhandel, bei einem Pillengeschäft scheint mir das nicht ganz richtig zu sein.

Wird Big Data offline genutzt?

  • Es war offline. Sie müssen nur ungefähr genau verstehen, ob dieses Modell passt oder nicht. Noch einmal, mit Mineralwasser... Eigentlich interessiert mich alles, aber ich verstehe persönlich nicht, wie sehr, wie die Profile dieser Menschen, ihr Verhalten davon abhängen können, wann sie Wasser in Flaschen kaufen wollen. Obwohl das wirklich wahr sein mag, weiß ich es nicht.

Wie viele offene Social-Media-Konten gibt es?

  • Wir haben konkret 11 soziale Netzwerke – das sind „Vkontakte“, „Facebook“, „Twitter“, „Odnoklassniki“, „Instagram“ und einige Kleinigkeiten (ich kann mir die Liste ansehen, wie „Mail.ru“ und so weiter) . Auf VKontakte haben wir definitiv eine Kopie all dieser Kameraden. Wir haben Leute auf VKontakte – das sind 430 Millionen von allen, die jemals existiert haben (von denen etwa 200 Millionen ständig aktiv sind); Es gibt Gruppen, es gibt Verbindungen zwischen diesen Menschen und es gibt Inhalte, die uns interessieren (Text), und einen Teil der Medien, aber sehr klein... Grob gesagt schauen wir uns dieses Bild an: Wenn da Gesichter sind, dann wir Speichern Sie sie. Wenn es ein Meme gibt, speichern wir es. Wir speichern es nicht, denn selbst wir hätten nicht genug, um den Medieninhalt zu speichern.

    Es gibt ein russischsprachiges Facebook. Irgendwo sind jetzt 60-80 % Odnoklassniki, in ein paar Monaten werden wir sie wahrscheinlich alle zu Ende bringen. Russisches Instagram. Für alle diese sozialen Netzwerke gibt es Gruppen, Personen, Verbindungen zwischen ihnen und Texte.

  • Etwa 400 Millionen Menschen. Es gibt eine Feinheit: Es gibt Menschen, deren Stadt nicht angegeben ist (sie sind möglicherweise Russen/Nicht-Russen); Davon liegt der Durchschnitt für soziale Netzwerke bei 14 % der geschlossenen Konten bei VKontakte, bei Facebook kenne ich die genaue Zahl nicht.
  • Auch auf Instagram speichern wir keine Medien – nur, wenn dort Gesichter zu sehen sind. Wir speichern solche (anderen) Medieninhalte nicht. Normalerweise interessant: nur Text, Verbindungen zwischen Menschen; Alle. Die häufigste Recherche auf Instagram ist die übliche Recherche über das Publikum: wer diese Leute sind und, was am wichtigsten ist, die Verbindung dieser Leute mit anderen sozialen Netzwerken. Finden Sie das Profil dieser Person auf Vkontakte und Facebook, um ihr Alter usw. zu berechnen.
  • Es besteht noch keine Notwendigkeit, alle anderen zu übernehmen – einfach weil es keine Kunden gibt. Zur Sprache: Wir haben Russisch, Englisch, Spanisch, aber diese wird immer noch ausschließlich für Marken aus Russland verwendet; Nun, oder die Unternehmen, die sie aus Russland bringen.
  • Wir befragen jeden Tag Menschen in vielen, vielen, vielen Threads: Wir sammeln Daten im Internet und aktualisieren diese Indikatoren mithilfe der API. In 2-3 Tagen können Sie das gesamte „VKontakte“ durchgehen. In etwa einer Woche können Sie Facebook komplett durchgehen und nachvollziehen, wer was aktualisiert hat und was nicht. Und dann diese Leute einzeln wieder zusammensetzen: Was genau sich geändert hat, schreiben Sie die ganze Geschichte auf. Meiner Erfahrung nach wurde das alte Social-Media-Profil einer Person nur sehr selten für echte geschäftliche Zwecke genutzt. Dies war die Zeit, als sich eine politische Persönlichkeit bewarb, und seine Aufgabe bestand darin, zu verstehen, was für Leute ins Hauptquartier kommen, wer diese Leute vor 6-8 Monaten waren (haben sie ihr Profil gelöscht, aber tatsächlich sind Stimmzettel für einen anderen Kandidaten eingetroffen). verderben).

    Und ein paar Mal – persönliche Geschichten, wenn die Fotos von jemandem öffentlich veröffentlicht wurden. Es war notwendig, Zusammenhänge usw. zu finden. Leider ist es schade, aber wir können nicht vor Gericht aussagen, da unsere Datenbank rechtlich illiquide ist.

  • MongoDB-Speicher ist mein Favorit.

Soziale Netzwerke versuchen, die Datenerfassung zu bekämpfen

  • Normalerweise laden wir Werbetreibenden nur eine Liste dieser Konten hoch, und dann verwenden sie das Standardkonto... Das heißt, in sozialen Netzwerken, auf VKontakte, können Sie eine Liste dieser Personen angeben.

    Aber Facebook verwendet gekaufte Cookies. Wir selbst arbeiten nicht mit Cookies, aber es gab mehrere Geschichten, in denen der Werbetreibende selbst einigen Leuten gab, wir interagierten mit ihnen – sie haben diese Netzwerke, mit Teaser- und Nicht-Teaser-Werbung, diese „Cookies“. Man kann es binden – keine Frage! Aber ich mag dieses Zeug nicht wirklich, weil ich es nicht für sehr authentisch halte. Das ist rein meiner Meinung nach, es ist wie TNS, das Fernseher „verfolgt“ – es ist nicht klar, ob Sie diesen Fernseher schauen oder nicht, ob Sie das Geschirr spülen, während Ihr Fernseher an ist ... Und hier ist es dasselbe : Ich google sehr oft etwas im Internet, aber das bedeutet nicht, dass ich es kaufen möchte.

  • Wenn Sie eine Art standardmäßiges kontextbezogenes Werbenetzwerk verwenden: Ich habe mehrere Geschichten gehört, als wir diese Leute zu ihnen ausluden und versuchten, sie über ihre Schnittstellen mit „Cookies“ auf ihren Websites zu verbinden. Aber ich mag solche Dinge nicht wirklich.

Formel zur Berechnung des Gehalts eines Internetnutzers

  • Die allgemeine Formel für das Durchschnittsgehalt lautet: Dies ist die Region, in der eine Person lebt, dies ist die Unternehmenskategorie, in der sie arbeitet (d. h. das Unternehmen, das ihr Arbeitgeber ist), dann wird ihre Position in diesem Unternehmen angenommen, der Durchschnitt Das Gehalt für diese Position wird geschätzt... Das durchschnittliche Gehalt stammt aus „Head Hunter“ und „Superjob“ (und es gibt mehrere andere Quellen) für eine bestimmte freie Stelle in einer bestimmten Region und für einen bestimmten Geschäftskontext.

    Von „Avito“ und „Avto.ru“ werden normalerweise zusätzliche Parameter übernommen, wenn eine Person das Telefon beleuchtet hat. Mit Avito können Sie sehen, welche Art von Dingen eine Person verkauft – teuer, günstig, gebraucht, nicht gebraucht. Mit „Avto.ru“ können Sie sehen, ob er ein Auto hat – er besitzt es, er besitzt es nicht. Dies betrifft weniger als 20 % der Personen, die ihr Telefon versehentlich irgendwo fallen gelassen haben, und ihr Konto kann mit diesen Daten verknüpft werden.

Welche Volumina betreibt das Datenerfassungsunternehmen?

  • Das Volumen der gespeicherten Fotos in Petabyte beträgt 6,4. Ich kann die Wachstumsrate jetzt nicht genau sagen, da wir 2016 mit der Aufnahme von „Periskopen“ und gerade mit der Videoaufnahme begonnen haben.

    Ich kann nicht genau sagen, wann es Null war. Wir sind von Unternehmen zu Unternehmen gezogen – das sind alles lange Geschichten. Aber ich kann sagen, dass VK, Facebook, Instagram und Twitter – all dieses Geschäft (Personen, Gruppen und Verbindungen zwischen ihnen) mit Text und Inhalten – eigentlich nicht viele Daten sind, es ist unwahrscheinlich, dass selbst ein Petabyte genug hat. Ich denke, es sind 700 Gigabyte, wahrscheinlich 800.

Helfen Sie Kunden dabei, die aktuelle Nische zu bestimmen und zu ermitteln, wo sie suchen sollten?

  • Wenn ein Kunde kommt, schlagen wir ihm solche Dinge vor, aber wir selbst, wie Google Trends, tun solche Dinge nicht.
  • Wir hatten mehrere nahezu soziologische Geschichten mit Wahlgeschichte und Vorwahlgeschichte – wir haben alles analysiert. Bei Marken und der Beurteilung von Meinungen über Marken stimmt fast immer alles überein. Hier sind Wahl-Wahl-Geschichten – nein (mit einer Einschätzung, welcher Kandidat gewinnen sollte). Ich weiß nicht, wer hier falsch liegt – wir oder diejenigen, die in VTsIOM denken.
  • Normalerweise beziehen wir diese Kontrollergebnisse von der Marke selbst, sie beziehen sie von Genossen, die Forschung in Auftrag geben – Telefonforschung, Marktforschung und so weiter. Außerdem lässt sich das Ganze anhand grundlegender Dinge überprüfen: Jemand hat auf die Mailingliste geantwortet, jemand hat Umfragen durchgeführt … Wenn es sich um eine große Marke handelt (z. B. Coca-Cola), hat sie auf jeden Fall ein oder zwei Millionen interne Bewertungen von Kunden – Dabei handelt es sich nicht nur um Kommentare in sozialen Netzwerken und einige Meinungen; Dabei handelt es sich um interne Systeme, Bewertungen usw.

Das Gesetz „weiß“ nicht, was personenbezogene Daten sind!

  • Wir analysieren ausschließlich offene Datenquellen und lassen uns niemals auf schmutzige Tricks ein. Unser Modell basiert auf der Tatsache, dass wir alle offenen Daten in einigen öffentlichen Rechenzentren speichern, sie an einem anderen Ort vermieten und sie zu Hause, in unseren Büros, auf unseren Servern analysieren, und dass sie nirgendwo außerhalb des Territoriums gespeichert werden.

    Aber unsere Gesetzgebung im Bereich Open Data ist sehr vage.

    Wir haben kein klares Verständnis davon, was offene Daten sind, was personenbezogene Daten sind – es gibt dieses 152. Bundesgesetz, aber trotzdem... Wie zählen sie? Wenn ich nun Ihren Namen und Ihre Telefonnummer in einer Datenbank habe, habe ich in einer anderen Datenbank Ihre Telefonnummer und Ihre E-Mail-Adresse, in einer dritten habe ich beispielsweise Ihre E-Mail-Adresse und Ihr Auto; All dies scheint nicht personenbezogene Daten zu sein. Wenn man das alles zusammenfasst, scheint es, dass es sich laut Gesetz um personenbezogene Daten handelt.

    Wir umgehen dies auf zwei Arten. Die erste besteht darin, einen Server mit Software für den Kunden zu installieren, und dann gehen diese Daten nicht über sein Territorium hinaus, und dann ist der Kunde für die Verteilung dieser personenbezogenen Daten, nicht personenbezogenen Daten usw. verantwortlich. Oder die zweite Option: Wenn es sich um eine Geschichte handelt, bei der man ein soziales Netzwerk oder etwas anderes verklagen muss ...

    Wir hatten eine solche Studie, als wir für Lifenews die Berichte dieser Genossen sammelten (es gab Vorwahlen zu „Einiges Russland“) und uns ansahen, welche Art von Pornos sie mochten. Es war eine lustige Sache, aber trotzdem. Wir verkaufen dies als unsere eigene, persönliche Meinung, ohne in den Dokumenten rechtlich offenzulegen, was wir analysiert haben – das Unified State Register of Legal Entities, Gehälter, soziale Netzwerke; Wir verkaufen Expertenmeinungen und erklären der Person dann am Rande, was wir analysiert haben und wie.
    Es gab mehrere Geschichten, aber sie standen im Zusammenhang mit einigen öffentlichen kommerziellen Projekten. Wir haben zum Beispiel ein kostenloses gemeinnütziges Projekt für diejenigen, die Longboards fahren (solche Boards sind lang): Die Aufgabe bestand darin, die Veröffentlichungen von Leuten zu sammeln – wenn jemand postet: „Ich war für eine Fahrt im Gorki-Park.“ Und jetzt sollte er auf der Karte erscheinen und die Menschen um ihn herum können sehen, dass sich jemand in seiner Nähe befindet. VK stritt sich sehr lange mit uns zu diesem Thema, weil ihnen die Tatsache nicht gefiel, dass wir diese Informationen ohne die Erlaubnis der Leute veröffentlichten. Aber dann kam die Sache nicht vor Gericht, weil wir innerhalb mehrerer großer Communities die Regeln ergänzten, dass die Daten von Dritten, Agenturen, Unternehmen, Analysen usw. verwendet werden dürfen. Natürlich war es nicht besonders ethisch, aber trotzdem.

  • Wir haben es gerade noch rechtzeitig erkannt und begonnen, unsere Expertenmeinung an alle zu verkaufen.

Arbeiten Sie mit Bildungseinrichtungen zusammen?

  • Wir kooperieren mit Bildungseinrichtungen, ja. Wir haben ein ganzes Spektrum: Wir haben einen Masterstudiengang an der Hochschule und wir kooperieren mit anderen Universitäten. Wir lieben Universitäten sehr!
  • Wenn Sie meine Kontakte haben, können Sie mir schreiben. Und ein Link zur Präsentation, falls jemand Interesse hat - alle diese Beispiele sind da, Sie können sie verschieben.
  • Wenn Sie die Telefonnummer oder E-Mail kennen, ist dies eine fast hundertprozentige Option, niemand wird sie entfernen. Wenn keine Telefonnummer vorhanden ist, ist es normalerweise ein Bild; wenn kein Bild vorhanden ist, ist es das Jahr, der Wohnort, der Job. Das heißt, anhand von Jahr, Wohnort und Arbeitsort lässt sich fast jeder immer ganz subtil identifizieren. Aber auch dies ist eine Frage der Aufgabe.

    Wir haben zum Beispiel einen Kunden, der Internetfernsehen verkauft. Jemand hat bei ihnen ein Abonnement für diese „Games of Thrones“ gekauft, und die Aufgabe besteht darin, mithilfe ihres CRM diese Personen in sozialen Netzwerken zu finden und dann potenzielle Personen aus ihrem Einflussbereich zu finden. Ich meine nur, dass sie beispielsweise einen Vornamen, einen Nachnamen und eine E-Mail-Adresse haben ... Und dann ist es sehr schwierig, etwas zu tun. In den meisten Fällen können Personen per E-Mail gefunden werden.

  • Basierend auf der Zusammensetzung unserer Freunde „matchen“ wir normalerweise Menschen in sozialen Netzwerken, aber das ist nicht immer richtig. Es ist nicht so, dass es nicht immer richtig ist – es funktioniert nicht immer. Erstens erfordert dies viel Arbeit, da dieser Vorgang (Personenzuordnung) zunächst für jeden der Freunde durchgeführt werden muss – um zu verstehen, ob er aus sozialen Netzwerken stammt oder nicht. Und dann – eine für niemanden unbekannte Tatsache – haben wir auf VKontakte dieselben Freunde, auf Facebook unterschiedliche Freunde. Nicht jedermanns Sache, aber bei mir ist es zum Beispiel so; und das gilt auch für die meisten Menschen.

Wie werden die vollständigsten Daten erfasst?

  • Installation der Software für den Kunden auf seiner Seite. Auf ihnen ist ein Server installiert, der nur öffentliche Daten von uns entgegennimmt und ihre personenbezogenen Daten intern verarbeitet. Mit dem Kunden wird ein NDA abgeschlossen. Es ist natürlich nicht ganz richtig, dass sie dies an uns übertragen, aber die rechtliche Verantwortung liegt beim Kunden – also bei der Installation von Software für ihn oder der Übertragung anonymer Daten. Dies kam jedoch sehr selten vor, da – ob richtig oder falsch anonymisiert – in den meisten Fällen die Abhängigkeit zwischen diesen Personen verloren geht.

Wer kauft Gesichtserkennungssoftware?

  • Wir gehen tatsächlich hierher, weil unsere Hauptsoftware, die wir verkaufen, Gesichtssuche und Korrelationsanalyse ist, und wir verkaufen sie an Regierungsbehörden. Und vor anderthalb Jahren beschlossen wir, all diese Geschichten in die Werbung, ins Marketing und auf den öffentlichen Markt zu bringen – so entstand Social Data Hub, eine kommerzielle juristische Person. Und jetzt kommen wir gerade hierher. Wir hängen jetzt schon seit anderthalb Jahren hier herum und versuchen den Leuten zu erklären, dass es nicht nötig ist, den Leuten Downloads mit einer Erwähnung zu geben, dass man ihnen Antworten auf Fragen geben muss, dass es keinen Bedarf an Tonalität gibt , und so weiter. Es ist also schwer zu sagen, wo...
  • (Wen meinst du?) An alle Genossen, die nach Terroristen und Pädophilen suchen müssen.
    Ich kann gleich sagen (das wird die nächste Frage sein): Nach unseren Daten wurden keine Lehrer wegen Umbuchungen inhaftiert.
  • Auf VKontakte - 14 %; auf Facebook gibt es kein geschlossenes Profil als solches (es gibt eine geschlossene Freundesliste usw.). Und das Interessanteste ist, dass ich gerade eine Nachricht geschrieben habe – jetzt werden sie zählen und sagen.

Posten Sie nichts, wofür Sie sich schämen könnten!

  • Posten Sie in sozialen Netzwerken nichts, was Sie beschämen könnte – ich persönlich verfolge das. Obwohl ich viele persönliche hatte, weil ich auf Facebook schwöre. Nun, es gab und es gab etwas zu tun ... Posten Sie nichts, was peinlich wäre! Wenn Sie später irgendwo in der öffentlichen Kammer arbeiten werden, ist es besser, keinen Kommentar abzugeben. Wenn Sie dies nicht tun, kümmert es im Großen und Ganzen niemanden. Ich kann Ihnen nur versichern, dass niemand Ihre persönliche Korrespondenz liest, und das alles baut diese ganze Geschichte auf ...

    Jede Woche kommt definitiv jemand zu mir und sagt: „Nun, die Fotos meines Freundes wurden auf einer anonymen öffentlichen Seite durchgesickert!“ Helfen! Veröffentlichen Sie übrigens niemals etwas auf anonymen öffentlichen Seiten.

  • Ich weiß nichts über andere Überwachungssysteme - wir werden dies auf jeden Fall berücksichtigen, dass die Erwähnung der Marke negativ war, Gott vergib mir ... Aber ich kann sagen, dass alle möglichen staatsnahen Kameraden nur an Menschen interessiert sind die ein Publikum von mehr als 5 haben und deren öffentliche Meinung jemanden beeinflussen kann. dann Einfluss. Meiner Erfahrung nach ist es noch nie vorgekommen, dass die Personalagentur, die Profilbewertungen bei uns in Auftrag gibt, gesagt hat: „Wer Nawalny mag, stellt niemanden ein!“

Über die Veröffentlichung der Ergebnisse. Wie viele Personen sind in der Forschung beschäftigt?

  • Von den Top-10-Werbeunternehmen veröffentlichen mittlerweile sieben. Es ist schwer zu sagen: Als wir damit vor anderthalb Jahren angefangen haben ... Wir haben mehrere Leute in jedem Bereich – es gibt mehrere Leute in Banken, es gibt mehrere Leute in der Personalabteilung, es gibt mehrere Leute in der Werbung. Und jetzt denken wir darüber nach, an wen wir uns als Erstes wenden sollten und für wen wir mit der Herstellung einiger Schnittstellen beginnen müssen ...
  • (Über die Anzahl der Personen pro Marktsegment) Nicht mehr als 25 Personen, da wir niemanden vergewaltigt haben.
  • Im Allgemeinen werden diese Technologien vom Markt grundsätzlich zu mehr als 50 % genutzt. Einige in Werbekampagnen, andere in einer Art interner Analyse. Ich würde sagen, 40 Prozent nutzen es für interne Analysen, 50–60 Prozent verkaufen es an Endmarken. Dies hängt aber bereits von den werbetreibenden Unternehmen selbst ab. Sehen Sie, einige Leute berichten einfach über das ausgegebene Geld, die Werbung, die sie geschaltet haben, während andere darüber schreiben, wie viele Leute sie mitgebracht haben, was für ein Publikum ... Ich würde es sagen, aber ich könnte mich irren - ich weiß nicht, Ich kann mir nicht wirklich vorstellen, wie all diese Kameraden arbeiten. Ich weiß es nur in quantitativen Daten.

Einige Anzeigen 🙂

Vielen Dank, dass Sie bei uns geblieben sind. Gefallen Ihnen unsere Artikel? Möchten Sie weitere interessante Inhalte sehen? Unterstützen Sie uns, indem Sie eine Bestellung aufgeben oder an Freunde weiterempfehlen. Cloud-VPS für Entwickler ab 4.99 $, ein einzigartiges Analogon von Einstiegsservern, das von uns für Sie erfunden wurde: Die ganze Wahrheit über VPS (KVM) E5-2697 v3 (6 Kerne) 10 GB DDR4 480 GB SSD 1 Gbit/s ab 19 $ oder wie teilt man sich einen Server? (verfügbar mit RAID1 und RAID10, bis zu 24 Kerne und bis zu 40 GB DDR4).

Dell R730xd 2-mal günstiger im Equinix Tier IV-Rechenzentrum in Amsterdam? Nur hier 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6 GHz 14C 64 GB DDR4 4 x 960 GB SSD 1 Gbit/s 100 TV ab 199 $ in den Niederlanden! Dell R420 – 2x E5-2430 2.2 GHz 6C 128 GB DDR3 2 x 960 GB SSD 1 Gbit/s 100 TB – ab 99 $! Lesen über Wie baut man ein Infrastrukturunternehmen auf? Klasse mit dem Einsatz von Dell R730xd E5-2650 v4 Servern im Wert von 9000 Euro für einen Cent?

Source: habr.com

Kommentar hinzufügen