Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Le 14 mars 2017, Arthur Khachuyan, PDG de Social Data Hub, a pris la parole lors de la conférence BBDO. Arthur a parlé de la surveillance intelligente, de la création de modèles comportementaux, de la reconnaissance du contenu photo et vidéo, ainsi que d'autres outils et recherches du Social Data Hub qui vous permettent de cibler des publics à l'aide des réseaux sociaux et des technologies Big Data.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Artur Khachuyan (ci-après - AH) : - Bonjour! Salut tout le monde! Je m'appelle Arthur Khachuyan, je dirige la société Social Data Hub et nous sommes engagés dans diverses analyses intellectuelles intéressantes des sources de données ouvertes, des champs d'information et effectuons toutes sortes de recherches intéressantes, etc.

Et aujourd'hui, des collègues du groupe BBDO nous ont demandé de parler des technologies modernes d'analyse du big data, du big data et des moins big data pour la publicité : comment elles sont utilisées, montrer quelques exemples intéressants. J'espère que vous poserez des questions en cours de route, car je peux m'ennuyer et ne pas révéler l'essence, etc., alors ne soyez pas timide.

En fait, les principales orientations, partout où des solutions « quasi-big data » ont été utilisées, sont toutes claires : il s'agit du ciblage d'audience, de l'analyse, de la conduite d'une sorte de recherche marketing analytique. Mais il est toujours intéressant de savoir quelles données supplémentaires peuvent être trouvées, quelles significations supplémentaires peuvent être trouvées après avoir appliqué l’analyse.

Pourquoi avons-nous besoin de technologie pour la publicité ?

Où allons-nous commencer? Le plus évident est la publicité sur les réseaux sociaux. Aujourd'hui, je l'ai enlevé dans la matinée : pour une raison quelconque, VKontakte pense que je devrais voir cette publicité en particulier... La deuxième question est de savoir si elle est bonne ou mauvaise. On voit que je rentre définitivement dans la catégorie des conscrits :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

La toute première et la plus intéressante chose qui puisse être considérée comme une solution technologique... La première chose que je voulais décider avant de commencer est de définir les termes : qu'est-ce que l'open data et qu'est-ce que le big data ? Parce que chacun a sa propre compréhension à ce sujet, et je ne veux imposer mes conditions à personne, mais... Juste pour qu'il n'y ait pas de divergences.

Personnellement, je pense que les données ouvertes sont tout ce que je peux accéder sans aucun identifiant ni mot de passe. C'est un profil ouvert sur les réseaux sociaux, ce sont des résultats de recherche, ce sont des registres ouverts, etc. Le Big data, selon ma propre compréhension, je le vois comme ceci : si c'est une plaque signalétique, c'est un milliard de lignes, si c'est une sorte de stockage de fichiers, cela représente quelque part un pétaoctet de données. Le reste, dans ma terminologie, n'est pas du big data, mais quelque chose comme ça.

Profilage de haute précision et notation de profil

Allons-y dans l'ordre. La toute première et la plus intéressante chose que vous pouvez trouver en analysant des sources de données ouvertes est le profilage et la notation de profil de haute précision. Qu'est-ce que c'est? Il s’agit d’une histoire dans laquelle votre compte de réseau social peut prédire non seulement qui vous êtes, mais aussi vos intérêts.

Mais désormais, en combinant diverses sources, vous pouvez comprendre le niveau moyen de votre salaire, combien coûte votre appartement et où il se trouve. Et toutes ces données peuvent être utilisées littéralement à partir des moyens disponibles. Par exemple, si vous ouvrez votre compte sur un réseau social, regardez, disons, où vous habitez, où vous travaillez ; comprendre dans quel secteur de l'entreprise se trouve l'entreprise pour laquelle vous travaillez ; téléchargez des offres d'emploi similaires sur HH et « Superjob » si vous êtes analyste, manager, etc. ; regardez où vous habitez (base, disons CIAN), comprenez combien il en coûte pour louer une maison à cet endroit, combien il en coûte pour acheter une maison à cet endroit, prédisez approximativement combien vous gagnez. De plus, en utilisant vos réseaux sociaux, vous pouvez comprendre combien vous voyagez, où vous vous trouvez et à quel point vous êtes fidèle à votre employeur.

En conséquence, à partir d’un si grand nombre de mesures, nous pouvons faire tout ce que nous voulons. Nous pouvons vous présenter un produit qui vous intéresse. Pouvez-vous imaginer une boutique en ligne ? Vous y allez - cette boutique en ligne intercepte votre compte sur un réseau social et vous dit : "Masha, tu viens de rompre avec ton petit ami, voici certains produits pour toi." Ce n'est pas un avenir proche...

Comment est déterminée la géolocalisation d’une personne ?

Réponses aux questions du public :

  • En règle générale, 80 % de tous les enregistrements sont considérés comme le lieu de résidence exact. Mais pour les personnes qui ne s'enregistrent nulle part, il existe plusieurs options : soit l'enregistrement, soit la géolocalisation, soit il s'agit d'une analyse des posts et publications sur toute la période pendant laquelle une personne a écrit quelque chose... Et quelque part, quelque chose apparaîtra comme « Je veux acheter une poussette près d'Akademicheskaya » ou « J'ai récemment vu de vilains graffitis sur le mur ici ». Autrement dit, pour près de 80 % des personnes, leur géolocalisation, leur lieu de travail et leur lieu de résidence peuvent être déterminés à l'aide de données ou métadonnées pouvant être collectées sur les réseaux sociaux.

    Ceci, encore une fois, est une analyse des messages. Au sens le plus simple, il s'agit d'une analyse des enregistrements et des géolocalisations dans les réseaux sociaux, qui ne suppriment pas les métadonnées jpeg (vous pouvez en déduire quelque chose). Mais pour le reste des personnes, il s'agit généralement d'émissions de SMS : soit une personne « éclaire » sa position lorsqu'elle écrit sur quelque chose, soit elle « éclaire » son téléphone, grâce auquel vous pouvez retrouver une partie de sa publicité sur Avito ou son compte sur " AutoRU". Sur la base de ces données, vous pouvez combiner (par exemple, « Je vends une voiture près de Mayakovskaya ») et supposer grossièrement cela.

  • Les gens publient généralement cela sur les réseaux sociaux. Nous travaillons uniquement avec des sources ouvertes et nous parlons ici exclusivement de sources ouvertes. Ils publient généralement des publicités, c'est-à-dire que dans soixante pour cent des cas, l'histoire la plus courante lorsque les gens « montrent » leur numéro de téléphone portable actuel est une publicité pour la vente de quelque chose. Soit dans certains groupes, une personne écrit (« Je vends ceci ou cela là-bas »), soit elle va quelque part.

    Oui! Ils commentent généralement du genre : « Répondez-moi ou envoyez-moi un SMS, appelez mon numéro. Cela arrive très souvent aux personnes qui vendent quelque chose, achètent quelque chose sur les réseaux sociaux, communiquent avec quelqu'un... Ainsi, grâce à ce numéro, vous pourrez ensuite y lier son profil sur CIAN, s'il a déjà publié quelque chose, ou, encore, sur Avito. Ce sont tout simplement les principales sources les plus populaires, ce sera plus loin - ce sont Avito, CIAN, etc.

  • Il s'agit d'une boutique en ligne. Vient ensuite la technologie de reconnaissance faciale et de correspondance de profils (nous en reparlerons). En théorie pure, cela peut être appliqué à une boutique hors ligne. Et en général, mon grand rêve est que lorsque des banderoles apparaissent, lorsque vous passez devant une caméra, cela vous « piège » le visage. Mais cette affaire sera interdite par la loi car elle constitue une atteinte à la vie privée. J'espère que cela arrivera tôt ou tard.
  • Par expérience personnelle. Très souvent, lorsqu'une personne vous écrit quelque chose, vous opérez sur certains faits de sa vie que vous ne devriez pas connaître... Dans la plupart des cas, les gens ont peur. Mais! Selon des statistiques récentes, le nombre de comptes fermés sur les réseaux sociaux a diminué de 14 %. Le nombre de contrefaçons augmente, le nombre de comptes ouverts augmente - les gens s'orientent de plus en plus vers l'ouverture. Je pense que dans 3-4 ans, ils cesseront de réagir aussi fortement au fait que quelqu'un connaisse à leur sujet des informations qu'ils ne devraient potentiellement pas connaître. Mais c'est en fait très facile de s'en rendre compte en regardant son mur.

Que peut-on extraire des sources ouvertes ?

Il existe une liste approximative de choses qui peuvent être comprises avec une assez grande fiabilité à partir de sources ouvertes. En fait, il existe encore plus de mesures différentes ; cela dépend du client d'une telle recherche. Il existe une agence RH qui s'intéresse à savoir si vous jurez sur les réseaux sociaux ou quelque part dans l'espace public. Quelqu'un souhaite savoir si vous aimez les publications de Navalny ou, à l'inverse, les publications de Russie unie, ou une sorte de contenu pornographique - de telles choses arrivent assez souvent.

Les principaux sont les valeurs familiales, le coût approximatif d'un appartement, d'une maison, la recherche d'une voiture, etc. Sur cette base, les gens peuvent être divisés en groupes sociaux. Il s’agit des utilisateurs de Moscou Tinder, qui ils sont (d’après leurs photos trouvées sur leurs comptes Facebook) ; en fonction de leurs intérêts, ils sont répartis en différents groupes sociaux :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Si l'on se rapproche de la publicité, alors on s'éloigne peu à peu du ciblage publicitaire standard, lorsque l'on sélectionne sur VKontakte que l'on s'intéresse aux hommes de 18 ans abonnés à certains groupes. J'ai cette photo ensuite, je vais vous la montrer maintenant :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

L'essentiel est que la plupart des services actuels qui analysent, en principe, les personnes qui analysent les réseaux sociaux, sont engagés dans l'analyse des intérêts... La première chose qui vient à l'esprit des gens est d'analyser les principaux groupes de leurs abonnés. Peut-être que cela fonctionne pour certains, mais personnellement, je pense que c'est fondamentalement faux. Pourquoi?

Vos likes sont collectés et analysés

Maintenant, prenez vos téléphones, regardez vos principaux groupes - il y aura certainement plus de 50 % de groupes que vous avez déjà oubliés, c'est une sorte de contenu qui ne vous concerne en fait pas. Vous n’en consommez pas du tout, mais néanmoins le système vous suivra en fonction d’eux : que vous soyez abonné à des recettes, à certains groupes populaires. Autrement dit, vous violerez le système qui analyse votre profil et vos intérêts ne seront pas justifiés.

Passons à autre chose... Qu'y a-t-il ? Nous supposons ce que font les autres. À notre avis, le moyen le plus adéquat d’évaluer les intérêts des utilisateurs est le like. Par exemple, sur VKontakte, il n'y a pas de flux de likes et les gens pensent que personne ne sait ce qu'ils aiment. Oui, certains likes sont introduits sur Instagram, nous voyons quelque chose sur Facebook, mais la plupart des contenus de certains groupes ne le diffusent pas dans un flux commun, et les gens vivent et pensent que personne ne saura ce qu'ils aiment.

Et en collectant certains contenus d'une certaine sorte qui nous intéressent, en collectant ces publications, en collectant ces likes, puis en vérifiant cette personne à l'aide de cette base de données, nous pouvons déterminer avec une grande précision qui elle est, quel est son destin, ce qui l'intéresse. Placez-le exactement dans un certain groupe social et interagissez avec lui.

Acheter une voiture change les comportements

J'ai un tel exemple. Je ferai immédiatement une réserve sur le fait que mes exemples sont proches de la publicité et du marketing, car, vous savez, la plupart des cas sont protégés par NDA, etc. Mais il y aura encore beaucoup de choses intéressantes. Alors, l'histoire de ces gens : ce sont des hommes qui ont acheté une voiture entre 2010 et 2015. La façon dont leur comportement social en ligne a changé est indiquée par la couleur. Le pourcentage de filles parmi les abonnés a changé, je me suis abonné à des pages publiques « boyish », j'ai trouvé un partenaire sexuel permanent...

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Tout cela est ventilé par marque de voiture et nombre de personnes. De là, vous pouvez tirer de nombreuses conclusions intéressantes sur le comportement des gens et comment tout cela fonctionne. Je peux dire que la Porsche Cayenne et la Priora plantée sont quasiment identiques en termes de nombre de public attiré. La qualité de ce public et son comportement sont différents, mais la quantité est à peu près la même. La conclusion que vous pouvez en tirer est celle que vous souhaitez, plus proche de votre marché. Si vous vendez une Audi, vous faites le slogan « Achetez une Audi et éloignez-vous de vos parents ! » et ainsi de suite.

Oui, c'est un exemple amusant du fait que le comportement des personnes basé sur l'analyse des likes, sur la base du groupe vers lequel elles se déplacent, du contenu qu'elles analysent - avec une probabilité de presque 100%, indique clairement qui vous êtes. Parce que si vous n'avez pas accès au trafic réseau et ne lisez pas les messages personnels, les likes vous diront toujours qui est cette personne - une femme enceinte, une mère, un militaire, un policier. Et pour vous, en tant que personne capable de faire de la publicité, c'est un grand succès.

Réponses aux questions du public :

  • Chaque colonne indique le nombre de personnes dans cette voiture ; comment leurs comportements ont changé. Regardez : les personnes qui ont acheté une Porsche Cayenne - environ 550 personnes (jaune), le pourcentage de filles parmi les abonnés a augmenté.
  • L'échantillon est constitué des utilisateurs des réseaux sociaux « Vkontakte », « Facebook », « Instagram » de 2010 à 2015. Seule précision : les voitures sélectionnées ici sont celles qui peuvent être identifiées sur des photographies avec plus de 80 % de précision grâce à certains outils.
  • Pendant un certain temps, sa voiture (enfin, pas la sienne, on laisse ça aux réseaux sociaux)... Pendant un certain temps, une personne était constamment photographiée avec la voiture, était avec elle, les publications étaient différents, les photographies étaient prises sous des angles différents, etc. On verra alors quelles personnes prennent des photos avec quelles voitures et... Oui, c'est la deuxième question : la confiance dans les données des réseaux sociaux.
  • Depuis que nous en avons parlé, malheureusement, les données des réseaux sociaux ne sont pas toujours exactes. Les gens ne sont pas toujours enclins à publier leurs informations. Personnellement, j'ai mené une telle étude : j'ai comparé le nombre de diplômés des universités de Moscou avec le nombre de personnes inscrites sur les réseaux sociaux. En moyenne, 60 % de personnes de plus sont inscrites sur les réseaux sociaux - diplômés de l'Université d'État de Moscou pendant une certaine année dans certaines spécialités qu'il n'y en a en principe. Alors oui, il y a bien sûr un pourcentage d'erreurs ici, et personne ne le cache. Ici, nous prenons simplement comme base les voitures qui peuvent être identifiées avec plus de 80 % de probabilité.

Liste des sources pour la formation des modèles

Voici un exemple de liste de sources pouvant être utilisées, qui permettent de déterminer avec une grande certitude le profil social d'une personne, qui elle est.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Nous prenons un profil des réseaux sociaux, du CIAN - le coût d'un appartement est approximativement, "Head-Hunter", "Superjob" - c'est le salaire moyen pour une personne donnée. J'espère qu'il n'y a pas de représentants de Head Hunter ici, car ils pensent que ce n'est pas très bon de leur prendre ces données. Cependant, il s'agit du salaire moyen dans certaines régions pour certains types d'activités pour les postes vacants.

"Avito", "Avto.ru" : très souvent les gens, lorsque leur téléphone est allumé, ils ont certainement (dans un grand nombre de cas) au moins quelque chose sur "Avito", ou sur "Avto.ru", ou sur plusieurs autres sites à partir desquels vous pouvez comprendre qui ils sont. Si une poussette ou une voiture a été vendue sur ce numéro de téléphone... Rosstat et le Registre d'État unifié des personnes morales sont encore d'autres registres à l'aide desquels vous pouvez classer l'entreprise qui vous emploie - selon une formule, selon un modèle qui n'importe qui peut définir (vous pouvez déterminer approximativement l'argent de cette personne, etc.).

Tinder aide à collecter des données sur la situation des gens

De plus, il y a une chose tellement intéressante (alternativement, c'est très drôle dans l'étude) - c'est, encore une fois, la collecte de données de Moscou Tinder à l'aide de robots pour ce Tinder. La distance par rapport aux personnes a été déterminée, puis leur emplacement approximatif a été déterminé.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

L'objectif de cette étude était de déterminer le nombre de comptes Tinder sur le territoire des institutions gouvernementales - à la Douma, au parquet, etc. Mais vous, en tant qu'annonceur, pouvez imaginer ce que vous voulez : cela pourrait être, par exemple, Starbucks ou quelqu'un d'autre... C'est-à-dire le nombre de personnes sur Tinder qui boivent du café chez vous, commandent quelque chose, sont dans les magasins Concernant cette géolocalisation : cela peut se faire avec n’importe quel service.

Réponse à une question du public :

  • Tinder? Vous ne savez pas? Tinder est une application de rencontres dans laquelle vous regardez des photos (gauche-droite) et cette application vous montre la distance par rapport à la personne. Si vous obtenez la distance jusqu'à cette personne à partir de trois points différents, vous pouvez déterminer approximativement (+ 5-7 mètres) l'emplacement. Dans ce cas, pour déterminer sur le territoire du parquet ou de la Douma d'Etat, ce n'est pas si difficile. Mais encore une fois, cela pourrait être votre magasin, cela pourrait être n'importe quoi.

Par exemple, il y a très, très longtemps, nous avons eu un tel cas (pas une étude), lorsque nous avons reçu d'un des opérateurs cellulaires des données sur la densité du trafic, des données sur la densité de mouvement des points cellulaires, et toutes ces informations se sont superposées sur les coordonnées des panneaux publicitaires situés sur les autoroutes. Et la tâche de l'opérateur de téléphonie mobile est de déterminer approximativement combien de personnes passent par là et pourraient potentiellement voir ce panneau publicitaire.

S'il y a ici des spécialistes de la publicité par panneaux publicitaires, vous pouvez dire : c'est impossible à comprendre avec une grande fiabilité - quelqu'un arrive, quelqu'un n'a pas regardé, quelqu'un a regardé... Néanmoins, c'est un exemple de la façon dont il y a 20 milliards de polygones de celles de Moscou, sur lesquelles se situe la densité de ces personnes à chaque heure le long de certains itinéraires... Vous pouvez voir par quoi ces personnes passaient à tout moment et estimer grossièrement le flux de passagers.

Réponse à une question du public :

  • Personne ne donne de telles données. Nous avons mené une telle étude pour l'un des opérateurs, il s'agit d'une histoire exclusivement interne, elle n'est donc malheureusement pas présentée sous forme d'images. Mais souvent, les grandes agences de publicité n'ont aucun problème à contacter un opérateur. Au moins à Moscou, il existe de nombreux précédents lorsque, par exemple, les compagnies d'assurance se tournent vers des sociétés comme GetTaxi, qui fournissent des données impersonnelles sur l'âge du conducteur, sa façon de conduire (bonne - mauvaise, imprudente - non), afin de prédire politiques et ainsi de suite. Tout le monde a du mal avec cela, mais à un certain niveau interne, fournir des données anonymes - je pense que personne n'a un tel problème.

Reconnaissance d'images et de formes

Poursuivre. Mon préféré est la reconnaissance d'images. Il y aura un petit article sur la recherche de personnes par visage, mais nous ne prenons généralement pas cette partie. Nous prenons spécifiquement la reconnaissance d'image et déterminons ce qu'il y a dans cette image - la marque de la voiture, sa couleur, etc.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

J'ai cet exemple amusant :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Il y a eu une telle étude sur la recherche de tatouages ​​​​sur divers réseaux sociaux. En conséquence, la même chose peut s’appliquer à n’importe quelle marque, à n’importe quelle image visuelle, à presque n’importe quelle image visuelle. Il y a ceux qui ne peuvent pas être déterminés de manière fiable (nous ne les prenons pas).

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Voici mon préféré. Les marques automobiles se tournent assez souvent vers cette tâche car leur tâche, par exemple, est de retrouver tous les propriétaires d'une certaine BMW X6, de comprendre qui ils sont, comment ils sont connectés les uns aux autres, ce qui les intéresse, etc. Cela rejoint la question de savoir avec quelles voitures les gens prennent des photos sur les réseaux sociaux.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Il n’y avait aucun filtrage ici : l’objet était à eux, la voiture n’était pas à eux ; C’est juste une panne de voiture – l’âge, etc. Mais la reconnaissance visuelle d'images est utilisée assez souvent : il s'agit de la recherche de femmes enceintes et de la recherche de logos de marques dans certains médias (qui publie quoi).

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Mon cas préféré (qui est utilisé par divers restaurants) : quels types de petits pains sont postés sur un réseau social. C’est drôle, mais en fait cela permet de comprendre beaucoup de choses intéressantes, tout d’abord sur vos propres clients : qui est venu vers vous et pourquoi ils l’ont fait. Car ce n’est un secret pour personne, dans les bars à sushi, la plupart des gens (je ne dirai pas « les filles ») prennent des photos pour s’enregistrer, prendre une photo de quelque chose, etc.

La marque peut en profiter. La marque s'intéresse au type de produits dont elle a besoin pour photographier et publier magnifiquement, quel genre de personnes sont venues là-bas. Cette chose peut être faite avec presque n'importe quoi, depuis la nourriture.

Reconnaissance de formes vidéo

Réponse à une question du public :

  • Pas en vidéo. Nous l'avons en mode test. Nous avons essayé cette technologie, mais il s’avère que... Elle reconnaît assez bien tout ce qui concerne la vidéo, mais nous n’avons trouvé d’application nulle part. Au revoir. En plus d'analyser combien et quels blogueurs vidéo parlent quelque part... Il y a eu une telle étude. Combien de leurs visages se rencontrent, à quelle fréquence. Mais les marques ne savent pas encore où proposer cela. Peut-être qu'un jour cela viendra.

Encore une fois, il s'agit de nourriture, il peut s'agir de femmes enceintes, d'hommes (non enceintes), de voitures - n'importe quoi.

En option, une étude du Nouvel An a été réalisée pour un média. Loin aussi de la publicité, mais quand même. Voici le type de nourriture que les gens jeûnaient pour le Nouvel An :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Il est également ventilé ici par âge. On peut constater une telle corrélation que les jeunes commandent principalement de la nourriture, tandis que les adultes préparent principalement une table traditionnelle. C'est drôle, mais en l'imaginant en tant que propriétaire de marque, vous pouvez évaluer un grand nombre de choses : qui manipule votre produit et comment, ce qu'ils écrivent à ce sujet. Souvent, les gens ne mentionnent pas toujours la marque elle-même dans le texte, et les systèmes de surveillance analytique traditionnels ne peuvent pas toujours comprendre et trouver cette mention de la marque uniquement parce qu'elle n'est pas mentionnée dans le texte. Ou le texte est mal orthographié, il n'y a pas de balises de hachage ou quoi que ce soit.

Les photos sont visibles. Avec la photographie, vous pouvez savoir si c'est le sujet central du cadre ou non. Ensuite, vous pourrez voir ce que cette personne a écrit. Mais le plus souvent, il est utilisé pour rechercher des publics potentiels qui ont conduit certaines voitures, etc. Et puis nous ferons beaucoup de choses intéressantes avec ces voitures.

On apprend aux robots à imiter les humains

Il existait également une telle option pour utiliser le comptage de personnes :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Il existe une option pour comparer les personnes, lorsque vous avez besoin de trouver des personnes à l'aide de certaines photographies, de comprendre leur profil social, qui elles sont. Encore une fois, nous revenons à la question suivante : si nous avons un appareil photo dans un magasin hors ligne, c'est un assez bon moyen de comprendre qui vient à vous, qui sont ces personnes, ce qui les intéresse, ce qui les a poussés à venir vers vous. .

Vient ensuite la chose la plus intéressante : si nous collectons leurs comptes sur les réseaux sociaux, comprenons qui sont ces personnes, ce qui les intéresse, nous pouvons (en option) créer un bot similaire à ces personnes ; ce bot commencera à vivre comme ces personnes et analysera les publicités qu'il verra sur les différents réseaux sociaux. Cela vous permettra de comprendre avec précision quelles marques s'adressent à cette personne. C'est également une histoire assez courante lorsque vous devez non seulement analyser qui est cette personne et quels sont ses intérêts, mais également quel type de publicité vos concurrents potentiels ou d'autres personnes intéressées devraient cibler.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Analyse des connexions dans les réseaux sociaux

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

La prochaine chose intéressante est l’analyse des relations entre les personnes. En fait, l'analyse des connexions dans le réseau, ces graphiques de réseau - il n'y a rien de nouveau là-dedans, tout le monde le sait.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Mais l’application aux tâches publicitaires est la plus intéressante. Il s'agit d'une recherche de personnes qui établissent des tendances, c'est une recherche de personnes qui diffusent des informations selon certains critères au sein de ce réseau. Disons que nous nous intéressons aux mêmes propriétaires d'un certain modèle BMW. En les réunissant tous, nous pouvons trouver ceux qui contrôlent l’opinion publique. Ce ne sont pas nécessairement des blogueurs automobiles, etc. Il s'agit généralement de simples camarades qui siègent sur diverses pages publiques, s'intéressent à certains contenus et peuvent, en très peu de temps, attirer votre marque ou quelqu'un qui vous intéresse dans ce domaine de responsabilité, dans le domaine de ​intérêt.

Il y a un tel exemple ici. Nous avons des personnes potentielles, des liens entre les gens. Ici, les oranges sont des personnes, les petits points sont des groupes communs, des amis communs.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Si vous rassemblez toutes ces connexions entre eux, vous voyez très clairement qu'il y a des gens qui ont un grand nombre de groupes communs, d'amis communs, ils sont là entre eux... Et si cette même visualisation est divisée en groupes par intérêts, par le contenu qu'ils distribuent, dans quelle mesure ils interagissent les uns avec les autres... Ici vous pouvez voir que l'image précédente est devenue comme ceci :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Ici, les groupes se distinguent clairement par la couleur. Dans ce cas, il s'agit de nos étudiants en master à la Higher School of Economics. Ici, vous pouvez voir que les violets/bleus sont ceux qui aiment Transparency International, Open Russia et les pages publiques de Khodorkovski. En bas à gauche, les verts, ceux qui aiment Russie unie.

Vous pouvez voir que l’image précédente était comme ceci (ce ne sont que des liens entre les gens), mais elle est devenue clairement délimitée. Autrement dit, tous les gens sont toujours liés les uns aux autres, ils ont les mêmes intérêts, ils sont amis les uns avec les autres. Il y en a certains en haut, d'autres en bas, et d'autres camarades là-bas. Et si chacun de ces petits sous-graphiques est visualisé séparément avec d'autres paramètres et regarde la vitesse de diffusion du contenu (en gros, qui republie quoi là-bas), on peut trouver dans chaque partie une ou deux personnes qui tiennent toujours l'opinion publique entre leurs mains, en interagissant avec lequel, en demandant d'envoyer une sorte de message ou autre chose, vous pouvez obtenir une réponse de l'ensemble de ce public intéressant.

J'ai un autre exemple de ce type. Egalement un graphique : ce sont des salariés du Groupe BBDO trouvés sur les réseaux sociaux à titre d'exemple. Ça a l'air inintéressant, gros, vert, les liens entre eux...

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Mais j'ai une option où des groupes sont déjà construits entre eux. Ensuite, si quelqu'un est intéressé, il existe une version interactive - vous pouvez cliquer et jeter un œil.

En haut à droite se trouvent ceux qui aiment Poutine. Ici, les violets sont les créateurs ; ceux qui s'intéressent au design, à quelque chose d'intéressant, etc. Ici, les choses blanches sont l'équipe de direction (apparemment, si je comprends bien) ; Ce sont des personnes qui, en général, ne sont liées d'aucune façon, mais travaillent à peu près aux mêmes postes. Le reste est constitué de leurs groupes communs, de leurs connexions, etc.

Les marques n'ont pas besoin de blogueurs, mais de leaders d'opinion

Nous prenons ces personnes et les trouvons - puis l'agence de publicité, la société de publicité décide elle-même : elle peut donner de l'argent à cette personne pour qu'elle interagisse d'une manière ou d'une autre avec ce contenu, autre chose, ou leur adresse sa propre campagne publicitaire spécifique. Ceci est également utilisé assez souvent, surtout maintenant, car toutes les marques veulent travailler avec des blogueurs, elles veulent que leur contenu soit promu, mais les agences de publicité ne veulent pas vraiment les contacter (enfin, cela arrive).

Et le véritable moyen de sortir de cette situation est de trouver des gens qui ne sont pas des blogueurs, ni des blogueurs beauté, mais par exemple, des êtres réels qui interagissent avec cette marque, qui peuvent écrire sur une misérable page publique « Mail.ru Answers », obtenir un certain nombre de vues. Ces personnes, constamment intéressées par le contenu de cette personne, diffuseront le tout et la marque sera impliquée.

La deuxième option pour utiliser une telle technologie est désormais tout à fait pertinente : la recherche de robots, ma préférée. Il s'agit d'un risque de réputation pour vos concurrents et d'une opportunité d'éliminer les personnes non pertinentes d'une campagne publicitaire et de toute autre chose (suppression de commentaires et recherche de liens entre les personnes). J'ai un tel exemple, il est également grand et interactif - vous pouvez le déplacer. Ce sont des liens de personnes qui ont écrit des commentaires dans la communauté Lentach.

Cet exemple est destiné à vous permettre de comprendre à quel point les robots sont bien visibles et facilement visibles ; et pour cela, vous n’avez besoin d’aucune connaissance technique. Cela signifie que « Lentach » a publié un article sur l'enquête du FBK sur Dmitri Medvedev et que certaines personnes ont commencé à écrire des commentaires. Nous avons rassemblé toutes les personnes qui ont écrit des commentaires - ces personnes sont vertes. Maintenant, je vais le déplacer :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Les gens sont les verts (qui ont écrit les commentaires). Ils sont là, ils sont là. Les points bleus entre eux représentent leurs groupes communs, les points jaunes représentent leurs abonnés, amis, etc. communs. La majorité des gens sont connectés les uns aux autres. Car, quelle que soit la théorie des trois, quatre, cinq poignées de main, tous les gens sont connectés les uns aux autres sur les réseaux sociaux. Il n’y a personne qui soit séparé les uns des autres. Même mes amis socialement phobiques qui utilisent VKontakte exclusivement pour regarder des vidéos sont toujours abonnés à certaines des mêmes pages publiques que nous.

Navalny utilise également des robots. Tout le monde a des robots

La plupart des gens (le voici, ici) sont connectés les uns aux autres. Mais il existe un si petit groupe de camarades qui sont exclusivement amis les uns avec les autres. Les voici, les petits verts, voici leurs amis et groupes communs. Ils sont même tombés séparément ici :

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Et par une heureuse coïncidence, ce sont précisément ces personnes qui ont écrit sous ce post : « Navalny n'a aucune preuve », et ainsi de suite, ont écrit les mêmes commentaires. Bien sûr, je n’ose pas tirer de conclusions. Mais néanmoins, j'ai eu un autre post sur Facebook, quand il y avait un débat entre Lebedev et Navalny, j'ai analysé les commentaires de la même manière : il s'est avéré que tous les gens qui ont écrit « Lebedev c'est de la merde », n'étaient pas sur les réseaux sociaux. réseaux récemment, quatre mois, sans abonnement à aucune des pages publiques, sont soudainement allés sur ce message particulier, ont écrit ce commentaire précis et sont partis. Encore une fois, il est impossible de tirer des conclusions à partir de là, mais quelqu’un de l’équipe de Navalny m’a écrit un commentaire disant qu’ils n’utilisent pas de robots. Bien, OK!

Plus proche de la publicité, plus proche de la marque. Tout le monde a des robots maintenant ! Nous les avons, nos concurrents les ont et d’autres les ont. Il faut les jeter dehors ou les laisser vivre bien ; Sur la base de ces données (montre la diapositive précédente), amenez-les à la perfection afin qu'elles ressemblent à de vraies personnes et utilisez-les ensuite seulement. Même si utiliser des robots est mauvais ! Néanmoins, une histoire assez courante...

En mode automatique, une telle chose vous permet de filtrer de votre analyse les personnes qui ne sont pas pertinentes pour l'analyse, les personnes qui ne devraient pas être incluses dans l'échantillon, ne devraient pas être incluses dans cette étude. Très souvent utilisé. Là encore, tous les propriétaires de voitures ne possèdent pas réellement de voiture. Parfois, les gens ne s'intéressent qu'aux personnes qui possèdent potentiellement une voiture, qui s'assoient dans certains groupes, communiquent avec quelqu'un, ils y ont un certain public.

Analyse des faits et des opinions

Le prochain que j'ai est aussi mon préféré. Il s'agit d'une analyse de faits et d'opinions.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

De nos jours, tout le monde sait comment mentionner sa marque dans diverses sources. Il n’y a pas de secret à cela. Et tout le monde semble être capable de calculer la tonalité... Même si personnellement, je pense que la métrique de tonalité en elle-même n'est pas très intéressante, car quand vous venez dire au client : « Mec, tu as 37 % de neutre », et il le dit , " Ouah! Cool!" Il serait donc plus intéressant d’aller un peu plus loin : de l’évaluation du sentiment à l’évaluation des opinions sur ce qu’ils disent sur votre produit.

Et c'est aussi une chose très intéressante, parce que... Je crois personnellement qu'en principe il ne peut y avoir de messages neutres, parce que si une personne écrit quelque chose dans l'espace public, ce message est en quelque sorte coloré d'une manière ou d'une autre. Personnellement, je n’ai jamais vu de message neutre mentionnant une marque. Habituellement, c'est une sorte de saleté.

Si nous prenons un grand nombre de ces messages (il pourrait y en avoir des millions, 10 millions), mettons en évidence l'idée principale de chaque message, les combinons, nous pouvons comprendre de manière assez fiable ce que les gens disent de cette marque, ce qu'ils pensent. « Je n’aime pas l’emballage », « Je n’aime pas la cohérence », etc.

Que pensent les gens de Transaero, de Chupa Chups et du président des États-Unis ?

J'ai un exemple amusant : il s'agit d'une infographie sur ce que les utilisateurs des réseaux sociaux feraient avec l'entreprise Transaero après sa faillite.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Il y a là de nombreux exemples intéressants : brûler, tuer, expulser vers l’Europe, il y en a même 2% qui ont écrit : « Envoyez-les en Syrie pour des opérations militaires ». Passant à la chose amusante, il pourrait s'agir de presque n'importe quelle marque - de ma nourriture pour chien préférée à certaines voitures. Celui qui n’aime pas l’emballage, celui qui n’aime pas les choses réelles – vous pouvez toujours travailler avec cela, vous pouvez toujours en tenir compte. Il existe de nombreux exemples où des gens ont presque changé la production de leurs produits parce qu'ils ont écrit sur les réseaux sociaux que les Chupa Chups n'étaient pas assez rondes ou qu'elles n'étaient pas assez sucrées.

Il y a un autre exemple amusant. Devinez quels commentaires et à propos de qui ?

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Pour une raison quelconque, l’analyse des opinions, l’analyse des faits extraits des messages, ne sont plus très utilisées et ne sont pas très répandues. Bien que cette technologie ne soit pas super secrète, il n'y a pratiquement aucun savoir-faire dans ce domaine, car à partir des commentaires des gens, extraire le sujet, le prédicat et les regrouper ne nécessite pas un génie en linguistique informatique. Ce n'est pas si difficile à faire. Mais j'espère que dans les prochaines années, les gens commenceront à l'utiliser, parce que... Ce sera cool - c'est un feedback tellement automatique ! Vous savez toujours ce qu'ils disent de vous. Eh bien, vous comprenez que cela a été dit à propos du président américain.

Réponse à une question du public :

  • Oui, c'est Facebook en anglais. Ils sont traduits en russe ici. Cela a été écrit quelque part.

Big Data et technologies politiques

En fait, j’ai de nombreux exemples intéressants de politique concernant Trump et tout le monde, mais nous avons décidé de ne pas les présenter ici. Mais il existe un exemple politique.

Ce sont des élections à la Douma d'Etat. Quand étiez vous? L'année dernière? Il y a presque un an et demi.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Voici des personnes qui ont pu déterminer leur localisation exacte, jusqu'à un certain géopoint, afin de comprendre dans quelle circonscription électorale ils se situent. Et puis parmi ces personnes, seuls ont été retenus ceux qui exprimaient leur opinion définitive, pour lesquels ils voteraient.

Du point de vue de la technologie politique, ce n’est pas tout à fait correct, car tout cela doit être normalisé par la densité de population, etc. Pourtant, les bleus ici vont voter pour vous savez qui, les rouges vont voter pour des camarades de l’opposition, qui d’ailleurs n’étaient pas nombreux.

Je crois personnellement que le Big Data n’atteindra pas de sitôt les technologies politiques, mais, en option, le candidat est aussi une marque. Et c'est aussi, dans une certaine mesure, une analyse de faits et d'opinions sur votre marque, et c'est une chose plutôt intéressante, car vous pouvez comprendre en temps réel qui fait quoi. Je connais plusieurs cas de la BBC, où ils ont surveillé les réseaux sociaux en temps réel dans certaines émissions : il y a eu telle ou telle réponse, les gens écrivent à ce sujet, posent telle ou telle question - et c'est génial ! Je pense qu'il sera utilisé très bientôt, car il intéresse tout le monde.

Modélisation des positions des marques

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Ensuite, j'ai la modélisation des positions de la marque. Un petit article court sur la façon dont vous pouvez classer les marques à l'aide de diverses mesures (pas les goûts des abonnés sur les réseaux sociaux, mais en utilisant des mesures complexes, l'intérêt pour le contenu, le temps passé à recevoir des mesures).

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

J'ai un exemple de « pharma » pour une certaine raison. Ici, les petits cercles sont internes, lumineux - c'est la quantité de contenu textuel que la marque elle-même crée, le grand cercle est la quantité de contenu photo et vidéo que la marque elle-même crée.

La proximité du centre montre à quel point le contenu est intéressant pour le public. Il y a un grand modèle, il y a un tas de toutes sortes de paramètres : likes, reposts, temps de réponse, qui y a partagé en moyenne... Ici vous pouvez voir : il y a un merveilleux « Kagotsel », qui pompe une énorme quantité de de l'argent pour créer son propre contenu et, de ce fait, ils sont assez proches du centre. Et il y a des camarades qui créent aussi leur propre contenu, mais cela n'intéresse pas le public. Ce n’est pas un exemple très adéquat, car tous ces comptes sont pratiquement morts.

Yegor Creed est plus aimé que Basta

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Malheureusement, le reste... de quoi montrer... Eh bien, il y a aussi des rappeurs russes, en option, de vraies entreprises.

Quel est le plus ? Le fait est qu’une entreprise peut investir presque n’importe quoi dans un tel modèle, à commencer par le salaire moyen des abonnés qui travaillent pour votre marque ; n'importe quel modèle qu'ils aiment. Étant donné que chaque agence de publicité calcule ses propres mesures différemment, les marques calculent leurs propres mesures différemment.

Il y en a aussi un ici - Basta, qui génère une grande quantité de contenu, mais est situé en périphérie, car ce contenu n'est apparemment pas très intéressant pour le public. Encore une fois, je ne prétends pas juger. Mais néanmoins, il y a Yegor Creed, qui, selon les réseaux sociaux, est presque le meilleur interprète de notre époque, mais ne publie que ses photographies personnelles. Il dispose néanmoins d’un grand nombre d’abonnés : ils sont environ un million. Je ne me souviens pas du nombre exact ; Je me souviens que le pourcentage d'engagement de ces personnes est bien supérieur à 85%, c'est-à-dire que pour un million d'abonnés, il reçoit 850 XNUMX réponses de ces vraies personnes - c'est une vraie folie. C'est vrai.

Arthur Khachuyan : « Le vrai Big Data dans la publicité »

Réponses aux questions du public :

Combien de temps a-t-il fallu pour créer le modèle d’analyse du rappeur ?

  • Chacun a son propre public cible, les intérêts de ces personnes sont calculés pour chacun... Tout cela est normalisé à la distance au centre approximativement, leur position radiale n'a pas d'importance (elle est simplement enduite ici pour la beauté, pour qu'ils le fassent ne pas se croiser). Seule la proximité approximative du centre est importante. C'est le modèle que nous utilisons. Par exemple, je préfère le cercle, certaines personnes le pensent en demi-cercle.
  • Ce modèle a été réalisé rapidement, en deux ou trois heures (oui, une seule personne). Ici, seules des métriques ont été insérées : ce que nous multiplions par quoi, l'additionnons, puis le normalisons d'une manière ou d'une autre. Cela dépend du modèle. Il y a des gens qui s'intéressent au salaire moyen (ce n'est pas une blague) de leurs abonnés. Et pour cela il faut trouver leurs contacts, Avito, tout calculer, multiplier. Il arrive que cela prenne beaucoup de temps à prendre en compte, mais précisément ceci (montre la diapositive précédente) - les paramètres ici sont très simples : abonnés, reposts, etc. Cela a pris environ deux à trois heures. En conséquence, cette chose est ensuite mise à jour en temps réel et vous pouvez l'utiliser.

Vient maintenant la partie amusante. J’en ai fini avec les exemples, car ce n’est pas intéressant de parler longtemps seul. Et j'espère que vous poserez maintenant des questions et que nous passerons en fait d'un sujet à l'autre, car j'ai de nombreux exemples de la manière dont les technologies peuvent être utilisées, etc.

Réponses aux questions du public :

  • J'ai eu un seul et unique cas personnel avec un «quasi-casino», pour ainsi dire, où une caméra y était placée, des visages étaient reconnus, etc. Le pourcentage de personnes reconnues est certainement assez important, tant chez nous que chez nos concurrents. Mais c'est en fait assez intéressant. Je vois cela comme une chose intéressante : vous pouvez comprendre qui sont ces gens et prédire très bien pourquoi exactement ils sont venus ici, ce qui a tellement changé dans leur vie qu'ils ont décidé de venir au casino. Mais en ce qui concerne certains types d'entreprises... Si vous mettez une telle chose dans une pharmacie, cela ne sert à rien - vous ne pouvez pas prédire pourquoi une personne est venue à la pharmacie.

    La tâche globale ici était de construire un modèle afin de comprendre quand une personne souhaite potentiellement s'intéresser à votre marque, afin que vous puissiez lui faire de la publicité non pas après avoir acheté quelque chose (comme c'est le cas actuellement), mais lui faire de la publicité " en prévision »du moment où tout cela se produira. C'était intéressant avec un tel « quasi-casino » ; il s'est avéré qu'il y avait un pourcentage assez intéressant de ces personnes - pourquoi : quelqu'un a soudainement reçu une promotion, quelqu'un d'autre a eu autre chose - des idées tellement intéressantes. Mais avec certains magasins, avec des détaillants, avec un magasin de pilules, il me semble que ce ne sera pas très correct.

Le Big Data est-il utilisé hors ligne ?

  • C'était hors ligne. Il vous suffit de comprendre exactement, grossièrement, si ce modèle conviendra ou non. Encore une fois, avec l'eau gazeuse... En fait, tout m'intéresse, mais personnellement, je ne comprends pas à quel point, comment les profils de ces personnes, leur comportement peuvent dépendre du moment où ils souhaitent acheter de l'eau en bouteille. Même si cela peut être vrai, je ne sais pas.

Combien y a-t-il de comptes de réseaux sociaux ouverts ?

  • Nous avons spécifiquement 11 réseaux sociaux - ce sont "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" et quelques petites choses (je peux regarder la liste, comme "Mail.ru" et ainsi de suite) . Sur VKontakte, nous avons définitivement une copie de tous ces camarades. Nous avons des gens sur VKontakte - cela représente 430 millions de tous ceux qui ont jamais existé (dont environ 200 millions sont constamment actifs) ; il y a des groupes, il y a des liens entre ces gens et il y a des contenus qui nous intéressent (textes), et une partie des médias, mais très réduite... En gros, on regarde cette image : s'il y a des visages là, on sauvez-les, s'il y a un mème, nous les sauvegardons. Nous ne le sauvegardons pas, car même nous n'en aurions pas assez pour sauvegarder le contenu multimédia.

    Il existe un Facebook en russe. Quelque part maintenant, 60 à 80 % sont des Odnoklassniki, dans quelques mois, nous les amènerons probablement tous jusqu'au bout. Instagram russe. Pour tous ces réseaux sociaux, il existe des groupes, des personnes, des connexions entre eux et le texte.

  • Environ 400 millions de personnes. Il y a une subtilité : il y a des gens dont la ville n'est pas précisée (ils sont potentiellement russes/non russes) ; Parmi ceux-ci, la moyenne des réseaux sociaux est de 14% de comptes fermés sur VKontakte, je ne connais pas le chiffre exact sur Facebook.
  • Nous ne sauvegardons pas non plus les médias sur Instagram – seulement s’il y a des visages. Nous ne stockons pas de tels (autres) contenus multimédias. Généralement intéressant : texte uniquement, liens entre les personnes ; Tous. La recherche la plus courante sur Instagram est la recherche habituelle sur l'audience : qui sont ces personnes et, surtout, la connexion de ces personnes avec d'autres réseaux sociaux. Retrouvez le profil de cette personne sur Vkontakte et Facebook afin de calculer son âge et ainsi de suite.
  • Il n'est pas encore nécessaire d'affronter tout le monde - tout simplement parce qu'il n'y a pas de clients. Concernant la langue : nous avons le russe, l'anglais, l'espagnol, mais elle est toujours utilisée exclusivement pour les marques russes ; enfin, ou les entreprises qui les apportent de Russie.
  • Nous interrogeons des personnes chaque jour dans de très nombreux fils de discussion : nous collectons des données en collectant le Web et mettons à jour ces indicateurs à l'aide d'Api. En 2-3 jours, vous pouvez parcourir l'intégralité de « VKontakte », en les parcourant ; En une semaine environ, vous pouvez parcourir l’intégralité de Facebook, en comprenant qui a mis à jour quoi et ce qui ne l’a pas fait. Et puis rassemblez ces personnes séparément : qu'est-ce qui a exactement changé, écrivez toute cette histoire. D'après mon expérience, l'ancien profil de réseau social de quelqu'un a très rarement été utilisé à des fins commerciales réelles. C'était l'époque où une personnalité politique postulait, et sa tâche était de comprendre quel genre de personnes venaient au siège, qui étaient ces personnes il y a 6 à 8 mois (ont-ils supprimé leur profil, mais en fait pour un autre candidat, les bulletins de vote sont arrivés gâcher).

    Et à quelques reprises, des histoires personnelles lorsque les photographies de quelqu'un ont été publiées dans le domaine public. Il a fallu trouver des connexions, etc. Malheureusement, c’est dommage, mais nous ne pouvons pas témoigner devant le tribunal, car notre base de données est juridiquement illiquide.

  • Le stockage MongoDB est mon préféré.

Les réseaux sociaux tentent de lutter contre la collecte de données

  • Habituellement, nous téléchargeons uniquement une liste de ces comptes aux annonceurs, puis ils utilisent le standard... Autrement dit, sur les réseaux sociaux, sur VKontakte, vous pouvez spécifier une liste de ces personnes.

    Mais Facebook utilise des cookies achetés. Nous ne travaillons pas nous-mêmes avec des cookies, mais il y a eu plusieurs histoires où l'annonceur lui-même a donné à certaines personnes, nous avons interagi avec elles - ils ont ces réseaux, avec de la publicité teaser et non teaser, ces « cookies ». Vous pouvez l'attacher - aucun doute ! Mais je n'aime pas vraiment ce truc parce que je ne pense pas que ce soit très authentique. C'est purement à mon avis, c'est comme TNS, qui « suit » les télés - on ne sait pas si vous regardez cette télé ou pas, si vous faites la vaisselle pendant que votre télé est allumée... Et c'est pareil ici : Je recherche très souvent quelque chose sur Internet, mais cela ne veut pas dire que je veux l'acheter.

  • Si vous utilisez une sorte de réseau de publicité contextuelle standard : j'ai eu plusieurs histoires lorsque nous leur avons téléchargé ces personnes et essayé, en utilisant leurs interfaces, de les connecter avec des « cookies » sur leurs sites. Mais je n'aime pas vraiment ce genre de choses.

Formule de calcul du salaire d'un internaute

  • La formule générale du salaire moyen : c'est la région où habite une personne, c'est la catégorie d'entreprise dans laquelle elle travaille (c'est-à-dire l'entreprise qui est son employeur), puis sa position dans cette entreprise est prise, le salaire moyen le salaire pour ce poste est estimé... Salaire moyen tiré de « Head Hunter » et « Superjob » (et il existe plusieurs autres sources) pour un poste vacant donné dans une région donnée et pour un contexte commercial donné.

    Depuis « Avito » et « Avto.ru », des paramètres supplémentaires sont généralement pris si une personne a allumé le téléphone. Avec Avito, vous pouvez voir quel genre de choses une personne vend : chères, peu coûteuses, utilisées, non utilisées. Avec "Avto.ru", vous pouvez voir s'il a une voiture - il la possède, il ne la possède pas. Cela représente moins de 20 % des personnes qui ont accidentellement laissé tomber leur téléphone quelque part, et leur compte peut être lié à ces données.

Quels volumes la société de collecte de données exploite-t-elle ?

  • Le volume de photographies stockées en pétaoctets est de 6,4. Je ne peux pas dire exactement le taux de croissance maintenant, car en 2016, nous avons commencé à enregistrer des « périscopes » et nous venons juste de commencer à enregistrer des vidéos.

    Je ne peux pas dire exactement quand c'était zéro. Nous sommes passés d’entreprise en entreprise – ce sont toutes de longues histoires. Mais je peux dire que VK, Facebook, Instagram et Twitter - toutes ces affaires (personnes, groupes et connexions entre eux) avec du texte et du contenu - ce ne sont en fait pas beaucoup de données, il est peu probable que même un pétaoctet en ait assez. Je pense que c'est 700 gigaoctets, probablement 800.

Aidez-vous les clients à déterminer le créneau actuel et où creuser ?

  • Lorsqu'un client vient, nous lui proposons de telles choses, mais nous-mêmes, comme Google Trends, ne faisons pas de telles choses.
  • Nous avons eu plusieurs histoires quasi sociologiques, avec une histoire électorale, pré-électorale – nous avons tout analysé. Avec les marques et l’évaluation des opinions sur les marques, tout est presque toujours d’accord. Voici des histoires d'élections - non (avec une évaluation du candidat qui devrait gagner). Je ne sais pas qui a tort ici – nous ou ceux qui pensent au VTsIOM.
  • Habituellement, nous prenons ces résultats de contrôle de la marque elle-même, ils les prennent auprès de camarades qui commandent des recherches - recherches téléphoniques, études marketing, etc. De plus, tout cela peut être vérifié avec des éléments de base : quelqu'un a répondu à la liste de diffusion, quelqu'un a fait des sondages... S'il s'agit d'une grande marque (Coca-Cola, par exemple), elle a certainement un million ou deux avis internes de clients. – il ne s’agit pas uniquement de commentaires sur les réseaux sociaux et de quelques avis ; Il s'agit d'une sorte de systèmes internes, d'examens, etc.

La loi ne « sait » pas ce que sont les données personnelles !

  • Nous analysons exclusivement des sources de données ouvertes et ne nous impliquons jamais dans de sales tours. Notre modèle repose sur le fait que nous stockons toutes les données ouvertes dans certains centres de données publics, les louons ailleurs et les analysons chez nous, dans nos bureaux, sur nos serveurs, et elles ne sortent pas du territoire.

    Mais notre législation en matière d’open data est très vague.

    Nous ne comprenons pas clairement ce que sont les données ouvertes et les données personnelles - il existe cette 152e loi fédérale, mais quand même... Comment comptent-elles ? Maintenant, si j'ai votre nom et votre numéro de téléphone dans une base de données, dans une autre base de données j'ai votre numéro de téléphone et votre e-mail, dans une troisième j'ai, disons, votre e-mail et votre voiture ; Tout cela semble être des données non personnelles. Si vous mettez tout cela ensemble, il semble que, selon la loi, cela deviendra une donnée personnelle.

    Nous contournons ce problème de deux manières. La première consiste à installer un serveur avec un logiciel pour le client, puis ces données ne dépassent pas son territoire, puis le client est responsable de la diffusion de ces données personnelles, données non personnelles, etc. Ou la deuxième option : s'il s'agit d'une sorte d'histoire où vous devez poursuivre un réseau social ou autre chose...

    Nous avons réalisé une telle étude lorsque nous avons collecté (il y a eu des primaires de Russie unie) pour Lifenews les récits de ces camarades et examiné quel genre de porno ils aimaient. C'était drôle, mais quand même. Nous vendons cela comme notre opinion personnelle, sans divulguer légalement dans les documents ce que nous avons analysé - le Registre d'État unifié des personnes morales, les salaires, les réseaux sociaux ; Nous vendons des avis d'experts, puis en marge nous expliquons à la personne ce que nous avons analysé et comment.
    Il y a eu plusieurs histoires, mais elles étaient liées à certains projets commerciaux publics. Par exemple, nous avons un projet gratuit à but non lucratif pour ceux qui font du longboard (ces planches sont longues) : la tâche consistait à collecter les publications des gens - lorsque quelqu'un publie « Je suis allé faire un tour au parc Gorky ». Et maintenant, il devrait apparaître sur la carte et les gens autour de lui pourront voir que quelqu'un est près de lui. VK s'est opposé à nous sur ce sujet pendant très longtemps, car ils n'aimaient pas le fait que nous publiions ces informations sans la permission des gens. Mais ensuite, l'affaire n'a pas été portée devant les tribunaux, car au sein de plusieurs grandes communautés, nous avons ajouté aux règles que les données pouvaient être utilisées par des tiers, des agences, des entreprises, des analyses, etc. Bien sûr, ce n'était pas particulièrement éthique, mais quand même.

  • Nous nous en sommes rendu compte à temps et avons commencé à vendre notre avis d’expert à tout le monde.

Travaillez-vous avec des établissements d’enseignement ?

  • Nous coopérons avec des établissements d'enseignement, oui. Nous avons toute une gamme : nous avons un programme de master à l’École supérieure et nous coopérons avec d’autres universités. Nous aimons beaucoup les universités !
  • Si vous avez mes contacts, vous pouvez m'écrire. Et un lien vers la présentation, si quelqu'un est intéressé - tous ces exemples sont là, vous pouvez le déplacer.
  • Si vous connaissez le numéro de téléphone, le courrier - c'est une option presque à cent pour cent, personne ne le supprimera. S’il n’y a pas de numéro de téléphone, c’est généralement une photo ; s’il n’y a pas de photo, c’est l’année, le lieu de résidence, le travail. Autrement dit, par année, lieu de résidence et de travail, presque tout le monde peut toujours être identifié de manière assez subtile. Mais là encore, c’est une question de tâche.

    Nous avons, disons, un client qui vend de la télévision sur Internet. Quelqu'un leur a acheté un abonnement à ces «Games of Thrones», et la tâche est d'utiliser son CRM pour trouver ces personnes sur les réseaux sociaux, puis d'en trouver des potentielles dans leur zone d'influence. Je veux juste dire qu’ils ont, disons, un prénom, un nom et une email… Et puis c’est très difficile de faire quoi que ce soit. Dans la plupart des cas, les personnes peuvent être trouvées par e-mail.

  • En fonction de la composition de nos amis, nous « faisons généralement correspondre » les personnes sur les réseaux sociaux, mais ce n'est pas toujours correct. Ce n’est pas que ce n’est pas toujours juste – cela ne fonctionne pas toujours. Premièrement, cela demande beaucoup de travail, car cette opération (matching people) devra être réalisée en premier pour chacun des amis - pour comprendre s'ils sont issus des réseaux sociaux ou non. Et puis - un fait inconnu de tous : sur VKontakte, nous avons les mêmes amis, sur Facebook, nous avons des amis différents. Pas pour tout le monde, mais pour moi par exemple, c’est comme ça ; et cela est également vrai pour la plupart des gens.

Comment sont collectées les données les plus complètes ?

  • Installation du logiciel pour le client de son côté. Un serveur est installé sur eux, qui ne récupère que nos données publiques et traite leurs données personnelles en interne. Une NDA est conclue avec le client. Bien sûr, ce n'est pas très correct qu'ils nous transfèrent cela, mais la responsabilité légale incombe au client - enfin, c'est-à-dire l'installation d'un logiciel pour lui ou le transfert de données anonymes. Mais cela était très rare, car - anonymisation correcte ou incorrecte - dans la plupart des cas, la dépendance entre ces personnes est perdue.

Qui achète un logiciel de reconnaissance faciale ?

  • En fait, nous allons ici parce que le principal logiciel que nous vendons est la recherche de visages et l'analyse de corrélation, et nous le vendons aux agences gouvernementales. Et il y a un an et demi, nous avons décidé de mettre toutes ces histoires dans la publicité, dans le marketing, sur le marché public - c'est ainsi qu'a été créée Social Data Hub, une entité juridique commerciale. Et maintenant, nous venons juste ici. Nous traînons ici depuis un an et demi maintenant, essayant d'expliquer aux gens qu'il n'est pas nécessaire de donner aux gens des téléchargements avec une mention, qu'il faut leur donner des réponses aux questions, qu'il n'y a pas besoin de tonalité , et ainsi de suite. Difficile donc de dire où...
  • (De qui parlez-vous ?) À tous les camarades qui ont besoin de rechercher des terroristes et des pédophiles.
    Je peux le dire tout de suite (ce sera la prochaine question) : selon nos données, aucun enseignant n'a été emprisonné pour avoir republié.
  • Sur VKontakte - 14% ; sur Facebook il n'y a pas de profil fermé en tant que tel (il y a une liste fermée d'amis, etc.). Et le plus intéressant, c'est que je viens d'écrire un message - maintenant ils vont compter et dire.

Ne publiez pas quelque chose dont vous auriez honte !

  • Ne publiez rien sur les réseaux sociaux qui pourrait vous faire honte – je suis personnellement cela. Même si j’en ai eu beaucoup de personnels, car je le jure sur Facebook. Eh bien, il y en avait et il y avait quelque chose à faire... Ne postez rien qui serait gênant ! Si vous comptez travailler quelque part à la Chambre publique plus tard, oui, il vaut mieux ne pas commenter. Si vous ne le faites pas, dans l’ensemble, personne ne s’en soucie. Je peux seulement vous assurer que personne ne lit votre correspondance personnelle, et tout cela construit toute cette histoire...

    Chaque semaine, quelqu'un vient me voir et me dit : « Eh bien, les photos de mon ami ont été divulguées sur une page publique anonyme ! Aide! À propos, ne publiez jamais rien sur des pages publiques anonymes.

  • Je ne connais pas d'autres systèmes de surveillance - nous en tiendrons certainement compte, que la mention de la marque était négative, Dieu me pardonne... Mais je peux dire que toutes sortes de camarades proches de l'État ne s'intéressent qu'aux gens qui ont une audience de plus de 5 XNUMX personnes, et leur opinion publique peut influencer quelqu'un, puis influencer. D’après mon expérience, il n’est jamais arrivé que l’agence RH qui nous commande des évaluations de profil dise : « Celui qui aime Navalny, n’embauche personne !

À propos de la publication des résultats. Combien de personnes sont employées dans la recherche ?

  • Parmi les dix plus grandes agences de publicité, sept publient désormais. C'est difficile à dire : quand nous avons commencé cela il y a un an et demi... Nous avons plusieurs personnes dans chaque domaine - il y a plusieurs personnes dans les banques, il y a plusieurs personnes dans les RH, il y a plusieurs personnes dans la publicité. Et maintenant, nous réfléchissons à qui est le plus rentable de s'adresser en premier, pour qui nous devons commencer à créer des interfaces...
  • (environ le nombre de personnes par segment de marché) Pas plus de 25 personnes, car nous n'avons violé personne.
  • En général, en principe, ces technologies du marché sont utilisées, je pense, à plus de 50 %. Certains dans des campagnes publicitaires, d’autres dans une sorte d’analyse interne. Je dirais que 40 % l’utilisent dans des analyses internes, et 50 à 60 % le vendent aux marques finales. Mais cela dépend déjà des agences de publicité elles-mêmes. Vous voyez, certaines personnes parlent simplement de l'argent dépensé, de la publicité qu'elles ont mise en place, tandis que d'autres écrivent sur le nombre de personnes qu'elles ont amenées, quel type de public... Je dirais oui, mais je peux me tromper - je ne le fais pas. Je n'imagine pas vraiment comment travaillent tous ces camarades. Je ne connais que les données quantitatives.

Quelques publicités 🙂

Merci de rester avec nous. Vous aimez nos articles ? Vous voulez voir du contenu plus intéressant ? Soutenez-nous en passant une commande ou en recommandant à vos amis, cloud VPS pour les développeurs à partir de 4.99 $, un analogue unique des serveurs d'entrée de gamme, que nous avons inventé pour vous : Toute la vérité sur le VPS (KVM) E5-2697 v3 (6 Cores) 10Go DDR4 480Go SSD 1Gbps à partir de 19$ ou comment partager un serveur ? (disponible avec RAID1 et RAID10, jusqu'à 24 cœurs et jusqu'à 40 Go de DDR4).

Dell R730xd 2 fois moins cher dans le centre de données Equinix Tier IV à Amsterdam ? Ici seulement 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV à partir de 199$ aux Pays-Bas! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - à partir de 99$ ! En savoir plus Comment construire une infrastructure corp. classe avec l'utilisation de serveurs Dell R730xd E5-2650 v4 qui valent 9000 XNUMX euros pour un sou ?

Source: habr.com

Ajouter un commentaire