Arthur Khachuyan: “Big Data real em publicidade”

Em 14 de março de 2017, Arthur Khachuyan, CEO do Social Data Hub, falou na palestra da BBDO. Arthur falou sobre monitoramento inteligente, construção de modelos comportamentais, reconhecimento de conteúdo de fotos e vídeos, além de outras ferramentas e pesquisas do Social Data Hub que permitem atingir públicos usando redes sociais e tecnologias de Big Data.

Arthur Khachuyan: “Big Data real em publicidade”

Arthur Khachuyan (doravante – AH): - Olá! Olá a todos! Meu nome é Arthur Khachuyan, administro a empresa Social Data Hub e estamos envolvidos em várias análises intelectuais interessantes de fontes de dados abertas, campos de informação e fazemos todo tipo de pesquisa interessante e assim por diante.

E hoje os colegas do Grupo BBDO nos pediram para falar sobre tecnologias modernas para análise de big data, big data e não tão big data para publicidade: como é usado, mostre alguns exemplos interessantes. Espero que você faça perguntas ao longo do caminho, pois posso ficar chato e não revelar a essência e assim por diante, então não seja tímido.

Na verdade, as principais direções, sempre que algum tipo de solução “quase big data” foi usada”, são todas claras - isso é direcionamento de público, análise, realização de algum tipo de pesquisa analítica de marketing. Mas é sempre interessante saber quais dados adicionais podem ser encontrados, quais significados adicionais podem ser encontrados após a aplicação da análise.

Por que precisamos de tecnologia para publicidade?

Por onde começamos? O mais óbvio é a publicidade nas redes sociais. Hoje tirei-o de manhã: por alguma razão o VKontakte acha que devo ver este anúncio em particular... Se é bom ou mau é a segunda questão. Vemos que definitivamente caio na categoria de recrutas:

Arthur Khachuyan: “Big Data real em publicidade”

A primeira e mais interessante coisa que pode ser tomada como uma solução tecnológica... A primeira coisa que queria decidir antes de começarmos é definir os termos: o que são dados abertos e o que é big data? Porque cada pessoa tem o seu entendimento sobre este assunto, e não quero impor os meus termos a ninguém, mas... Só para que não haja discrepâncias.

Pessoalmente, acho que dados abertos são tudo o que posso acessar sem qualquer login ou senha. Este é um perfil aberto nas redes sociais, são resultados de pesquisa, são registros abertos, etc. Big data, no meu entendimento, vejo assim: se for uma placa de dados, são um bilhão de linhas, se for algum tipo de armazenamento de arquivos, é algo em torno de um petabyte de dados. O resto, na minha terminologia, não é big data, mas algo assim.

Perfil de alta precisão e pontuação de perfil

Vamos em ordem. A primeira e mais interessante coisa que você pode descobrir ao analisar fontes de dados abertas é o perfil de alta precisão e a pontuação de perfil. O que é isso? Esta é uma história onde sua conta na rede social pode prever não apenas quem você é, nem apenas seus interesses.

Mas agora, combinando várias fontes, você pode entender o nível médio do seu salário, quanto custa o seu apartamento e onde ele está localizado. E todos esses dados podem ser usados ​​literalmente a partir dos meios disponíveis. Por exemplo, se você leva sua conta em uma rede social, veja, digamos, onde você mora, onde trabalha; entender em que setor do negócio a empresa em que você trabalha está inserida; baixe vagas semelhantes de HH e “Superjob” se você for analista, gestor, etc.; veja onde você mora (base, digamos CIAN), entenda quanto custa alugar uma casa nesse local, quanto custa comprar uma casa nesse local, preveja aproximadamente quanto você ganha. Além disso, usando suas redes sociais, você pode entender o quanto você viaja, onde está e quão leal você é ao seu empregador.

Conseqüentemente, a partir de um número tão grande de métricas, podemos fazer o que quisermos. Podemos apresentar-lhe um produto que lhe interessa. Você consegue imaginar uma loja online? Você vai lá - esta loja online pega sua conta em uma rede social e te diz: “Masha, você acabou de terminar com seu namorado, aqui estão alguns produtos para você”. Este não é o futuro próximo...

Como é determinada a geolocalização de uma pessoa?

Respostas às perguntas do público:

  • Normalmente, 80% de todos os check-ins são considerados no local exato de residência. Mas para quem não faz check-in em lugar nenhum, existem várias opções: ou check-in, ou geolocalização, ou esta é uma análise de posts e publicações de todo o período em que uma pessoa escreveu algo... E em algum lugar, algo aparecerá como “Quero comprar um carrinho perto de Akademicheskaya” ou “Recentemente vi grafites feios na parede aqui”. Ou seja, para quase 80% das pessoas, a sua geolocalização, o seu local de trabalho e o seu local de residência podem ser determinados através de dados ou metadados que podem ser recolhidos nas redes sociais.

    Esta, novamente, é uma análise de postagens. No sentido mais simples, trata-se de uma análise de check-ins e geolocalizações em redes sociais, que não excluem metadados jpeg (você pode descobrir algo a partir disso). Mas para o resto das pessoas, geralmente são transmissões de texto: ou uma pessoa “ilumina” sua localização quando escreve sobre algo, ou “ilumina” seu telefone, através do qual você pode encontrar alguns de seus anúncios no Avito ou sua conta em " Auto RU". Com base nesses dados, você pode combinar (por exemplo, “Estou vendendo um carro perto de Mayakovskaya”) e assumir isso aproximadamente.

  • As pessoas costumam postar isso nas redes sociais. Trabalhamos apenas com fontes abertas e aqui estamos falando exclusivamente de fontes abertas. Costumam publicar anúncios, ou seja, em sessenta por cento dos casos, a história mais comum quando as pessoas “mostram” seu número de celular atual são anúncios de venda de algo. Ou em alguns grupos a pessoa escreve (“Vendo isso ou aquilo ali”), ou vai a algum lugar.

    Sim! Costumam comentar assim: “Responda-me ou mande-me um SMS, ligue para o meu número. Isso acontece muitas vezes com pessoas que vendem algo, compram algo nas redes sociais, se comunicam com alguém... Assim, usando este número você pode vincular a ele o perfil dele no CIAN, se ele já publicou algo, ou, novamente, em Avito. Estas são simplesmente as principais fontes mais populares, falaremos mais adiante - são Avito, CIAN e assim por diante.

  • Isso se refere a uma loja online. A seguir virá a tecnologia de reconhecimento facial e correspondência de perfis (falaremos sobre isso). Teoricamente, isso pode ser aplicado a uma loja offline. E no geral, meu grande sonho é que quando aparecerem faixas nas ruas, quando você passar por uma câmera, ela “prenda” o seu rosto. Mas este caso será proibido por lei porque é uma violação da privacidade. Espero que isso aconteça mais cedo ou mais tarde.
  • Por experiência pessoal. Muitas vezes, quando uma pessoa lhe escreve algo, você opera com base em alguns fatos da vida dela que você parece não saber... Na maioria dos casos, as pessoas ficam assustadas. Mas! Com base em estatísticas recentes, o número de contas encerradas nas redes sociais diminuiu 14%. O número de falsificações está aumentando, o número de contas abertas está crescendo - as pessoas estão cada vez mais caminhando para a abertura. Acho que em 3-4 anos eles deixarão de reagir tão fortemente ao fato de alguém saber informações sobre eles que potencialmente não deveriam saber. Mas na verdade é muito fácil de conseguir olhando para a parede dele.

O que pode ser obtido de fontes abertas?

Há uma lista aproximada de coisas que podem ser entendidas com bastante confiabilidade em fontes abertas. Na verdade, existem ainda mais métricas diferentes; depende do cliente dessa pesquisa. Existe alguma agência de RH que está interessada em saber se você xinga nas redes sociais ou em algum lugar público. Alguém está interessado em saber se você gosta das publicações de Navalny ou, inversamente, das publicações do Rússia Unida, ou de algum tipo de conteúdo pornográfico - essas coisas acontecem com bastante frequência.

Os principais são valores familiares, custo aproximado de apartamento, casa, busca de carro e assim por diante. Com base nisso, as pessoas podem ser divididas em grupos sociais. Estes são usuários do Tinder de Moscou, quem eles são (de acordo com as fotos encontradas em suas contas do Facebook); com base em seus interesses, eles são divididos em vários grupos sociais:

Arthur Khachuyan: “Big Data real em publicidade”

Se nos aproximarmos da publicidade, lentamente nos afastaremos da segmentação publicitária padrão, quando você seleciona no VKontakte que está interessado em homens de 18 anos inscritos em determinados grupos. Tenho essa foto a seguir, vou mostrar agora:

Arthur Khachuyan: “Big Data real em publicidade”

O resultado final é que a maioria dos serviços atuais que analisam, em princípio, pessoas que analisam redes sociais, estão empenhados em analisar interesses... A primeira coisa que vem à mente das pessoas é analisar os principais grupos de seus assinantes. Talvez isto funcione para alguns, mas pessoalmente penso que é fundamentalmente errado. Por que?

Suas curtidas são coletadas e analisadas

Agora peguem seus telefones, olhem para seus principais grupos - com certeza haverá mais de 50% de grupos dos quais você já se esqueceu, esse é algum tipo de conteúdo que na verdade é irrelevante para você. Você não consome nada, mas mesmo assim o sistema irá rastreá-lo de acordo com eles: que você se inscreveu em receitas, em alguns grupos populares. Ou seja, você violará o sistema que analisa seu perfil e seus interesses não serão justificados.

Seguindo em frente... O que há? Assumimos o que outras pessoas estão fazendo. Em nossa opinião, a forma mais adequada de avaliar os interesses dos usuários são as curtidas. Por exemplo, no VKontakte não há feed de curtidas e as pessoas pensam que ninguém sabe do que gostam. Sim, algumas curtidas são introduzidas no Instagram, vemos algo no Facebook, mas a maior parte do conteúdo de determinados grupos não transmite isso em um feed comum, e as pessoas vivem e pensam que ninguém vai saber do que gostam.

E ao coletar determinado conteúdo de algum tipo que nos interessa, coletando essas postagens, coletando essas curtidas e, em seguida, verificando essa pessoa usando esse banco de dados, podemos determinar com alta precisão quem ela é, qual é o seu destino, no que ela está interessada. Coloque-o exatamente em um determinado grupo social e interaja com ele.

Comprar um carro muda o comportamento

Eu tenho um exemplo assim. Farei imediatamente uma reserva de que meus exemplos são quase publicidade e quase marketing, porque, você sabe, a maioria dos casos é protegida por NDA e assim por diante. Mas ainda haverá muitas coisas interessantes. Então, a história dessas pessoas: são homens que compraram carro entre 2010 e 2015. A forma como o seu comportamento social online mudou é indicada pela cor. A percentagem de raparigas entre os subscritores mudou, subscrevi páginas públicas “infantis”, encontrei um parceiro sexual permanente...

Arthur Khachuyan: “Big Data real em publicidade”

Tudo isso é dividido por marca de carro e número de pessoas. A partir daqui você pode tirar muitas conclusões interessantes sobre o comportamento das pessoas e como tudo funciona. Posso dizer que o Porsche Cayenne e o Priora plantado são quase idênticos em termos de número de públicos atraídos. A qualidade desse público e seu comportamento são diferentes, mas a quantidade é aproximadamente a mesma. A conclusão que você pode tirar daqui é a que você quiser, mais próxima do seu mercado. Se você vende um Audi, você cria o slogan “Compre um Audi e fique longe dos seus pais!” e assim por diante.

Sim, este é um exemplo engraçado de que o comportamento das pessoas com base na análise de curtidas, com base em qual grupo elas se movem, que conteúdo elas analisam - com quase 100% de probabilidade deixa claro quem você é. Porque se você não tem acesso ao tráfego da rede e não lê mensagens pessoais, os likes sempre dirão quem é essa pessoa - uma mulher grávida, uma mãe, um militar, um policial. E para você, como pessoa que pode anunciar, isso é um grande acerto.

Respostas às perguntas do público:

  • Cada coluna representa o número de pessoas neste carro; como seus padrões de comportamento mudaram. Veja: pessoas que compraram um Porsche Cayenne são aproximadamente 550 pessoas (amarelo), o percentual de meninas entre os assinantes aumentou.
  • A amostra são usuários das redes sociais “Vkontakte”, “Facebook”, “Instagram” de 2010 a 2015. Único esclarecimento: os carros aqui selecionados são aqueles que podem ser identificados em fotografias com mais de 80% de precisão por meio de determinadas ferramentas.
  • Durante um determinado período de tempo, o carro dele (bom, isto é, não o dele, deixamos isso para as redes sociais)... Durante um determinado período de tempo, uma pessoa era constantemente fotografada com o carro, estava com ele, as publicações eram diferentes, as fotografias eram de ângulos diferentes e assim por diante. Haverá então uma foto de quais pessoas estão tirando fotos com quais carros e... Sim, esta é a segunda questão - confiança nos dados das redes sociais.
  • Desde que tocamos no assunto, infelizmente, os dados das redes sociais nem sempre estão corretos. As pessoas nem sempre estão dispostas a publicar suas informações. Pessoalmente, fiz um estudo assim: comparei o número de graduados nas universidades de Moscou com o número de pessoas cadastradas nas redes sociais. Em média, 60% mais pessoas estão registradas nas redes sociais - graduados da Universidade Estadual de Moscou em um determinado ano em determinadas especialidades - do que realmente existem em princípio. Então sim - há, naturalmente, uma percentagem de erros aqui, e ninguém esconde isso. Aqui simplesmente tomamos como base aqueles carros que podem ser identificados com mais de 80% de probabilidade.

Lista de fontes para treinamento de modelo

Aqui está um exemplo de lista de fontes que podem ser utilizadas, que permitem determinar com grande certeza o perfil social de uma pessoa, quem ela é.

Arthur Khachuyan: “Big Data real em publicidade”

Pegamos um perfil das redes sociais, do CIAN - o custo de um apartamento é aproximadamente, “Head-Hunter”, “Superjob” - esse é o salário médio de uma determinada pessoa. Espero que não haja representantes de Head Hunter aqui, porque eles acham que não é muito bom tirar esses dados deles. Porém, esse é o salário médio em determinadas regiões para determinados tipos de atividades para vagas.

“Avito”, “Avto.ru”: muitas vezes as pessoas, quando o telefone está aceso, definitivamente têm (em um grande número de casos) pelo menos algo em “Avito”, ou em “Avto.ru”, ou em outros vários sites onde você pode entender quem eles são. Se um carrinho de bebê ou um carro foi vendido neste número de telefone... Rosstat e o Cadastro Estadual Unificado de Pessoas Jurídicas são ainda mais registros com os quais você pode classificar a empresa empregadora - de acordo com alguma fórmula, de acordo com um modelo que qualquer pessoa pode definir (você pode determinar aproximadamente o dinheiro dessa pessoa, etc.).

Tinder ajuda a coletar dados sobre a situação das pessoas

Além disso, há uma coisa tão interessante (alternativamente, é muito engraçado no estudo) - esta é, novamente, a coleta de dados do Tinder de Moscou usando bots para este Tinder. A distância das pessoas foi determinada e, em seguida, sua localização aproximada foi determinada.

Arthur Khachuyan: “Big Data real em publicidade”

O objetivo deste estudo foi determinar o número de contas do Tinder no território de instituições governamentais - na Duma, no Ministério Público e assim por diante. Mas você, como anunciante, pode imaginar o que quiser: pode ser, por exemplo, o Starbucks ou outra pessoa... Ou seja, a quantidade de pessoas no Tinder que tomam café de você, pedem alguma coisa, estão nas lojas Quanto a esta geolocalização: isso pode ser feito com qualquer serviço.

Resposta a uma pergunta do público:

  • Inflamável? Você não sabe? Tinder é um aplicativo de namoro onde você olha fotos (da esquerda para a direita), e esse aplicativo mostra a distância até a pessoa. Se você calcular a distância até essa pessoa de três pontos diferentes, poderá determinar aproximadamente (+ 5-7 metros) a localização. Neste caso, para determinação no território do Ministério Público ou da Duma do Estado, não é tão difícil. Mas, novamente, pode ser a sua loja, pode ser qualquer coisa.

Por exemplo, há muito, muito tempo tivemos um caso assim (não um estudo), quando recebemos de uma das operadoras de celular dados sobre densidade de tráfego, dados sobre densidade de movimentação de pontos de celular, e todas essas informações foram sobrepostas nas coordenadas de outdoors localizados em rodovias. E a tarefa da operadora de celular é determinar aproximadamente quantas pessoas estão passando e poderiam ver esse anúncio no outdoor.

Se houver especialistas em publicidade outdoor aqui, você pode dizer: é impossível entender com superconfiabilidade - alguém está vindo, alguém não olhou, alguém olhou... No entanto, este é um exemplo de como existem 20 bilhões de polígonos de estes em Moscou, onde está a densidade dessas pessoas a cada hora ao longo de certas rotas... Você pode ver o que essas pessoas estavam passando a qualquer momento e estimar aproximadamente o fluxo de passageiros.

Resposta a uma pergunta do público:

  • Ninguém fornece esses dados. Realizamos esse estudo para um dos operadores, esta é uma história exclusivamente interna, portanto, infelizmente, não é apresentada em forma de imagens. Mas muitas vezes as grandes agências de publicidade não têm problemas em entrar em contato com uma operadora. Pelo menos em Moscovo, há muitos precedentes quando, por exemplo, as companhias de seguros recorrem a empresas como a GetTaxi, que fornecem dados impessoais sobre a idade do condutor, a forma como conduz (bom - mau, imprudente - não), para prever políticas e assim por diante. Todo mundo luta com isso, mas em algum nível interno, fornecendo dados anônimos - acho que ninguém tem esse problema.

Reconhecimento de imagem e padrão

Vá em frente. Meu favorito é o reconhecimento de imagem. Haverá um pequeno artigo sobre como procurar pessoas por rostos, mas geralmente não participamos dessa parte. Tomamos especificamente o reconhecimento de imagem e determinamos o que está nesta imagem - a marca do carro, sua cor e assim por diante.

Arthur Khachuyan: “Big Data real em publicidade”

Eu tenho este exemplo engraçado:

Arthur Khachuyan: “Big Data real em publicidade”

Houve um tal estudo sobre busca de tatuagens em diversas redes sociais. Conseqüentemente, o mesmo pode ser aplicado a qualquer marca, a qualquer imagem visual, a quase qualquer imagem visual. Existem aqueles que não podem ser determinados de forma confiável (não os aceitamos).

Arthur Khachuyan: “Big Data real em publicidade”

Aqui está o meu favorito. As marcas de automóveis muitas vezes recorrem a esta tarefa porque a sua tarefa, por exemplo, é encontrar todos os proprietários de algum BMW X6, compreender quem são, como estão ligados uns aos outros, no que estão interessados, e assim por diante. Isto está relacionado com a questão de quais carros as pessoas tiram fotos nas redes sociais.

Arthur Khachuyan: “Big Data real em publicidade”

Não havia nenhuma filtragem aqui: o objeto era deles, o carro não era deles; É apenas a quebra dos carros – idade e assim por diante. Mas o reconhecimento visual de imagens é usado com bastante frequência: trata-se da busca por gestantes e da busca por logotipos de marcas em algum tipo de meio de comunicação de massa (quem posta o quê).

Arthur Khachuyan: “Big Data real em publicidade”

Meu caso favorito (que é usado por vários restaurantes): que tipo de rolinhos são postados em uma rede social. É engraçado, mas na verdade permite que você entenda muitas coisas interessantes, primeiro, sobre seus próprios clientes: quem veio até você e por que o fez. Porque não é segredo que nos sushi bars a maioria das pessoas (não direi “meninas”) tiram fotos para fazer check-in, tirar foto de alguma coisa, etc.

A marca pode tirar vantagem disso. A marca está interessada em saber que tipo de produtos ela precisa para fotografar e postar lindamente, que tipo de gente chegou lá. Isso pode ser feito com quase tudo, desde comida.

Reconhecimento de padrão de vídeo

Resposta a uma pergunta do público:

  • Não em vídeo. Temos isso em modo de teste. Tentamos essa tecnologia, mas acontece que... Ela reconhece muito bem tudo com vídeo, mas não encontramos uma aplicação para ela em lugar nenhum. Tchau. Além de analisar quanto e quais videobloggers estão falando em algum lugar... Houve um estudo assim. Quantos de seus rostos se encontram, com que frequência. Mas as marcas ainda não descobriram onde inventar isso. Talvez algum dia isso aconteça.

Novamente, isso é comida, podem ser mulheres grávidas, homens (não grávidas), carros - qualquer coisa.

Como opção, houve um estudo de Ano Novo para um meio de comunicação. Também longe de publicidade, mas ainda assim. Este é o tipo de comida que as pessoas jejuavam no Ano Novo:

Arthur Khachuyan: “Big Data real em publicidade”

Também é dividido por idade aqui. Você pode ver uma correlação tão grande que os jovens principalmente pedem comida, os adultos principalmente fazem uma mesa tradicional. É engraçado, mas imaginando-o como dono de uma marca, você pode avaliar uma grande quantidade de coisas: quem lida com seu produto e como, o que escrevem sobre ele. Muitas vezes, as pessoas nem sempre mencionam a marca no texto, e os sistemas tradicionais de monitoramento analítico nem sempre conseguem entender e encontrar essa menção à marca apenas porque ela não é mencionada no texto. Ou o texto está escrito incorretamente, não há hash tags nem nada.

As fotos estão visíveis. Com a fotografia, você pode saber se é o assunto central do quadro ou não. Então você pode ver o que essa pessoa escreveu. Mas na maioria das vezes é usado como uma busca por públicos potenciais que dirigiram determinados carros e assim por diante. E então faremos muitas coisas interessantes com esses carros.

Bots são ensinados a imitar humanos

Também existia essa opção para usar a contagem de pessoas:

Arthur Khachuyan: “Big Data real em publicidade”

Existe a opção de comparar pessoas, quando você precisa encontrar pessoas a partir de algumas fotos, entender seu perfil social, quem são. Novamente, voltamos à questão de que se tivermos uma câmera em uma loja offline, então esta é uma boa maneira de entender quem vem até você, quem são essas pessoas, no que estão interessadas, o que as levou a vir até você .

A seguir vem o mais interessante: se coletarmos suas contas nas redes sociais, entendermos quem são essas pessoas, no que elas estão interessadas, podemos (opcionalmente) fazer um bot semelhante a essas pessoas; esse bot vai começar a viver como essas pessoas e analisar quais anúncios vê nas diversas redes sociais. Isso permitirá que você entenda com precisão quais marcas são direcionadas a essa pessoa. Essa também é uma história bastante comum quando você precisa não apenas analisar quem é essa pessoa e quais interesses ela tem, mas também que tipo de publicidade seus potenciais concorrentes ou outras pessoas interessadas devem direcionar.

Arthur Khachuyan: “Big Data real em publicidade”

Análise de conexões em redes sociais

Arthur Khachuyan: “Big Data real em publicidade”

A próxima coisa interessante é a análise das relações entre as pessoas. Na verdade, a análise das conexões na rede, esses gráficos de rede - não tem nada, nada de novo nisso, todo mundo sabe disso.

Arthur Khachuyan: “Big Data real em publicidade”

Mas a aplicação às tarefas publicitárias é a mais interessante. Esta é uma busca por pessoas que definem tendências, é uma busca por pessoas que divulgam informações de acordo com determinados critérios dentro desta rede. Digamos que estamos interessados ​​nos mesmos proprietários de um determinado modelo BMW. Ao reuni-los todos, poderemos encontrar aqueles que controlam a opinião pública. Não são necessariamente blogueiros automotivos e assim por diante. Normalmente são simples camaradas que se sentam em diversas páginas públicas, se interessam por algum conteúdo e podem, em muito pouco tempo, atrair sua marca ou alguém do seu interesse para esta área de responsabilidade, para a área de ​interesse.

Existe um exemplo aqui. Temos algumas pessoas em potencial, conexões entre pessoas. Aqui os laranja são pessoas, os pontinhos são grupos comuns, amigos comuns.

Arthur Khachuyan: “Big Data real em publicidade”

Se você coletar todas essas conexões entre eles, você verá claramente que existem pessoas que têm um grande número de grupos em comum, amigos em comum, eles estão lá entre si... E se essa mesma visualização for dividida em grupos por interesses, pelo conteúdo, que distribuem, o quanto interagem entre si... Aqui vocês podem ver que a foto anterior ficou assim:

Arthur Khachuyan: “Big Data real em publicidade”

Aqui os grupos são claramente diferenciados pela cor. Neste caso, trata-se dos nossos alunos de mestrado da Escola Superior de Economia. Aqui você pode ver que os roxos/azuis são aqueles que amam a Transparência Internacional, a Rússia Aberta e as páginas públicas de Khodorkovsky. No canto inferior esquerdo estão os verdes, aqueles que amam a Rússia Unida.

Você pode ver que a imagem anterior era assim (são apenas conexões entre pessoas), mas ficou claramente demarcada. Ou seja, todas as pessoas estão sempre ligadas entre si, têm os mesmos interesses, são amigas. Há alguns em cima, outros em baixo e alguns outros camaradas lá. E se cada um desses pequenos subgráficos for visualizado separadamente com outros parâmetros e olhar a velocidade de divulgação do conteúdo (grosso modo, quem repassa o que ali), você poderá encontrar em cada parte uma ou duas pessoas que sempre têm a opinião pública nas mãos, interagindo com o qual, pedindo para enviar algum tipo de postagem ou outra coisa - você pode obter uma resposta de todo esse público interessante.

Eu tenho outro exemplo. Também um gráfico: são funcionários do Grupo BBDO encontrados nas redes sociais, por exemplo. Parece desinteressante, grande, verde, conexões entre eles...

Arthur Khachuyan: “Big Data real em publicidade”

Mas tenho uma opção onde já estão construídos grupos entre eles. Depois, se alguém estiver interessado, existe uma versão interativa - você pode clicar e dar uma olhada.

No canto superior direito estão aqueles que amam Putin. Aqui os roxos são os designers; aqueles que estão interessados ​​em design, algo interessante e assim por diante. Aqui os brancos são a equipe de gestão (aparentemente, pelo que entendi); São pessoas que, em geral, não têm nenhuma ligação, mas trabalham aproximadamente nos mesmos cargos. O resto são seus grupos comuns, conexões e assim por diante.

As marcas não precisam de blogueiros, mas de líderes de opinião

A gente pega essas pessoas e as encontra - aí a agência de publicidade, a empresa de publicidade decide por si mesma: pode dar dinheiro para essa pessoa para que ela de alguma forma interaja com esse conteúdo, outra coisa, ou direcionar sua própria campanha publicitária específica para ela. Isso também é usado com bastante frequência, principalmente agora, porque todas as marcas querem trabalhar com blogueiros, querem que seu conteúdo seja promovido, mas as agências de publicidade não querem realmente entrar em contato (bom, isso acontece).

E a verdadeira saída para esta situação é encontrar pessoas que não sejam blogueiras, nem blogueiras de beleza, mas por exemplo, alguns seres reais que interagem com esta marca, que possam escrever em alguma página pública miserável “Mail.ru Answers”, obter um certo número de visualizações. Essas pessoas, que estão constantemente interessadas no conteúdo dessa pessoa, vão divulgar tudo e a marca vai conseguir o seu envolvimento.

A segunda opção para usar essa tecnologia agora é bastante relevante - a busca por bots, minha favorita. Este é um risco para a reputação de seus concorrentes e uma oportunidade de eliminar pessoas irrelevantes de uma campanha publicitária e de qualquer outra coisa (excluir comentários e procurar conexões entre pessoas). Eu tenho um exemplo assim, também é grande e interativo - você pode movê-lo. Estas são conexões de pessoas que escreveram comentários na comunidade Lentach.

Este exemplo é para que você entenda o quão bem e facilmente visíveis os bots são; e para isso não é necessário ter nenhum conhecimento técnico. Isso significa que “Lentach” publicou um post sobre a investigação do FBK sobre Dmitry Medvedev, e algumas pessoas começaram a escrever comentários. Reunimos todas as pessoas que escreveram comentários - essas pessoas são verdes. Agora vou movê-lo:

Arthur Khachuyan: “Big Data real em publicidade”

As pessoas são os verdes (quem escreveu os comentários). Eles estão aqui, eles estão aqui. Os pontos azuis entre eles são seus grupos comuns, os pontos amarelos são seus assinantes, amigos comuns e assim por diante. A maior parte das pessoas está conectada umas com as outras. Porque, qualquer que seja a teoria dos três, quatro, cinco apertos de mão, todas as pessoas estão ligadas entre si nas redes sociais. Não existem pessoas separadas umas das outras. Até mesmo meus amigos socialmente fóbicos que usam o VKontakte exclusivamente para assistir vídeos ainda estão inscritos em algumas das mesmas páginas públicas que nós.

Navalny também usa bots. Todo mundo tem bots

A maior parte das pessoas (aqui está, aqui) está conectada umas com as outras. Mas existe um grupo tão pequeno de camaradas que são amigos exclusivamente uns dos outros. Aqui estão eles, os pequenos verdes, aqui estão seus amigos e grupos em comum. Eles até caíram separadamente aqui:

Arthur Khachuyan: “Big Data real em publicidade”

E por uma feliz coincidência, foram precisamente essas pessoas que escreveram neste post: “Navalny não tem provas” e assim por diante, escreveram os mesmos comentários. Claro, não me atrevo a tirar conclusões. Mas mesmo assim, tive outro post no Facebook, quando houve um debate entre Lebedev e Navalny, analisei os comentários da mesma forma: descobri que todas as pessoas que escreveram “Lebedev é uma merda”, não estavam nas redes sociais redes recentemente, há quatro meses, sem assinar nenhuma das páginas públicas, de repente foi para este post específico, escreveu exatamente este comentário e saiu. Novamente, é impossível tirar conclusões daqui, mas alguém da equipe de Navalny me escreveu um comentário dizendo que eles não usam bots. Bem, ok!

Mais perto da publicidade, mais perto da marca. Todo mundo tem bots agora! Nós os temos, nossos concorrentes os possuem e outros os possuem. Eles devem ser jogados fora ou deixados para viverem bem; Com base nesses dados (aponta para o slide anterior), aperfeiçoe-os para que pareçam pessoas reais e só então utilize-os. Embora usar bots seja ruim! No entanto, uma história bastante comum...

No modo automático, tal coisa permite filtrar da sua análise pessoas que são irrelevantes para a análise, pessoas que não deveriam ser incluídas na amostra, não deveriam ser incluídas neste estudo. Muito usado. Então, novamente, nem todos os proprietários de automóveis possuem carros. Às vezes as pessoas só se interessam por pessoas que potencialmente têm carro, que sentam em alguns grupos, se comunicam com alguém, têm ali um determinado público.

Análise de fatos e opiniões

O próximo que tenho também é o meu favorito. Esta é uma análise de fatos e opiniões.

Arthur Khachuyan: “Big Data real em publicidade”

Hoje em dia todo mundo sabe citar sua marca em diversas fontes. Não há segredo para isso. E todo mundo parece saber calcular a tonalidade... Embora pessoalmente eu ache que a métrica de tonalidade em si não é muito interessante, porque quando você chega e fala para o cliente: “Cara, você tem 37% de neutro”, e ele diz isso , “Uau! Legal!" Portanto, seria mais interessante avançar um pouco mais: da avaliação do sentimento até a avaliação das opiniões sobre o que dizem sobre o seu produto.

E isso também é uma coisa muito interessante, porque... eu pessoalmente acredito que em princípio não pode haver mensagens neutras, porque se uma pessoa escreve algo em espaço público, essa mensagem fica de alguma forma colorida. Pessoalmente, nunca vi uma mensagem neutra mencionando uma marca. Geralmente é algum tipo de sujeira.

Se pegarmos num grande número destas mensagens (podem ser milhões, 10 milhões), destacarmos a ideia principal de cada mensagem, combiná-las, podemos compreender de forma bastante fiável o que as pessoas dizem sobre esta marca, o que pensam. “Não gosto da embalagem”, “Não gosto da consistência” e assim por diante.

O que as pessoas pensam da Transaero, da Chupa Chups e do Presidente dos Estados Unidos?

Tenho um exemplo engraçado: este é um infográfico sobre o que os usuários das redes sociais fariam com a empresa Transaero após sua falência.

Arthur Khachuyan: “Big Data real em publicidade”

Há muitos exemplos interessantes aí: queimar, matar, deportar para a Europa, houve até 2% que escreveram - “Envie-os para a Síria para operações militares”. Deixando de lado o engraçado, poderia ser quase qualquer marca - desde minha comida de cachorro favorita até alguns carros. Quem não gosta da embalagem, quem não gosta de coisas reais – você sempre pode trabalhar com isso, você sempre pode levar isso em conta. São muitos os exemplos de pessoas que quase mudaram a produção dos seus produtos porque escreveram nas redes sociais que o Chupa Chups não era suficientemente redondo ou não era suficientemente doce.

Há outro exemplo engraçado. Adivinhe quais comentários e sobre quem?

Arthur Khachuyan: “Big Data real em publicidade”

Por alguma razão, agora a análise de opiniões, a análise de factos extraídos de mensagens, não é muito utilizada e não está muito difundida. Embora essa tecnologia não seja supersecreta, praticamente não há know-how nisso, pois a partir dos comentários das pessoas, extrair o sujeito, o predicado e agrupá-los não exige um gênio em linguística computacional. Não é tão difícil de fazer. Mas espero que nos próximos anos as pessoas comecem a usar isso, porque... Vai ser legal - esse é um feedback automático! Você sempre sabe o que estão dizendo sobre você. Bem, você entende que isso foi feito sobre o presidente dos EUA.

Resposta a uma pergunta do público:

  • Sim, este é o Facebook em inglês. Eles estão traduzidos para o russo aqui. Isto foi escrito em algum lugar.

Big Data e tecnologias políticas

Na verdade, tenho muitos exemplos interessantes de política sobre Trump e todos os outros, mas decidimos não trazê-los aqui. Mas há um exemplo político.

Estas são eleições para a Duma do Estado. Quando você estava? Ano passado? Quase um ano e meio atrás.

Arthur Khachuyan: “Big Data real em publicidade”

Aqui estão pessoas que conseguiram determinar a sua localização exacta, até um determinado geoponto, para perceber em que distrito eleitoral se enquadram. E então dessas pessoas foram retirados apenas aqueles que expressaram sua opinião definitiva, em quem votariam.

Do ponto de vista da tecnologia política, isto não é muito correcto, porque tudo isto precisa de ser normalizado pela densidade populacional e assim por diante. No entanto, os azuis aqui vão votar em quem, os vermelhos vão votar nos camaradas da oposição, que, aliás, não eram muitos.

Pessoalmente acredito que o Big Data não chegará tão cedo às tecnologias políticas, mas, como opção, o candidato também é uma marca. E isso também é, até certo ponto, uma análise de fatos e opiniões sobre a sua marca, e uma coisa bastante interessante, porque você consegue entender em tempo real quem está fazendo o quê. Conheço vários casos da BBC, em que monitoraram as redes sociais em tempo real em alguma transmissão: houve tal e tal resposta, as pessoas escrevem sobre isso, fazem tal e tal pergunta - e é ótimo! Acho que será usado muito em breve, porque é interessante para todos.

Modelando posições de marca

Arthur Khachuyan: “Big Data real em publicidade”

A seguir tenho modelagem de posições de marca. Um pequeno artigo sobre como você pode classificar marcas usando várias métricas (não curtidas de assinantes em redes sociais, mas usando métricas complexas, interesse no conteúdo, tempo gasto no recebimento de métricas).

Arthur Khachuyan: “Big Data real em publicidade”

Tenho um exemplo de “farmacêutico” por um certo motivo. Aqui os círculos pequenos são internos, brilhantes - esta é a quantidade de conteúdo de texto que a própria marca cria, o círculo grande é a quantidade de conteúdo de foto e vídeo que a própria marca cria.

A proximidade com o centro mostra o quão interessante o conteúdo é para o público. Existe um modelo grande, tem um monte de todos os tipos de parâmetros: curtidas, repostagens, tempo de resposta, quem compartilhou lá em média... Aqui você pode ver: tem um “Kagotsel” maravilhoso, que bombeia uma quantidade enorme de dinheiro para criar seu próprio conteúdo e por isso estão bem próximos do centro. E tem camaradas que também criam seu próprio conteúdo, mas o público não se interessa por isso. Este não é um exemplo muito adequado, porque todas estas contas estão praticamente mortas.

Yegor Creed é mais amado do que Basta

Arthur Khachuyan: “Big Data real em publicidade”

Infelizmente, o resto... pelo que mostrar... Bom, também existem rappers russos, como opção, de empresas reais.

Qual é a vantagem? O fato é que uma empresa pode colocar quase tudo nesse modelo, a começar pelo salário médio dos assinantes que trabalham para sua marca; qualquer modelo que eles gostem. Como cada agência de publicidade calcula as suas próprias métricas de forma diferente, as marcas calculam as suas próprias métricas de forma diferente.

Aqui também tem um - Basta, que gera uma grande quantidade de conteúdo, mas fica na periferia, porque esse conteúdo aparentemente não interessa muito ao público. Novamente, não pretendo julgar. Mas, no entanto, existe Yegor Creed, que, segundo as redes sociais, é quase o melhor intérprete do nosso tempo, mas publica apenas as suas fotografias pessoais. Mesmo assim, ele tem um grande número de assinantes: cerca de um milhão deles. Não me lembro do número exato; Lembro que o percentual de engajamento dessas pessoas é bem superior a 85%, ou seja, por milhão de inscritos ele recebe 850 mil respostas dessas pessoas reais - isso é uma verdadeira loucura. Isto é verdade.

Arthur Khachuyan: “Big Data real em publicidade”

Respostas às perguntas do público:

Quanto tempo demorou para criar o modelo de análise do rapper?

  • Cada um tem seu público-alvo, os interesses dessas pessoas são calculados para cada um... Tudo isso é normalizado para a distância do centro aproximadamente, sua posição radial não é importante (é simplesmente borrado aqui para beleza, para que façam não se esbarrem). Apenas a proximidade aproximada do centro é importante. Este é o modelo que usamos. Por exemplo, eu gosto mais do círculo, algumas pessoas fazem isso em mente como um semicírculo.
  • Esse modelo foi compilado rapidamente, em duas ou três horas (sim, uma pessoa). Aqui foram inseridas apenas métricas: o que multiplicamos por quê, somamos e depois normalizamos de alguma forma. Depende do modelo. Tem gente que se interessa pelo salário médio (isso não é brincadeira) de seus assinantes. E para isso você precisa encontrar os contatos deles, Avito, calcular tudo, multiplicar. Acontece que isso leva muito tempo para ser levado em consideração, mas especificamente isso (aponta para o slide anterior) - os parâmetros aqui são muito simples: assinantes, repostagens e assim por diante. Demorou cerca de duas a três horas para ser concluído. Conseqüentemente, essa coisa é atualizada em tempo real e você pode usá-la.

Agora vem a parte divertida. Cansei de exemplos, porque não é interessante conversar muito tempo sozinho. E espero que agora vocês façam perguntas, e nós, de fato, passemos de tópico para tópico, porque tenho exemplos de como as tecnologias podem ser usadas e assim por diante...

Respostas às perguntas do público:

  • Tive um e único caso pessoal com um, por assim dizer, “quase casino”, quando ali se colocava uma câmara, se reconheciam rostos, e assim por diante. A percentagem de pessoas reconhecidas é definitivamente muito grande - tanto a nossa como a dos nossos concorrentes. Mas na verdade é bastante interessante. Eu vejo isso como uma coisa interessante: você pode entender quem são essas pessoas e prever muito bem por que exatamente elas vieram aqui, o que mudou tanto em suas vidas que decidiram vir para o cassino. Mas quanto a tipos específicos de negócios... Se você colocar tal coisa em uma farmácia, então não faz sentido - você não pode prever por que uma pessoa foi à farmácia.

    A tarefa global aqui foi construir um modelo para entender quando uma pessoa potencialmente deseja se interessar pela sua marca, para que você possa dar-lhe publicidade não depois de ela ter comprado algo (como está acontecendo agora), mas dar-lhe publicidade “ na previsão” de quando tudo isso vai acontecer. Foi interessante com um “quase cassino”; descobriu-se que havia uma porcentagem bastante interessante dessas pessoas - por que: alguém de repente recebeu uma promoção, outra pessoa conseguiu outra coisa - insights tão interessantes. Mas com algumas lojas, com varejo, com loja de algum tipo de comprimido, me parece que não vai ser muito correto.

O Big Data é usado offline?

  • Estava off-line. Você só precisa entender exatamente, aproximadamente, se esse modelo vai caber ou não. De novo, com água com gás... Na verdade eu me interesso por tudo, mas eu pessoalmente não entendo o quanto, como o perfil dessas pessoas, o comportamento delas pode depender de quando elas querem comprar água engarrafada. Embora isso possa realmente ser verdade, não sei.

Quantas contas de mídia social abertas existem?

  • Especificamente, temos 11 redes sociais - são “Vkontakte”, “Facebook”, “Twitter”, “Odnoklassniki”, “Instagram” e algumas pequenas coisas (posso ver a lista, como “Mail.ru” e assim por diante) . No VKontakte definitivamente temos uma cópia de todos esses camaradas. Temos pessoas no VKontakte - são 430 milhões de todas as pessoas que já existiram (das quais cerca de 200 milhões estão constantemente ativas); existem grupos, existem conexões entre essas pessoas e há conteúdos que nos interessam (texto), e uma parte da mídia, mas muito pequena... Grosso modo, a gente olha para esta foto: se tem rostos ali, a gente salve-os, se houver um meme, nós os salvamos. Não salvamos, porque nem nós teríamos o suficiente para salvar o conteúdo da mídia.

    Existe um Facebook em russo. Em algum lugar agora, 60-80% são Odnoklassniki; em alguns meses, provavelmente levaremos todos eles até o fim. Instagram russo. Para todas essas redes sociais existem grupos, pessoas, conexões entre elas e texto.

  • Cerca de 400 milhões de pessoas. Há uma sutileza: há pessoas cuja cidade não está especificada (são potencialmente russas/não russas); Destes, a média das redes sociais é de 14% de contas fechadas no VKontakte, não sei o número exato no Facebook.
  • Também não salvamos mídia no Instagram – apenas se houver rostos lá. Não armazenamos esse (outro) conteúdo de mídia. Geralmente interessante: apenas texto, conexões entre pessoas; Todos. A pesquisa mais comum no Instagram é a pesquisa usual sobre o público: quem são essas pessoas e, o mais importante, a conexão dessas pessoas com outras redes sociais. Encontre o perfil dessa pessoa no Vkontakte e no Facebook para calcular sua idade e assim por diante.
  • Não há necessidade de contratar todos os outros ainda - simplesmente porque não há clientes. Quanto ao idioma: temos russo, inglês, espanhol, mas ainda assim é usado exclusivamente para marcas da Rússia; bem, ou as empresas que os trazem da Rússia.
  • Entrevistamos pessoas todos os dias em muitos, muitos, muitos tópicos: coletamos dados através da coleta na web e atualizamos esses indicadores usando API. Em 2-3 dias você pode percorrer todo o “VKontakte”, passando por eles; Em cerca de uma semana você poderá percorrer todo o Facebook, entendendo quem atualizou o que e o que não atualizou. E então reúna essas pessoas separadamente: o que exatamente mudou, escreva toda essa história. Muito raramente, na minha experiência, o antigo perfil de mídia social de alguém foi usado para qualquer propósito comercial real. Este foi o momento em que uma figura política se inscreveu, e sua tarefa era entender que tipo de gente vinha à sede, quem eram essas pessoas há 6 a 8 meses (excluíram o perfil, mas na verdade as cédulas chegaram para outro candidato estragar).

    E algumas vezes - histórias pessoais quando as fotos de alguém foram publicadas em domínio público. Foi necessário encontrar conexões, etc. Infelizmente, é uma pena, mas não podemos testemunhar em tribunal, porque a nossa base de dados é legalmente ilíquida.

  • O armazenamento MongoDB é meu favorito.

As redes sociais estão tentando combater a coleta de dados

  • Normalmente carregamos apenas uma lista dessas contas para os anunciantes, e então eles usam a padrão... Ou seja, nas redes sociais, no VKontakte, você pode especificar uma lista dessas pessoas.

    Mas o Facebook usa cookies comprados. Nós mesmos não trabalhamos com cookies, mas houve várias histórias em que o próprio anunciante deu para algumas pessoas, interagimos com elas - eles têm essas redes, com publicidade teaser, não teaser, esses “cookies”. Você pode amarrá-lo - sem dúvida! Mas eu realmente não gosto dessas coisas porque não acho que seja muito autêntico. Isso é puramente na minha opinião, é como o TNS, que “rastreia” as TVs - não está claro se você está assistindo essa TV ou não, se você está lavando a louça enquanto a TV está ligada... E é a mesma coisa aqui : Muitas vezes procuro algo no Google na Internet, mas isso não significa que quero comprar.

  • Se você estiver usando algum tipo de rede de publicidade contextual padrão: contei várias histórias quando descarregamos essas pessoas para elas e tentamos, usando suas interfaces, conectá-las com “cookies” em seus sites. Mas eu realmente não gosto dessas coisas.

Fórmula de cálculo do salário de um internauta

  • A fórmula geral do salário médio: esta é a região onde a pessoa mora, esta é a categoria do negócio em que ela trabalha (ou seja, a empresa que é seu empregador), então é ocupado o seu cargo nesta empresa, a média o salário para esta posição é estimado... Salário médio retirado de “Head Hunter” e “Superjob” (e existem várias outras fontes) para uma determinada vaga em uma determinada região e para um determinado contexto de negócios.

    Parâmetros adicionais geralmente são obtidos de “Avito” e “Avto.ru” se uma pessoa iluminou o telefone. Com o Avito você pode ver que tipo de coisas uma pessoa está vendendo - caras, baratas, usadas, não usadas. Com "Avto.ru" você pode ver se ele tem um carro - ele é o dono, ele não é o dono. Isso representa algo em torno de 20% das pessoas que acidentalmente deixaram cair seus telefones em algum lugar, e suas contas podem ser vinculadas a esses dados.

Quais volumes a empresa de coleta de dados opera?

  • O volume de fotografias armazenadas em petabytes é de 6,4. Não posso dizer exatamente a taxa de crescimento agora, porque em 2016 começamos a gravar “periscópios” e apenas começamos a gravar vídeo.

    Não posso dizer exatamente quando foi zero. Mudamos de empresa em empresa - todas essas são longas histórias. Mas posso dizer que VK, Facebook, Instagram e Twitter - todo esse negócio (pessoas, grupos e conexões entre eles) com texto e conteúdo - na verdade não são muitos dados, é improvável que até mesmo um petabyte seja suficiente. Acho que são 700 gigabytes, provavelmente 800.

Você ajuda os clientes a determinar o nicho atual e onde cavar?

  • Quando um cliente chega, sugerimos essas coisas a ele, mas nós mesmos, assim como o Google Trends, não fazemos essas coisas.
  • Tivemos várias histórias quase sociológicas, com histórico eleitoral, pré-eleitoral – analisamos tudo. Com marcas e avaliando opiniões sobre marcas, quase sempre tudo concorda. Aqui estão as histórias eleitorais - não (com uma avaliação de qual candidato deve vencer). Não sei quem está errado aqui – nós, ou aqueles que pensam no VTsIOM.
  • Normalmente pegamos esses resultados de controle da própria marca, eles pegam dos camaradas que encomendam pesquisas - pesquisas por telefone, pesquisas de marketing e assim por diante. Além disso, tudo isso pode ser verificado com coisas básicas: alguém respondeu a lista de discussão, alguém fez pesquisas... Se for uma marca grande (Coca-Cola, por exemplo), eles definitivamente têm um ou dois milhões de avaliações internas de clientes – não se trata apenas de comentários nas redes sociais e de algumas opiniões; Estes são alguns tipos de sistemas internos, revisões e assim por diante.

A lei não “sabe” o que são dados pessoais!

  • Analisamos exclusivamente fontes de dados abertas e nunca nos envolvemos em truques sujos. Nosso modelo se baseia no fato de que armazenamos todos os dados abertos em alguns data centers públicos, alugamos em outro lugar e os analisamos em casa, em nossos escritórios, em nossos servidores, e eles não vão para lugar nenhum fora do território.

    Mas a nossa legislação no domínio dos dados abertos é muito vaga.

    Não temos uma compreensão clara do que são dados abertos, do que são dados pessoais – existe essa Lei Federal 152, mas mesmo assim... Como eles contam? Agora, se eu tenho seu nome e seu número de telefone em um banco de dados, em outro banco de dados eu tenho seu número de telefone e seu e-mail, em um terceiro eu tenho, digamos, seu e-mail e seu carro; Tudo isso parece ser dados não pessoais. Se você juntar tudo isso, parece que de acordo com a lei se tornarão dados pessoais.

    Contornamos isso de duas maneiras. A primeira é instalar um servidor com software para o cliente, e então esses dados não ultrapassam o seu território, ficando então o cliente responsável pela distribuição desses dados pessoais, dados não pessoais, e assim por diante. Ou a segunda opção: se for algum tipo de história onde você tem que processar uma rede social ou outra coisa...

    Fizemos esse estudo quando coletamos (havia as primárias do Rússia Unida) para a Lifenews os relatos desses camaradas e verificamos que tipo de pornografia eles gostavam. Foi uma coisa engraçada, mas ainda assim. Vendemos isso como opinião própria e pessoal, sem divulgar legalmente nos documentos o que analisamos - Cadastro Único Estadual de Pessoas Jurídicas, salários, redes sociais; Vendemos opinião de especialistas e, paralelamente, explicamos à pessoa o que analisamos e como.
    Foram várias histórias, mas estavam relacionadas a alguns projetos comerciais públicos. Por exemplo, temos um projeto gratuito sem fins lucrativos para quem anda de longboard (essas pranchas são longas): a tarefa era coletar as publicações das pessoas - quando alguém posta “Fui passear no Parque Gorky”. E agora ele deve aparecer no mapa, e as pessoas ao seu redor poderão ver que alguém está perto dele. VK bateu de frente conosco neste assunto por muito tempo, porque eles não gostaram do fato de estarmos publicando essas informações sem a permissão das pessoas. Mas então o assunto não chegou a tribunal, porque dentro de várias grandes comunidades adicionámos às regras que os dados poderiam ser utilizados por terceiros, agências, empresas, análises, etc.

  • Acabamos de perceber isso a tempo e começamos a vender nossa opinião de especialistas para todos.

Você trabalha com instituições de ensino?

  • Cooperamos com instituições de ensino, sim. Temos toda uma gama: temos um programa de mestrado no Ensino Superior e cooperamos com outras universidades. Amamos muito as universidades!
  • Se você tiver meus contatos, pode me escrever. E um link para a apresentação, se alguém estiver interessado - todos esses exemplos estão aí, você pode movê-lo.
  • Se você souber o número de telefone, e-mail é uma opção quase cem por cento, ninguém irá removê-lo. Se não houver número de telefone, geralmente é uma foto; se não houver, é o ano, local de residência, trabalho. Ou seja, por ano, local de residência e trabalho, quase todos podem sempre ser identificados de forma bastante sutil. Mas esta é, novamente, uma questão sobre a tarefa.

    Temos, digamos, um cliente que vende televisão pela Internet. Alguém comprou deles uma assinatura desses “Game of Thrones”, e a tarefa é usar seu CRM para encontrar essas pessoas nas redes sociais e, em seguida, encontrar pessoas em potencial em sua área de influência. Só quero dizer que eles têm, digamos, nome, sobrenome e e-mail... E aí fica muito difícil fazer alguma coisa. Na maioria dos casos, as pessoas podem ser encontradas por e-mail.

  • Com base na composição dos nossos amigos, costumamos “combinar” as pessoas nas redes sociais, mas nem sempre isso é correto. Não é que nem sempre esteja certo – nem sempre funciona. Em primeiro lugar, isto exige muito trabalho, porque esta operação (combinar pessoas) terá que ser realizada primeiro para cada um dos amigos - para perceber se vieram das redes sociais ou não. E então - um fato desconhecido para todos que no VKontakte temos os mesmos amigos, no Facebook temos amigos diferentes. Não para todos, mas para mim, por exemplo, é assim; e isso também é verdade para a maioria das pessoas.

Como são coletados os dados mais completos?

  • Instalando software para o cliente ao seu lado. Neles é instalado um servidor que coleta apenas nossos dados públicos e processa seus dados pessoais internamente. Um NDA é celebrado com o cliente. É claro que não é muito correto que eles transfiram isso para nós, mas a responsabilidade legal é do cliente - bem, isto é, instalar software para ele ou transferir dados anônimos. Mas isso era muito raro, porque – anonimato correto ou incorreto – na maioria dos casos se perde a dependência entre essas pessoas.

Quem compra software de reconhecimento facial?

  • Na verdade, estamos indo aqui porque nosso principal software que vendemos é pesquisa facial, análise de correlação, e os vendemos para agências governamentais. E há um ano e meio decidimos que colocaríamos todas essas histórias na publicidade, no marketing, no mercado público - foi assim que foi formada a Social Data Hub, uma pessoa jurídica comercial. E agora estamos vindo para cá. Estamos aqui há um ano e meio, tentando explicar às pessoas que não há necessidade de dar downloads com menção, que elas precisam receber respostas às perguntas, que não há necessidade de tonalidade , e assim por diante. Então é difícil dizer onde...
  • (Quem você quer dizer?) A todos os camaradas que precisam procurar terroristas e pedófilos.
    Posso dizer desde já (esta será a próxima pergunta): segundo nossos dados, nenhum professor foi preso por repostagem.
  • No VKontakte - 14%; no Facebook não existe um perfil fechado propriamente dito (existe uma lista fechada de amigos e assim por diante). E o mais interessante é que acabei de escrever uma mensagem - agora eles vão contar e dizer.

Não poste algo que você vai se envergonhar!

  • Não poste nada nas redes sociais que possa te deixar envergonhado – eu pessoalmente acompanho isso. Embora eu tivesse muitos pessoais, porque juro no Facebook. Bom, havia e havia algo a ser feito... Não poste nada que possa ser constrangedor! Se depois você for trabalhar em algum lugar da Câmara Pública, sim, é melhor não comentar. Se você não vai fazer isso, em geral, ninguém se importa. Só posso garantir que ninguém lê sua correspondência pessoal, e tudo isso está construindo toda essa história...

    Toda semana, alguém definitivamente vem até mim e diz: “Bem, as fotos do meu amigo vazaram para alguma página pública anônima! Ajuda! A propósito, nunca publique nada em páginas públicas anônimas.

  • Não conheço outros sistemas de monitoramento - com certeza levaremos isso em consideração, que a menção à marca foi negativa, Deus me perdoe... Mas posso dizer que todos os tipos de camaradas do estado próximo só estão interessados ​​​​em pessoas que têm um público de mais de 5 mil pessoas, e sua opinião pública pode influenciar alguém. Na minha experiência, nunca aconteceu que a agência de RH que nos encomenda avaliações de perfil dissesse: “Quem gosta de Navalny, não contrate ninguém!”

Sobre a publicação dos resultados. Quantas pessoas trabalham em pesquisa?

  • Das 10 maiores empresas de publicidade, sete estão agora publicando. É difícil dizer: quando começámos isto há um ano e meio... Temos várias pessoas em cada área - tem várias pessoas nos bancos, tem várias pessoas no RH, tem várias pessoas na publicidade. E agora estamos pensando em quem é mais lucrativo ir primeiro, para quem precisamos começar a fazer algumas interfaces...
  • (sobre o número de pessoas por segmento de mercado) Não mais que 25 pessoas, porque não estupramos ninguém.
  • Em geral, em princípio, essas tecnologias do mercado são utilizadas, creio eu, em mais de 50%. Alguns em campanhas publicitárias, alguns em algum tipo de análise interna. Eu diria que 40% usam em análises internas, 50-60% vendem para marcas finais. Mas isso já depende das próprias empresas publicitárias. Veja, algumas pessoas relatam simplesmente o dinheiro gasto, a publicidade que colocaram em prática, enquanto outras escrevem sobre quantas pessoas trouxeram, que tipo de público... Eu diria que sim, mas posso estar errado - não realmente não imagino como todos esses camaradas funcionam. Eu sei apenas em dados quantitativos.

Alguns anúncios 🙂

Obrigado por ficar com a gente. Gostou dos nossos artigos? Quer ver mais conteúdos interessantes? Apoie-nos fazendo um pedido ou recomendando a amigos, nuvem VPS para desenvolvedores a partir de US$ 4.99, um análogo exclusivo de servidores básicos, que foi inventado por nós para você: Toda a verdade sobre VPS (KVM) E5-2697 v3 (6 núcleos) 10 GB DDR4 480 GB SSD 1 Gbps a partir de $ 19 ou como compartilhar um servidor? (disponível com RAID1 e RAID10, até 24 núcleos e até 40 GB DDR4).

Dell R730xd 2x mais barato no data center Equinix Tier IV em Amsterdã? Só aqui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV a partir de US$ 199 na Holanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - a partir de US$ 99! Ler sobre Como construir uma empresa de infraestrutura. classe com o uso de servidores Dell R730xd E5-2650 v4 no valor de 9000 euros por um centavo?

Fonte: habr.com

Adicionar um comentário