Arthur Khachuyan: “Big Data real en publicidad”

El 14 de marzo de 2017, Arthur Khachuyan, director ejecutivo de Social Data Hub, habló en la conferencia BBDO. Arthur habló sobre monitoreo inteligente, construcción de modelos de comportamiento, reconocimiento de contenido de fotografías y videos, así como otras herramientas e investigaciones de Social Data Hub que le permiten dirigirse a audiencias que utilizan redes sociales y tecnologías de Big Data.

Arthur Khachuyan: “Big Data real en publicidad”

Artur Khachuyan (en adelante, AH): - ¡Hola! ¡Hola a todos! Mi nombre es Arthur Khachuyan, dirijo la empresa Social Data Hub y estamos involucrados en varios análisis intelectuales interesantes de fuentes de datos abiertas, campos de información y hacemos todo tipo de investigaciones interesantes, etc.

Y hoy los colegas del Grupo BBDO nos pidieron que habláramos sobre tecnologías modernas para analizar big data, big data y no tan big data para publicidad: cómo se usan, muestre algunos ejemplos interesantes. Espero que hagas preguntas a lo largo del camino, porque puedo volverme aburrido y no revelar la esencia y demás, así que no seas tímido.

En realidad, las direcciones principales, donde alguna vez se utilizó algún tipo de solución "casi big data", son todas claras: esto es la segmentación de la audiencia, el análisis y la realización de algún tipo de investigación analítica de marketing. Pero siempre es interesante qué datos adicionales se pueden encontrar, qué significados adicionales se pueden encontrar después de aplicar el análisis.

¿Por qué necesitamos tecnología para la publicidad?

¿Donde empezamos? Lo más evidente es la publicidad en redes sociales. Hoy me lo quité por la mañana: por alguna razón VKontakte cree que debería ver este anuncio en particular... Si es bueno o malo es la segunda pregunta. Vemos que definitivamente caigo en la categoría de reclutas:

Arthur Khachuyan: “Big Data real en publicidad”

Lo primero y más interesante que se puede tomar como solución tecnológica... Lo primero que quería decidir antes de empezar es definir los términos: ¿qué son datos abiertos y qué son big data? Porque cada uno tiene su propio entendimiento sobre este asunto, y no quiero imponer mis condiciones a nadie, pero... Sólo para que no haya discrepancias.

Personalmente, creo que los datos abiertos son todo lo que puedo acceder sin ningún nombre de usuario o contraseña. Este es un perfil abierto en las redes sociales, estos son resultados de búsqueda, estos son registros abiertos, etc. Big data, en mi opinión, lo veo así: si es una placa de datos, son mil millones de filas, si es algún tipo de almacenamiento de archivos, es algo así como un petabyte de datos. El resto en mi terminología no son big data, sino algo así.

Perfilado y puntuación de perfiles de alta precisión

Vayamos en orden. Lo primero y más interesante que se puede encontrar al analizar fuentes de datos abiertos es la elaboración de perfiles y la puntuación de perfiles de alta precisión. ¿Qué es esto? Esta es una historia donde tu cuenta de red social puede predecir no sólo quién eres, no sólo tus intereses.

Pero ahora, al combinar varias fuentes, puede comprender el nivel promedio de su salario, cuánto cuesta su apartamento y dónde está ubicado. Y todos estos datos se pueden utilizar literalmente con los medios disponibles. Por ejemplo, si abre su cuenta en una red social, mire, digamos, dónde vive, dónde trabaja; comprender en qué sección del negocio se encuentra la empresa para la que trabaja; descargue vacantes similares de HH y "Superjob" si es analista, gerente, etc.; mire dónde vive (base, digamos CIAN), comprenda cuánto cuesta alquilar una casa en este lugar, cuánto cuesta comprar una casa en este lugar, prediga aproximadamente cuánto gana. Además, al utilizar tus redes sociales, puedes comprender cuánto viajas, dónde estás y qué tan leal eres a tu empleador.

En consecuencia, a partir de una cantidad tan grande de métricas podemos hacer lo que queramos. Podemos presentarle un producto que le interese. ¿Te imaginas una tienda online? Vas allí: esta tienda en línea detecta tu cuenta en una red social y te dice: "Masha, acabas de romper con tu novio, aquí tienes algunos productos específicos para ti". Este no es el futuro cercano...

¿Cómo se determina la geolocalización de una persona?

Respuestas a las preguntas de la audiencia:

  • Normalmente, el 80% de todos los registros se consideran el lugar exacto de residencia. Pero para las personas que no se registran en ningún lugar, hay varias opciones: registro o geolocalización, o este es un análisis de publicaciones y publicaciones durante todo el período de tiempo en el que una persona escribió algo... Y en algún lugar, Aparecerá algo como "Quiero comprar un cochecito cerca de Akademicheskaya" o "Recientemente vi graffitis feos en la pared aquí". Es decir, para casi el 80% de las personas su geolocalización, su lugar de trabajo y su lugar de residencia se pueden determinar a partir de datos o metadatos que se pueden recoger de las redes sociales.

    Esto, nuevamente, es un análisis de publicaciones. En el sentido más simple, se trata de un análisis de check-ins y geolocalizaciones en redes sociales, que no eliminan metadatos jpeg (puedes deducir algo de ello). Pero para el resto de personas, estas suelen ser transmisiones de texto: o una persona “brilla” su ubicación cuando escribe sobre algo, o “brilla” su teléfono, mediante el cual se puede encontrar parte de su publicidad en Avito o su cuenta en " Auto RU". Con base en estos datos, puede combinar (por ejemplo, "Estoy vendiendo un automóvil cerca de Mayakovskaya") y asumir esto aproximadamente.

  • La gente suele publicar esto en las redes sociales. Trabajamos sólo con fuentes abiertas y aquí estamos hablando exclusivamente de fuentes abiertas. Suelen publicar anuncios, es decir, en el sesenta por ciento de los casos, la historia más común cuando las personas “muestran” su número de celular actual son anuncios de venta de algo. O en algunos grupos una persona escribe (“vendo esto o aquello allí”) o va a alguna parte.

    ¡Sí! Suelen comentar como: “Contéstame o envíame un SMS, llama a mi número. Esto les sucede muy a menudo a las personas que venden algo, compran algo en las redes sociales, se comunican con alguien... Por lo tanto, usando este número se puede vincular su perfil en CIAN, si alguna vez ha publicado algo, o, nuevamente, en Avito. Estas son simplemente las fuentes principales más populares, más adelante: Avito, CIAN, etc.

  • Esto se refiere a una tienda en línea. La siguiente será la tecnología de reconocimiento facial y coincidencia de perfiles (hablaremos de ello). En teoría, esto se puede aplicar a una tienda fuera de línea. Y, en general, mi gran sueño es que cuando aparezcan carteles en las calles, cuando pases junto a una cámara, te “atrape” la cara. Pero este caso estará prohibido por la ley porque es una violación de la privacidad. Espero que suceda tarde o temprano.
  • Por experiencia personal. Muy a menudo, cuando una persona te escribe algo, te basas en algunos hechos de su vida que aparentemente no deberías saber... La gente en la mayoría de los casos se asusta. ¡Pero! Según estadísticas recientes, el número de cuentas cerradas en las redes sociales ha disminuido un 14%. El número de falsificaciones aumenta, el número de cuentas abiertas aumenta: la gente avanza cada vez más hacia la apertura. Creo que en 3 o 4 años dejarán de reaccionar con tanta fuerza ante el hecho de que alguien conozca información sobre ellos que potencialmente no deberían saber. Pero en realidad es muy fácil de conseguir mirando su pared.

¿Qué se puede extraer de las fuentes abiertas?

Existe una lista aproximada de cosas que se pueden entender con bastante alta confiabilidad a partir de fuentes abiertas. De hecho, existen aún más métricas diferentes; Depende del cliente de dicha investigación. Hay alguna agencia de recursos humanos que está interesada en saber si dices malas palabras en las redes sociales o en algún lugar del espacio público. Alguien está interesado en saber si le gustan las publicaciones de Navalny o, por el contrario, las publicaciones de Rusia Unida o algún tipo de contenido pornográfico; estas cosas suceden con bastante frecuencia.

Los principales son los valores familiares, el coste aproximado de un apartamento, una casa, la búsqueda de un coche, etc. En base a esto, las personas se pueden dividir en grupos sociales. Estos son usuarios de Tinder de Moscú, quiénes son (según las fotografías encontradas en sus cuentas de Facebook); En función de sus intereses, se dividen en varios grupos sociales:

Arthur Khachuyan: “Big Data real en publicidad”

Si nos acercamos a la publicidad, poco a poco nos alejamos de la orientación publicitaria estándar, cuando usted selecciona en VKontakte que está interesado en hombres de 18 años suscritos a ciertos grupos. Tengo esta foto a continuación, te la mostraré ahora:

Arthur Khachuyan: “Big Data real en publicidad”

La conclusión es que la mayoría de los servicios actuales que analizan, en principio, personas que analizan redes sociales, se dedican a analizar intereses... Lo primero que le viene a la mente a la gente es analizar los principales grupos de sus suscriptores. Quizás esto funcione para algunos, pero personalmente creo que es fundamentalmente incorrecto. ¿Por qué?

Tus Me gusta son recopilados y analizados.

Ahora tomen sus teléfonos, miren sus grupos principales: definitivamente habrá más del 50% de los grupos de los que ya se ha olvidado, este es algún tipo de contenido que en realidad es irrelevante para usted. No lo consumes en absoluto, pero aun así el sistema te rastreará en función de ellos: que te hayas suscrito a recetas, a algunos grupos populares. Es decir, violarás el sistema que analiza tu perfil y tus intereses no estarán justificados.

Continuando... ¿Qué hay ahí? Asumimos lo que otras personas están haciendo. En nuestra opinión, la forma más adecuada de valorar los intereses de los usuarios son los me gusta. Por ejemplo, en VKontakte no hay un feed de Me gusta y la gente piensa que nadie sabe lo que les gusta. Sí, algunos de los Me gusta se introducen en Instagram, vemos algo en Facebook, pero la mayor parte del contenido de ciertos grupos no lo transmite en un feed común, y la gente vive y piensa que nadie sabrá lo que les gusta.

Y al recopilar cierto contenido de algún tipo que nos interese, recopilar estas publicaciones, recopilar estos "me gusta" y luego verificar a esta persona usando esta base de datos, podemos determinar con gran precisión quién es, cuál es su destino, qué le interesa. Colócalo exactamente en un determinado grupo social e interactúa con él.

Comprar un coche cambia el comportamiento

Tengo un ejemplo así. Inmediatamente haré una reserva de que mis ejemplos son casi publicidad y casi marketing, porque, ya sabes, la mayoría de los casos están protegidos por NDA, etc. Pero todavía habrá muchas cosas interesantes. Entonces, la historia de estas personas: son hombres que compraron un automóvil entre 2010 y 2015. El color indica cómo ha cambiado su comportamiento social en línea. El porcentaje de chicas entre los suscriptores ha cambiado, me suscribí a páginas públicas "juveniles", encontré una pareja sexual permanente...

Arthur Khachuyan: “Big Data real en publicidad”

Todo esto se desglosa por marca de coche y número de personas. De aquí se pueden sacar muchas conclusiones interesantes sobre el comportamiento de las personas y cómo funciona todo. Puedo decir que el Porsche Cayenne y el Priora plantado son casi iguales en cuanto al número de audiencias atraídas. La calidad de esta audiencia y su comportamiento son diferentes, pero la cantidad es aproximadamente la misma. La conclusión que puedes sacar de aquí es la que quieras, más cerca de tu mercado. Si vendes un Audi, creas el lema "¡Compra un Audi y aléjate de tus padres!" etcétera.

Sí, este es un ejemplo divertido del hecho de que el comportamiento de las personas basado en el análisis de los "me gusta", en función del grupo al que se mueven, del contenido que analizan, con casi un 100% de probabilidad deja claro quién eres. Porque si no tienes acceso al tráfico de la red y no lees mensajes personales, los Me gusta siempre te dirán quién es esta persona: una mujer embarazada, una madre, un militar, un policía. Y para usted, como persona que puede hacer publicidad, esto es un gran acierto.

Respuestas a las preguntas de la audiencia:

  • Cada columna es el número de personas en este vagón; cómo han cambiado sus patrones de comportamiento. Mire: personas que compraron un Porsche Cayenne: aproximadamente 550 personas (amarillo), el porcentaje de niñas entre los suscriptores ha aumentado.
  • La muestra son los usuarios de las redes sociales “Vkontakte”, “Facebook”, “Instagram” de 2010 a 2015. Una única aclaración: los coches aquí seleccionados son aquellos que pueden identificarse en fotografías con más del 80% de precisión utilizando determinadas herramientas.
  • Durante un cierto período de tiempo, su coche (bueno, o sea, no el suyo, eso se lo dejamos a las redes sociales)... Durante un cierto período de tiempo, una persona era constantemente fotografiada con el coche, estaba con él, las publicaciones eran diferentes, las fotografías eran desde diferentes ángulos, etc. Luego aparecerá una imagen de qué personas están tomando fotografías, con qué automóviles y... Sí, esta es la segunda pregunta: la confianza en los datos de las redes sociales.
  • Desde que lo mencionamos, desafortunadamente, los datos de las redes sociales no siempre son correctos. La gente no siempre está dispuesta a publicar su información. Personalmente, realicé un estudio de este tipo: comparé el número de graduados de las universidades de Moscú con el número de personas registradas en las redes sociales. De media, en las redes sociales están registradas un 60% más de personas (graduados de la Universidad Estatal de Moscú en un determinado año en determinadas especialidades) de las que realmente hay en principio. Entonces sí, naturalmente hay un porcentaje de errores aquí y nadie lo oculta. Aquí simplemente tomamos como base aquellos coches que pueden identificarse con más del 80% de probabilidad.

Lista de fuentes para el entrenamiento de modelos

Aquí hay una lista de muestra de fuentes que se pueden usar, que se utiliza para determinar con gran certeza el perfil social de una persona, quién es.

Arthur Khachuyan: “Big Data real en publicidad”

Tomamos un perfil de las redes sociales, de CIAN: el costo de un apartamento es aproximadamente, "Head-Hunter", "Superjob": este es el salario promedio de una persona determinada. Espero que no haya representantes de Head Hunter aquí, porque creen que no es muy bueno quitarles estos datos. Sin embargo, este es el salario promedio en determinadas regiones para determinados tipos de actividades para las vacantes.

"Avito", "Avto.ru": muy a menudo las personas, cuando su teléfono está encendido, definitivamente tienen (en un gran número de casos) al menos algo en "Avito", o en "Avto.ru", o en otro varios sitios desde los cuales puedes entender quiénes son. Si se vendió un cochecito o un automóvil en este número de teléfono... Rosstat y el Registro Estatal Unificado de Entidades Jurídicas son aún más registros con la ayuda de los cuales se puede clasificar a la empresa empleadora, según alguna fórmula, según un modelo que cualquier persona puede configurarlo (puede determinar aproximadamente el dinero de esta persona, etc.).

Tinder ayuda a recopilar datos sobre la situación de las personas

Además, hay algo muy interesante (al menos, en el estudio es muy divertido): esta es, nuevamente, la recopilación de datos de Tinder de Moscú utilizando bots para este Tinder. Se determinó la distancia a las personas y luego se determinó su ubicación aproximada.

Arthur Khachuyan: “Big Data real en publicidad”

El objetivo de este estudio fue determinar el número de cuentas de Tinder en el territorio de las instituciones gubernamentales: en la Duma, la fiscalía, etc. Pero usted, como anunciante, puede imaginar lo que quiera: podría ser, por ejemplo, Starbucks o alguien más... Es decir, la cantidad de personas en Tinder que toman café suyo, piden algo, están en las tiendas. Respecto a esta geolocalización: se puede realizar con cualquier servicio.

Respuesta a una pregunta del público:

  • ¿Tinder? ¿Usted no sabe? Tinder es una aplicación de citas en la que miras fotos (de izquierda a derecha) y esta aplicación te muestra la distancia hasta la persona. Si obtiene la distancia hasta esta persona desde tres puntos diferentes, puede determinar aproximadamente (+ 5-7 metros) la ubicación. En este caso, no es tan difícil determinarlo en el territorio de la fiscalía o de la Duma del Estado. Pero nuevamente, podría ser tu tienda, podría ser cualquier cosa.

Por ejemplo, hace mucho, mucho tiempo tuvimos un caso así (no un estudio), cuando recibimos de uno de los operadores celulares datos sobre la densidad del tráfico, datos sobre la densidad de movimiento de los puntos celulares, y toda esta información se superpuso en las coordenadas de vallas publicitarias ubicadas en las carreteras. Y la tarea del operador de telefonía móvil es determinar aproximadamente cuántas personas pasan por allí y podrían ver este anuncio publicitario.

Si aquí hay especialistas en publicidad en vallas publicitarias, se puede decir: es imposible entender con superfiabilidad: alguien viene, alguien no miró, alguien miró... Sin embargo, este es un ejemplo de cómo hay 20 mil millones de polígonos de estos en Moscú, en el que está la densidad de estas personas cada hora a lo largo de determinadas rutas... Puedes ver por dónde pasaban estas personas en cada momento y estimar aproximadamente el flujo de pasajeros.

Respuesta a una pregunta del público:

  • Nadie da esos datos. Este estudio lo realizamos para uno de los operadores; esta es una historia exclusivamente interna, por lo que lamentablemente no se presenta en forma de imágenes. Pero a menudo las grandes agencias de publicidad no tienen problemas para ponerse en contacto con un operador. Al menos en Moscú, hay muchos precedentes en los que, por ejemplo, las compañías de seguros recurren a compañías como GetTaxi, que proporcionan datos impersonales sobre la edad del conductor, cómo conduce (bueno - malo, imprudente - no), para poder predecir políticas, etc. Todo el mundo lucha con esto, pero en algún nivel interno, dar datos anónimos, creo que nadie tiene ese problema.

Reconocimiento de imágenes y patrones

Adelante. Mi favorito es el reconocimiento de imágenes. Habrá un pequeño artículo sobre la búsqueda de personas por caras, pero la mayoría de las veces no abordamos esta parte. Tomamos específicamente el reconocimiento de imágenes y determinamos qué hay en esa imagen: la marca del automóvil, su color, etc.

Arthur Khachuyan: “Big Data real en publicidad”

Tengo este ejemplo divertido:

Arthur Khachuyan: “Big Data real en publicidad”

Existió un estudio de este tipo sobre la búsqueda de tatuajes en varias redes sociales. En consecuencia, lo mismo se puede aplicar a cualquier marca, a cualquier imagen visual, a casi cualquier imagen visual. Hay aquellos que no se pueden determinar de forma fiable (no los tomamos).

Arthur Khachuyan: “Big Data real en publicidad”

Aquí está mi favorito. Las marcas de automóviles suelen recurrir a esta tarea porque su tarea, por ejemplo, es encontrar a todos los propietarios de un BMW X6, comprender quiénes son, cómo están conectados entre sí, qué les interesa, etc. Esto se relaciona con la cuestión de con qué coches se fotografía la gente en las redes sociales.

Arthur Khachuyan: “Big Data real en publicidad”

Aquí no hubo ningún filtrado: el objeto era suyo, el coche no era suyo; Es simplemente la avería de los coches: la edad, etc. Pero el reconocimiento visual de imágenes se utiliza con bastante frecuencia: tanto la búsqueda de mujeres embarazadas como la búsqueda de logotipos de marcas en algún medio de comunicación (quién publica qué).

Arthur Khachuyan: “Big Data real en publicidad”

Mi caso favorito (que utilizan varios restaurantes): qué tipo de panecillos se publican en una red social. Es curioso, pero en realidad te permite comprender muchas cosas interesantes, en primer lugar, sobre tus propios clientes: quiénes acudieron a ti y por qué lo hicieron. Porque no es ningún secreto que en los bares de sushi la mayoría de la gente (no diré “chicas”) se hacen fotos para hacer el check-in, hacerle una foto a algo, etc.

La marca puede aprovechar esto. La marca está interesada en qué tipo de productos necesita fotografiar y publicar bellamente, qué tipo de personas vinieron allí. Esto se puede hacer con casi cualquier cosa, desde la comida.

Reconocimiento de patrones de vídeo

Respuesta a una pregunta del público:

  • No en vídeo. Lo tenemos en modo de prueba. Probamos esta tecnología, pero resulta que... Reconoce todo con vídeo bastante bien, pero no hemos encontrado una aplicación para ello en ninguna parte. Adiós. Aparte de analizar cuánto y qué videoblogueros hablan en alguna parte... Existió un estudio de este tipo. Cuántos de sus rostros se encuentran, con qué frecuencia. Pero las marcas aún no han descubierto dónde se les ocurre esto. Quizás algún día llegue.

Nuevamente, esto es comida, pueden ser mujeres embarazadas, hombres (no embarazadas), automóviles, cualquier cosa.

Como opción, hubo un estudio de Año Nuevo para un medio de comunicación. También lejos de la publicidad, pero aún así. Este es el tipo de comida que la gente ayuna para el Año Nuevo:

Arthur Khachuyan: “Big Data real en publicidad”

Aquí también se desglosa por edad. Se puede ver tal correlación que los jóvenes en su mayoría piden comida, los adultos en su mayoría preparan una mesa tradicional. Es curioso, pero imaginándolo como propietario de una marca, puedes evaluar una gran cantidad de cosas: quién maneja tu producto y cómo, qué escriben sobre él. A menudo, las personas no siempre mencionan la marca en sí en el texto, y los sistemas de seguimiento analítico tradicionales no siempre pueden comprender y encontrar esta mención de la marca únicamente porque no se menciona en el texto. O el texto está mal escrito, no hay etiquetas hash ni nada.

Las fotos son visibles. Con la fotografía, puedes saber si es el sujeto central del encuadre o no. Entonces podrás ver lo que escribió esta persona. Pero la mayoría de las veces se utiliza como búsqueda de audiencias potenciales que han conducido determinados coches, etc. Y luego haremos muchas cosas interesantes con estos coches.

A los robots se les enseña a imitar a los humanos.

También existía esta opción para utilizar el conteo de personas:

Arthur Khachuyan: “Big Data real en publicidad”

Existe una opción para comparar personas, cuando necesitas encontrar personas usando algunas fotografías, entender su perfil social, quiénes son. Nuevamente, volvemos a la pregunta de que si tenemos una cámara en una tienda fuera de línea, entonces esta es una manera bastante buena de comprender quién acude a usted, quiénes son estas personas, qué les interesa, qué los impulsó a acudir a usted. .

Luego viene lo más interesante: si recopilamos sus cuentas en las redes sociales, entendemos quiénes son estas personas, qué les interesa, podemos (como opción) crear un bot similar a estas personas; este robot comenzará a vivir como estas personas y analizará qué anuncios ve en varias redes sociales. Esto le permitirá comprender con precisión qué marcas están dirigidas a esta persona. Esta también es una historia bastante común cuando es necesario no solo analizar quién es esta persona y qué intereses tiene, sino también a qué tipo de publicidad deberían dirigirse sus competidores potenciales u otras personas interesadas.

Arthur Khachuyan: “Big Data real en publicidad”

Análisis de conexiones en redes sociales.

Arthur Khachuyan: “Big Data real en publicidad”

Lo siguiente interesante es el análisis de las relaciones entre las personas. En realidad, el análisis de las conexiones en la red, estos gráficos de red, no hay nada nuevo en esto, todo el mundo lo sabe.

Arthur Khachuyan: “Big Data real en publicidad”

Pero la aplicación a tareas publicitarias es la más interesante. Esta es una búsqueda de personas que marcan tendencias, esta es una búsqueda de personas que difunden información según ciertos criterios dentro de esta red. Digamos que estamos interesados ​​en los mismos propietarios de un determinado modelo de BMW. Si los reunimos a todos, podremos encontrar a quienes controlan la opinión pública. Estos no son necesariamente bloggers de automoción y demás. Por lo general, se trata de simples camaradas que se sientan en varias páginas públicas, están interesados ​​​​en algún contenido y pueden, en muy poco tiempo, atraer su marca o alguien de su interés a esta área de responsabilidad, al área de ​​interés.

Hay un ejemplo así aquí. Tenemos algunas personas potenciales, conexiones entre personas. Aquí los naranjas son personas, los pequeños puntos son grupos comunes, amigos comunes.

Arthur Khachuyan: “Big Data real en publicidad”

Si recoges todas estas conexiones entre ellos, puedes ver muy claramente que hay personas que tienen una gran cantidad de grupos en común, amigos en común, están ahí entre ellos... Y si esta misma visualización se divide en grupos por intereses, por contenidos, qué distribuyen, cuánto interactúan entre ellos... Aquí podéis ver que la imagen anterior quedó así:

Arthur Khachuyan: “Big Data real en publicidad”

Aquí los grupos se distinguen claramente por el color. En este caso, se trata de nuestros alumnos de maestría de la Escuela Superior de Economía. Aquí puedes ver que los morados/azules son los que aman a Transparencia Internacional, Rusia Abierta y las páginas públicas de Khodorkovsky. Abajo a la izquierda están los verdes, los que aman a Rusia Unida.

Puedes ver que la imagen anterior era así (estas son solo conexiones entre personas), pero se ha demarcado claramente. Es decir, todas las personas siempre están conectadas entre sí, tienen los mismos intereses, son amigos entre sí. Hay unos arriba, otros abajo, y algún que otro camarada ahí. Y si cada uno de estos pequeños subgrafos se visualiza por separado con otros parámetros y se observa la velocidad de difusión del contenido (en términos generales, quién vuelve a publicar qué), se puede encontrar en cada parte una o dos personas que siempre tienen la opinión pública en sus manos. interactuando con el cual, solicitando enviar algún tipo de publicación u otra cosa, puede obtener una respuesta de toda esta interesante audiencia.

Tengo otro ejemplo similar. También un gráfico: estos son empleados del Grupo BBDO encontrados en las redes sociales a modo de ejemplo. Parece poco interesante, grande, verde, conexiones entre ellos...

Arthur Khachuyan: “Big Data real en publicidad”

Pero tengo una opción donde ya hay grupos creados entre ellos. Luego, si alguien está interesado, hay una versión interactiva: puede hacer clic y echar un vistazo.

Arriba a la derecha están los que aman a Putin. Aquí los morados son los diseñadores; aquellos que estén interesados ​​en el diseño, algo interesante, etc. Aquí las cosas blancas son el equipo directivo (al parecer, según tengo entendido); Se trata de personas que, por lo general, no tienen ningún vínculo, pero trabajan aproximadamente en los mismos puestos. El resto son sus grupos comunes, conexiones, etc.

Las marcas no necesitan bloggers, sino líderes de opinión

Tomamos a estas personas y las encontramos; luego la agencia de publicidad, la empresa de publicidad, decide por sí misma: puede darle dinero a esta persona para que de alguna manera interactúe con este contenido, otra cosa, o dirigirles su propia campaña publicitaria específica. Esto también se usa con bastante frecuencia, especialmente ahora, porque todas las marcas quieren trabajar con bloggers, quieren que se promocione su contenido, pero las agencias de publicidad realmente no quieren contactar (bueno, esto sucede).

Y la verdadera salida a esta situación es encontrar personas que no sean blogueros, ni blogueros de belleza, sino, por ejemplo, seres reales que interactúen con esta marca, que puedan escribir en alguna miserable página pública "Respuestas de Mail.ru", obtener un cierto número de vistas. Estas personas, que están constantemente interesadas en el contenido de esta persona, difundirán todo y la marca se involucrará.

La segunda opción para utilizar dicha tecnología ahora es bastante relevante: buscar bots, mi favorita. Esto supone un riesgo para la reputación de sus competidores y una oportunidad para eliminar a personas irrelevantes de una campaña publicitaria y de cualquier otra cosa (eliminar comentarios y buscar conexiones entre personas). Tengo un ejemplo así, también es grande e interactivo: puedes moverlo. Estas son conexiones de personas que escribieron comentarios en la comunidad Lentach.

Este ejemplo es para que entiendas qué tan bien y fácilmente visibles son los bots; y para ello no es necesario tener ningún conocimiento técnico. Esto significa que "Lentach" publicó un post sobre la investigación del FBK sobre Dmitry Medvedev, y algunas personas comenzaron a escribir comentarios. Recopilamos a todas las personas que escribieron comentarios; estas personas son verdes. Ahora lo moveré:

Arthur Khachuyan: “Big Data real en publicidad”

La gente es la verde (quien escribió los comentarios). Están aquí, están aquí. Los puntos azules entre ellos son sus grupos comunes, los puntos amarillos son sus suscriptores, amigos, etc. La mayor parte de las personas están conectadas entre sí. Porque, sea cual sea la teoría de tres, cuatro, cinco apretones de manos, todas las personas están conectadas entre sí en las redes sociales. No hay personas que estén separadas unas de otras. Incluso mis amigos con fobia social que usan VKontakte exclusivamente para ver videos todavía están suscritos a algunas de las mismas páginas públicas que nosotros.

Navalny también utiliza bots. Todo el mundo tiene robots.

La mayor parte de la gente (aquí está, aquí) está conectada entre sí. Pero hay un grupo tan pequeño de camaradas que son exclusivamente amigos entre sí. Aquí están los pequeños verdes, aquí están sus amigos y grupos en común. Incluso se cayeron por separado aquí:

Arthur Khachuyan: “Big Data real en publicidad”

Y por una afortunada coincidencia, fueron precisamente estas personas las que escribieron debajo de esta publicación: "Navalny no tiene pruebas", etc., escribieron los mismos comentarios. Por supuesto, no me atrevo a sacar conclusiones. Sin embargo, tuve otra publicación en Facebook, cuando hubo un debate entre Lebedev y Navalny, analicé los comentarios de la misma manera: resultó que todas las personas que escribieron “Lebedev es una mierda”, no habían estado en las redes sociales. Recientemente, hace cuatro meses que no estaba suscrito a ninguna de las páginas públicas, de repente fui a esta publicación en particular, escribí exactamente este comentario y me fui. Nuevamente, es imposible sacar conclusiones de aquí, pero alguien del equipo de Navalny me escribió un comentario diciendo que no usan bots. ¡Bueno esta bien!

Más cerca de la publicidad, más cerca de la marca. ¡Todo el mundo tiene robots ahora! Nosotros los tenemos, nuestros competidores los tienen y otros los tienen. Hay que echarlos o dejarlos vivir bien; Con base en dichos datos (señala la diapositiva anterior), perfeccionelos para que parezcan personas reales y solo entonces úselos. ¡Aunque usar bots es malo! Sin embargo, una historia bastante común...

En modo automático, esto le permite filtrar de su análisis a personas que son irrelevantes para el análisis, personas que no deberían incluirse en la muestra, no deberían incluirse en este estudio. Se utiliza muy a menudo. Por otra parte, no todos los propietarios de automóviles realmente poseen automóviles. A veces, a la gente solo le interesan las personas que potencialmente tienen un automóvil, que se sientan en algunos grupos, se comunican con alguien y tienen una audiencia determinada allí.

Análisis de hechos y opiniones.

El siguiente que tengo también es mi favorito. Este es un análisis de hechos y opiniones.

Arthur Khachuyan: “Big Data real en publicidad”

Hoy en día todo el mundo sabe cómo mencionar su marca en diversas fuentes. No hay ningún secreto para esto. Y todo el mundo parece poder calcular la tonalidad... Aunque personalmente creo que la métrica de la tonalidad en sí no es muy interesante, porque cuando vienes y le dices al cliente: “Hombre, tienes un 37% de neutralidad”, y él te lo dice. , “¡Guau! ¡Fresco!" Por tanto, sería más interesante ir un poco más allá: de valorar el sentimiento a valorar las opiniones de lo que dicen sobre tu producto.

Y esto también es algo muy interesante, porque... Personalmente creo que en principio no puede haber mensajes neutrales, porque si una persona escribe algo en el espacio público, este mensaje de alguna manera está coloreado de alguna manera. Personalmente, nunca he visto un mensaje neutral que mencione una marca. Generalmente es algún tipo de suciedad.

Si tomamos una gran cantidad de estos mensajes (podría haber millones, 10 millones), resaltamos la idea principal de cada mensaje, los combinamos, podemos entender de manera bastante confiable lo que la gente dice sobre esta marca, lo que piensan. "No me gusta el empaque", "no me gusta la consistencia", etc.

¿Qué piensa la gente sobre Transaero, Chupa Chups y el presidente de Estados Unidos?

Tengo un ejemplo curioso: esta es una infografía sobre lo que harían los usuarios de las redes sociales con la empresa Transaero tras su quiebra.

Arthur Khachuyan: “Big Data real en publicidad”

Hay muchos ejemplos interesantes allí: quemar, matar, deportar a Europa, incluso hubo un 2% que escribió: "Envíenlos a Siria para operaciones militares". Dejando de ser curioso, podría ser casi cualquier marca, desde mi comida para perros favorita hasta algunos coches. A quien no le guste el embalaje, a quien no le gusten las cosas reales, siempre se puede trabajar con esto, siempre se puede tener esto en cuenta. Hay una gran cantidad de ejemplos en los que la gente casi cambió la producción de sus productos porque escribieron en las redes sociales que el Chupa Chups no era lo suficientemente redondo o no era lo suficientemente dulce.

Hay otro ejemplo divertido. ¿Adivina qué comentarios y sobre quién?

Arthur Khachuyan: “Big Data real en publicidad”

Por alguna razón, ahora el análisis de opiniones, el análisis de hechos extraídos de los mensajes, no se utiliza mucho y no está muy extendido. Aunque esta tecnología no es súper secreta, prácticamente no hay ningún conocimiento al respecto, porque a partir de los comentarios de las personas, extraer el sujeto, el predicado y agruparlos no requiere un genio en lingüística computacional. No es tan difícil de hacer. Pero espero que en los próximos años la gente empiece a usar esto, porque... Será genial: ¡es una retroalimentación tan automática! Siempre sabes lo que dicen de ti. Bueno, comprenderá que esto se hizo sobre el presidente de los Estados Unidos.

Respuesta a una pregunta del público:

  • Sí, este es Facebook en inglés. Están traducidos al ruso aquí. Esto fue escrito en alguna parte.

Big Data y tecnologías políticas

De hecho, tengo muchos ejemplos interesantes de política sobre Trump y todos los demás, pero decidimos no traerlos aquí. Pero hay un ejemplo político.

Estas son las elecciones a la Duma del Estado. ¿Cuando estabas tu? ¿El año pasado? Hace casi un año y medio.

Arthur Khachuyan: “Big Data real en publicidad”

Aquí hay personas que pudieron determinar su ubicación exacta, hasta un determinado geopunto, para comprender en qué distrito electoral se encuentran. Y luego, de estas personas, solo se tomaron aquellos que expresaron su opinión definitiva, por quienes votarían.

Desde el punto de vista de la tecnología política, esto no es muy correcto, porque todo esto necesita ser normalizado por la densidad de población, etc. Sin embargo, los azules aquí van a votar por ya sabes quién, los rojos van a votar por los camaradas de la oposición, de los cuales, por cierto, no eran muchos.

Personalmente creo que el Big Data no llegará pronto a las tecnologías políticas, pero, como opción, el candidato es también una marca. Y esto también es, hasta cierto punto, un análisis de hechos y opiniones sobre tu marca, y algo bastante interesante, porque puedes entender en tiempo real quién está haciendo qué. Conozco varios casos de la BBC, cuando monitorearon las redes sociales en tiempo real en alguna transmisión: hubo tal o cual respuesta, la gente escribe sobre ello, hace tal o cual pregunta, ¡y es genial! Creo que se utilizará muy pronto porque es interesante para todos.

Modelando posiciones de marca

Arthur Khachuyan: “Big Data real en publicidad”

A continuación tengo el modelado de posiciones de marca. Un artículo pequeño y breve sobre cómo clasificar las marcas utilizando varias métricas (no los me gusta de los suscriptores en las redes sociales, sino el uso de métricas complejas, el interés en el contenido, el tiempo dedicado a recibir métricas).

Arthur Khachuyan: “Big Data real en publicidad”

Tengo un ejemplo de “farmacéutica” por una determinada razón. Aquí los círculos pequeños son internos, brillantes: esta es la cantidad de contenido de texto que crea la propia marca, el círculo grande es la cantidad de contenido de fotografías y videos que crea la propia marca.

La proximidad al centro muestra lo interesante que es el contenido para la audiencia. Hay un modelo grande, hay un montón de parámetros de todo tipo: me gusta, reposts, tiempo de respuesta, quién compartió allí en promedio... Aquí puedes ver: hay un maravilloso "Kagotsel", que bombea una gran cantidad de dinero para crear su propio contenido, y por eso están bastante cerca del centro. Y hay compañeros que también crean su propio contenido, pero al público no le interesa. Éste no es un ejemplo muy adecuado, porque todas estas cuentas están prácticamente muertas.

Yegor Creed es amado más que Basta

Arthur Khachuyan: “Big Data real en publicidad”

Lamentablemente el resto... de qué mostrar... Bueno, también hay raperos rusos, como opción, de empresas reales.

¿Cuál es la ventaja? El hecho es que una empresa puede poner casi cualquier cosa en un modelo de este tipo, empezando por el salario medio de los suscriptores que trabajan para su marca; cualquier modelo que les guste. Debido a que cada agencia de publicidad calcula sus propias métricas de manera diferente, las marcas calculan sus propias métricas de manera diferente.

También hay uno aquí: Basta, que genera una gran cantidad de contenido, pero está ubicado en la periferia, porque este contenido aparentemente no es muy interesante para la audiencia. Una vez más, no pretendo juzgar. Sin embargo, está Yegor Creed, quien, según las redes sociales, es casi el mejor intérprete de nuestro tiempo, pero publica solo sus fotografías personales. Sin embargo, tiene un gran número de suscriptores: alrededor de un millón. No recuerdo el número exacto; Recuerdo que el porcentaje de participación de estas personas es mucho mayor que el 85%, es decir, por cada millón de suscriptores recibe 850 mil respuestas de estas personas reales; esto es una verdadera locura. Esto es cierto.

Arthur Khachuyan: “Big Data real en publicidad”

Respuestas a las preguntas de la audiencia:

¿Cuánto tiempo llevó crear el modelo de análisis del rapero?

  • Cada uno tiene su propio público objetivo, los intereses de estas personas se calculan para cada uno... Todo esto está normalizado a la distancia al centro aproximadamente, su posición radial no es importante (aquí simplemente está manchado por belleza, para que no no chocar entre sí). Sólo es importante la proximidad aproximada al centro. Este es el modelo que utilizamos. Por ejemplo, a mí me gusta más el círculo, algunas personas lo hacen mentalmente como un semicírculo.
  • Este modelo se compiló rápidamente, en dos o tres horas (sí, una persona). Aquí solo se insertaron métricas: qué multiplicamos por qué, lo sumamos y luego de alguna manera lo normalizamos. Depende del modelo. Hay gente que se interesa por el salario medio (esto no es broma) de sus suscriptores. Y para ello necesitas encontrar sus contactos, Avito, calcularlo todo, multiplicarlo. Sucede que esto lleva mucho tiempo tenerlo en cuenta, pero específicamente esto (señala la diapositiva anterior): los parámetros aquí son muy simples: suscriptores, reenvíos, etc. Tardaron entre dos y tres horas en completarse. En consecuencia, esto se actualiza en tiempo real y usted puede usarlo.

Ahora viene la parte divertida. Ya terminé con los ejemplos, porque no es interesante hablar durante mucho tiempo a solas. Y espero que ahora hagan preguntas y, de hecho, pasemos de un tema a otro, porque tengo ejemplos de cómo se pueden utilizar las tecnologías, etc.

Respuestas a las preguntas de la audiencia:

  • Tuve un único caso personal con uno, por así decirlo, "casino" cuando se colocó una cámara allí, se reconocieron rostros, etc. El porcentaje de personas reconocidas es ciertamente bastante grande, tanto el nuestro como el de nuestra competencia. Pero en realidad es bastante interesante. Veo esto como algo interesante: puedes entender quiénes son estas personas y predecir bastante bien por qué vinieron aquí exactamente, qué ha cambiado tanto en sus vidas que decidieron venir al casino. Pero en cuanto a tipos específicos de negocios... Si pones algo así en una farmacia, entonces no tiene sentido: no puedes predecir por qué una persona vino a la farmacia.

    La tarea global aquí era construir un modelo para comprender cuándo una persona potencialmente quiere estar interesada en su marca, de modo que pueda darle publicidad no después de haber comprado algo (como está sucediendo ahora), sino darle publicidad”. en pronóstico” de cuándo sucederá todo esto. Fue interesante con un “casino” así; resultó haber un porcentaje bastante interesante de estas personas - por qué: alguien de repente recibió un ascenso, alguien más obtuvo algo más - ideas tan interesantes. Pero con algunas tiendas, con el comercio minorista, con una tienda de algún tipo de pastillas, me parece que no será muy correcto.

¿Se utiliza Big Data sin conexión?

  • Estaba fuera de línea. Solo necesita comprender exactamente, aproximadamente, si este modelo encajará o no. De nuevo, con el agua con gas... La verdad es que me interesa todo, pero personalmente no entiendo en qué medida, en qué medida pueden depender los perfiles de estas personas, su comportamiento, de cuándo quieren comprar agua embotellada. Aunque esto puede ser realmente cierto, no lo sé.

¿Cuántas cuentas de redes sociales abiertas hay?

  • En concreto, tenemos 11 redes sociales: "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" y algunas cositas (puedo mirar la lista, como "Mail.ru", etc.) . En VKontakte definitivamente tenemos una copia de todos estos camaradas. Tenemos gente en VKontakte: son 430 millones de todos los que alguna vez han existido (de los cuales alrededor de 200 millones están constantemente activos); hay grupos, hay conexiones entre estas personas y hay contenidos que nos interesan (texto), y una parte de los medios, pero muy pequeña... A grandes rasgos, miramos esta imagen: si hay caras allí, guárdelos, si hay un meme, los guardamos. No lo guardamos, porque ni siquiera nosotros tendríamos suficiente para guardar el contenido multimedia.

    Hay un Facebook en ruso. En algún lugar ahora el 60-80% son Odnoklassniki, en un par de meses probablemente los tengamos todos hasta el final. Instagram ruso. Para todas estas redes sociales existen grupos, personas, conexiones entre ellos y texto.

  • Unos 400 millones de personas. Hay una sutileza: hay personas cuya ciudad no se especifica (son potencialmente rusos/no rusos); De estos, el promedio en las redes sociales es del 14% de cuentas cerradas en VKontakte, no sé la cifra exacta en Facebook.
  • Tampoco guardamos medios en Instagram, solo si hay caras allí. No almacenamos dicho (otro) contenido multimedia. Suele ser interesante: sólo texto, conexiones entre personas; Todo. La investigación más común en Instagram es la investigación habitual sobre la audiencia: quiénes son estas personas y, lo más importante, la conexión de estas personas con otras redes sociales. Busque el perfil de esta persona en Vkontakte y Facebook para calcular su edad, etc.
  • No es necesario enfrentarse a todos los demás todavía, simplemente porque no hay clientes. Respecto al idioma: tenemos ruso, inglés, español, pero aún así este se usa exclusivamente para marcas de Rusia; bueno, o las empresas que los traen desde Rusia.
  • Entrevistamos a personas todos los días en muchos, muchos, muchos hilos: recopilamos datos a través de la web y actualizamos estos indicadores usando Api. En 2-3 días puedes revisar todo "VKontakte", revisándolos; En aproximadamente una semana puedes recorrer todo Facebook y comprender quién ha actualizado qué y qué no. Y luego vuelva a reunir a estas personas por separado: qué ha cambiado exactamente, escriba toda esta historia. En mi experiencia, muy rara vez se ha utilizado el antiguo perfil de alguien en las redes sociales para algún propósito comercial real. Este fue el momento en que una figura política presentó su solicitud, y su tarea era comprender qué tipo de personas vienen a la sede, quiénes eran estas personas hace 6-8 meses (¿eliminaron su perfil, pero de hecho, para otro candidato llegaron las papeletas? arruinar).

    Y un par de veces: historias personales en las que las fotografías de alguien se publicaron en el dominio público. Era necesario encontrar conexiones, etc. Desafortunadamente, es una lástima, pero no podemos testificar ante el tribunal porque nuestra base de datos no tiene liquidez legal.

  • El almacenamiento MongoDB es mi favorito.

Las redes sociales intentan luchar contra la recopilación de datos

  • Por lo general, cargamos solo una lista de estas cuentas a los anunciantes y luego usan la estándar... Es decir, en las redes sociales, en VKontakte, puede especificar una lista de estas personas.

    Pero Facebook utiliza cookies compradas. Nosotros mismos no trabajamos con cookies, pero hubo varias historias en las que el propio anunciante les dio a algunas personas, interactuamos con ellas: tienen estas redes, con publicidad teaser y no teaser, estas "cookies". Puedes atarlo, ¡no hay duda! Pero realmente no me gustan estas cosas porque no creo que sean muy auténticas. Esto es puramente en mi opinión, es como TNS, que "rastrea" los televisores: no está claro si estás viendo este televisor o no, si estás lavando los platos mientras el televisor está encendido... Y aquí ocurre lo mismo. : Muy a menudo busco algo en Internet en Google, pero eso no significa que quiera comprarlo.

  • Si está utilizando algún tipo de red de publicidad contextual estándar: tuve varias historias cuando les descargamos a estas personas e intentamos, usando sus interfaces, conectarlas con "cookies" en sus sitios. Pero realmente no me gustan esas cosas.

Fórmula para calcular el salario de un internauta

  • La fórmula general para el salario promedio: esta es la región donde vive una persona, esta es la categoría de negocio en la que trabaja (es decir, la empresa que es su empleador), luego se toma su puesto en esta empresa, el promedio El salario para este puesto es estimado... Salario promedio tomado de “Head Hunter” y “Superjob” (y hay varias otras fuentes) para una vacante determinada en una región determinada y para un contexto empresarial determinado.

    De "Avito" y "Avto.ru" generalmente se toman parámetros adicionales si una persona ha iluminado el teléfono. Con Avito puedes ver qué tipo de cosas vende una persona: caras, económicas, usadas o no usadas. Con "Avto.ru" puede ver si tiene un automóvil: es de su propiedad, no de él. Esto es menos del 20% de las personas que accidentalmente dejaron caer su teléfono en algún lugar, y su cuenta se puede vincular con estos datos.

¿Qué volúmenes opera la empresa de recolección de datos?

  • El volumen de fotografías almacenadas en petabytes es de 6,4. No puedo decir exactamente la tasa de crecimiento ahora, porque en 2016 comenzamos a grabar "periscopios" y recién comenzamos a grabar videos.

    No puedo decir exactamente cuando era cero. Pasamos de una empresa a otra; todas estas son historias largas. Pero puedo decir que VK, Facebook, Instagram y Twitter, todo este negocio (personas, grupos y conexiones entre ellos) con texto y contenido, en realidad no son muchos datos, es poco probable que ni siquiera un petabyte sea suficiente. Creo que son 700 gigabytes, probablemente 800.

¿Ayuda a los clientes a determinar el nicho actual y dónde buscar?

  • Cuando viene un cliente, le sugerimos esas cosas, pero nosotros, como Google Trends, no las hacemos.
  • Teníamos varias historias casi sociológicas, con historia electoral y preelectoral; lo analizamos todo. Con las marcas y valorando opiniones sobre las marcas, casi siempre todo coincide. Aquí hay historias electorales: no (con una evaluación de qué candidato debería ganar). No sé quién se equivoca: nosotros o los que piensan en VTsIOM.
  • Por lo general, tomamos estos resultados de control de la propia marca, ellos los toman de camaradas que encargan investigaciones: investigaciones telefónicas, investigaciones de marketing, etc. Además, todo esto se puede comprobar con cosas básicas: alguien respondió a la lista de correo, alguien hizo encuestas... Si es una marca grande (Coca-Cola, por ejemplo), seguro que tiene un millón o dos de valoraciones internas de clientes. – estos no son sólo comentarios en las redes sociales y algunas opiniones; Se trata de algún tipo de sistemas internos, revisiones, etc.

¡La ley no “sabe” qué son los datos personales!

  • Analizamos exclusivamente fuentes de datos abiertas y nunca nos involucramos en trucos sucios. Nuestro modelo se basa en el hecho de que almacenamos todos los datos abiertos en algunos centros de datos públicos, los alquilamos en otro lugar y los analizamos en casa, en nuestras oficinas, en nuestros servidores, y no van a ningún lado fuera del territorio.

    Pero nuestra legislación en materia de datos abiertos es muy vaga.

    No tenemos una idea clara de qué son los datos abiertos, qué son los datos personales; existe esta ley federal 152, pero aún así... ¿Cómo se cuentan? Ahora, si tengo tu nombre y tu número de teléfono en una base de datos, en otra base de datos tengo tu número de teléfono y tu correo electrónico, en una tercera tengo, digamos, tu correo electrónico y tu auto; Todo esto parecen ser datos no personales. Si juntamos todo esto, parece que según la ley se convertirán en datos personales.

    Solucionamos esto de dos maneras. La primera es instalar un servidor con software para el cliente, y luego estos datos no salen de su territorio, y luego el cliente es responsable de la distribución de estos datos personales, no personales, etc. O la segunda opción: si se trata de algún tipo de historia en la que hay que demandar a una red social o algo más...

    Hicimos un estudio de este tipo cuando recopilamos (hubo primarias de Rusia Unida) para Lifenews las cuentas de estos camaradas y observamos qué tipo de pornografía les gustaba. Fue algo gracioso, pero aun así. Vendemos esto como nuestra propia opinión personal, sin revelar legalmente en los documentos lo que analizamos: el Registro Unificado de Personas Jurídicas del Estado, salarios, redes sociales; Vendemos opiniones de expertos y luego, al margen, le explicamos a la persona qué analizamos y cómo.
    Hubo varias historias, pero estaban relacionadas con algunos proyectos comerciales públicos. Por ejemplo, tenemos un proyecto gratuito sin fines de lucro para quienes practican longboards (tales tablas son largas): la tarea consistía en recopilar publicaciones de las personas, cuando alguien publica "Fui a dar un paseo en Gorky Park". Y ahora debería aparecer en el mapa y las personas a su alrededor podrán ver que hay alguien cerca de él. VK estuvo bastante tiempo en desacuerdo con nosotros sobre este tema, porque no les gustaba que publicáramos esta información sin el permiso de la gente. Pero luego el asunto no llegó a los tribunales, porque en varias comunidades grandes añadimos a las reglas que los datos podrían ser utilizados por terceros, agencias, empresas, análisis, etc. Por supuesto, no fue particularmente ético, pero aun así.

  • Nos dimos cuenta a tiempo y comenzamos a vender nuestra opinión experta a todos.

¿Trabaja con instituciones educativas?

  • Cooperamos con instituciones educativas, sí. Tenemos toda una gama: tenemos un programa de maestría en la Escuela Superior y cooperamos con otras universidades. ¡Amamos mucho las universidades!
  • Si tienes mis contactos puedes escribirme. Y un enlace a la presentación, si alguien está interesado: todos estos ejemplos están ahí, puede moverlo.
  • Si conoce el número de teléfono y el correo, esta es una opción casi al cien por cien, nadie la eliminará. Si no hay número de teléfono, suele ser una foto; si no hay foto, es el año, lugar de residencia, trabajo. Es decir, por año, lugar de residencia y trabajo, casi siempre se puede identificar de forma bastante sutil a casi todo el mundo. Pero esto, nuevamente, es una cuestión acerca de la tarea.

    Tenemos, digamos, un cliente que vende televisión por Internet. Alguien les compró una suscripción a estos “Juegos de Tronos”, y la tarea es usar su CRM para encontrar a estas personas en las redes sociales, y luego encontrar potenciales en su área de influencia. Sólo quiero decir que tienen, digamos, un nombre, un apellido y un correo electrónico... Y luego es muy difícil hacer cualquier cosa. En la mayoría de los casos, se puede encontrar a las personas por correo electrónico.

  • Según la composición de nuestros amigos, solemos “emparejar” personas en las redes sociales, pero esto no siempre es correcto. No es que no siempre sea correcto: no siempre funciona. En primer lugar, esto requiere mucho trabajo, porque esta operación (emparejar personas) deberá realizarse primero para cada uno de los amigos, para saber si provienen de las redes sociales o no. Y luego, un hecho desconocido para todos: en VKontakte tenemos los mismos amigos, en Facebook tenemos amigos diferentes. No para todos, pero para mí, por ejemplo, es así; y esto también es cierto para la mayoría de las personas.

¿Cómo se recopilan los datos más completos?

  • Instalación de software para el cliente de su lado. Se les instala un servidor que solo toma de nosotros datos públicos y procesa sus datos personales internamente. Se concluye un acuerdo de confidencialidad con el cliente. Esto, por supuesto, no es muy correcto que nos lo transfieran, pero la responsabilidad legal recae en el cliente, bueno, es decir, instalarle software o transferir datos anónimos. Pero esto fue muy raro, porque, anonimización correcta o incorrecta, en la mayoría de los casos se pierde la dependencia entre estas personas.

¿Quién compra software de reconocimiento facial?

  • En realidad, vamos aquí porque nuestro principal software que vendemos es buscar rostros, analizar relaciones y lo vendemos a agencias gubernamentales. Y hace un año y medio decidimos que pondríamos todas estas historias en publicidad, marketing, mercado público: así se formó Social Data Hub, una entidad legal comercial. Y ahora simplemente estamos viniendo aquí. Hemos estado aquí durante un año y medio, tratando de explicarle a la gente que no es necesario darles descargas con una mención, que deben recibir respuestas a las preguntas, que no hay necesidad de tonalidad. , etcétera. Entonces es difícil decir dónde...
  • (¿A quién te refieres?) A todos los camaradas que necesitan buscar terroristas y pedófilos.
    Puedo decir de inmediato (esta será la siguiente pregunta): según nuestros datos, ningún maestro fue encarcelado por volver a publicar.
  • En VKontakte: 14%; en Facebook no existe un perfil cerrado como tal (hay una lista cerrada de amigos, etc.). Y lo más interesante es que acabo de escribir un mensaje: ahora contarán y dirán.

¡No publiques algo de lo que te avergüences!

  • No publiques nada en las redes sociales que te pueda avergonzar; yo personalmente sigo esto. Aunque tuve muchas personales, porque juro en Facebook. Bueno, había y había algo que hacer... ¡No publiques nada que pueda resultar embarazoso! Si luego vas a trabajar en algún lugar de la Cámara Pública, sí, es mejor no comentar. Si no vas a hacer esto, en general, a nadie le importa. Sólo puedo asegurarle que nadie lee su correspondencia personal, y todo esto va construyendo toda esta historia...

    Definitivamente cada semana alguien viene a mí y me dice: “¡Bueno, las fotos de mi amigo se filtraron a alguna página pública anónima! ¡Ayuda! Por cierto, nunca publiques nada en páginas públicas anónimas.

  • No sé sobre otros sistemas de seguimiento: definitivamente tendremos esto en cuenta, que la mención de la marca fue negativa, Dios me perdone... Pero puedo decir que todo tipo de camaradas cercanos al estado solo están interesados ​​en las personas. que tienen una audiencia de más de 5 mil, y su opinión pública puede influir en alguien, entonces influye. En mi experiencia, nunca me ha sucedido que la agencia de recursos humanos que nos encarga evaluaciones de perfil dijera: "¡A quien le guste Navalny, que no contrate a nadie!".

Sobre la publicación de los resultados. ¿Cuántas personas trabajan en la investigación?

  • De las 10 principales empresas de publicidad, siete ya publican. Es difícil decirlo: cuando empezamos esto hace un año y medio... Tenemos varias personas en cada área: hay varias personas en los bancos, hay varias personas en RRHH, hay varias personas en publicidad. Y ahora estamos pensando en quién es más rentable acudir primero, para quién tenemos que empezar a hacer algunas interfaces...
  • (sobre el número de personas por segmento de mercado) No más de 25 personas, porque no violamos a nadie.
  • En general, en principio, creo que estas tecnologías del mercado se utilizan en más del 50%. Algunos en campañas publicitarias, otros en algún tipo de análisis interno. Yo diría que el 40 por ciento lo usa en análisis internos, entre el 50 y el 60 por ciento lo vende a marcas finales. Pero esto ya depende de las propias empresas de publicidad. Verá, algunas personas informan simplemente sobre el dinero gastado, la publicidad que pusieron, mientras que otros escriben sobre cuántas personas trajeron, qué tipo de audiencia... Yo diría que sí, pero podría estar equivocado: no Realmente no puedo imaginar cómo trabajan todos estos camaradas. Lo sé sólo en datos cuantitativos.

Algunos anuncios 🙂

Gracias por estar con nosotros. ¿Te gustan nuestros artículos? ¿Quieres ver más contenido interesante? Apóyanos haciendo un pedido o recomendándonos a amigos, VPS en la nube para desarrolladores desde $4.99, un análogo único de servidores de nivel de entrada, que fue inventado por nosotros para usted: Toda la verdad sobre VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps desde $19 o como compartir servidor? (disponible con RAID1 y RAID10, hasta 24 núcleos y hasta 40GB DDR4).

Dell R730xd 2 veces más barato en el centro de datos Equinix Tier IV en Amsterdam? Solo aqui 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV desde $199 ¡en los Paises Bajos! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - ¡desde $99! Leer acerca de Cómo construir infraestructura corp. clase con el uso de servidores Dell R730xd E5-2650 v4 por valor de 9000 euros por un centavo?

Fuente: habr.com

Añadir un comentario