Arthur Khachuyan:“广告中的真正大数据”

14年2017月XNUMX日,Social Data Hub首席执行官Arthur Khachuyan在BBDO讲座上发表演讲。 Arthur 谈到了智能监控、构建行为模型、识别照片和视频内容,以及其他社交数据中心工具和研究,使您可以使用社交网络和大数据技术来定位受众。

Arthur Khachuyan:“广告中的真正大数据”

亚瑟·卡楚扬(Arthur Khachuyan,以下简称“AH”): - 你好! 大家好! 我叫Arthur Khachuyan,我经营Social Data Hub公司,我们从事对开放数据源、信息领域的各种有趣的智力分析并做各种有趣的研究等等。

今天 BBDO 集团的同事请我们谈谈分析大数据、广告大数据和非大数据的现代技术:如何使用它,并展示一些有趣的例子。 我希望你一路上提出问题,因为我可能会变得无聊而不会透露本质等等,所以不要害羞。

其实,无论在哪里使用某种“近大数据”解决方案,其主要方向都很明确——就是受众定位、分析、进行某种分析性营销研究。 但在应用分析后可以发现什么额外的数据,可以发现什么额外的意义总是很有趣。

为什么我们需要广告技术?

我们从哪里开始? 最明显的是社交网络上的广告。 今天我早上把它取下来:出于某种原因,VKontakte 认为我应该看到这个特定的广告……它是好是坏是第二个问题。 可见我绝对属于义务兵的范畴:

Arthur Khachuyan:“广告中的真正大数据”

可以作为技术解决方案的第一个也是最有趣的事情......在我们开始之前我想要决定的第一件事是定义术语:什么是开放数据,什么是大数据? 因为对于这件事,每个人都有自己的理解,我也不想把自己的条件强加给任何人,但是……只是为了不出现任何出入。

就我个人而言,我认为开放数据是我无需任何登录或密码即可访问的全部内容。 这是社交网络上的开放个人资料,这是搜索结果,这些是开放注册表等。大数据,以我自己的理解,我是这样看待的:如果它是一个数据盘,它就是十亿行,如果它是某种类型文件存储,它是 PB 级的数据。 我的术语中的其余部分不是大数据,而是类似的东西。

高精度轮廓和轮廓评分

我们按顺序走吧。 通过分析开放数据源,您可以想到的第一个也是最有趣的事情是高精度分析和分析评分。 这是什么? 在这个故事中,你的社交网络帐户不仅可以预测你是谁,也不仅可以预测你的兴趣。

但现在,通过结合各种来源,您可以了解您的平均工资水平、您的公寓费用是多少以及它位于哪里。 所有这些数据都可以通过可用的方式直接使用。 例如,如果您在社交网络上注册帐户,请查看您居住的地方、工作的地方; 了解您所工作的公司属于哪个业务部门; 如果您是分析师、经理等,请从 HH 和“Superjob”下载类似的职位空缺; 看看你住在哪里(基地,说 CIAN),了解在这个地方租房要花多少钱,在这个地方买房子要花多少钱,预测你大概能赚多少钱。 此外,使用社交网络,您可以了解您的旅行次数、您在哪里以及您对雇主的忠诚度。

因此,根据如此大量的指标,我们可以做任何我们想做的事情。 我们可以向您介绍您感兴趣的产品。 你能想象一个网上商店吗? 你去那里 - 这家在线商店在社交网络上捕获你的帐户并告诉你:“玛莎,你刚刚和你的男朋友分手,这里有一些适合你的产品。” 这不是不久的将来……

一个人的地理位置是如何确定的?

回答观众提问:

  • 通常,80% 的签到均被视为准确的居住地点。 但对于不在任何地方签到的人来说,有几种选择:要么签到,要么地理定位,或者这是对一个人写东西的整个时间段内的帖子和出版物的分析……在某个地方,会弹出诸如“我想在 Akademicheskaya 附近买一辆婴儿车”或“我最近在这里墙上看到丑陋的涂鸦”之类的内容。 也就是说,对于近 80% 的人来说,他们的地理位置、工作地点和居住地点可以使用从社交网络收集的数据或元数据来确定。

    这又是对帖子的分析。 从最简单的意义上来说,这是对社交网络中的签到和地理位置的分析,它不会删除 jpeg 元数据(您可以从中找出一些东西)。 但对于剩下的人来说,这些通常是文字广播:要么一个人在写某件事时“亮出”他的位置,要么他“亮出”他的手机,通过它你可以在 Avito 上找到他的一些广告,或者在“”上找到他的帐户。自动RU”。 根据这些数据,您可以组合(例如,“我在马雅可夫斯基附近卖一辆车”)并粗略地假设这一点。

  • 人们通常将其发布在社交媒体上。 我们只与开源合作,在这里我们只讨论开源。 他们通常会发布广告,也就是说,在百分之六十的情况下,当人们“展示”他们当前的手机号码时,最常见的故事是销售某些东西的广告。 要么在某些群体中,一个人写道(“我在那里卖这个或那个”),要么去某个地方。

    是的! 他们通常这样评论:“回答我或给我发短信,拨打我的电话号码。 这种情况经常发生在那些卖东西、在社交网络上买东西、与某人交流的人身上……因此,使用这个号码,您可以将他在 CIAN 上的个人资料链接到它,如果他曾经发表过某些东西,或者,再次,在阿维托。 这些只是最受欢迎的顶级来源,我们将进一步介绍 - 这些是 Avito、CIAN 等。

  • 这是指在线商店。 接下来是面部识别和轮廓匹配技术(我们会谈到它)。 纯粹理论上来说,这可以应用于线下商店。 总的来说,我的大梦想是,当街头横幅出现时,当你走过摄像机时,它会“困住”你的脸。 但这种情况将受到法律禁止,因为它侵犯了隐私。 我希望它迟早会发生。
  • 从个人经验来看。 很多时候,当一个人给你写信时,你会根据他生活中的一些你似乎不应该知道的事实进行操作……大多数情况下,人们会感到害怕。 但! 根据最近的统计数据,社交网络上的关闭账户数量减少了 14%。 假货的数量在增加,开放账户的数量在增长——人们越来越走向开放。 我认为,在三到四年内,他们将不再对某人知道他们可能不应该知道的信息做出如此强烈的反应。 但其实看他的墙就很容易得到。

可以从开源中获取什么?

有一个可以从开源中以相当高的可靠性理解的事物的大致列表。 事实上,还有更多不同的指标; 这取决于此类研究的客户。 有一些人力资源机构对您是否在社交网络或公共场所的某个地方说脏话感兴趣。 有人关心你是否喜欢纳瓦尔尼的出版物,或者相反,统一俄罗斯的出版物,或者某种色情内容 - 这种事情经常发生。

主要是家庭价值观、公寓、房屋、买车的大致费用等。 基于此,人们可以分为社会群体。 这些是莫斯科 Tinder 用户,他们是谁(根据他们在 Facebook 帐户上找到的照片); 根据他们的兴趣,他们被分为不同的社会群体:

Arthur Khachuyan:“广告中的真正大数据”

如果我们更接近广告,那么当您在 VKontakte 上选择您对订阅某些群组的 18 岁男性感兴趣时,我们就慢慢远离了标准的广告定位。 接下来我有这张照片,我现在给你看:

Arthur Khachuyan:“广告中的真正大数据”

最重要的是,目前大多数分析社交网络的服务,原则上都是在分析兴趣……人们首先想到的是分析其订阅者的顶级群体。 也许这对某些人有用,但我个人认为这是根本错误的。 为什么?

您的点赞数将被收集并分析

现在拿起你的手机,看看你的热门群组——肯定有超过50%的群组你已经忘记了,这是一些实际上与你无关的内容。 你根本不消费它,但系统仍然会根据它们来跟踪你:你订阅了食谱,订阅了一些受欢迎的团体。 也就是说,您将违反分析您的个人资料的系统,并且您的利益将不合理。

继续...那里有什么? 我们假设其他人在做什么。 我们认为,评估用户兴趣最充分的方式是点赞。 例如,VKontakte 上没有点赞信息,人们认为没有人知道他们喜欢什么。 是的,一些点赞是在 Instagram 上引入的,我们在 Facebook 上看到了一些东西,但某些群组中的大多数内容并没有在公共源中广播这些内容,人们生活并认为没有人会知道他们喜欢什么。

通过收集我们感兴趣的某些内容,收集这些帖子,收集这些点赞,然后使用这个数据库检查这个人,我们可以高精度地确定他是谁,他的命运是什么,他对什么感兴趣。 把他准确地放在某个社会群体中并与他互动。

买车改变行为

我身边就有这样的例子。 我会立即保留我的例子是接近广告和接近营销的,因为,你知道,大多数情况都受到保密协议等的保护。 但仍然会有很多有趣的事情。 这些人的故事是这样的:这些人在 2010 年至 2015 年间购买了汽车。 他们的在线社交行为发生了怎样的变化用颜色来表示。 订阅者中女孩的比例发生了变化,我订阅了“男孩气”的公共页面,找到了永久的性伴侣......

Arthur Khachuyan:“广告中的真正大数据”

整个事情是按汽车品牌和人数细分的。 从这里你可以得出许多关于人们的行为及其运作方式的有趣结论。 可以说,就吸引的观众数量而言,保时捷卡宴和栽种的 Priora 几乎是一样的。 这些受众的素质和行为有所不同,但数量大致相同。 您可以从这里得出的结论是您想要的任何东西,更接近您的市场。 如果你卖一辆奥迪,你就会打出这样的口号:“买一辆奥迪,远离你的父母!” 等等。

是的,这是一个有趣的例子,人们的行为基于对喜欢的分析,基于他们转移到哪个群体,他们分析的内容 - 几乎 100% 的概率它清楚地表明你是谁。 因为如果你无法访问网络流量并且不阅读个人消息,点赞总是会告诉你这个人是谁 - 孕妇、母亲、军人、警察。 对于你来说,作为一个可以做广告的人,这是一次巨大的打击。

回答观众提问:

  • 每列是这辆车上的人数; 他们的行为模式发生了怎样的变化。 看:购买保时捷卡宴的人 - 大约 550 人(黄色),订阅者中女孩的比例有所增加。
  • 样本为 2010 年至 2015 年社交网络“Vkontakte”、“Facebook”、“Instagram”的用户。 唯一需要说明的是:这里选择的汽车是那些使用某些工具可以在照片中识别准确率超过 80% 的汽车。
  • 在一段时间内,他的车(好吧,那不是他的,我们把它留给社交网络)......在一段时间内,一个人不断地被拍到与汽车在一起,与它在一起,与出版物在一起不同,照片的角度不同,等等。 然后就会出现一张照片,显示哪些人正在与哪些汽车拍照……是的,这是第二个问题——对社交网络数据的信任。
  • 不幸的是,自从我们提出这个问题以来,社交媒体数据并不总是正确的。 人们并不总是倾向于公开他们的信息。 我个人进行了这样的研究:我将莫斯科大学的毕业生人数与社交网络上注册的人数进行了比较。 平均而言,社交网络上的注册人数(莫斯科国立大学某年某些专业的毕业生)原则上比实际注册人数多 60%。 所以是的 - 这里自然存在一定比例的错误,并且没有人隐藏它。 这里我们只是简单地以那些能够被识别的概率超过80%的汽车作为基础。

模型训练来源列表

以下是可以使用的来源示例列表,用于非常确定地确定一个人的社会形象,即他是谁。

Arthur Khachuyan:“广告中的真正大数据”

我们从社交网络、CIAN 获取资料 - 一套公寓的成本约为“猎头”、“超级工作” - 这是某个人的平均工资。 我希望这里没有猎头代表,因为他们认为从他们那里拿这些数据不太好。 然而,这是某些地区某些空缺活动类型的平均工资。

“Avito”、“Avto.ru”:很多时候,当人们的手机亮起时,他们肯定(在很多情况下)至少在“Avito”、“Avto.ru”或“Avto.ru”上有一些东西。在另外几个网站上您可以了解他们是谁。 如果通过此电话号码出售婴儿车或汽车...Rosstat 和统一国家法人实体登记册仍然是更多登记册,您可以借助它们对雇佣公司进行排名 - 根据某种公式,根据一个模型,任何人都可以设置(你可以大致确定这个人的钱等等)。

Tinder 帮助收集有关人们状况的数据

另外,还有一件有趣的事情(或者说,在研究中非常有趣)——这又是使用该 Tinder 机器人从莫斯科 Tinder 收集数据。 确定了与人们的距离,然后确定了他们的大致位置。

Arthur Khachuyan:“广告中的真正大数据”

这项研究的目的是确定政府机构(杜马、检察官办公室等)范围内 Tinder 帐户的数量。 但是,作为广告商,您可以想象任何您想要的东西:例如,可以是星巴克或其他人……也就是说,在 Tinder 上喝您的咖啡、点东西、在商店里的人数关于此地理定位:这可以通过任何服务来完成。

回答观众提问:

  • 火种? 你不知道? Tinder 是一款约会应用程序,您可以在其中查看照片(左右),并且该应用程序会向您显示与该人的距离。 如果您从三个不同的点获取到此人的距离,您可以大约(+ 5-7 米)确定位置。 在这种情况下,在检察官办公室或国家杜马的领土上做出决定并不那么困难。 但同样,它可以是你的商店,也可以是任何东西。

例如,很久很久以前,我们有这样一个案例(不是研究),当时我们从一个蜂窝运营商那里收到了有关交通密度的数据,有关蜂窝点移动密度的数据,并且所有这些信息都是叠加的在高速公路上广告牌的坐标上。 蜂窝运营商的任务是确定大约有多少人路过并可能看到该广告牌广告。

如果这里有广告牌广告专家,你可以说:不可能以超级可靠的方式理解——有人来了,有人没看,有人看了……不过,这是一个例子,说明了如何有 20 亿个多边形这些在莫斯科,上面是某些路线上每小时这些人的密度……你可以随时看到这些人经过什么,并粗略估计客流。

回答观众提问:

  • 没有人提供这样的数据。 我们对其中一位运营商进行了这样的研究;这完全是内部故事,因此不幸的是,它没有以图片的形式呈现。 但大型广告公司通常可以毫无问题地联系运营商。 至少在莫斯科,有很多先例,例如,保险公司求助于 GetTaxi 这样的公司,这些公司提供有关司机年龄、驾驶方式(好 - 坏、鲁莽 - 否)的非个人数据,以便进行预测政策等。 每个人都在努力解决这个问题,但在某种程度上,提供匿名数据——我认为没有人有这样的问题。

图像和模式识别

前进。 我最喜欢的是图像识别。 会有一小段是关于通过面孔找人的,但是我们基本上不做这一部分。 我们专门进行图像识别并确定图像中的内容 - 汽车的品牌、颜色等。

Arthur Khachuyan:“广告中的真正大数据”

我有一个有趣的例子:

Arthur Khachuyan:“广告中的真正大数据”

有这样一项关于在各种社交网络上搜索纹身的研究。 因此,这同样可以应用于任何品牌、任何视觉图像、几乎任何视觉图像。 有些无法可靠地确定(我们不采取它们)。

Arthur Khachuyan:“广告中的真正大数据”

这是我最喜欢的。 汽车品牌经常求助于这项任务,因为他们的任务是找到某些 BMW X6 的所有车主,了解他们是谁、他们如何相互联系、他们对什么感兴趣等等。 这涉及到人们在社交网络上用什么车拍照的问题。

Arthur Khachuyan:“广告中的真正大数据”

这里根本没有任何过滤:物品是他们的,汽车不是他们的;东西是他们的,车不是他们的。 这只是汽车的故障——车龄等等。 但视觉图像识别的使用相当频繁:比如搜索孕妇,以及在某种大众媒体中搜索品牌标志(谁发布了什么内容)。

Arthur Khachuyan:“广告中的真正大数据”

我最喜欢的案例(各种餐馆都使用):社交网络上发布了什么样的面包卷。 这是一件有趣的事情,但实际上它可以让你了解很多有趣的事情,首先,关于你自己的客户:谁来找你以及他们为什么这么做。 因为众所周知,在寿司店里,大多数人(我不会说“女孩”)都会拍照,以便签到、拍一些东西等等。

该品牌可以利用这一点。 该品牌感兴趣的是它需要什么样的产品来精美地拍摄和发布,以及什么样的人来到那里。 这件事几乎可以用任何东西来完成,从食物开始。

视频模式识别

回答观众提问:

  • 不是在视频上。 我们将其置于测试模式。 我们尝试了这项技术,但事实证明......它可以很好地识别视频中的所有内容,但我们还没有在任何地方找到它的应用程序。 再见。 除了分析有多少视频博主在某个地方谈论的内容之外……还有这样一项研究。 他们有多少张脸相遇,多久见面一次。 但品牌尚未弄清楚从哪里提出这一点。 也许有一天它会到来。

再说一遍,这是食物,可以是孕妇、男人(未怀孕)、汽车——任何东西。

作为一种选择,有一家媒体进行了新年研究。 离广告也很远,但仍然如此。 这是人们在新年禁食的食物:

Arthur Khachuyan:“广告中的真正大数据”

这里也是按年龄细分的。 你可以看到这样一个相关性:年轻人大多点餐,成年人大多做传统餐桌。 这是一件有趣的事情,但想象一下作为品牌所有者,您可以评估很多事情:谁处理您的产品以及如何处理,他们对此有何评论。 通常,人们并不总是在文本中提及品牌本身,而传统的分析监控系统并不总能仅仅因为文本中未提及而理解和找到品牌的提及。 或者文本拼写错误,没有哈希标签或任何内容。

照片可见。 在摄影中,您可以判断它是否是画面的中心主体。 然后你就可以看到这个人写了什么。 但最常见的是,它被用来搜索驾驶过某些汽车等的潜在受众。 然后我们会用这些车做很多有趣的事情。

机器人被教导模仿人类

还有这样一个使用人数统计的选项:

Arthur Khachuyan:“广告中的真正大数据”

当您需要使用一些照片来查找人、了解他们的社交资料、他们是谁时,可以选择比较人。 再次,我们回到这个问题,如果我们在线下商店有一个摄像头,那么这是一个相当好的方法来了解谁来找你,这些人是谁,他们对什么感兴趣,是什么促使他们来找你。

接下来是最有趣的事情:如果我们在社交网络上收集他们的帐户,了解这些人是谁,他们对什么感兴趣,我们可以(作为一种选择)制作一个与这些人类似的机器人; 这个机器人将开始像这些人一样生活,并分析它在各种社交网络上看到的广告。 这将使您能够准确了解哪些品牌针对此人。 当您不仅需要分析这个人是谁以及他有什么兴趣,而且还需要分析您的潜在竞争对手或其他感兴趣的人应该针对什么样的广告时,这也是一个相当常见的故事。

Arthur Khachuyan:“广告中的真正大数据”

社交网络中的连接分析

Arthur Khachuyan:“广告中的真正大数据”

接下来有趣的是对人与人之间关系的分析。 实际上,对网络中连接的分析,这些网络图——没有一点,没有什么新意,每个人都知道这一点。

Arthur Khachuyan:“广告中的真正大数据”

但在广告任务中的应用是最有趣的。 这是对设定趋势的人的搜索,这是对在该网络内根据特定标准传播信息的人的搜索。 假设我们对某款 BMW 车型的同一车主感兴趣。 把他们聚集在一起,我们就能找到控制舆论的人。 这些不一定是汽车博主等等。 通常这些都是简单的同志,他们坐在各个公共页面上,对某些内容感兴趣,并且可以在很短的时间内吸引您的品牌或您感兴趣的人进入您的这个职责领域,进入您的领域​​兴趣。

这里有这样一个例子。 我们有一些潜在的人,人与人之间的联系。 这里橙色的是人,小点是共同的群体、共同的朋友。

Arthur Khachuyan:“广告中的真正大数据”

如果你收集他们之间的所有这些联系,你可以非常清楚地看到,有些人有大量共同的群体、共同的朋友,他们就在那里……如果这个相同的可视化按兴趣分为不同的群体,通过内容,他们分发的内容,他们彼此互动的程度......在这里你可以看到上一张图片变成了这样:

Arthur Khachuyan:“广告中的真正大数据”

这里,各组通过颜色清楚地区分。 在这个例子中,他们是我们高等经济学院的硕士生。 在这里你可以看到紫色/蓝色的是那些喜欢透明国际、开放俄罗斯和霍多尔科夫斯基公共页面的人。 左下角是绿色的,那些热爱统一俄罗斯的人。

你可以看到上一张图是这样的(这些只是人与人之间的联系),但是已经变得界限分明了。 也就是说,所有人总是相互联系的,他们有共同的兴趣,他们是彼此的朋友。 有的在上面,有的在下面,还有其他的同志。 而如果将这些小图分别与其他参数一起可视化,再看内容传播的速度(粗略地说,谁转发了那里的内容),你可以在每个部分中找到一两个始终掌握舆论的人,与之互动,要求发送某种帖子或其他内容 - 您可以从所有有趣的受众那里得到回应。

我还有另一个这样的例子。 还有一张图表:这些是在社交网络上找到的 BBDO 集团员工作为示例。 它看起来无趣,大,绿色,它们之间的联系......

Arthur Khachuyan:“广告中的真正大数据”

但我可以选择在他们之间建立组。 然后,如果有人感兴趣,有一个交互式版本 - 您可以点击查看。

右上角是那些喜欢普京的人。 这里紫色的是设计师; 那些对设计、有趣的事物等感兴趣的人。 这里白色的东西是管理团队(显然,据我所知); 一般来说,这些人没有任何联系,但在大致相同的职位上工作。 剩下的就是他们共同的群体、联系等等。

品牌需要的不是博主,而是意见领袖

我们找到这些人,然后广告公司、广告公司自己决定:它可以给这个人钱,以便他以某种方式与这些内容、其他东西进行互动,或者向他们开展自己的特定广告活动。 这也经常使用,尤其是现在,因为所有品牌都希望与博主合作,他们希望推广自己的内容,但广告公司并不真正想联系(好吧,这种情况发生了)。

摆脱这种情况的真正出路是找到不是博主、不是美容博主的人,而是例如一些与该品牌互动的真实存在,他们可以在一些可怜的公共页面“Mail.ru Answers”中写下,得到一定数量的浏览量。 这些人对这个人的内容持续感兴趣,会传播整个事情,品牌也会参与其中。

现在使用此类技术的第二个选项非常相关 - 搜索机器人,我最喜欢的。 这对你的竞争对手来说是一个声誉风险,也是一个从广告活动中剔除不相关人员的机会,以及其他任何事情(删除评论和搜索人与人之间的联系)。 我有一个这样的例子,它也很大并且具有交互性 - 你可以移动它。 这些是在 Lentach 社区发表评论的人的联系。

这个例子是为了让您了解机器人的可见性如何; 为此,您不需要具备任何技术知识。 这意味着《Lentach》发表了一篇关于FBK对德米特里·梅德韦杰夫调查的帖子,某些人开始发表评论。 我们收集了所有发表评论的人——这些人都是绿色的。 现在我将移动它:

Arthur Khachuyan:“广告中的真正大数据”

人们是绿色的人(写评论的人)。 他们在这里,他们在这里。 他们之间的蓝点是他们共同的群组,黄点是他们共同的订阅者、朋友等。 大多数人都是相互联系的。 因为,无论三、四、五次握手的理论是什么,所有人都在社交网络上相互联系。 没有人彼此分离。 即使是我那些专门使用 VKontakte 观看视频的社交恐惧症朋友,仍然订阅了一些与我们相同的公共页面。

纳瓦尔尼还使用机器人。 每个人都有机器人

大多数人(就在这里,在这里)彼此相连。 但有这么一小群同志,彼此之间是排他性的朋友。 他们在这里,绿色的小家伙,这里是他们共同的朋友和群体。 他们甚至在这里单独掉落:

Arthur Khachuyan:“广告中的真正大数据”

巧合的是,正是这些人在这篇文章下写道:“纳瓦尔尼没有证据”等等,写下了同样的评论。 当然,我不敢下结论。 但尽管如此,我在Facebook上又发了一篇帖子,当列别杰夫和纳瓦尔尼之间发生辩论时,我以同样的方式分析了评论:结果发现,所有写“列别杰夫是狗屎”的人,他们都没有上过社交媒体。最近四个月,没有订阅任何公共页面,突然转到这个特定的帖子,写下这个确切的评论并离开。 再说一次,不可能从这里得出结论,但纳瓦尔尼团队的某人给我写了一条评论,说他们不使用机器人。 哦,那好吧!

离广告更近,离品牌更近。 现在每个人都有机器人了! 我们有,我们的竞争对手有,其他人也有。 他们必须被赶出去,或者留下来过上好日子; 根据这些数据(指向上一张幻灯片),使它们变得完美,使它们看起来像真人,然后才使用它们。 虽然使用机器人很糟糕! 然而,一个相当常见的故事......

在自动模式下,这样的事情可以让你从分析中过滤掉那些与分析无关的人,那些不应该包含在样本中的人,不应该包含在这项研究中的人。 非常经常使用。 话又说回来,并非所有车主都真正拥有汽车。 有时,人们只对那些可能拥有汽车、坐在某些群体中、与某人交流的人感兴趣,他们在那里有一定的受众。

事实和观点分析

下一款也是我最喜欢的。 这是对事实和观点的分析。

Arthur Khachuyan:“广告中的真正大数据”

如今每个人都知道如何在各种来源中提及他们的品牌。 这并没有什么秘密。 每个人似乎都能够计算音调......虽然就我个人而言,我认为音调度量本身并不是很有趣,因为当你来告诉客户,“伙计,你有 37% 的中性”,他是这样说的, “ 哇! 凉爽的!” 因此,更进一步:从评估情绪到评估他们对你的产品的看法。

这也是一件非常有趣的事情,因为……我个人认为原则上不可能有中立的消息,因为如果一个人在公共空间写了一些东西,那么这个消息就会以某种方式带有色彩。 我个人从未见过提及某个品牌的中立信息。 通常是某种污垢。

如果我们获取大量这些信息(可能有数百万、10万条),突出显示每条信息的主要思想,将它们结合起来,我们就可以非常可靠地理解人们对这个品牌的评价和想法。 “我不喜欢这个包装”,“我不喜欢它的一致性”等等。

人们如何看待 Transaero、Chupa Chups 和美国总统?

我有一个有趣的例子:这是一个关于社交网络用户在 Transaero 公司破产后会做什么的信息图。

Arthur Khachuyan:“广告中的真正大数据”

里面有很多有趣的例子:烧死、杀戮、驱逐到欧洲,甚至有2%的人写道——“把他们送到叙利亚进行军事行动。” 从有趣的事情开始,它几乎可以是任何品牌——从我最喜欢的狗粮到一些汽车。 无论谁不喜欢包装,无论谁不喜欢真实的东西——你总是可以使用它,你可以随时考虑到这一点。 有大量的例子表明,人们几乎改变了产品的生产方式,因为他们在社交网络上写道,珍宝珠不够圆或不够甜。

还有一个有趣的例子。 猜猜有什么评论以及关于谁的?

Arthur Khachuyan:“广告中的真正大数据”

由于某种原因,现在对观点的分析,对从消息中提取的事实的分析,并不是很常用,也不是很广泛。 虽然这项技术并不是超级秘密,但实际上根本没有任何诀窍,因为从人们的评论中提取主语、谓语并将它们分组并不需要计算语言学方面的天才。 这并不难做到。 但我希望在接下来的几年里人们将开始使用它,因为......这会很酷 - 这是这样的自动反馈! 你总是知道他们在说什么关于你的事情。 嗯,你知道这是关于美国总统的。

回答观众提问:

  • 是的,这是英文的 Facebook。 它们在这里被翻译成俄语。 这是在某处写的。

大数据和政治技术

事实上,我有很多关于特朗普和其他人的不同有趣的政治例子,但我们决定不把它们带到这里。 但有一个政治例子。

这些是国家杜马的选举。 你什么时候的事? 去年? 差不多一年半前了。

Arthur Khachuyan:“广告中的真正大数据”

这些人能够确定他们的确切位置,精确到某个地理位置,以便了解他们属于哪个选区。 然后,只有那些表达了明确意见的人才会被选出来,他们会投票给他们。

从政治技术的角度来看,这不是很正确,因为这整个事情需要通过人口密度等来标准化。 尽管如此,这里的蓝军将投票给你知道的人,红军将投票给反对派同志,顺便说一句,反对派同志的数量并不多。

我个人认为大数据不会很快触及政治技术,但作为一种选择,候选人也是一个品牌。 从某种程度上来说,这也是对你的品牌的事实和观点的分析,也是一件相当有趣的事情,因为你可以实时了解谁在做什么。 我知道 BBC 的几个案例,他们在一些广播中实时监控社交网络:有这样那样的反应,人们写下它,问这样那样的问题 - 这太棒了! 我认为它很快就会被使用,因为它对每个人来说都很有趣。

塑造品牌定位

Arthur Khachuyan:“广告中的真正大数据”

接下来我对品牌定位进行建模。 这是一篇关于如何使用各种指标对品牌进行排名的小而简短的文章(不是社交网络上订阅者的喜好,而是使用复杂的指标、对内容的兴趣、接收指标所花费的时间)。

Arthur Khachuyan:“广告中的真正大数据”

出于某种原因,我有一个“Pharma”的例子。 这里的小圆圈是内部的、明亮的——这是品牌本身创建的文本内容的数量,大圆圈是品牌本身创建的照片和视频内容的数量。

靠近中心表明内容对观众来说有多有趣。 有一个大模型,有一堆各种各样的参数:喜欢、转发、响应时间、平均谁在那里分享……在这里你可以看到:有一个很棒的“Kagotsel”,它泵送了大量的他们投入资金来创建自己的内容,因此他们非常接近中心。 还有战友自己也创作内容,但观众不感兴趣。 这不是一个非常充分的例子,因为所有这些帐户实际上都已失效。

叶戈尔·克里德 (Yegor Creed) 比巴斯塔 (Basta) 更受喜爱

Arthur Khachuyan:“广告中的真正大数据”

不幸的是,其余的......从展示什么......好吧,还有俄罗斯说唱歌手,作为一个选择,来自真正的公司。

有什么好处? 事实上,公司几乎可以将任何东西放入这样的模型中,从为你的品牌工作的订户的平均工资开始; 他们喜欢的任何型号。 由于每个广告公司计算自己的指标的方式不同,因此品牌计算自己的指标的方式也不同。

这里还有一个——Basta,它产生了大量的内容,但位于外围,因为这些内容显然对观众来说不是很有趣。 再说一次,我不想妄加评判。 但尽管如此,叶戈尔·克里德(Yegor Creed)据社交网络称,他几乎是我们这个时代最好的表演者,但只发布了他的个人照片。 尽管如此,他还是拥有大量订阅者:大约有一百万。 我不记得确切的数字了; 我记得这些人的参与度远高于85%,也就是说,每百万订阅者他会收到850万个来自这些真实人物的回复——这真是疯狂。 这是真实的。

Arthur Khachuyan:“广告中的真正大数据”

回答观众提问:

创建说唱歌手分析模型花了多长时间?

  • 每个人都有自己的目标受众,这些人的兴趣是为每个人计算的...这一切都归一化为大约到中心的距离,他们的径向位置并不重要(这里只是为了美观而涂抹,这样他们就可以了)不会碰到对方)。 只有大约接近中心的距离才是重要的。 这是我们使用的模型。 比如我比较喜欢圆形,有的人就记成半圆形。
  • 这个模型很快就编译完成了,两三个小时(是的,一个人)。 这里只插入了度量:我们乘以什么,将其相加,然后以某种方式将其标准化。 取决于型号。 有些人对订阅者的平均工资(这不是玩笑)感兴趣。 为此,你需要找到他们的联系人,阿维托,计算一切,乘以它。 碰巧这要花很长时间来考虑,但具体来说这个(指向上一张幻灯片)——这里的参数非常简单:订阅者、转发等等。 大约花了两三个小时才完成。 相应的,这个东西然后是实时更新的,你就可以用了。

有趣的来了。 我已经讲完了例子,因为单独讲很长时间没有意思。 我希望你们现在提出问题,事实上,我们会从一个话题转移到另一个话题,因为我有这样的例子来说明如何使用技术等等......

回答观众提问:

  • 我有一个也是唯一的个人案例,可以这么说,“靠近赌场”,当相机放置在那里时,面孔被识别,等等。 被认可的人的比例绝对是相当大的——无论是我们的还是我们的竞争对手。 但它实际上很有趣。 我认为这是一件有趣的事情:你可以了解这些人是谁,并很好地预测他们到底为什么来到这里,他们的生活发生了多大的变化,以至于他们决定来到赌场。 但至于特定类型的业务……如果你把这样的东西放在药房里,那就没有意义了——你无法预测一个人为什么会来到药房。

    这里的全局任务是建立一个模型,以便了解一个人何时可能对你的品牌感兴趣,这样你就可以给他广告,而不是在他买了东西之后(就像现在发生的那样),而是给他广告“预测”这一切何时会发生。 这样一个“近赌场”很有趣; 事实证明,这些人中有相当有趣的比例 - 为什么:有人突然升职,其他人得到了其他东西 - 如此有趣的见解。 但对于一些商店,零售店,某种药店,在我看来,这不是很正确。

大数据离线使用吗?

  • 当时处于离线状态。 你只需要准确、粗略地了解这个模型是否适合。 再说一次,对于苏打水……我实际上对一切都感兴趣,但我个人不明白这些人的个人资料、他们的行为有多少、如何取决于他们何时想要购买瓶装水。 虽然这可能是真的,但我不知道。

有多少个开放的社交媒体帐户?

  • 我们具体有 11 个社交网络 - 这些是“Vkontakte”、“Facebook”、“Twitter”、“Odnoklassniki”、“Instagram”和一些小东西(我可以查看列表,例如“Mail.ru”等) 。 在 VKontakte 上,我们肯定有所有这些同志的副本。 我们在 VKontakte 上有用户——这相当于曾经存在过的所有人中的 430 亿(其中大约 200 亿是持续活跃的); 有群体,这些人之间有联系,有我们感兴趣的内容(文本),还有一部分媒体,但很小......粗略地说,我们看这张图:如果那里有面孔,我们保存它们,如果有模因,我们保存它们我们不保存它,因为即使我们也没有足够的时间来保存媒体内容。

    有一个俄语 Facebook。 现在 60-80% 是 Odnoklassniki,几个月后我们可能会把它们全部完成。 俄罗斯Instagram。 所有这些社交网络都有群组、人员、他们之间的联系和文本。

  • 约400亿人。 有一个微妙之处:有些人的城市未指定(他们可能是俄罗斯人/非俄罗斯人); 其中,社交网络平均关闭 VKontakte 账户的比例为 14%,我不知道 Facebook 上的确切数字。
  • 我们也不在 Instagram 上保存媒体内容——除非那里有面孔。 我们不存储此类(其他)媒体内容。 通常很有趣:只有文字,人与人之间的联系; 全部。 Instagram 上最常见的研究是对受众的常见研究:这些人是谁,以及最重要的是这些人与其他社交网络的联系。 在 Vkontakte 和 Facebook 上找到此人的个人资料,以计算他的年龄等。
  • 目前还没有必要与其他所有人较量——仅仅因为还没有客户。 关于语言:我们有俄语、英语、西班牙语,但这仍然是俄罗斯品牌专用; 好吧,或者是从俄罗斯带来它们的公司。
  • 我们每天都会在很多很多很多线程中采访人们:我们通过收集网络来收集数据,并使用 Api 更新这些指标。 2-3天你就可以看完整个“VKontakte”,看完它们; 大约一周的时间,您就可以浏览整个 Facebook,了解谁更新了哪些内容,哪些没有更新。 然后把这些人分别重新组合起来:到底发生了什么变化,把整个故事写下来。 根据我的经验,很少有人将旧的社交媒体资料用于任何真正的商业目的。 这是一个政治人物申请的时候,他的任务是了解总部来的是什么样的人,这些人在6-8个月前都是谁(他们是否删除了他们的个人资料,但实际上对于另一位候选人,选票已经到了)破坏)。

    还有几次 - 当某人的照片在公共领域发布时的个人故事。 需要寻找联系等等。不幸的是,很遗憾,我们无法在法庭上作证,因为我们的数据库在法律上缺乏流动性。

  • MongoDB 存储是我最喜欢的。

社交网络正试图对抗数据收集

  • 通常我们只上传这些帐户的列表给广告商,然后他们使用标准的......也就是说,在社交网络上,在VKontakte上,你可以指定这些人的列表。

    但 Facebook 使用购买的 cookie。 我们自己不使用 cookie,但有几个故事,当广告商自己给一些人时,我们与他们互动 - 他们有这些网络,有预告片、非预告片广告,这些“cookie”。 你可以系它——毫无疑问! 但我不太喜欢这些东西,因为我认为它不太真实。 这纯粹是我的观点,就像TNS一样,它“跟踪”电视——不清楚你是否在看这台电视,是否在电视开着的时候洗碗……这里也是一样:我经常在网上搜索一些东西,但这并不意味着我想买它。

  • 如果您使用某种标准的上下文广告网络:当我们将这些人卸载给他们并尝试使用他们的界面将他们与网站上的“cookie”连接起来时,我有几个故事。 但我真的不喜欢这样的事情。

互联网用户工资计算公式

  • 平均工资的一般公式:这是一个人居住的地区,这是他工作的行业类别(即他雇主的公司),然后取他在这家公司的职位,平均工资该职位的薪资是估计的...针对给定地区和给定业务环境的给定职位空缺,从“猎头”和“超级工作”(以及其他几个来源)中获取的平均薪资。

    如果有人照亮了手机,通常会从“Avito”和“Avto.ru”获取附加参数。 通过 Avito,您可以看到一个人正在销售什么样的东西 - 昂贵的、便宜的、二手的、未使用的。 通过“Avto.ru”,您可以查看他是否拥有汽车 - 他拥有它,他不拥有它。 不到 20% 的人不小心将手机掉落在某个地方,并且他们的帐户可以与此数据关联。

数据收集公司的业务量是多少?

  • 存储照片的容量(以 PB 为单位)为 6,4。 我现在不能说具体的增长率,因为2016年我们开始录制“潜望镜”,刚刚开始录制视频。

    我无法准确地说出它何时为零。 我们从一家公司换到另一家公司——这些都是很长的故事。 但我可以说,VK、Facebook、Instagram 和 Twitter——所有这些带有文本和内容的业务(人、团体和他们之间的联系)——实际上并不是很多数据,甚至 PB 都不够。 我认为是 700 GB,可能是 800 GB。

您是否帮助客户确定当前的利基市场以及挖掘方向?

  • 当客户来的时候,我们会向他建议这样的事情,但我们自己,比如谷歌趋势,不会做这样的事情。
  • 我们有几个近乎社会学的故事,包括选举、选举前的历史——我们对这一切进行了分析。 对于品牌以及对品牌的评估意见,一切几乎总是一致的。 以下是选举故事 - 不(评估哪位候选人应该获胜)。 我不知道谁错了——我们,还是那些用 VTsIOM 思考的人。
  • 通常我们从品牌本身获取这些控制结果,他们从订购研究的同志那里获取——电话研究、营销研究等等。 另外,整个事情可以用基本的东西来检查:有人回复了邮件列表,有人做了调查......如果它是一个大品牌(例如可口可乐),他们肯定有一百万或两个来自客户的内部评论– 这些不仅仅是社交网络上的评论和一些观点; 这些是某种内部系统、评论等等。

法律不“知道”什么是个人数据!

  • 我们只分析开放数据源,从不参与任何肮脏的伎俩。 我们的模型建立在这样一个事实之上:我们将所有开放数据存储在一些公共数据中心,在其他地方租用,并在家里、我们的办公室、我们的服务器中对其进行分析,并且它不会传播到境外的任何地方。

    但我们在开放数据领域的立法却非常模糊。

    我们对什么是开放数据、什么是个人数据没有清楚的了解——有第 152 条联邦法,但仍然......它们如何计算? 现在,如果我在一个数据库中有你的姓名和电话号码,在另一个数据库中我有你的电话号码和你的电子邮件,在第三个数据库中我有你的电子邮件和你的汽车; 所有这些似乎都是非个人数据。 如果把所有这些放在一起,似乎根据法律它将成为个人数据。

    我们通过两种方式解决这个问题。 首先是给客户端安装一个带有软件的服务器,然后这个数据不超出他的领地,然后客户端负责这个个人数据、非个人数据等等的分发。 或者第二种选择:如果这是某种你必须起诉社交网络或其他东西的故事......

    当我们为生活新闻收集(有统一俄罗斯党初选)这些同志的账户并查看他们喜欢哪种色情内容时,我们进行了这样的研究。 这是一件有趣的事情,但仍然如此。 我们将其作为我们自己的个人观点出售,而没有在文件中合法披露我们分析的内容 - 法人实体统一国家登记册、工资、社交网络; 我们出售专家意见,然后在场外向人们解释我们分析的内容以及分析方法。
    有几个故事,但都与一些公共商业项目有关。 例如,我们为那些骑长板(这种板很长)的人提供了一个免费的非营利项目:任务是收集人们的出版物 - 当有人发布“我去高尔基公园兜风”时。 现在他应该出现在地图上,周围的人可以看到有人在他附近。 VK 在这个话题上与我们发生了很长时间的冲突,因为他们不喜欢我们在未经人们许可的情况下发布这些信息。 但后来此事并没有闹上法庭,因为在几个大社区内,我们添加了规则,规定数据可以由第三方、机构、公司、分析等使用。当然,这不是特别道德,但仍然如此。

  • 我们及时意识到了这一点,并开始向所有人推销我们的专家意见。

您与教育机构合作吗?

  • 我们与教育机构合作,是的。 我们的范围很广:我们在高等学校设有硕士课程,并且我们与其他大学合作。 我们非常热爱大学!
  • 如果你有我的联系方式,可以写信给我。 还有演示文稿的链接,如果有人感兴趣 - 所有这些示例都在那里,您可以移动它。
  • 如果你知道电话号码、邮件——这几乎是百分百的选择,没有人会删除它。 如果没有电话号码,通常是照片;如果没有照片,则是年份、居住地、工作。 也就是说,通过年份、居住地点和工作地点,几乎每个人都可以被相当微妙地识别出来。 但这又是一个关于任务的问题。

    比如说,我们有一个销售互联网电视的客户。 有人从他们那里购买了这些《权力的游戏》的订阅,任务就是利用他们的CRM在社交网络上找到这些人,然后从他们的影响范围内找到潜在的人。 我只是说,他们有名字、姓氏和电子邮件……然后就很难做任何事情了。 在大多数情况下,您可以通过电子邮件找到人员。

  • 根据朋友的构成,我们通常会在社交网络上“匹配”人,但这并不总是正确的。 这并不是说它并不总是正确的——它并不总是有效。 首先,这需要大量的劳动力,因为必须首先对每个朋友执行此操作(匹配人员)——了解他们是否来自社交网络。 然后 - 任何人都不知道的事实是,在 VKontakte 上我们有相同的朋友,在 Facebook 上我们有不同的朋友。 不适合所有人,但对于我来说,就是这样; 对于大多数人来说也是如此。

最完整的数据是如何收集的?

  • 为他这边的客户安装软件。 他们身上安装了服务器,该服务器仅从我们那里获取公共数据,并在内部处理他们的个人数据。 与客户签订保密协议。 当然,他们将其转移给我们并不是很正确,但法律责任由客户承担 - 嗯,即为他安装软件,或转移匿名数据。 但这种情况非常罕见,因为无论正确还是错误的匿名化,在大多数情况下这些人之间的依赖都会消失。

谁购买面部识别软件?

  • 我们实际上来这里是因为我们销售的主要软件是人脸搜索、相关性分析,我们把它卖给政府机构。 一年半前,我们决定将所有这些故事投入广告、营销、公共市场——这就是商业法人实体社交数据中心的形成方式。 现在我们刚刚来到这里。 我们已经在这里闲逛了一年半了,试图向人们解释,没有必要向人们提供带有提及的下载,他们需要得到问题的答案,没有必要语气, 等等。 所以很难说在哪里...
  • (你指谁?)致所有需要寻找恐怖分子和恋童癖的同志。
    我可以马上说(这将是下一个问题):根据我们的数据,没有老师因转发而入狱。
  • 在 VKontakte 上 - 14%;在 Facebook 上没有封闭的个人资料(有封闭的朋友列表,等等)。 最有趣的是,我刚刚写了一条消息 - 现在他们会数数并说。

不要发布会让您感到羞耻的内容!

  • 不要在社交网络上发布任何会让你感到羞耻的内容——我个人遵循这一点。 虽然我有很多私人的,因为我在Facebook上发誓。 好吧,有事情要做……不要发布任何令人尴尬的内容! 如果您稍后要在公共会议厅的某个地方工作,是的,最好不要发表评论。 如果你不打算这样做,总的来说,没有人在乎。 我只能向你保证,没有人会读你的私人信件,而这一切都在构建整个故事......

    每周肯定有人来找我说:“好吧,我朋友的照片被泄露到了某个匿名公共页面! 帮助! 顺便说一句,永远不要向匿名公共页面发布任何内容。

  • 我不知道其他监控系统 - 我们肯定会考虑到这一点,提及该品牌是负面的,上帝原谅我......但我可以说,各种近乎国家的同志只对人感兴趣他们拥有超过五千名观众,他们的舆论可以影响某人,然后影响。 根据我的经验,向我们订购个人资料评估的人力资源机构从来没有说过:“谁喜欢纳瓦尔尼,就不要雇用任何人!”

关于公布结果。 有多少人从事研究工作?

  • 排名前 10 的广告公司中,有 XNUMX 家正在出版业务。 很难说:当我们一年半前开始做这个的时候……我们每个领域都有几个人——银行有几个人,人力资源有几个人,广告有几个人。 现在我们正在考虑先去找谁更有利可图,我们需要开始为谁做一些界面......
  • (关于每个细分市场的人数)不超过25人,因为我们没有强奸任何人。
  • 总的来说,原则上,这些来自市场的技术我认为使用率超过50%。 有些是在广告活动中,有些是在某种内部分析中。 我想说 40% 的人将其用于内部分析,50-60% 的人将其出售给终端品牌。 但这已经取决于广告公司本身了。 你看,有些人报道只是为了花钱,他们投放的广告,而另一些人则写他们带来了多少人,什么样的观众......我会这么说,但我可能是错的 - 我不'无法想象所有这些同志是如何工作的。 我只知道定量数据。

一些广告🙂

感谢您与我们在一起。 你喜欢我们的文章吗? 想看更多有趣的内容? 通过下订单或推荐给朋友来支持我们, 面向开发人员的云 VPS,4.99 美元起, 我们为您发明的入门级服务器的独特模拟: VPS (KVM) E5-2697 v3(6 核)10​​4GB DDR480 1GB SSD 19Gbps XNUMX 美元或如何共享服务器的全部真相? (适用于 RAID1 和 RAID10,最多 24 个内核和最多 40GB DDR4)。

Dell R730xd 在阿姆斯特丹的 Equinix Tier IV 数据中心便宜 2 倍? 只有这里 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 电视低至 199 美元 在荷兰! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 美元起! 阅读 如何建设基础设施公司同级使用价值730欧元的Dell R5xd E2650-4 v9000服务器一分钱?

来源: habr.com

添加评论