Arthur Khachuyan:“廣告中的真正大數據”

14年2017月XNUMX日,Social Data Hub執行長Artur Khachuyan在BBDO大廳發表演講。 Arthur 談到了智慧監控、建立行為模型、識別照片和影片內容,以及來自 Social Data Hub 的其他工具和研究,這些工具和研究讓您可以使用社交網路和大數據技術來定位您的受眾。

Arthur Khachuyan:“廣告中的真正大數據”

阿圖爾‧哈楚揚(Artur Khachuyan,以下簡稱「AK」): - 你好!大家好!我叫 Artur Khachuyan,我經營 Social Data Hub 公司,我們對開放資料來源、資訊領域進行各種有趣的智力分析,並進行各種有趣的研究等等。

今天,BBDO 集團的同事請我談談分析大數據的現代技術,包括廣告中的大數據和不太大數據:如何應用這些技術,並舉幾個有趣的例子。我希望您一路提問,因為我可能會開始讓您感到無聊,並且不會告訴您要點等等,所以不要害羞。

實際上,一些「準大數據」解決方案的主要應用方向都很明確——受眾定位、分析、進行某種分析性行銷研究。但經過分析後,可以發現哪些額外的數據、哪些額外的意義總是很有趣的。

為什麼我們需要技術來做廣告?

我們從哪裡開始?最明顯的是在社群網路上做廣告。今天早上我拍了一張照片:出於某種原因,VKontakte 認為我應該看到這則特定的廣告……它是好是壞又是另一個問題。我們看到我確實屬於應徵入伍者類別:

Arthur Khachuyan:“廣告中的真正大數據”

第一個也是最有趣的事情可以被視為一種技術解決方案......在我們開始之前我想決定的第一件事是定義術語:什麼是開放數據,什麼是大數據?因為每個人對這件事都有自己的理解,我不想把我的條件強加給任何人,但是……只是為了不造成分歧。

就我個人而言,我認為開放資料就是我無需任何登入或密碼即可存取的所有資料。這是社交網路上的公開資料,這是搜尋結果,這些是公開註冊表等。大數據,以我自己的理解,我是這樣看待它的:如果它是一個包含數據的表,它有十億行,如果它是某種文件存儲,它大約有 PB 的數據。用我的術語來說,剩下的部分不是大數據,而是與大數據相近。

高精度分析和分析評分

我們就按順序來吧。透過對開放資料來源的分析可以發明的第一個也是最有趣的東西是高精度分析和分析評分。這是什麼?這是一個故事,你的社群媒體帳號不僅可以預測你是誰,不僅可以預測你的興趣。

但現在,透過結合各種來源,您可以了解您的平均工資、您的公寓價格是多少以及它位於哪裡。所有這些數據都可以透過即興的方式加以利用。例如,如果你使用你的社交網絡帳戶,可以查看你住在哪裡、在哪里工作;了解您所在的公司屬於哪個業務領域;如果您是分析師、經理等,請從 HH 和“Superjob”上傳類似的職位空缺;看看你住在哪裡(比如說,CIAN 的數據庫),了解在這個地方租房大概要花多少錢,在這個地方買多少錢,一下你大概能賺多少錢。此外,透過您的社交網絡,您可以了解您旅行的次數、您在哪裡以及您對雇主的忠誠度。

因此,我們可以利用如此大量的指標來做任何我們想做的事情。我們可以向您介紹您感興趣的產品。你能想像一個網上商店嗎?你去那裡——這家網上商店會獲取你的社交網絡帳戶並告訴你:「瑪莎,你剛剛和男朋友分手了,這裡有一些專門為你準備的產品。」這不是不久的將來…

一個人的地理位置是如何決定的?

回答觀眾提問:

  • 通常情況下,80% 的簽到地點都被視為他們的確切居住地。但對於那些沒有在任何地方簽到的人來說,有幾種選擇:要么簽到,要么進行地理定位,要么對一個人寫任何東西的整個時間段的帖子和出版物進行分析......在某個地方,會彈出諸如“我想在 Akademicheskaya 附近買一輛嬰兒車”或“我最近在這裡的牆上看到了一些醜陋的塗鴉”之類的信息。也就是說,對於幾乎 80% 的人來說,可以透過從社交網路收集的資料或元資料來確定他們的地理位置、工作地點和居住地點。

    這又是對貼文的分析。從最簡單的意義上講,這是對社交網路中不刪除 jpeg 元資料的簽到和地理位置的分析(您可以從中找出一些線索)。但對於剩下的人來說,這些通常是文字廣播:要么一個人在寫某些東西時「顯示」他的位置,要么他「顯示」他的手機,透過它可以找到他在 Avito 上的一些廣告或他在 Avto.ru 上的帳戶。根據這些數據,您可以結合(例如,「我在 Mayakovskaya 附近賣車」)並粗略地假設這一點。

  • 通常人們會在社群媒體上發布此內容。我們只與開放源合作,這裡我們只討論開放源。通常他們會發布廣告,也就是說,大約百分之六十的情況是最常見的故事是當人們「炫耀」他們當前的手機號碼時 - 這些都是出售某種東西的廣告。一個人要么在某些群組中寫作(“我在那裡賣這個和那個”),要么去某個地方。

    是的!他們通常會留言:「回覆我,或者給我發短信,或者給我打電話。」這種情況經常發生在那些在社交網絡上賣東西、買東西、與人交流的人身上……因此,你可以用這個號碼鏈接到他在 CIAN 的個人資料(如果他發布過文章的話),或者,同樣,鏈接到他在 Avito 的個人資料。這些只是最受歡迎的頂級資訊來源,還會有更多——Avito、CIAN 等等。

  • 這是指網上商店。接下來是人臉辨識和個人資料匹配技術(我們將會討論它)。理論上,這也可以應用於線下商店。總的來說,我最大的夢想是,當街頭橫幅出現時,當你走過攝影機時,它會「追蹤」你的臉。但這會被法律禁止,因為這是侵犯隱私的行為。我希望這遲早會發生。
  • 根據我的個人經驗。很多時候,當一個人寫信給你時,你會用到一些你不應該知道的他生活中的事實……大多數情況下,人們都會感到害怕。但!根據最近的統計,社交網路上關閉的帳戶數量減少了14%。假帳戶的數量正在增加,公開帳戶的數量正在增長——人們越來越走向開放。我認為,3-4 年後,當有人知道他們可能不應該知道的資訊時,他們將不再做出如此激烈的反應。但其實看他的牆就很容易得到。

可以從開放資源中取得什麼?

有一個大致的列表,列出了可以從公開來源以相當高的可靠性理解的事物。事實上,還有更多不同的指標;這取決於此類研究的客戶。是否有人力資源機構對您是否在社群媒體或公共場所罵人感興趣?有些人會關心你是否喜歡納瓦尼的帖子,或者相反,是否喜歡統一俄羅斯黨的帖子,或者一些色情內容——這種事情經常發生。

主要有家庭價值、公寓的大致費用、住房、找車等等。基於此,人們可以被劃分為不同的社會群體。這些是莫斯科 Tinder 的用戶,他們是誰(根據他們在 Facebook 帳戶上找到的照片);根據他們的興趣,他們被分成不同的社會群體:

Arthur Khachuyan:“廣告中的真正大數據”

如果我們更接近廣告,那麼我們已經逐漸擺脫了標準的廣告定位,例如當你在 VKontakte 中選擇你對 18 歲的男性感興趣,並訂閱了某些群組。下面還有一張圖片,我現在給你看:

Arthur Khachuyan:“廣告中的真正大數據”

重點是,目前大多數進行分析的服務,原則上,進行社交媒體分析的人,所做的就是分析興趣......人們首先想到的是分析其訂閱者的頂級群體。它可能對某些人有用,但我個人認為這是完全錯誤的。為什麼?

您的讚會被收集和分析

現在拿起你的手機,看看你的熱門群組——肯定會有超過 50% 的群組你已經忘記了,這些內容實際上與你無關。你根本不會消費它,但係統卻會拖著你:你訂閱了食譜,訂閱了一些熱門群組。也就是說,您將違反分析您個人資料的系統,並且您的利益將無法獲得認可。

繼續...那裡有什麼?我們假設其他人正在做什麼。我們認為,評估用戶興趣最充分的方式是按讚。例如,VKontakte 沒有按讚功能,人們認為沒有人知道他們喜歡什麼。是的,Instagram 上確實包含一些點贊,我們在 Facebook 上也看到了一些東西,但某些群組中的大多數內容並沒有廣播到一般信息流中,人們生活和思考時認為沒有人會知道他們喜歡什麼。

並且,透過收集我們感興趣的某種內容,收集這些帖子,收集這些點贊,然後根據這個資料庫檢查這個人,我們就可以高精度地確定他是誰,他的命運是什麼,他對什麼感興趣。準確地辨識出他屬於某個特定的社交群體並與之互動。

買車改變行為

我身邊就有這樣的例子。讓我馬上澄清一下,我的例子與廣告和行銷有關,因為如你所知,大多數情況都受到保密協議(NDA)等的保護。但還是會有很多有趣的事情發生。所以,這些人的故事是這樣的:這些人是在 2010 年至 2015 年期間購買了汽車的男性。他們的線上社交行為如何變化用顏色編碼。訂閱者中女孩的比例發生了變化,我訂閱了「男人」公眾號,我找到了永久的性伴侶…

Arthur Khachuyan:“廣告中的真正大數據”

所有這些都按汽車品牌和人數進行細分。由此我們可以得到許多關於人類行為及其運作方式的有趣結論。我可以說,保時捷卡宴和種植的 Priora 在吸引的觀眾數量方面實際上是相同的。這些觀眾的品質、他們的行為各不相同,但數量大致相同。由此您可以得出的結論是,什麼更接近您的市場。你賣了一輛奧迪,然後打出一句廣告詞:「買奧迪,遠離父母!」等等。

是的,這是一個有趣的例子,說明人們的行為如何基於對喜歡的分析、基於他們從哪個群組轉到哪個群組、基於他們分析什麼內容——幾乎 100% 的可能性就能清楚地表明你是誰。因為如果你無法存取網路流量,不閱讀私人訊息,按讚總會告訴你這個人是誰──一個孕婦、一個母親、一個士兵、一個警察。對於您,作為一個可以投放廣告的人來說,這是一個巨大的打擊。

回答觀眾問題:

  • 每列代表某輛車內的人數;他們的行為模式發生了怎樣的變化。看這裡:購買保時捷卡宴的人-約550人(黃色),訂閱者中女孩的比例增加。
  • 樣本包括 2010 年至 2015 年社交網路 VKontakte、Facebook 和 Instagram 的用戶。唯一需要澄清的是:我們在這裡選擇了可以使用某些工具在照片中以 80% 以上的準確率識別的汽車。
  • 在一定時期內,他的車(好吧,不是他的,我們將其留給社交網絡驗證)......在一定時期內,這個人不斷被拍到與汽車合影,與汽車在一起,出版物不同,照片來自不同的角度,等等。接下來會有一張圖片,顯示哪些人用哪些車拍照......是的,這是第二個問題——對社群媒體數據的信任。
  • 自從我們提出這個問題以來,不幸的是,社群媒體數據並不總是準確的。人們並不總是願意發布自己的資訊。我個人做過這樣一項研究:我將莫斯科大學的畢業生數量與社交網路上註冊的人數進行了比較。平均而言,社群網路上註冊的莫斯科國立大學某一年某一專業的畢業生人數比實際人數多 60%。所以是的,這裡自然存在一定比例的錯誤,而且沒有人隱瞞它。這裡我們簡單地以那些能夠以超過80%的機率被辨識的汽車作為基礎。

訓練模型的來源列表

這裡有一個可以使用的來源範例列表,可用於非常確定地確定一個人的社會概況以及他是誰。

Arthur Khachuyan:“廣告中的真正大數據”

我們從社群網路、CIAN 取得個人資料——一套公寓的大致價格、「獵人頭」、「Superjob」——這是特定人員的平均薪資。我希望這裡沒有獵頭代表,因為他們認為從他們那裡獲取這些數據不是一個好主意。然而,這是特定地區特定類型職缺活動的平均薪資。

「Avito」、「Avto.ru」:很多時候,當人們顯示他們的電話號碼時,他們肯定(在很多情況下)至少在「Avito」或「Avto.ru」或其他幾個網站上有相關信息,從中你可以了解他們是誰。如果這支手機上賣出了一輛嬰兒車或一輛汽車……俄羅斯聯邦統計局和統一國家法人實體登記冊畢竟更像是可以對雇主公司進行排名的登記冊——根據某種公式,根據任何人都可以設定的模型(你可以粗略地確定這個人的錢,等等)。

Tinder 幫助收集人們的情況數據

另外,還有一件有趣的事情(作為一種選擇,在研究中非常有趣) - 這是再次借助這個“Tinder”機器人從莫斯科“Tinder”收集數據。確定了與人的距離,然後確定了他們的大致位置。

Arthur Khachuyan:“廣告中的真正大數據”

本研究的目的是確定政府機構(杜馬、檢察官辦公室等)中的 Tinder 帳戶數量。但是,作為廣告商,您可以按照自己想要的任何方式想像:例如,它可以是星巴克或其他人......也就是說,來自 Tinder 的在您這裡喝咖啡、訂購東西、在商店裡的人數。關於此地理定位:您可以使用任何服務來執行此操作。

回答觀眾的一個問題:

  • “Tinder”?你不知道嗎? Tinder 是一款約會應用程序,您可以在照片上左右滑動,應用程式會顯示您與對方的距離。如果從三個不同的點測量到此人的距離,則可以大致(+ 5-7 公尺)確定位置。在這種情況下,對於在檢察院或國家杜馬領土上進行確定,並不是那麼困難。但同樣,它可能是您的商店,也可能是任何東西。

例如,我們很久以前就遇到過這樣的案例(不是研究),當時我們從其中一個行動營運商那裡收到了有關流量密度的數據、有關蜂窩點移動密度的數據,所有這些資訊都疊加在高速公路上的廣告看板的座標上。行動業者的任務是確定大約有多少人開車經過並有可能看到這個廣告看板廣告。

如果這裡有廣告看板專家,你可以說:這非常可靠,可以理解——有人在開車,有人沒看,有人看了……儘管如此,這是莫斯科 20 億個這樣的多邊形的一個例子,其中在某些路線上每小時都有這些人的密度……你可以看到這些人在任何時刻經過的地方,並粗略估計客流量。

回答觀眾的一個問題:

  • 沒有人提供這樣的數據。我們為其中一位運營商進行了這樣的研究,這是一個完全內部的故事,因此,遺憾的是,它沒有以圖片的形式呈現。但大型廣告公司通常可以毫無問題地聯繫到業者。至少在莫斯科有很多先例,例如,保險公司會求助於 GetTaxi 這樣的公司,這些公司提供有關駕駛員年齡、駕駛方式(好 - 壞、魯莽 - 不)的匿名數據,以預測保單等等。每個人都在為此而苦苦掙扎,但在某種內部層面上,提供匿名數據——我認為沒有人會遇到這樣的問題。

影像和模式識別

我們繼續吧。我最喜歡的是圖像辨識。這裡會有一小部分關於透過人臉搜尋人的內容,但我們基本上不會涉及這部分。我們精確地識別圖像並確定圖像中的內容——汽車的品牌、顏色等等。

Arthur Khachuyan:“廣告中的真正大數據”

我有一個有趣的例子:

Arthur Khachuyan:“廣告中的真正大數據”

有一項研究在各種社交網路上尋找紋身。因此,同樣的道理也適用於任何品牌、任何視覺形象、幾乎任何視覺形象。有些無法足夠確定(我們不接受)。

Arthur Khachuyan:“廣告中的真正大數據”

這是我最喜歡的。汽車品牌經常轉向這項任務,因為他們的任務是,例如,找到一些寶馬X6的所有車主,了解他們是誰,他們彼此之間有何联系,他們對什麼感興趣等等。這是關於人們在社群網路上用什麼車拍照的問題。

Arthur Khachuyan:“廣告中的真正大數據”

這裡根本沒有過濾:物體是他們的,汽車不是他們的;這只是汽車的分類——年齡等等。但視覺影像辨識的使用頻率相當高:這包括搜尋孕婦和在某些大眾媒體中搜尋品牌標誌(誰發布了什麼)。

Arthur Khachuyan:“廣告中的真正大數據”

我最喜歡的案例(各種餐廳都在使用):在社交網路上發布了哪些卷。這是一件很有趣的事情,但事實上它可以讓你了解很多有趣的事情,首先,關於你自己的客戶:誰來找你以及他們為什麼這樣做。因為這不是什麼秘密,在壽司店大多數人(我不會說「女孩」)都會拍照來打卡、拍照等等。

該品牌可以利用這一點。品牌感興趣的是需要把什麼樣的產品拍得漂亮並發布,以及什麼樣的人會來。幾乎任何事物都可以做到這一點,從食物開始。

影片中的模式識別

回答觀眾的一個問題:

  • 不在影片上。我們已進入測試模式。我們嘗試了這項技術,但結果是…它可以很好地識別影片中的所有內容,但我們還沒有找到它的任何應用。再見。除了分析影片部落客在某個地方說了多少話以及哪些影片部落客說了話…還有這樣的研究。他們見過多少次面,見過多少次。但對於品牌來說,他們還沒有想清楚如何實現這一點。也許有一天它會到來。

再說一次,它是食物,它可能是孕婦、男人(未懷孕)、汽車——任何東西。

作為一種選擇,有一家媒體開展了這樣的新年研究。雖然離廣告還很遠,但仍然如此。這是人們在新年禁食的食物:

Arthur Khachuyan:“廣告中的真正大數據”

這裡也按年齡進行了細分。您可以看到一種相關性,即年輕人大多點餐,而成年人大多坐在傳統的餐桌上。這是一件有趣的事情,但如果你以品牌所有者的身份想像一下,你就可以評估很多事情:誰以及如何處理你的產品,他們對產品的評價如何。通常,人們並不總是在文本中提及品牌本身,而傳統的分析監測系統並不總是能夠理解或找到對品牌的提及,僅僅因為它沒有在文本中提及。或文字有錯誤,沒有標籤,或其他什麼的。

照片清晰可見。透過照片,您可以判斷它是否是畫面的中心物體。接下來你可以看到這個人寫了什麼。但最常見的是,它被用來搜尋駕駛過某些汽車等的潛在受眾。然後我們會用這些車做很多有趣的事。

機器人被教導模仿人類

以下是使用人數統計的另一個範例:

Arthur Khachuyan:“廣告中的真正大數據”

當您需要透過一些照片找到人、了解他們的社交資料以及他們是誰時,有一個比較人的選項。再次,我們回到這個問題,如果我們在線下商店安裝了攝像頭,那麼這是一個很好的方法來了解誰會來找你,這些人是誰,他們對什麼感興趣,是什麼促使他們來找你。

現在是最有趣的部分:如果我們收集他們在社交網路上的帳戶,了解這些人是誰,他們對什麼感興趣,我們可以(作為一種選擇)製作一個看起來像這些人的機器人;這個機器人將開始像這些人一樣生活,並分析它在各種社交網路上看到什麼樣的廣告。這將使您能夠相當準確地了解哪些品牌是針對此人的目標客戶。這也是一個相當常見的故事,不僅需要分析這個人是誰以及他的興趣是什麼,還需要分析你的潛在競爭對手或其他有興趣的人針對他投放什麼樣的廣告。

Arthur Khachuyan:“廣告中的真正大數據”

社群網路連結分析

Arthur Khachuyan:“廣告中的真正大數據”

接下來有趣的是人與人之間關係的分析。對網路本身的連結進行分析,這些網路圖——這根本不是什麼新鮮事,每個人都知道這一點。

Arthur Khachuyan:“廣告中的真正大數據”

但將其應用於廣告任務才是最有趣的。這是對引領潮流的人的搜索,這是對在這個網絡內按照特定標準傳播信息的人的搜索。假設我們對某款BMW車型的同一車主感興趣。把他們集合起來,就能找到掌握輿論的人。這些不一定是汽車部落客等等。通常這些都是簡單的同志,他們坐在各個公共場合,對某些內容感興趣,並且可以在很短的時間內將您的品牌或您感興趣的人吸引到這個責任領域,進入您感興趣的領域。

這裡就有這樣一個例子。我們有一些潛在的人,人與人之間的連結。這裡橘色的是人,小點是共同的群體,共同的朋友。

Arthur Khachuyan:“廣告中的真正大數據”

如果你把他們之間的所有這些聯繫收集起來,你就可以非常清楚地看到,人們之間有大量的共同群體、共同的朋友,他們彼此之間……如果你把這個可視化圖表按興趣、按他們分發的內容、按他們彼此互動的程度分成幾組……在這裡你可以看到之前的圖片變成了這樣:

Arthur Khachuyan:“廣告中的真正大數據”

這裡各個組都以顏色清晰地突出顯示。在這種情況下,這些是來自我們高等經濟學院碩士課程的學生。在這裡你可以看到紫色/藍色的是那些熱愛透明國際、開放俄羅斯和霍多爾科夫斯基公共頁面的人。左下角是綠黨,熱愛統一俄羅斯黨。

大家可以看到之前的圖片是這樣的(這些只是人與人之間的連結),但是現在已經變得界線分明了。也就是說,所有人總是相互連結的,他們有相同的興趣,他們彼此都是朋友。有的在上面,有的在下面,還有一些其他的同志。而如果將這些小子圖用其他參數分別可視化,並觀察內容分發的速度(粗略地說,誰在那裡轉發了什麼),我們可以在每個部分找到一兩個始終掌握輿論的人,透過與他們互動,要求他們發文或做其他事情,我們可以從整個有趣的受眾那裡得到回應。

我還有另一個這樣的例子。也算一個:這些是 BBDO 集團的員工,在社群網路上找到的例子。它看起來沒什麼意思,很大,綠色,它們之間的聯繫...

Arthur Khachuyan:“廣告中的真正大數據”

但我有一個選擇,就是它們之間已經建立了群組。然後,如果有人感興趣的話,有一個互動版本——你可以點擊它看看。

右上——那些熱愛普丁的人。這裡的紫色的是設計師;對設計、有趣的事物有興趣的人等等。這裡的白色部分是管理團隊(顯然,我是這麼理解的);這些人之間沒有任何联系,但他們從事的工作大致相同。剩下的就是他們共同的群體、連結等等。

品牌不需要博主,他們需要意見領袖

我們找到這些人,然後廣告代理商、廣告公司自己決定:可以給這個人錢,讓他以某種方式與這個內容或其他東西互動,或針對他們進行特定的廣告活動。它也被經常使用,特別是現在,因為所有品牌都想與部落客合作,他們希望他們的內容得到推廣,但廣告公司並不真正想聯繫他們(嗯,這種情況確實會發生)。

而真正的出路是找到那些不是部落客、不是美妝部落客的人,而是比如說一些真正與這個品牌有互動的人,他們可以在一些可憐的公共「Mail.ru Answers」上寫文章,並獲得一定數量的瀏覽量。這些人會持續對這個人的內容感興趣,他們會傳播所有這些東西,品牌也會獲得參與。

現在使用這種技術的第二個選擇非常重要——那就是搜尋機器人,這是我最喜歡的。這對你的競爭對手來說是一種聲譽風險,也是一個從廣告活動中過濾掉不相關人員的機會,以及其他任何事情(刪除評論和搜尋人與人之間的聯繫)。我有這樣一個例子,它也很大並且具有互動性——你可以移動它。這些是在 Lentach 社區發表評論的人的聯繫方式。

這個例子是為了讓您了解機器人的可見性有多好和容易;而且您不需要任何技術知識就可以做到這一點。因此,倫塔赫發表了一篇關於 FBK 對德米特里·梅德韋傑夫進行調查的帖子,有些人開始發表評論。我們收集了所有發表評論的人——這些人是綠色的。我現在就移動它:

Arthur Khachuyan:“廣告中的真正大數據”

人們是綠色的(寫評論的人)。他們在這兒,他們在這兒。他們之間的藍點是他們共同的群組,黃點是他們共同的訂閱者、朋友等等。在這裡,大多數人都相互連結在一起。因為無論三次、四次、五次握手的理論是什麼,所有人都在社群網路上相互連結。不存在彼此分離的人們。即使我那些有反社會恐懼症並且只使用 VKontakte 觀看影片的朋友也仍然訂閱與我們相同的公開頁面。

納瓦尼也使用機器人。每個人都有機器人

大多數人(他們在這裡)都是相互連結的。但有這麼一小群同志,他們之間只是朋友。這就是他們,綠色的,這是他們共同的朋友和團體。它們甚至在這裡分別掉了下來:

Arthur Khachuyan:“廣告中的真正大數據”

而巧合的是,正是這些人在這篇貼文下面寫了「納瓦尼沒有證據」等等,發表了同樣的評論。當然,我不會擅自得出任何結論。但儘管如此,當列別捷夫和納瓦尼之間發生辯論時,我在 Facebook 上發布了另一篇文章,我以完全相同的方式分析了評論:事實證明,所有寫“列別捷夫是狗屎”的人在過去四個月裡都沒有上過社交網絡,也沒有訂閱任何公眾帳號,突然瀏覽到這個特定的文章,然後寫了這個特定的評論然後就離開了。再說一次,你不能從中得出任何結論,但納瓦尼團隊的某個人給我寫了一條評論說他們不使用機器人。那好吧!

更接近廣告,更接近品牌。現在每個人都有機器人!我們有,我們的競爭對手有,其他人也有。需要把它們扔掉或留下,這樣它們才能過上好日子;基於這些數據(指向上一張幻燈片)使它們變得完美,使它們看起來像真人,然後才使用它們。雖然使用機器人是不好的!然而,這是一個相當常見的故事…

在自動模式下,這樣的功能可以讓您從分析中過濾掉與分析無關的人,那些不應該包括在樣本中的人,那些不應該包括在本研究中的人。非常常用。再說一遍,並非所有車主都是真正的車主。有時我們只對可能有車的人、屬於某些群體的人、與某人溝通的人以及有一定受眾的人感興趣。

事實和觀點分析

下一個也是我最喜歡的。這是對事實和觀點的分析。

Arthur Khachuyan:“廣告中的真正大數據”

如今,每個人都知道如何在各種來源中提及自己的品牌。這並不是什麼秘密。似乎每個人都知道如何計算調性......儘管我個人認為調性指標本身並不是很有趣,因為當你告訴客戶,“夥計,你的中性率為 37%”,他會說,“哇!太酷了!”因此,更進一步會更有趣:從評估語氣到評估人們對您的產品的看法。

這也是一件非常有趣的事情,因為......我個人認為中性訊息原則上不可能存在,因為如果一個人在公共場所寫了一些東西,那麼無論如何,這個訊息都是有顏色的。就我個人而言,我從未見過提及任何品牌的中性消息。通常是某種污垢。

如果我們收集大量這樣的資訊(可能有數百萬,一千萬條),從每個資訊中提取主要思想,將它們結合起來,我們就可以相當可靠地了解人們對這個品牌的評價和想法。 “我不喜歡包裝”,“我不喜歡一致性”,等等。

人們對 Transaero、Chupa Chups 和美國總統有何看法?

我有一個有趣的例子:這是一張資訊圖,顯示了社群媒體用戶在 Transaero 公司破產後會如何處理該公司。

Arthur Khachuyan:“廣告中的真正大數據”

有很多有趣的例子:燒毀、殺死、送往歐洲,甚至有2%的人寫道:「把他們送往敘利亞採取軍事行動」。說回有趣的事情,它幾乎可以是任何品牌——從我最喜歡的狗糧到一些汽車。那些不喜歡包裝的人,那些不喜歡真品的人——你總是可以接受這一點,你總是可以考慮到這一點。有許多例子表明,人們因為在社交網路上寫道Chupa Chups不夠圓潤或不夠甜,而幾乎改變了產品的生產。

還有一個有趣的例子。猜猜看有什麼評論以及針對誰的?

Arthur Khachuyan:“廣告中的真正大數據”

出於某種原因,目前,正是觀點分析、從資訊中提取的事實分析並沒有被廣泛應用,也不是很普及。雖然這項技術並不是什麼超級秘密,但實際上它並不需要任何訣竅,因為你不需要成為電腦語言學的天才就可以從人們的評論中提取主詞、謂語並對其進行分組。這並不難。但我希望在接下來的幾年裡人們會開始使用它,因為......它會很酷——它將是一種自動反饋!你總是知道他們怎麼說你。嗯,你知道這是針對美國總統的。

回答觀眾的一個問題:

  • 是的,這是英文版的 Facebook。這裡將它們翻譯成俄語。這是在某處寫的。

大數據與政治技術

事實上,我有很多關於川普和其他人的不同有趣的政治例子,但我們決定不把它們包括在這裡。但有一個政治例子。

這是國家杜馬的選舉。你什麼時候去那裡?去年?差不多一年半以前了。

Arthur Khachuyan:“廣告中的真正大數據”

這些人的確切位置被確定,精確到特定的地理點,以便了解他們在哪個投票站。然後從這些人中,只選取那些表達了對投票對象的具體意見的人。

從政治技術的角度來說,這並不是很正確,因為這一切都需要根據人口密度等等來標準化。儘管如此,這裡的藍黨將會投票給你們知道的人,而紅黨則會投票給反對派同志,順便說一句,反對派同志並不多。

我個人認為大數據不會很快進入政治技術,但作為一種選擇,候選人也是一個品牌。從某種程度上來說,這也是對你的品牌的事實和觀點的分析,也是一件相當有趣的事情,因為你可以即時了解誰在做什麼。我知道 BBC 有幾次這樣的案例,他們在某次廣播節目中實時監控社交網絡:有這樣或那樣的回應,人們寫了這篇文章,問了這樣或那樣的問題 —— 這真是太棒了!我認為它很快就會被使用,因為每個人都對它感興趣。

塑造品牌定位

Arthur Khachuyan:“廣告中的真正大數據”

接下來,我對品牌定位進行建模。關於如何使用各種指標(不是來自社群網路追蹤者的點贊,而是複雜的指標、對內容的興趣、獲取指標所花費的時間)對品牌進行排名的簡短介紹。

Arthur Khachuyan:“廣告中的真正大數據”

出於某種原因,我有一個關於「製藥」的例子。在這裡,小而明亮的內圈代表品牌本身創建的文字內容的數量;大圓圈代表品牌本身創作的照片和影片內容的數量。

距離中心越近,顯示內容對觀眾的吸引力有多大。有一個大型模型,有一堆不同的參數:喜歡、轉發、回應時間、平均誰在那裡分享......在這裡你可以看到:有一個很棒的“Kagocel”,它投入了大量的資金來創建自己的內容,因此它們位於相當接近中心的位置。還有一些同志也創作自己的內容,但是觀眾對此不感興趣。這不是一個很好的例子,因為所有這些帳戶實際上都已失效。

葉戈爾·克里德比巴斯塔更受人喜愛

Arthur Khachuyan:“廣告中的真正大數據”

不幸的是,其餘的......從可以展示的內容來看......這裡還有來自真實公司的俄羅斯說唱歌手作為一種選擇。

有什麼優點?事實上,公司可以將幾乎任何內容納入這種模型中,從您品牌的訂閱者的平均薪資開始;任何他們喜歡的模型。因為每個廣告公司計算自己的指標的方式不同,而且品牌計算自己的指標的方式也不同。

這裡還有一個——巴斯塔,他產生了大量內容,但卻處於邊緣,因為這些內容顯然對觀眾來說不是很有趣。再說一次,我不會評判。但儘管如此,還有葉戈爾·克里德,根據社交網絡的說法,他幾乎是我們這個時代最優秀的表演者,但他只發布自己的個人照片。然而,他擁有大量的訂閱者:大約有一百萬人。我不記得確切的數字;我記得這些人的參與度百分比遠高於 85%,也就是說,對於一百萬訂閱者,他從這些真實的人那裡得到了 850 萬個回應 - 這真是太瘋狂了。這是正確的。

Arthur Khachuyan:“廣告中的真正大數據”

回答觀眾問題:

開發饒舌歌手分析模型花了多長時間?

  • 對於每一個人,都有自己的目標受眾,這些人的自身利益,對於每一個人,他們都進行了計算......所有這些都被標準化為大約到中心的距離,他們的徑向位置並不重要(這裡只是為了美觀而塗抹,這樣他們就不會互相碰撞)。只有大致接近中心才是重要的。這是我們使用的模型。例如我比較喜歡圓形,有的人喜歡半圓形。
  • 這個模型組裝得很快,只花了兩三個小時(是的,一個人就完成了)。這裡只插入了指標:我們用什麼乘以什麼,然後再添加,最後以某種方式將其標準化。取決於型號。有些人對其訂閱者的平均薪資(這不是開玩笑)感興趣。為此,你需要找到他們的聯絡方式,Avito,計算所有內容,然後將其相乘。有時這需要很長時間來計算,但這個特定的(指向上一張幻燈片) - 這裡的參數非常簡單:訂閱者,轉發等等。大約需要兩三個小時。因此,這個東西就會即時更新,可以使用。

現在是最有趣的部分。我所舉的例子就這些了,因為單獨談論太久是沒什麼意思的。我希望你們現在提出問題,我們將從一個主題轉到另一個主題,因為我有關於如何使用技術的例子等等...

回答觀眾問題:

  • 我曾經有過一次個人經歷,可以說是“賭場附近的賭場”,在那裡安裝了攝像頭,可以識別人臉等等。無論是對我們還是我們的競爭對手來說,獲得認可的人數比例肯定是相當高的。但實際上它相當有趣。我認為這是一件有趣的事情:你可以了解這些人是誰,並很好地預測他們為什麼來這裡,他們的生活發生了哪些變化以至於他們決定來到賭場。但對於具體類型的業務...如果你把這樣的東西放在藥店裡,那就沒有意義了——你無法預測一個人為什麼會來藥店。

    這裡的整體任務是建立一個模型,以便了解人們何時可能對您的品牌感興趣,這樣您就可以在他購買了東西之後才給他投放廣告(就像現在發生​​的那樣),而是在所有這一切發生之前「預期」地給他投放廣告。這種「賭場式」的環境很有趣;這些人中有一個相當有趣的比例——為什麼:有人突然升職了,有人得到了其他的東西——這樣的見解很有趣。但對於一些商店、零售店、銷售藥丸的商店來說,在我看來,這樣做不太正確。

大數據有在線下使用嗎?

  • 它處於離線狀態。您只需要準確、大致地了解——這個模型是否有效。再說一次,關於碳酸水……我實際上對所有東西都感興趣,但我個人並不了解這些人的個人資料和行為在多大程度上取決於他們何時想購買瓶裝水。儘管這可能確實是事實,但我不知道。

您有多少個開放的社群媒體帳號?

  • 我們有 11 個特定的社交網路:VKontakte、Facebook、Twitter、Odnoklassniki、Instagram 以及其他一些小東西(我可以查看列表,例如 Mail.ru 等等)。我們肯定在 VKontakte 上有所有這些同志的副本。 VKontakte 上的用戶數量已達 430 億(其中約 200 億一直活躍);有群組,有這些人之間的聯繫,有我們感興趣的內容(文本),還有一些媒體,但非常少......粗略地說,我們看這張圖:如果那裡有面孔,我們就保存它們,如果有一個模因,我們就不會保存它,因為即使我們沒有足夠的內容。

    有一個俄語版的 Facebook。目前,大約有 60% 到 80% 是 Odnoklassniki,幾個月後我們可能會全部得到它們。俄羅斯“Instagram”。所有這些社交網路都有群組、人、他們之間的連結以及文字。

  • 約400億人。有一個微妙之處:有些人沒有標明城市(他們可能是俄羅斯人/非俄羅斯人);其中,在社交網絡上平均有 14% 的帳戶被關閉,例如在 VKontakte 上,我不知道 Facebook 上的確切數字。
  • 我們也不會保存 Instagram 上的媒體內容——只有當其中有面孔時才會保存。我們不保存此類(其他)媒體內容。通常有趣:只有文本,人與人之間的連結;全部。 Instagram 上最常見的研究是通常的受眾研究:這些人是誰,最重要的是,這些人與其他社群網路有何關聯。在 VKontakte 和 Facebook 上找到此人的個人資料,以計算他的年齡等等。
  • 目前還不需要把其他的都拿走──只是因為沒有顧客。關於語言:我們有俄語、英語、西班牙語,但這仍然專門用於俄羅斯的品牌;或從俄羅斯引進這些產品的公司。
  • 我們每天在許多很多的管道中對人們進行調查:我們透過收集網路來收集數據,並使用 Api 更新這些指標。 2-3天的時間你就可以瀏覽整個VKontakte,並對其進行梳理;大約一周後,您就可以瀏覽整個 Facebook,了解誰更新了什麼,誰沒有更新。然後把這些人分別重新集合起來:到底發生了什麼變化,把這整個歷史都寫下來。在我的記憶中,很少有人將舊的社群媒體資料用於任何實際的商業任務。當時有一位政治人物來找我們,他的任務是了解什麼樣的人會來到總部,這些人在 6-8 個月前是誰(他們是否刪除了自己的個人資料,事實上他們支持另一位候選人,他們是否來破壞選票)。

    還有幾次是個人故事,某人的照片在公共領域發表。有必要找到聯繫等。不幸的是,非常遺憾,但我們無法在法庭上作證,因為我們的資料庫在法律上是不流動的。

  • MongoDB儲存是我最喜歡的。

社群網路試圖打擊資料收集

  • 通常我們只會向廣告商上傳這些帳戶的列表,然後他們使用標準......也就是說,在社交網路中,在 VKontakte 中,你可以指定這些人的列表。

    但對 Facebook 來說,使用的是購買的 cookie。我們自己不使用“cookies”,但有幾個故事是廣告商自己提供給一些人的,我們與他們互動——他們有這些網絡,有預告片、非預告片廣告,這些“cookies”。你可以把它綁起來——沒問題!但我不太喜歡這些東西,因為我認為它們不太可信。這純粹是我個人的看法,它就像 TNS,可以「追蹤」電視——它並不清楚你是在看電視,沒在看,還是在電視開著的時候洗碗……這裡也一樣:我經常在互聯網上用谷歌搜索一些東西,但這並不意味著我想買它。

  • 如果您使用標準的上下文廣告網路:當我們為這些人卸載時,我有幾個故事,嘗試使用他們的介面將他們與他們網站上的「cookies」連結起來。但我真的不喜歡這樣的事。

網民薪資計算公式

  • 平均薪資的一般公式是:這是該人居住的地區,這是他工作的業務類別(即他所在的公司),然後取他在該公司的職位,估算該職位的平均工資...平均工資取自“獵頭”和“Superjob”(還有其他幾個來源),針對特定地區和特定業務環境中的特定職位空缺。

    如果某人洩漏了自己的電話號碼,Avito 和 Avto.ru 通常會採取額外的參數。透過 Avito,您可以看到人們正在銷售什麼樣的東西——昂貴的、便宜的、二手的、未使用的。透過“Avto.ru”,您可以查看他是否有車 - 無論他是否擁有車。這大約佔不計其數的 20% 的人不小心將手機掉落在某處,而他們的帳戶可以與這些數據關聯起來。

資料收集公司處理的資料量是多少?

  • 儲存的照片容量為 6,4 PB。我不能確切地說它現在發展得有多快,因為從 2016 年我們就開始錄製“潛望鏡”並開始錄製一點影片。

    我無法確切地說出零是什麼時候。我們從一家公司跳槽到另一家公司——這些都是很長的故事。但我可以說,VK、Facebook、Instagram 和 Twitter——所有這些(人、群組以及它們之間的聯繫)包含文字和內容——實際上數據量並不大,甚至不太可能累積到 PB 級。我認為是 700 GB,也可能是 800 GB。

您是否協助客戶找到值得深入探討的相關領域?

  • 當客戶來的時候,我們會向他建議這樣的事情,但我們自己,就像 Google Trends 一樣,不會做這樣的事情。
  • 我們有幾個社會學故事,包括選舉和選舉前的歷史——我們對所有這些都進行了分析。對於品牌和品牌意見評估來說,一切幾乎總是相符的。以下是選舉前的故事 - 沒有(評估哪位候選人應該獲勝)。我不知道誰在這裡——是我們還是 VTsIOM 的重要人員。
  • 通常我們從品牌本身獲取這些控制結果,他們從訂購研究的同志那裡獲取——電話、行銷等等。另外,這整件事可以透過基本的東西來檢查:有人回覆了郵件列表,有人回答了調查...如果是一個大品牌(例如可口可樂),他們肯定有一兩百萬條來自客戶的內部評論——這些不僅僅是社交網絡上的評論和一些意見;這些是一些內部的製度、評論等等。

法律並不「知道」什麼是個人資料!

  • 我們只分析開放來源的數據,從不深入研究任何骯髒的、黑色的東西。我們的模型基於這樣的事實:我們將所有開放資料儲存在一些公共資料中心,將其租用到其他地方,並在我們自己的場所、在我們自己的伺服器上進行分析,並且它不會轉移到場所外的任何地方。

    但我們在開放資料領域的立法卻非常模糊。

    我們不清楚什麼是開放數據,什麼是個人數據——有第 152 條聯邦法律,但是……它們如何計算?因此,如果我在一個資料庫中有您的姓名和電話號碼,在另一個資料庫中有您的電話號碼和電子郵件,而在第三個資料庫中有您的電子郵件和您的汽車;看起來,所有這些都不是個人資料。如果把所有這些放在一起,根據法律,它們似乎就成為個人資料。

    我們透過兩種方式來解決這個問題。第一是我們為客戶安裝有軟體的伺服器,然後這些資料不會超出它的地理範圍,然後客戶負責這些個人資料、非個人資料等等的分發。或第二個選擇:如果這是一個你必須起訴社群網路或其他東西的故事…

    我們在為「生活新聞」收集這些同志的帳號(當時有「統一俄羅斯」的初選)時進行了這樣的研究,並查看他們喜歡什麼樣的色情內容。這確實是一件有趣的事,但無論如何。我們以自己的個人觀點出售此信息,但不在文件中合法披露我們所分析的內容——法人實體統一國家登記冊、工資、社交網絡;我們出售專家意見,然後在幕後向人們解釋我們分析了什麼以及如何分析。
    故事有幾個,但都和一些公共商業項目有關。例如,我們為那些玩長板(這些是長板)的人提供了一個免費的非商業項目:任務是收集人們的出版物 - 當有人發布“我去高爾基公園騎行”時。現在他應該出現在地圖上,周圍的人可以看到有人在他旁邊。 VK 就此問題與我們爭論了很長時間,因為他們不喜歡我們在未經人們許可的情況下發布這些資訊。但當時並沒有上法庭,因為在幾個大型社區內,我們增加了規則,規定第三方、機構、公司、分析等可以使用這些數據。當然,這並不是特別合乎道德,但無論如何。

  • 我們只是及時醒來並開始向所有人推銷我們的專家意見。

你們與教育機構合作嗎?

  • 是的,我們與教育機構合作。我們提供全方位的服務:我們在高等學校設有碩士學位課程,並且我們與其他大學合作。我們非常熱愛大學!
  • 如果您有我的聯絡方式,您可以寫信給我。這是演示文稿的鏈接,如果有人感興趣的話——所有這些示例都在那裡,你可以移動它們。
  • 如果知道電話號碼和電子郵件,幾乎可以 100% 保證沒有人會刪除它。如果沒有電話號碼,通常是一張照片;如果沒有照片,則是年份、居住地、工作。也就是說,透過年份、居住地和工作地點,幾乎每個人都能被相當微妙地辨識出來。但這又是一個關於任務的問題。

    假設我們有一位銷售網路電視的客戶。因此,有人從他們那裡購買了這些「權力的遊戲」的訂閱,而任務是從他們的 CRM 中在社交網路上找到這些人,然後從他們的影響範圍內找到潛在的人。我只是說,他們有名字、姓氏和電子郵件……然後就很難做任何事情。大多數情況下,您可以透過電子郵件找到人們。

  • 我們通常會根據社交網路上的朋友來「配對」人們,但這並不總是正確的。這並不是說它並不總是正確的——而是它並不總是有效。首先,這需要付出很多努力,因為必須先為每個朋友執行此操作(匹配人員)——以了解他們是否已從社交網路轉換過來。然後——事實上沒有人知道我們在 VKontakte 上有一些朋友,在 Facebook 上也有其他朋友。不是所有人,但對我來說,例如,是這樣的;大多數人都有同樣的感受。

如何收集最完整的數據?

  • 在客戶端安裝軟體。我們為他們安裝了一台伺服器,該伺服器僅獲取我們的公開數據,並在內部處理他們的個人資料。與客戶簽訂了保密協議。當然,他們把這些資料轉移給我們並不完全正確,但法律責任還是落在客戶身上——也就是說,透過為他安裝軟體,或透過傳輸匿名資料。但這種情況非常罕見,因為——正確的、不正確的匿名化——在大多數情況下,這些人之間的關係都會失去。

誰會購買臉部辨識軟體?

  • 我們來這裡實際上是因為我們銷售的主要軟體是人臉搜尋、關係分析,並且我們將其出售給政府機構。一年半前,我們決定將所有這些故事投入廣告、行銷和公開市場——這就是商業法人實體 Social Data Hub 的成立方式。我們現在才剛到這裡。我們已經在這裡待了一年半了,試圖向人們解釋,他們不需要透過提及來獲得下載,他們需要得到問題的答案,不需要音調,等等。所以很難說在哪裡...
  • (你指誰?)所有需要尋找恐怖份子、戀童癖者的同志們。
    我可以馬上說(這將是下一個問題):根據我們的了解,沒有老師因為轉發貼文而被判入獄。
  • 在 VKontakte 上,這一比例為 14%,在 Facebook 上,沒有封閉的個人資料(有一個封閉的好友清單等)。最有趣的是,我剛剛寫了一條訊息——現在他們會數數並告訴我。

不要發表任何令你感到羞恥的事!

  • 不要在社群媒體上發布任何讓你感到羞恥的內容——這是我個人的遵循。儘管我有很多私人的,因為我在 Facebook 上發誓。好吧,事情發生了,你能做什麼?不要發布任何讓你感到羞恥的內容!如果您以後打算在公共議院的某個地方工作,是的,最好不要發表評論。如果你不打算這麼做,基本上沒人會在意。我只能向你保證,沒有人會讀你的私人信件,而這一切只是整個故事的鋪墊…

    每週肯定都會有人來找我說:“看,我朋友的照片被洩露到某個匿名公共頁面上了!” “幫助!”順便說一句,永遠不要在匿名公共頁面上發布任何內容。

  • 我不知道其他監控系統怎麼樣——我們肯定會考慮到這一點,品牌提及是負面的,上帝原諒我……但我可以說,各種近乎政府的同志只對擁有 5 多名觀眾的人感興趣,他們的輿論可以影響某些人。在我的實踐中,從來沒有出現過這樣的情況:人力資源機構在向我們訂購個人資料評估時說:“誰喜歡納瓦尼,就不要給我僱人!”

關於結果的公佈。有多少人參與研究?

  • 在排名前 10 名的廣告公司中,目前有 XNUMX 家正在出版廣告。很難說:當我們一年半前開始做這件事時......我們在每個領域都有幾個人——銀行有幾個人,人力資源部有幾個人,廣告部有幾個人。現在我們正在考慮先去找誰更有利可圖,我們需要為誰開始製作一些介面...
  • (每個細分市場的人數大概)不超過25人,因為我們沒有強姦任何人。
  • 整體來說,原則上我認為超過50%的市場使用這些技術。有些用於廣告活動,有些用於某種內部分析。我想說 40% 的人將其用於內部分析,50-60% 的人將其出售給最終品牌。但這已經取決於廣告公司本身了。你看,有些人只是報告花費的錢、操縱的廣告,而其他人則寫他們實際吸引了多少人,有哪些觀眾......我會這麼說,但我可能錯了——我真的不明白這些人是如何工作的。我只知道定量數據。

播放視頻

一些廣告🙂

感謝您與我們在一起。 你喜歡我們的文章嗎? 想看更多有趣的內容? 通過下訂單或推薦給朋友來支持我們, 面向開發人員的雲 VPS,4.99 美元起, 我們為您發明的入門級服務器的獨特模擬: VPS (KVM) E5-2697 v3(6 核)10​​4GB DDR480 1GB SSD 19Gbps XNUMX 美元或如何共享服務器的全部真相? (適用於 RAID1 和 RAID10,最多 24 個內核和最多 40GB DDR4)。

Dell R730xd 在阿姆斯特丹的 Equinix Tier IV 數據中心便宜 2 倍? 只有這裡 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 電視低至 199 美元 在荷蘭! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 美元起! 閱讀 如何建設基礎設施公司同級使用價值730歐元的Dell R5xd E2650-4 v9000服務器一分錢?

來源: www.habr.com

為具有 DDoS 保護、VPS VDS 服務器的站點購買可靠的主機 🔥 購買具備 DDoS 防護的可靠網站寄存服務,包括 VPS 和 VDS 伺服器 | ProHoster