Arthur Khachuyan:“廣告中的真正大數據”

14年2017月XNUMX日,Social Data Hub執行長Arthur Khachuyan在BBDO講座上致詞。 Arthur 談到了智慧監控、建立行為模型、識別照片和影片內容,以及其他社交資料中心工具和研究,讓您可以使用社交網路和大數據技術來定位受眾。

Arthur Khachuyan:“廣告中的真正大數據”

亞瑟‧卡楚揚(Arthur Khachuyan,以下簡稱「AH」): - 你好!大家好!我叫Arthur Khachuyan,我經營Social Data Hub公司,我們從事對開放資料來源、資訊領域的各種有趣的智力分析並做各種有趣的研究等等。

今天 BBDO 集團的同事請我們談談分析大數據、廣告大數據和非大數據的現代技術:如何使用它,並展示一些有趣的例子。我希望你一路上提出問題,因為我可能會變得無聊而不會透露本質等等,所以不要害羞。

其實,無論在哪裡使用某種「近大數據」解決方案,其主要方向都很明確——就是受眾定位、分析、進行某種分析性行銷研究。但在應用分析後可以發現什麼額外的數據,可以發現什麼額外的意義總是很有趣。

為什麼我們需要廣告技術?

我們從哪裡開始?最明顯的是社群網路上的廣告。今天我早上把它取下來:出於某種原因,VKontakte 認為我應該看到這個特定的廣告……它是好是壞是第二個問題。可見我絕對屬於義務兵的範疇:

Arthur Khachuyan:“廣告中的真正大數據”

可以作為技術解決方案的第一個也是最有趣的事情......在開始之前我想要決定的第一件事是定義術語:什麼是開放數據,什麼是大數據?因為對於這件事,每個人都有自己的理解,我也不想把自己的條件強加給任何人,但是……只是為了不出現任何出入。

就我個人而言,我認為開放資料是我無需任何登入或密碼即可存取的全部內容。這是社交網路上的開放個人資料,這是搜尋結果,這是開放註冊表等。大數據,以我自己的理解,我是這樣看待的:如果它是一個數據盤,它就是十億行,如果它是某種類型文件存儲,它是 PB 級的資料。我的術語中的其餘部分不是大數據,而是類似的東西。

高精度輪廓和輪廓評分

我們按順序走吧。透過分析開放資料來源,您可以想到的第一個也是最有趣的事情是高精度分析和分析評分。這是什麼?在這個故事中,你的社群網路帳號不僅可以預測你是誰,也不僅可以預測你的興趣。

但現在,透過結合各種來源,您可以了解您的平均薪資水平、您的公寓費用是多少以及它位於哪裡。所有這些數據都可以透過可用的方式直接使用。例如,如果您在社群網路上註冊帳戶,請查看您居住的地方、工作的地方;了解您所工作的公司屬於哪個業務部門;如果您是分析師、經理等,請從 HH 和「Superjob」下載類似的職缺;看看你住在哪裡(基地,說 CIAN),了解在這個地方租房要花多少錢,在這個地方買房子要花多少錢,預測你大概能賺多少錢。此外,使用社交網絡,您可以了解您的旅行次數、您在哪裡以及您對雇主的忠誠度。

因此,根據如此大量的指標,我們可以做任何我們想做的事情。我們可以向您介紹您感興趣的產品。你能想像一個網上商店嗎?你去那裡 - 這家在線商店在社交網絡上捕獲你的帳戶並告訴你:“瑪莎,你剛剛和你的男朋友分手,這裡有一些適合你的產品。”這不是不久的將來…

一個人的地理位置是如何決定的?

回答觀眾提問:

  • 通常,80% 的簽到均被視為準確的居住地。但對於不在任何地方簽到的人來說,有幾種選擇:要么簽到,要么地理定位,或者這是對一個人寫東西的整個時間段內的帖子和出版物的分析……在某個地方,會彈出諸如“我想在Akademicheskaya 附近買一輛嬰兒車”或“我最近在這裡牆上看到醜陋的塗鴉”之類的內容。也就是說,對於近 80% 的人來說,他們的地理位置、工作地點和居住地點可以使用從社交網路收集的資料或元資料來確定。

    這又是對貼文的分析。從最簡單的意義上來說,這是對社交網路中的簽到和地理位置的分析,它不會刪除 jpeg 元資料(您可以從中找出一些東西)。但對於剩下的人來說,這些通常是文字廣播:要么一個人在寫某件事時“亮出”他的位置,要么他“亮出”他的手機,通過它你可以在Avito 上找到他的一些廣告,或在“”上找到他的帳戶。自動RU”。根據這些數據,您可以組合(例如,「我在馬雅可夫斯基附近賣一輛車」)並粗略地假設這一點。

  • 人們通常將其發佈在社交媒體上。我們只與開源合作,在這裡我們只討論開源。他們通常會發布廣告,也就是說,在百分之六十的情況下,當人們「展示」他們當前的手機號碼時,最常見的故事是銷售某些東西的廣告。要么在某些群體中,一個人寫道(“我在那裡賣這個或那個”),要么去某個地方。

    是的!他們通常這樣評論:「回答我或給我發短信,撥打我的電話號碼。這種情況經常發生在那些賣東西、在社交網絡上買東西、與某人交流的人身上……因此,使用這個號碼,您可以將他在CIAN 上的個人資料鏈接到它,如果他曾經發表過某些東西,或者,再一次,在阿維托。這些只是最受歡迎的頂級來源,我們將進一步介紹 - 這些是 Avito、CIAN 等。

  • 這是指線上商店。接下來是臉部辨識和輪廓匹配技術(我們會談到它)。純粹理論上來說,這可以應用於線下商店。總的來說,我的大夢想是,當街頭橫幅出現時,當你走過攝影機時,它會「困住」你的臉。但這種情況將受到法律禁止,因為它侵犯了隱私。我希望它遲早會發生。
  • 從個人經驗來看。很多時候,當一個人寫信給你時,你會根據他生活中的一些你似乎不應該知道的事實來操作……大多數情況下,人們會感到害怕。但!根據最近的統計數據,社交網路上的關閉帳戶數量減少了 14%。假貨的數量正在增加,開放帳戶的數量正在增長——人們越來越走向開放。我認為,在三到四年內,他們將不再對某人知道他們可能不應該知道的資訊做出如此強烈的反應。但其實看他的牆就很容易得到。

可以從開源中取得什麼?

有一個可以從開源中以相當高的可靠性理解的事物的大致列表。事實上,還有更多不同的指標;這取決於此類研究的客戶。有一些人力資源機構對您是否在社交網路或公共場所的某個地方說髒話感興趣。有人關心你是否喜歡納瓦尼的出版物,或者相反,統一俄羅斯的出版物,或者某種色情內容 - 這種事情經常發生。

主要是家庭價值、公寓、房屋、買車的大致費用等。基於此,人們可以分為社會群體。這些是莫斯科 Tinder 用戶,他們是誰(根據他們在 Facebook 帳戶上找到的照片);根據他們的興趣,他們被分成不同的社會群體:

Arthur Khachuyan:“廣告中的真正大數據”

如果我們更接近廣告,那麼當您在 VKontakte 上選擇您對訂閱某些群組的 18 歲男性感興趣時,我們就慢慢遠離了標準的廣告定位。接下來我有這張照片,我現在給你看:

Arthur Khachuyan:“廣告中的真正大數據”

最重要的是,目前大多數分析社交網路的服務,原則上都是在分析興趣……人們首先想到的是分析其訂閱者的頂級群體。也許這對某些人有用,但我個人認為這是根本錯誤的。為什麼?

您的按讚數將被收集並分析

現在拿起你的手機,看看你的熱門群組——肯定有超過50%的群組你已經忘記了,這是一些實際上與你無關的內容。你根本不消費它,但係統仍然會根據它們來追蹤你:你訂閱了食譜,訂閱了一些受歡迎的團體。也就是說,您將違反分析您的個人資料的系統,並且您的利益將不合理。

繼續...那裡有什麼?我們假設其他人在做什麼。我們認為,評估用戶興趣最充分的方式是按讚。例如,VKontakte 上沒有按讚訊息,人們認為沒有人知道他們喜歡什麼。是的,有些讚是在Instagram 上引入的,我們在Facebook 上看到了一些東西,但某些群組中的大多數內容並沒有在公共源中廣播這些內容,人們生活並認為沒有人會知道他們喜歡什麼。

透過收集我們感興趣的某些內容,收集這些帖子,收集這些點贊,然後使用這個資料庫檢查這個人,我們可以高精度地確定他是誰,他的命運是什麼,他對什麼感興趣。把他準確地放在某個社會群體中並與他互動。

買車改變行為

我身邊就有這樣的例子。我會立即保留我的例子是接近廣告和接近行銷的,因為,你知道,大多數情況都受到保密協議等的保護。但還是會有很多有趣的事情。這些人的故事是這樣的:這些人在 2010 年至 2015 年間購買了汽車。他們的線上社交行為發生了怎樣的變化用顏色來表示。訂閱者中女孩的比例發生了變化,我訂閱了“男孩氣”的公共頁面,找到了永久的性伴侶...

Arthur Khachuyan:“廣告中的真正大數據”

整件事情是按汽車品牌和人數細分的。從這裡你可以得出許多關於人們的行為及其運作方式的有趣結論。可以說,就吸引的觀眾數量而言,保時捷卡宴和種植的 Priora 幾乎是一樣的。這些受眾的素質和行為有所不同,但數量大致相同。您可以從這裡得出的結論是您想要的任何東西,更接近您的市場。如果你賣一輛奧迪,你就會打出這樣的口號:“買一輛奧迪,遠離你的父母!”等等。

是的,這是一個有趣的例子,人們的行為是基於對喜歡的分析,基於他們轉移到哪個群體,他們分析的內容 - 幾乎 100% 的機率它清楚地表明你是誰。因為如果你無法存取網路流量並且不閱讀個人訊息,按讚總是會告訴你這個人是誰 - 孕婦、母親、軍人、警察。對你來說,作為一個可以做廣告的人,這是一個巨大的打擊。

回答觀眾提問:

  • 每列是這輛車上的人數;他們的行為模式發生了怎樣的變化。看:購買保時捷卡宴的人 - 大約 550 人(黃色),訂閱者中女孩的比例增加。
  • 樣本為 2010 年至 2015 年社群網路「Vkontakte」、「Facebook」、「Instagram」的使用者。唯一需要說明的是:這裡選擇的汽車是那些使用某些工具可以在照片中識別準確率超過 80% 的汽車。
  • 在一段時間內,他的車(好吧,那不是他的,我們把它留給社交網絡)......在一段時間內,一個人不斷地被拍到與汽車在一起,與它在一起,與出版物在一起不同,照片的角度不同,等等。然後就會出現一張照片,顯示哪些人正在與哪些汽車拍照……是的,這是第二個問題——對社交網路數據的信任。
  • 不幸的是,自從我們提出這個問題以來,社群媒體數據並不總是正確的。人們並不總是傾向於公開他們的資訊。我個人進行了這樣的研究:我將莫斯科大學的畢業生人數與社交網路上註冊的人數進行了比較。平均而言,社群網路上的註冊人數(莫斯科國立大學某年某些專業的畢業生)原則上比實際註冊人數多 60%。所以是的 - 這裡自然存在一定比例的錯誤,沒有人隱藏它。這裡我們只是簡單地以那些能夠被辨識的機率超過80%的汽車作為基礎。

模型訓練來源列表

以下是可以使用的來源範例列表,用於非常確定地確定一個人的社會形象,即他是誰。

Arthur Khachuyan:“廣告中的真正大數據”

我們從社交網絡、CIAN 獲取資料 - 一套公寓的成本約為“獵頭”、“超級工作” - 這是某個人的平均工資。我希望這裡沒有獵人頭代表,因為他們認為從他們那裡拿這些數據不太好。然而,這是某些地區某些空缺活動類型的平均薪資。

「Avito」、「Avto.ru」:很多時候,當人們的手機亮起時,他們肯定(在很多情況下)至少在「Avito」、「Avto.ru」或「Avto.ru」上有一些東西.在另外幾個網站上您可以了解他們是誰。如果透過此電話號碼出售嬰兒車或汽車...Rosstat 和統一國家法人實體登記冊仍然是更多登記冊,您可以藉助它們對僱傭公司進行排名 - 根據某種公式,根據一個模型,任何人都可以設定(你可以大致確定這個人的錢等等)。

Tinder 協助收集有關人們狀況的數據

另外,還有一件有趣的事(或者說,在研究中非常有趣)——這又是使用 Tinder 機器人從莫斯科 Tinder 收集數據。確定了與人們的距離,然後確定了他們的大概位置。

Arthur Khachuyan:“廣告中的真正大數據”

這項研究的目的是確定政府機構(杜馬、檢察官辦公室等)範圍內 Tinder 帳戶的數量。但是,作為廣告商,您可以想像任何您想要的東西:例如,可以是星巴克或其他人……也就是說,在 Tinder 上喝您的咖啡、點東西、在商店裡的人數關於此地理定位:這可以透過任何服務來完成。

回答觀眾提問:

  • 火種?你不知道? Tinder 是一款約會應用程序,您可以在其中查看照片(左右),並且該應用程式會向您顯示與該人的距離。如果您從三個不同的點獲取到此人的距離,您可以大約(+ 5-7 公尺)確定位置。在這種情況下,在檢察官辦公室或國家杜馬的領土上做出決定並不那麼困難。但同樣,它可以是你的商店,也可以是任何東西。

例如,很久很久以前,我們有這樣一個案例(不是研究),當時我們從一個蜂窩運營商那裡收到了有關交通密度的數據,有關蜂窩點移動密度的數據,並且所有這些信息都是疊加的在高速公路上廣告看板的座標上。蜂窩運營商的任務是確定大約有多少人路過並可能看到該廣告牌廣告。

如果這裡有廣告看板廣告專家,你可以說:不可能以超級可靠的方式理解——有人來了,有人沒看,有人看了……不過,這是一個例子,說明瞭如何有 20 億個多邊形這些在莫斯科,上面是某些路線上每小時這些人的密度……你可以隨時看到這些人經過什麼,並粗略估計客流。

回答觀眾提問:

  • 沒有人提供這樣的數據。我們對其中一位運營商進行了這樣的研究;這完全是內部故事,因此不幸的是,它沒有以圖片的形式呈現。但大型廣告公司通常可以毫無問題地聯繫業者。至少在莫斯科,有許多先例,例如,保險公司求助於 GetTaxi 這樣的公司,這些公司提供有關司機年齡、駕駛方式(好 - 壞、魯莽 - 否)的非個人數據,以便進行預測政策等。每個人都在努力解決這個問題,但在某種程度上,提供匿名數據——我認為沒有人有這樣的問題。

影像和模式識別

前進。我最喜歡的是圖像辨識。會有一小段是關於透過臉孔找人的,但我們基本上不做這一部分。我們專門進行影像辨識並確定影像中的內容 - 汽車的品牌、顏色等。

Arthur Khachuyan:“廣告中的真正大數據”

我有一個有趣的例子:

Arthur Khachuyan:“廣告中的真正大數據”

有這樣一項關於在各種社交網路上搜尋紋身的研究。因此,這同樣可以應用於任何品牌、任何視覺圖像、幾乎任何視覺圖像。有些無法可靠地確定(我們不採取它們)。

Arthur Khachuyan:“廣告中的真正大數據”

這是我最喜歡的。汽車品牌經常求助於這項任務,因為他們的任務是找到某些 BMW X6 的所有車主,了解他們是誰、他們如何相互聯繫、他們對什麼感興趣等等。這涉及到人們在社交網路上用什麼車拍照的問題。

Arthur Khachuyan:“廣告中的真正大數據”

這裡根本沒有任何過濾:物品是他們的,汽車不是他們的;東西是他們的,車不是他們的。這只是汽車的故障——車齡等等。但視覺圖像辨識的使用相當頻繁:例如搜尋孕婦,以及在某種大眾媒體中搜尋品牌標誌(誰發布了什麼內容)。

Arthur Khachuyan:“廣告中的真正大數據”

我最喜歡的案例(各種餐廳都使用):社交網路上發布了什麼樣的麵包捲。這是一件有趣的事情,但實際上它可以讓你了解很多有趣的事情,首先,關於你自己的客戶:誰來找你以及他們為什麼這麼做。因為眾所周知,在壽司店裡,大多數人(我不會說「女孩」)都會拍照,以便簽到、拍一些東西等等。

該品牌可以利用這一點。該品牌感興趣的是它需要什麼樣的產品來精美地拍攝和發布,以及什麼樣的人來到那裡。這件事幾乎可以用任何東西來完成,從食物開始。

視訊模式識別

回答觀眾提問:

  • 不是在影片上。我們將其置於測試模式。我們嘗試了這項技術,但事實證明......它可以很好地識別影片中的所有內容,但我們還沒有在任何地方找到它的應用程式。再見。除了分析有多少視頻部落客在某個地方談論的內容之外……還有這樣一項研究。他們有多少張臉相遇,多久見面一次。但品牌尚未弄清楚從哪裡提出這一點。也許有一天它會到來。

再說一遍,這是食物,可以是孕婦、男人(未懷孕)、汽車──任何東西。

作為一種選擇,有一家媒體進行了新年研究。離廣告也很遠,但仍然如此。這是人們在新年禁食的食物:

Arthur Khachuyan:“廣告中的真正大數據”

這裡也是按年齡細分的。你可以看到這樣一個相關性:年輕人大多點餐,成年人大多做傳統餐桌。這是一件有趣的事情,但想像一下作為品牌所有者,您可以評估很多事情:誰處理您的產品以及如何處理,他們對此有何評論。通常,人們並不總是在文本中提及品牌本身,而傳統的分析監控系統並不總是因為文本中未提及而理解和找到品牌的提及。或文字拼字錯誤,沒有哈希標籤或任何內容。

照片可見。在攝影中,您可以判斷它是否是畫面的中心主體。然後你就可以看到這個人寫了什麼。但最常見的是,它被用來搜尋駕駛過某些汽車等的潛在受眾。然後我們會用這些車做很多有趣的事。

機器人被教導模仿人類

還有這樣一個使用人數統計的選項:

Arthur Khachuyan:“廣告中的真正大數據”

當您需要使用一些照片找到人、了解他們的社交資料、他們是誰時,可以選擇比較人。再次,我們回到這個問題,如果我們在線下商店有一個攝像頭,那麼這是一個相當好的方法來了解誰來找你,這些人是誰,他們對什麼感興趣,是什麼促使他們來找你。

接下來是最有趣的事情:如果我們在社交網路上收集他們的帳戶,了解這些人是誰,他們對什麼感興趣,我們可以(作為一種選擇)製作一個與這些人類似的機器人;這個機器人將開始像這些人一樣生活,並分析它在各種社交網路上看到的廣告。這將使您能夠準確了解哪些品牌針對此人。當您不僅需要分析這個人是誰以及他有什麼興趣,而且還需要分析您的潛在競爭對手或其他有興趣的人應該針對什麼樣的廣告時,這也是一個相當常見的故事。

Arthur Khachuyan:“廣告中的真正大數據”

社交網路中的連結分析

Arthur Khachuyan:“廣告中的真正大數據”

接下來有趣的是人與人之間關係的分析。實際上,對網路中連結的分析,這些網路圖——沒有一點,沒有什麼新意,每個人都知道這一點。

Arthur Khachuyan:“廣告中的真正大數據”

但在廣告任務中的應用是最有趣的。這是對設定趨勢的人的搜索,這是對在該網絡內根據特定標準傳播信息的人的搜索。假設我們對某款 BMW 車型的同一車主感興趣。把他們聚集在一起,我們就能找到控制輿論的人。這些不一定是汽車部落客等等。通常這些都是簡單的同志,他們坐在各個公共頁面上,對某些內容感興趣,並且可以在很短的時間內吸引您的品牌或您感興趣的人進入您的這個職責領域,進入您的領域興趣。

這裡有這樣一個例子。我們有一些潛在的人,人與人之間的連結。這裡橘色的是人,小點是共同的群體、共同的朋友。

Arthur Khachuyan:“廣告中的真正大數據”

如果你收集他們之間的所有這些聯繫,你可以非常清楚地看到,有些人有大量共同的群體、共同的朋友,他們就在那裡……如果這個相同的視覺化按興趣分為不同的群體,透過內容,他們分發的內容,他們彼此互動的程度......在這裡你可以看到上一張圖片變成了這樣:

Arthur Khachuyan:“廣告中的真正大數據”

這裡,各組透過顏色清楚地區分。在這個例子中,他們是我們高等經濟學院的碩士生。在這裡你可以看到紫色/藍色的是那些喜歡透明國際、開放俄羅斯和霍多爾科夫斯基公共頁面的人。左下角是綠色的,那些熱愛統一俄羅斯的人。

你可以看到上一張圖是這樣的(這些只是人與人之間的連結),但已經變得界線分明了。也就是說,所有人總是互相連結的,他們有共同的興趣,他們是彼此的朋友。有的在上面,有的在下面,還有其他的同志。而如果將這些小圖分別與其他參數一起可視化,再看內容傳播的速度(粗略地說,誰轉發了那裡的內容),你可以在每個部分中找到一兩個始終掌握輿論的人,與之互動,要求發送某種帖子或其他內容- 您可以從所有有趣的受眾那裡得到回應。

我還有另一個這樣的例子。還有一張圖表:這些是在社交網路上找到的 BBDO 集團員工作為範例。它看起來無趣,大,綠色,它們之間的聯繫...

Arthur Khachuyan:“廣告中的真正大數據”

但我可以選擇在他們之間建立群組。然後,如果有人有興趣,有一個互動式版本 - 您可以點擊查看。

右上角是那些喜歡普丁的人。這裡紫色的是設計師;那些對設計、有趣的事物等感興趣的人。這裡白色的東西是管理團隊(顯然,據我所知);一般來說,這些人沒有任何联系,但在大致相同的職位上工作。剩下的就是他們共同的群體、連結等等。

品牌需要的不是博主,而是意見領袖

我們找到這些人,然後廣告公司、廣告公司自己決定:它可以給這個人錢,以便他以某種方式與這些內容、其他東西互動,或向他們指導他自己的特定廣告活動。這也經常使用,尤其是現在,因為所有品牌都希望與部落客合作,他們希望推廣自己的內容,但廣告公司並不真正想聯繫(好吧,這種情況發生了)。

擺脫這種情況的真正出路是找到不是部落客、不是美容部落客的人,而是例如一些與該品牌互動的真實存在,他們可以在一些可憐的公共頁面「Mail.ru Answers」中寫下,得到一定數量的瀏覽量。這些人對這個人的內容持續感興趣,會傳播整個事情,品牌也會參與其中。

現在使用此類技術的第二個選項非常相關 - 搜尋機器人,我最喜歡的。這對你的競爭對手來說是一個聲譽風險,也是一個從廣告活動中剔除不相關人員的機會,以及其他任何事情(刪除評論和搜尋人與人之間的聯繫)。我有一個這樣的例子,它也很大並且具有互動性 - 你可以移動它。這些是在 Lentach 社區發表評論的人的聯繫。

這個例子是為了讓您了解機器人的可見性如何;為此,您不需要具備任何技術知識。這意味著《Lentach》發表了一篇關於FBK對德米特里·梅德韋傑夫調查的帖子,有些人開始發表評論。我們收集了所有發表評論的人——這些人都是綠色的。現在我將移動它:

Arthur Khachuyan:“廣告中的真正大數據”

人們是綠色的人(寫評論的人)。他們在這裡,他們在這裡。他們之間的藍點是他們共同的群組,黃點是他們共同的訂閱者、朋友等。大多數人都是相互連結的。因為,無論三、四、五次握手的理論是什麼,所有人都在社群網路上相互連結。沒有人彼此分離。即使是我那些專門使用 VKontakte 觀看影片的社交恐懼症朋友,仍然訂閱了一些與我們相同的公開頁面。

納瓦尼也使用機器人。每個人都有機器人

大多數人(就在這裡,在這裡)彼此相連。但有這麼一小群同志,彼此之間是個排他性的朋友。他們在這裡,綠色的小傢伙,這裡是他們共同的朋友和團體。他們甚至在這裡單獨掉落:

Arthur Khachuyan:“廣告中的真正大數據”

巧合的是,正是這些人在這篇文章下寫道:「納瓦尼沒有證據」等等,寫下了同樣的評論。當然,我不敢下結論。但儘管如此,我在Facebook上又發了一篇帖子,當列別傑夫和納瓦尼之間發生辯論時,我以同樣的方式分析了評論:結果發現,所有寫“列別傑夫是狗屎」的人,他們都沒有上過社交媒體。最近四個月,沒有訂閱任何公共頁面,突然轉到這個特定的帖子,寫下這個確切的評論並離開。再說一次,不可能從這裡得出結論,但納瓦尼團隊的某人給我寫了一條評論,說他們不使用機器人。哦,那好吧!

離廣告更近,離品牌更近。現在每個人都有機器人了!我們有,我們的競爭對手有,其他人也有。他們必須被趕出去,或留下來過好日子;根據這些數據(指向上一張投影片),使它們變得完美,使它們看起來像真人,然後才使用它們。雖然使用機器人很糟糕!然而,一個相當常見的故事...

在自動模式下,這樣的事情可以讓你從分析中過濾掉那些與分析無關的人,那些不應該包含在樣本中的人,不應該包含在這項研究中。非常經常使用。話又說回來,並非所有車主都真正擁有汽車。有時,人們只對那些可能擁有汽車、坐在某些群體中、與某人交流的人感興趣,他們在那裡有一定的受眾。

事實和觀點分析

下一款也是我最喜歡的。這是對事實和觀點的分析。

Arthur Khachuyan:“廣告中的真正大數據”

如今每個人都知道如何在各種來源中提及他們的品牌。這並沒有什麼秘密。每個人似乎都能夠計算音調......雖然就我個人而言,我認為音調度量本身並不是很有趣,因為當你來告訴客戶,“夥計,你有37% 的中性”,他是這樣說的, 「 哇!涼爽的!”因此,更進一步:從評估情緒到評估他們對你的產品的看法。

這也是一件非常有趣的事情,因為……我個人認為原則上不可能有中立的消息,因為如果一個人在公共空間寫了一些東西,那麼這個消息就會以某種方式帶有色彩。我個人從未見過提及某個品牌的中立訊息。通常是某種污垢。

如果我們獲取大量這些資訊(可能有數百萬、10萬條),突出顯示每個資訊的主要思想,將它們結合起來,我們就可以非常可靠地理解人們對這個品牌的評價和想法。 “我不喜歡這個包裝”,“我不喜歡它的一致性”等等。

人們如何看待 Transaero、Chupa Chups 和美國總統?

我有一個有趣的例子:這是一個關於社交網路用戶在 Transaero 公司破產後會做什麼的資訊圖表。

Arthur Khachuyan:“廣告中的真正大數據”

裡面有很多有趣的例子:燒死、殺戮、驅逐到歐洲,甚至有2%的人寫道——“把他們送到敘利亞進行軍事行動。”從有趣的事情開始,它幾乎可以是任何品牌——從我最喜歡的狗糧到一些汽車。無論誰不喜歡包裝,無論誰不喜歡真實的東西——你總是可以使用它,你可以隨時考慮到這一點。有大量的例子表明,人們幾乎改變了產品的生產方式,因為他們在社交網路上寫道,珍寶珠不夠圓或不夠甜。

還有一個有趣的例子。猜猜有什麼評論以及關於誰的?

Arthur Khachuyan:“廣告中的真正大數據”

由於某種原因,現在對觀點的分析,對從消息中提取的事實的分析,並不是很常用,也不是很廣泛。雖然這項技術並不是超級秘密,但實際上根本沒有任何訣竅,因為從人們的評論中提取主詞、謂語並將它們分組並不需要計算語言學方面的天才。這並不難做到。但我希望在接下來的幾年裡人們將開始使用它,因為......這會很酷 - 這是這樣的自動反饋!你總是知道他們在說什麼關於你的事情。嗯,你知道這是關於美國總統的。

回答觀眾提問:

  • 是的,這是英文的 Facebook。它們在這裡被翻譯成俄語。這是在某處寫的。

大數據和政治技術

事實上,我有很多關於川普和其他人的不同有趣的政治例子,但我們決定不把它們帶到這裡。但有一個政治例子。

這些是國家杜馬的選舉。你什麼時候的事?去年?差不多一年半前了。

Arthur Khachuyan:“廣告中的真正大數據”

這些人能夠確定他們的確切位置,精確到某個地理位置,以便了解他們屬於哪個選區。然後,只有那些表達了明確意見的人才會被選出來,他們會投票給他們。

從政治技術的角度來看,這不是很正確,因為這整件事情需要透過人口密度等來標準化。儘管如此,這裡的藍軍將投票給你知道的人,紅軍將投票給反對派同志,順便說一句,反對派同志的數量並不多。

我個人認為大數據不會很快觸及政治技術,但作為一種選擇,候選人也是一個品牌。從某種程度上來說,這也是對你的品牌的事實和觀點的分析,也是一件相當有趣的事情,因為你可以即時了解誰在那裡做什麼。我知道 BBC 的幾個案例,他們在一些廣播中實時監控社交網絡:反應是這樣那樣的,人們寫下它,問這樣那樣的問題 - 這太棒了!我認為它很快就會被使用,因為它對每個人來說都很有趣。

塑造品牌定位

Arthur Khachuyan:“廣告中的真正大數據”

接下來我對品牌定位進行建模。這是一篇關於如何使用各種指標對品牌進行排名的小而簡短的文章(不是社交網路上訂閱者的喜好,而是使用複雜的指標、對內容的興趣、接收指標所花費的時間)。

Arthur Khachuyan:“廣告中的真正大數據”

出於某種原因,我有一個「Pharma」的例子。這裡的小圓圈是內部的、明亮的——這是品牌本身創建的文字內容的數量,大圓圈是品牌本身創建的照片和影片內容的數量。

靠近中心表明內容對觀眾來說有多有趣。有一個大模型,有一堆各種各樣的參數:喜歡、轉發、響應時間、平均誰在那裡分享……在這裡你可以看到:有一個很棒的“Kagotsel”,它泵送了大量的他們投入資金來創建自己的內容,因此他們非常接近中心。還有戰友自己也創作內容,但觀眾不感興趣。這不是一個非常充分的例子,因為所有這些帳戶實際上都已失效。

葉戈爾·克里德 (Yegor Creed) 比巴斯塔 (Basta) 更受喜愛

Arthur Khachuyan:“廣告中的真正大數據”

不幸的是,剩下的......從展示什麼......好吧,還有俄羅斯說唱歌手,作為一個選擇,來自真正的公司。

有什麼好處?事實上,公司幾乎可以將任何東西放入這樣的模型中,從為你的品牌工作的訂戶的平均薪資開始;他們喜歡的任何型號。由於每個廣告公司計算自己的指標的方式不同,因此品牌計算自己的指標的方式也不同。

這裡還有一個——Basta,它產生了大量的內容,但位於外圍,因為這些內容顯然對觀眾來說不是很有趣。再說一次,我不想妄加評判。但儘管如此,葉戈爾·克里德(Yegor Creed)據社交網絡稱,他幾乎是我們這個時代最好的表演者,但只發布了他的個人照片。儘管如此,他還是擁有大量訂閱者:大約有一百萬。我不記得確切的數字了;我記得這些人的參與度遠高於85%,也就是說,每百萬訂閱者他會收到850萬個來自這些真實人物的回覆——這真是瘋狂。這是真實的。

Arthur Khachuyan:“廣告中的真正大數據”

回答觀眾提問:

創建說唱歌手分析模型花了多長時間?

  • 每個人都有自己的目標受眾,這些人的興趣是為每個人計算的...這一切都歸一化為大約到中心的距離,他們的徑向位置並不重要(這裡只是為了美觀而塗抹,這樣他們就可以了)不會碰到對方)。只有大約接近中心的距離才是重要的。這是我們使用的模型。例如我比較喜歡圓形,有的人就記成半圓形。
  • 這個模型很快就編譯完成了,兩三個小時(是的,一個人)。這裡只插入了度量:我們乘以什麼,將其相加,然後以某種方式將其標準化。取決於型號。有些人對訂閱者的平均薪資(這不是玩笑)感興趣。為此,你需要找到他們的聯絡人,阿維托,計算一切,乘以它。碰巧這要花很長時間來考慮,但具體來說這個(指向上一張投影片)——這裡的參數非常簡單:訂閱者、轉發等等。大約花了兩三個小時才完成。相應的,這個東西然後是即時更新的,你就可以用了。

有趣的來了。我已經講完了例子,因為單獨講很久沒有意思。我希望你們現在提出問題,事實上,我們會從一個主題轉移到另一個主題,因為我有這樣的例子來說明如何使用技術等等...

回答觀眾提問:

  • 我有一個也是唯一的個人案例,可以這麼說,“靠近賭場”,當相機放置在那裡時,面孔被識別,等等。被認可的人的比例絕對是相當大的——無論是我們的還是我們的競爭對手。但它實際上很有趣。我認為這是一件有趣的事情:你可以了解這些人是誰,並且很好地預測他們到底為什麼來到這裡,他們的生活發生了多大的變化,以至於他們決定來到賭場。但至於特定類型的業務……如果你把這樣的東西放在藥房裡,那就沒有意義了——你無法預測一個人為什麼會來到藥房。

    這裡的全局任務是建立一個模型,以便了解一個人何時可能對你的品牌感興趣,這樣你就可以給他廣告,而不是在他買了東西之後(就像現在發生​​的那樣),而是給他廣告「預測」這一切何時會發生。這樣一個「近賭場」很有趣;事實證明,這些人中有相當有趣的比例 - 為什麼:有人突然升職,其他人得到了其他東西 - 如此有趣的見解。但對於一些商店,零售店,某種藥店,在我看來,這不是很正確。

大數據離線使用嗎?

  • 當時處於離線狀態。你只需要準確、粗略地了解這個模型是否適合。再說一次,對於蘇打水……我實際上對一切都感興趣,但我個人不明白這些人的個人資料、他們的行為有多少、如何取決於他們何時想要購買瓶裝水。雖然這可能是真的,但我不知道。

有多少個開放的社群媒體帳號?

  • 我們具體有 11 個社交網絡 - 這些是“Vkontakte”、“Facebook”、“Twitter”、“Odnoklassniki”、“Instagram”和一些小東西(我可以查看列表,例如“Mail.ru”等) 。在 VKontakte 上,我們肯定有所有這些同志的副本。我們在 VKontakte 上有用戶——這相當於曾經存在過的所有人中的 430 億(其中約 200 億是持續活躍的);有群體,這些人之間有聯繫,有我們感興趣的內容(文本),還有一部分媒體,但很小......粗略地說,我們看這張圖:如果那裡有面孔,我們保存它們,如果有模因,我們保存它們我們不保存它,因為即使我們也沒有足夠的時間來保存媒體內容。

    有一個俄語 Facebook。現在 60-80% 是 Odnoklassniki,幾個月後我們可能會把它們全部完成。俄羅斯Instagram。所有這些社交網路都有群組、人員、他們之間的聯繫和文字。

  • 約400億人。有一個微妙之處:有些人的城市未指定(他們可能是俄羅斯人/非俄羅斯人);其中,社群網路平均關閉 VKontakte 帳號的比例為 14%,我不知道 Facebook 上的確切數字。
  • 我們也不在 Instagram 上保存媒體內容——除非那裡有面孔。我們不儲存此類(其他)媒體內容。通常很有趣:只有文字,人與人之間的連結;全部。 Instagram 上最常見的研究是對受眾的常見研究:這些人是誰,以及最重要的是這些人與其他社群網路的連結。在 Vkontakte 和 Facebook 上找到此人的個人資料,以計算他的年齡等。
  • 目前還沒有必要與其他所有人競爭——僅僅因為還沒有客戶。關於語言:我們有俄語、英語、西班牙語,但這仍然是俄羅斯品牌專用;好吧,或者是從俄羅斯帶來它們的公司。
  • 我們每天都會在很多很多很多線程中採訪人們:我們透過收集網路來收集數據,並使用 Api 更新這些指標。 2-3天你就可以看完整個“VKontakte”,看完它們;大約一週的時間,您就可以瀏覽整個 Facebook,了解誰更新了哪些內容,哪些沒有更新。然後把這些人分別重新組合起來:到底發生了什麼變化,把整個故事寫下來。根據我的經驗,很少有人將舊的社交媒體資料用於任何真正的商業目的。這是一個政治人物申請的時候,他的任務是了解總部來的是什麼樣的人,這些人在6-8個月前是誰(他們是否刪除了他們的個人資料,但實際上對於另一位候選人,選票已經到了)破壞)。

    還有幾次 - 當某人的照片在公共領域發佈時的個人故事。需要尋找聯繫等等。不幸的是,很遺憾,我們無法在法庭上作證,因為我們的資料庫在法律上缺乏流動性。

  • MongoDB 儲存是我最喜歡的。

社群網路正試圖對抗資料收集

  • 通常我們只上傳這些帳戶的清單給廣告商,然後他們使用標準的......也就是說,在社交網路上,在VKontakte上,你可以指定這些人的清單。

    但 Facebook 使用購買的 cookie。我們自己不使用 cookie,但有幾個故事,當廣告商自己給一些人時,我們與他們互動 - 他們有這些網絡,有預告片、非預告片廣告,這些「cookie」。你可以繫它——毫無疑問!但我不太喜歡這些東西,因為我認為它不太真實。這純粹是我的觀點,就像TNS一樣,它「跟踪」電視——不清楚你是否在看這台電視,是否在電視開著的時候洗碗……這裡也是一樣:我經常在網上搜索一些東西,但這並不意味著我想買它。

  • 如果您使用某種標準的上下文廣告網路:當我們將這些人卸載給他們並嘗試使用他們的介面將他們與網站上的「cookie」連接起來時,我有幾個故事。但我真的不喜歡這樣的事情。

網路使用者薪資計算公式

  • 平均薪資的一般公式:這是一個人居住的地區,這是他工作的行業類別(即他雇主的公司),然後取他在這家公司的職位,平均工資該職位的薪資是估計的.. .針對給定地區和給定業務環境的給定職位空缺,從“獵頭”和“超級工作”(以及其他幾個來源)中獲取的平均薪資。

    如果有人照亮了手機,通常會從「Avito」和「Avto.ru」取得附加參數。透過 Avito,您可以看到一個人正在銷售什麼樣的東西 - 昂貴的、便宜的、二手的、未使用的。透過“Avto.ru”,您可以查看他是否擁有汽車 - 他擁有它,他不擁有它。不到 20% 的人不小心將手機掉落在某個地方,他們的帳戶可以與此數據關聯。

資料收集公司的業務量是多少?

  • 儲存照片的容量(以 PB 為單位)為 6,4。我現在不能說具體的成長率,因為2016年我們開始錄製“潛望鏡”,剛開始錄製影片。

    我無法準確地說出它何時為零。我們從一家公司換到另一家公司——這些都是很長的故事。但我可以說,VK、Facebook、Instagram 和 Twitter——所有這些帶有文字和內容的業務(人、團體和他們之間的聯繫)——實際上並不是很多數據,甚至 PB 都不夠。我認為是 700 GB,可能是 800 GB。

您是否幫助客戶確定當前的利基市場以及挖掘方向?

  • 當客戶來的時候,我們會向他建議這樣的事情,但我們自己,例如Google趨勢,不會做這樣的事情。
  • 我們有幾個近乎社會學的故事,包括選舉、選舉前的歷史——我們對這一切進行了分析。對於品牌以及對品牌的評估意見,一切幾乎總是一致的。以下是選舉故事 - 不(評估哪位候選人應該獲勝)。我不知道誰錯了——我們,還是那些用 VTsIOM 思考的人。
  • 通常我們從品牌本身獲取這些控制結果,他們從訂購研究的同志那裡獲取——電話研究、行銷研究等等。另外,這整個事情可以通過基本的事情來檢查:有人回復了郵件列表,有人做了調查......如果它是一個大品牌(例如可口可樂),他們肯定有一百萬或兩個來自客戶的內部評論– 這些不僅僅是社交網路上的評論和一些觀點;這些是某種內部系統、評論等等。

法律不「知道」什麼是個人資料!

  • 我們只分析開放資料來源,從不參與任何骯髒的伎倆。我們的模型建立在這樣一個事實之上:我們將所有開放資料儲存在一些公共資料中心,在其他地方租用,並在家中、我們的辦公室、我們的伺服器中對其進行分析,並且它不會傳播到境外的任何地方。

    但我們在開放資料領域的立法卻非常模糊。

    我們對什麼是開放資料、什麼是個人資料沒有清楚的了解——有第 152 條聯邦法,但仍然......它們如何計算?現在,如果我在一個資料庫中有你的姓名和電話號碼,在另一個資料庫中我有你的電話號碼和你的電子郵件,在第三個資料庫中我有你的電子郵件和你的汽車;所有這些似乎都是非個人資料。如果把所有這些放在一起,似乎根據法律它將成為個人資料。

    我們透過兩種方式解決這個問題。首先是為客戶端安裝一個有軟體的伺服器,然後這個資料不超出他的領地,然後客戶端負責這個個人資料、非個人資料等等的分發。或者第二個選擇:如果這是某種你必須起訴社群網路或其他東西的故事...

    當我們為生活新聞收集(有統一俄羅斯黨初選)這些同志的帳戶並查看他們喜歡哪種色情內容時,我們進行了這樣的研究。這是一件有趣的事情,但仍然如此。我們將其作為我們自己的個人觀點出售,而沒有在文件中合法披露我們分析的內容 - 法人實體統一國家登記冊、工資、社交網絡;我們出售專家意見,然後在場外向人們解釋我們分析的內容以及分析方法。
    有幾個故事,但都與一些公共商業項目有關。例如,我們為那些騎長板(這種板很長)的人提供了一個免費的非營利項目:任務是收集人們的出版物 - 當有人發布“我去高爾基公園兜風”時。現在他應該出現在地圖上,周圍的人可以看到有人在他附近。 VK 在這個主題上與我們發生了很長時間的衝突,因為他們不喜歡我們在未經人們許可的情況下發布這些資訊。但後來此事並沒有鬧上法庭,因為在幾個大社區內,我們添加了規則,規定數據可以由第三方、機構、公司、分析等使用。當然,這不是特別道德,但仍然如此。

  • 我們及時意識到了這一點,並開始向所有人推銷我們的專家意見。

您與教育機構合作嗎?

  • 我們與教育機構合作,是的。我們的範圍很廣:我們在高等學校設有碩士課程,並且我們與其他大學合作。我們非常熱愛大學!
  • 如果你有我的聯絡方式,可以寫信給我。還有演示文稿的鏈接,如果有人感興趣 - 所有這些示例都在那裡,您可以移動它。
  • 如果你知道電話號碼、郵件——這幾乎是百分之百的選擇,沒有人會刪除它。如果沒有電話號碼,通常是照片;如果沒有照片,則是年份、居住地、工作。也就是說,透過年份、居住地點和工作地點,幾乎每個人都可以被相當微妙地識別出來。但這又是一個關於任務的問題。

    比如說,我們有一個銷售網路電視的客戶。有人從他們那裡購買了這些《權力的遊戲》的訂閱,任務就是利用他們的CRM在社群網路上找到這些人,然後從他們的影響範圍內找到潛在的人。我只是說,他們有名字、姓氏和電子郵件……然後就很難做任何事情了。在大多數情況下,可以透過電子郵件找到人員。

  • 根據朋友的組成,我們通常會在社交網路上「匹配」人,但這並不總是正確的。這並不是說它並不總是正確的——它並不總是有效。首先,這需要大量的勞動力,因為必須先對每個朋友執行此操作(匹配人員)——了解他們是否來自社交網路。然後 - 任何人都不知道的事實是,在 VKontakte 上我們有相同的朋友,在 Facebook 上我們有不同的朋友。不適合所有人,但對我來說,就是這樣;對大多數人來說也是如此。

最完整的數據是如何收集的?

  • 為他這邊的客戶安裝軟體。他們身上安裝了伺服器,該伺服器僅獲取我們的公共數據,並在內部處理他們的個人資料。與客戶簽訂保密協議。當然,他們將其轉移給我們並不是很正確,但法律責任在於客戶 - 嗯,即為他安裝軟體,或轉移匿名資料。但這種情況非常罕見,因為無論正確或錯誤的匿名化,在大多數情況下,這些人之間的依賴都會消失。

誰購買臉部辨識軟體?

  • 我們實際上來這裡是因為我們銷售的主要軟體是人臉搜尋、相關性分析,我們把它賣給政府機構。一年半前,我們決定將所有這些故事投入廣告、行銷、公共市場——這就是商業法人實體社交資料中心的形成方式。現在我們剛剛來到這裡。我們已經在這裡閒逛了一年半了,試圖向人們解釋,沒有必要向人們提供帶有提及的下載,他們需要得到問題的答案,沒有必要語氣, 等等。所以很難說在哪裡...
  • (你指誰?)致所有需要尋找恐怖份子和戀童癖的同志。
    我可以馬上說(這將是下一個問題):根據我們的數據,沒有老師因轉發而入獄。
  • 在 VKontakte 上 - 14%;在 Facebook 上沒有封閉的個人資料(有封閉的朋友列表,等等)。最有趣的是,我剛剛寫了一條訊息 - 現在他們會數數並說。

不要發布會讓您感到羞恥的內容!

  • 不要在社群網路上發布任何會讓你感到羞恥的內容——我個人遵循這一點。雖然我有很多私人的,因為我在Facebook上發誓。好吧,有事情要做…不要發布任何令人尷尬的內容!如果您稍後要在公共會議廳的某個地方工作,是的,最好不要發表評論。如果你不打算這樣做,總的來說,沒有人在乎。我只能向你保證,沒有人會讀你的私人信件,而這一切都在構建整個故事......

    每週肯定有人來找我說:「好吧,我朋友的照片被洩露到了某個匿名公共頁面!幫助!順便說一句,永遠不要向匿名公共頁面發布任何內容。

  • 我不知道其他監控系統 - 我們肯定會考慮到這一點,提及該品牌是負面的,上帝原諒我......但我可以說,各種近乎國家的同志只對人感興趣他們擁有超過五千名觀眾,他們的輿論可以影響某人,然後影響。根據我的經驗,向我們訂購個人資料評估的人力資源機構從來沒有說過:“誰喜歡納瓦尼,就不要雇用任何人!”

關於公佈結果。有多少人從事研究工作?

  • 在排名前 10 的廣告公司中,有 XNUMX 家正在出版業務。很難說:當我們一年半前開始做這件事的時候…我們每個領域都有幾個人——銀行有幾個人,人力資源有幾個人,廣告有幾個人。現在我們正在考慮先去找誰更有利可圖,我們需要開始為誰做一些介面...
  • (關於每個細分市場的人數)不超過25人,因為我們沒有強姦任何人。
  • 總的來說,原則上,這些來自市場的技術我認為使用率超過50%。有些是在廣告活動中,有些是在某種內部分析中。我想說 40% 的人將其用於內部分析,50-60% 的人將其出售給終端品牌。但這已經取決於廣告公司本身了。你看,有些人報道只是為了花錢,他們投入的廣告,而另一些人則寫他們帶來了多少人,什麼樣的觀眾......我會這麼說,但我可能是錯的- 我真的不知道想像一下所有這些同志是如何運作的。我只知道定量數據。

一些廣告🙂

感謝您與我們在一起。 你喜歡我們的文章嗎? 想看更多有趣的內容? 通過下訂單或推薦給朋友來支持我們, 面向開發人員的雲 VPS,4.99 美元起, 我們為您發明的入門級服務器的獨特模擬: VPS (KVM) E5-2697 v3(6 核)10​​4GB DDR480 1GB SSD 19Gbps XNUMX 美元或如何共享服務器的全部真相? (適用於 RAID1 和 RAID10,最多 24 個內核和最多 40GB DDR4)。

Dell R730xd 在阿姆斯特丹的 Equinix Tier IV 數據中心便宜 2 倍? 只有這裡 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 電視低至 199 美元 在荷蘭! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - 99 美元起! 閱讀 如何建設基礎設施公司同級使用價值730歐元的Dell R5xd E2650-4 v9000服務器一分錢?

來源: www.habr.com

添加評論