Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Pada 14 Mac 2017, Arthur Khachuyan, Ketua Pegawai Eksekutif Hab Data Sosial, bercakap di kuliah BBDO. Arthur bercakap tentang pemantauan pintar, membina model tingkah laku, mengenali kandungan foto dan video, serta alatan dan penyelidikan Hab Data Sosial lain yang membolehkan anda menyasarkan khalayak menggunakan rangkaian sosial dan teknologi Data Besar.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Arthur Khachuyan (selepas ini – AH): - Hello! Hai semua! Nama saya Arthur Khachuyan, saya mengendalikan Hab Data Sosial syarikat, dan kami terlibat dalam pelbagai analisis intelektual yang menarik bagi sumber data terbuka, medan maklumat dan melakukan pelbagai penyelidikan menarik dan sebagainya.

Dan hari ini rakan sekerja dari Kumpulan BBDO meminta kami bercakap tentang teknologi moden untuk menganalisis data besar, data besar dan tidak begitu besar untuk pengiklanan: bagaimana ia digunakan, tunjukkan beberapa contoh menarik. Saya harap anda akan bertanya soalan sepanjang perjalanan, kerana saya boleh bosan dan tidak mendedahkan intipati dan sebagainya, jadi jangan malu.

Sebenarnya, arahan utama, di mana beberapa jenis penyelesaian "hampir-data besar" digunakan," semuanya jelas - ini ialah penyasaran khalayak, analisis, menjalankan beberapa jenis penyelidikan pemasaran analisis. Tetapi ia sentiasa menarik data tambahan yang boleh ditemui, apakah makna tambahan yang boleh ditemui selepas menggunakan analisis.

Mengapa kita memerlukan teknologi untuk pengiklanan?

Di mana kita bermula? Perkara yang paling jelas ialah pengiklanan di rangkaian sosial. Hari ini saya menanggalkannya pada waktu pagi: atas sebab tertentu VKontakte berpendapat saya harus melihat iklan khusus ini... Sama ada ia baik atau buruk ialah soalan kedua. Kami melihat bahawa saya pasti termasuk dalam kategori kerahan:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Perkara pertama dan paling menarik yang boleh diambil sebagai penyelesaian teknologi... Perkara pertama yang saya ingin putuskan sebelum kita mula adalah untuk menentukan istilah: apakah data terbuka dan apakah data besar? Kerana semua orang mempunyai pemahaman mereka sendiri tentang perkara ini, dan saya tidak mahu mengenakan syarat saya kepada sesiapa, tetapi... Hanya supaya tidak ada percanggahan.

Secara peribadi, saya fikir data terbuka adalah semua yang saya boleh capai tanpa sebarang log masuk atau kata laluan. Ini adalah profil terbuka di rangkaian sosial, ini hasil carian, ini adalah pendaftaran terbuka, dll. Data besar, dalam pemahaman saya sendiri, saya melihatnya seperti ini: jika ia adalah plat data, ia adalah satu bilion baris, jika ia adalah sejenis daripada storan fail, ia berada di suatu tempat petabyte data. Selebihnya dalam istilah saya bukanlah data besar, tetapi sesuatu seperti itu.

Pemprofilan berketepatan tinggi dan pemarkahan profil

Jom ikut tertib. Perkara pertama dan paling menarik yang boleh anda hasilkan daripada menganalisis sumber data terbuka ialah pemprofilan berketepatan tinggi dan pemarkahan profil. Apakah ini? Ini adalah kisah di mana akaun rangkaian sosial anda boleh meramalkan bukan sahaja siapa anda, bukan sahaja minat anda.

Tetapi sekarang, dengan menggabungkan pelbagai sumber, anda boleh memahami tahap purata gaji anda, berapa kos pangsapuri anda, dan di mana ia terletak. Dan semua data ini boleh digunakan secara literal daripada cara yang ada. Sebagai contoh, jika anda menggunakan akaun anda pada rangkaian sosial, lihat, katakan, di mana anda tinggal, di mana anda bekerja; fahami bahagian perniagaan yang mana syarikat anda bekerja; muat turun jawatan kosong yang serupa dari HH dan "Superjob" jika anda seorang penganalisis, pengurus, dll.; lihat di mana anda tinggal (asas, katakan CIAN), fahami berapa kos untuk menyewa rumah di tempat ini, berapa kos untuk membeli rumah di tempat ini, ramalkan anggaran pendapatan anda. Selanjutnya, menggunakan rangkaian sosial anda, anda boleh memahami sejauh mana perjalanan anda, di mana anda berada dan kesetiaan anda kepada majikan anda.

Sehubungan itu, daripada jumlah metrik yang begitu besar kita boleh melakukan apa sahaja yang kita mahu. Kami boleh memperkenalkan anda kepada produk yang menarik minat anda. Bolehkah anda bayangkan kedai dalam talian? Anda pergi ke sana - kedai dalam talian ini menangkap akaun anda di rangkaian sosial dan memberitahu anda: "Masha, anda baru sahaja berpisah dengan teman lelaki anda, berikut adalah beberapa produk tertentu untuk anda." Ini bukan masa terdekat...

Bagaimanakah geolokasi seseorang ditentukan?

Jawapan kepada soalan daripada penonton:

  • Biasanya, 80% daripada semua daftar masuk dianggap sebagai tempat kediaman yang tepat. Tetapi bagi orang yang tidak mendaftar masuk di mana-mana, terdapat beberapa pilihan: sama ada daftar masuk, atau geolokasi, atau ini ialah analisis siaran dan penerbitan untuk sepanjang tempoh masa seseorang menulis sesuatu... Dan di suatu tempat, sesuatu akan muncul seperti "Saya ingin membeli kereta dorong berhampiran Akademicheskaya" atau "Baru-baru ini saya melihat grafiti hodoh di dinding di sini." Iaitu, untuk hampir 80% orang, geolokasi mereka, tempat kerja dan tempat tinggal mereka boleh ditentukan menggunakan data atau metadata yang boleh dikumpulkan dari rangkaian sosial.

    Ini, sekali lagi, adalah analisis jawatan. Dalam erti kata yang paling mudah, ini ialah analisis daftar masuk dan geolokasi dalam rangkaian sosial, yang tidak memadamkan metadata jpeg (anda boleh memikirkan sesuatu daripadanya). Tetapi bagi orang yang selebihnya, ini biasanya siaran teks: sama ada seseorang "menyinari" lokasinya apabila dia menulis tentang sesuatu, atau dia "menyinari" telefonnya, yang mana anda boleh menemui beberapa pengiklanannya di Avito atau akaunnya di " Auto RU". Berdasarkan data ini, anda boleh menggabungkan (contohnya, "Saya menjual kereta berhampiran Mayakovskaya") dan secara kasar menganggapnya.

  • Orang biasanya menyiarkan ini di media sosial. Kami hanya bekerja dengan sumber terbuka dan di sini kami bercakap secara eksklusif mengenai sumber terbuka. Mereka biasanya menerbitkan iklan, iaitu, dalam enam puluh peratus kes, cerita yang paling biasa apabila orang "menunjukkan" nombor telefon bimbit semasa mereka ialah iklan untuk penjualan sesuatu. Sama ada dalam beberapa kumpulan seseorang menulis ("Saya menjual ini atau itu di sana"), atau pergi ke suatu tempat.

    Ya! Mereka biasanya mengulas seperti: β€œJawab saya atau hantar SMS kepada saya, hubungi nombor saya. Ini selalunya berlaku kepada orang yang menjual sesuatu, membeli sesuatu di rangkaian sosial, berkomunikasi dengan seseorang... Oleh itu, menggunakan nombor ini anda boleh memautkan profilnya pada CIAN kepadanya, jika dia pernah menerbitkan sesuatu, atau , sekali lagi, pada Avito. Ini hanyalah sumber teratas yang paling popular, ia akan diteruskan - ini ialah Avito, CIAN dan sebagainya.

  • Ini merujuk kepada kedai dalam talian. Seterusnya ialah teknologi pengecaman muka dan padanan profil (kita akan membincangkannya). Secara teorinya, ini boleh digunakan pada kedai luar talian. Dan secara umum, impian besar saya ialah apabila sepanduk jalanan muncul, apabila anda berjalan melepasi kamera, ia "merangkap" muka anda. Tetapi kes ini akan dilarang oleh undang-undang kerana ia adalah pelanggaran privasi. Saya harap ia akan berlaku cepat atau lambat.
  • Dari pengalaman peribadi. Selalunya, apabila seseorang menulis sesuatu kepada anda, anda mengendalikan beberapa fakta dari hidupnya yang anda tidak sepatutnya tahu... Orang ramai dalam kebanyakan kes menjadi takut. Tetapi! Berdasarkan statistik terkini, bilangan akaun yang ditutup pada rangkaian sosial telah menurun sebanyak 14%. Bilangan palsu semakin meningkat, bilangan akaun terbuka semakin meningkat - orang semakin bergerak ke arah keterbukaan. Saya fikir dalam 3-4 tahun mereka akan berhenti bertindak balas dengan kuat terhadap fakta bahawa seseorang mengetahui maklumat tentang mereka yang mereka mungkin tidak tahu. Tetapi ia sebenarnya sangat mudah untuk mendapatkan dengan melihat dindingnya.

Apakah yang boleh diambil daripada sumber terbuka?

Terdapat senarai anggaran perkara yang boleh difahami dengan kebolehpercayaan yang agak tinggi daripada sumber terbuka. Malah, terdapat lebih banyak metrik yang berbeza; ia bergantung kepada pelanggan penyelidikan tersebut. Terdapat beberapa agensi HR yang berminat sama ada anda bersumpah di rangkaian sosial atau di suatu tempat di ruang awam. Seseorang berminat sama ada anda menyukai penerbitan Navalny atau, sebaliknya, penerbitan United Russia, atau sejenis kandungan lucah - perkara sebegitu kerap berlaku.

Yang utama ialah nilai keluarga, anggaran kos sebuah apartmen, rumah, mencari kereta, dan sebagainya. Berdasarkan ini, manusia boleh dibahagikan kepada kumpulan sosial. Ini adalah pengguna Moscow Tinder, siapa mereka (mengikut gambar mereka yang terdapat di akaun Facebook mereka); berdasarkan minat mereka, mereka dibahagikan kepada pelbagai kumpulan sosial:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Jika kami bergerak lebih dekat kepada pengiklanan, maka kami perlahan-lahan beralih daripada penyasaran pengiklanan standard, apabila anda memilih di VKontakte bahawa anda berminat dengan lelaki berumur 18 tahun yang melanggan kumpulan tertentu. Saya mempunyai gambar ini seterusnya, saya akan tunjukkan kepada anda sekarang:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Intinya ialah kebanyakan perkhidmatan semasa yang menganalisis, pada dasarnya, orang yang menganalisis rangkaian sosial, terlibat dalam menganalisis minat... Perkara pertama yang terlintas di fikiran orang ramai ialah menganalisis kumpulan teratas pelanggan mereka. Mungkin ini berkesan untuk sesetengah orang, tetapi secara peribadi saya fikir ia pada asasnya salah. kenapa?

Suka anda dikumpulkan dan dianalisis

Sekarang ambil telefon anda, lihat kumpulan teratas anda - pasti terdapat lebih daripada 50% kumpulan yang anda sudah lupakan, ini adalah sejenis kandungan yang sebenarnya tidak relevan kepada anda. Anda tidak memakannya sama sekali, tetapi bagaimanapun sistem akan menjejaki anda mengikut mereka: bahawa anda telah melanggan resipi, kepada beberapa kumpulan popular. Iaitu, anda akan melanggar sistem yang menganalisis profil anda, dan minat anda tidak akan dibenarkan.

Teruskan... Apa yang ada? Kami menganggap apa yang orang lain lakukan. Pada pendapat kami, cara yang paling sesuai untuk menilai minat pengguna adalah suka. Sebagai contoh, pada VKontakte tidak ada suapan suka, dan orang berfikir bahawa tiada siapa yang tahu apa yang mereka suka. Ya, beberapa suka diperkenalkan di Instagram, kami melihat sesuatu di Facebook, tetapi kebanyakan kandungan dalam kumpulan tertentu tidak menyiarkannya dalam suapan biasa, dan orang ramai hidup dan berfikir bahawa tiada siapa yang akan tahu apa yang mereka suka.

Dan dengan mengumpul kandungan tertentu dari beberapa jenis yang menarik minat kita, mengumpul siaran ini, mengumpul suka ini, kemudian menyemak orang ini menggunakan pangkalan data ini, kita boleh menentukan dengan ketepatan yang tinggi siapa dia, apa takdirnya, apa yang dia minat. Letakkan dia dalam kumpulan sosial tertentu dan berinteraksi dengannya.

Membeli kereta mengubah tingkah laku

Saya mempunyai contoh sedemikian. Saya akan segera membuat tempahan bahawa contoh saya ialah pengiklanan hampir dan pemasaran hampir, kerana anda tahu, kebanyakan kes dilindungi oleh NDA dan sebagainya. Tetapi masih akan ada banyak perkara menarik. Jadi, cerita dengan orang-orang ini: ini adalah lelaki yang membeli kereta antara 2010 dan 2015. Bagaimana tingkah laku sosial dalam talian mereka telah berubah ditunjukkan oleh warna. Peratusan gadis dalam kalangan pelanggan telah berubah, saya melanggan halaman awam "kebudak-budakan", menemui pasangan seksual tetap...

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Semua perkara ini dipecahkan oleh jenama kereta dan bilangan orang. Dari sini anda boleh membuat banyak kesimpulan menarik tentang tingkah laku orang dan cara semuanya berfungsi. Saya boleh katakan bahawa Porsche Cayenne dan Priora yang ditanam adalah hampir sama dari segi bilangan penonton yang menarik. Kualiti penonton ini dan tingkah laku mereka berbeza, tetapi kuantitinya lebih kurang sama. Kesimpulan yang anda boleh buat dari sini ialah apa sahaja yang anda mahu, lebih dekat dengan pasaran anda. Jika anda menjual Audi, anda membuat slogan "Beli Audi dan jauhi ibu bapa anda!" dan sebagainya.

Ya, ini adalah contoh lucu fakta bahawa tingkah laku orang berdasarkan analisis suka, berdasarkan kumpulan mana mereka berpindah, kandungan apa yang mereka analisis - dengan hampir 100% kebarangkalian ia menjelaskan siapa anda. Kerana jika anda tidak mempunyai akses kepada trafik rangkaian dan tidak membaca mesej peribadi, suka akan sentiasa memberitahu anda siapa orang ini - seorang wanita hamil, seorang ibu, seorang lelaki tentera, seorang anggota polis. Dan untuk anda, sebagai orang yang boleh mengiklan, ini adalah sasaran yang besar.

Jawapan kepada soalan daripada penonton:

  • Setiap lajur ialah bilangan orang dalam kereta ini; bagaimana corak tingkah laku mereka telah berubah. Lihat: orang yang membeli Porsche Cayenne - kira-kira 550 orang (kuning), peratusan gadis dalam kalangan pelanggan telah meningkat.
  • Sampel adalah pengguna rangkaian sosial "Vkontakte", "Facebook", "Instagram" dari 2010 hingga 2015. Satu-satunya penjelasan: kereta yang dipilih di sini adalah kereta yang boleh dikenal pasti dalam gambar dengan ketepatan lebih daripada 80% menggunakan alat tertentu.
  • Dalam tempoh masa tertentu, keretanya (bukan miliknya, kami menyerahkannya kepada rangkaian sosial)... Dalam tempoh masa tertentu, seseorang sentiasa bergambar dengan kereta itu, bersamanya, penerbitan adalah berbeza, gambar-gambar dari sudut yang berbeza, dan sebagainya. Kemudian akan ada gambar orang yang mengambil gambar dengan kereta mana dan... Ya, ini soalan kedua - percaya pada data rangkaian sosial.
  • Sejak kami mengemukakannya, malangnya, data media sosial tidak selalu betul. Orang ramai tidak selalunya cenderung untuk menerbitkan maklumat mereka. Secara peribadi, saya menjalankan kajian sedemikian: Saya membandingkan bilangan graduan universiti Moscow dengan bilangan orang yang didaftarkan di rangkaian sosial. Secara purata, 60% lebih ramai orang didaftarkan di rangkaian sosial - graduan Universiti Negeri Moscow untuk tahun tertentu dalam kepakaran tertentu daripada yang sebenarnya ada pada dasarnya. Jadi ya - terdapat, secara semulajadi, peratusan ralat di sini, dan tiada siapa yang menyembunyikannya. Di sini kita hanya mengambil sebagai asas kereta-kereta yang boleh dikenal pasti dengan lebih daripada 80% kebarangkalian.

Senarai sumber untuk latihan model

Berikut adalah senarai contoh sumber yang boleh digunakan, yang digunakan untuk menentukan dengan pasti profil sosial seseorang, siapa dia.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Kami mengambil profil dari rangkaian sosial, dari CIAN - kos sebuah apartmen adalah lebih kurang, "Head-Hunter", "Superjob" - ini adalah gaji purata untuk orang tertentu. Saya harap tiada wakil Ketua Pemburu di sini, kerana mereka fikir ia tidak begitu baik untuk mengambil data ini daripada mereka. Walau bagaimanapun, ini adalah purata gaji di wilayah tertentu untuk jenis aktiviti tertentu untuk kekosongan.

"Avito", "Avto.ru": selalunya orang, apabila telefon mereka menyala, mereka pasti memilikinya (dalam sejumlah besar kes) sekurang-kurangnya sesuatu pada "Avito", atau pada "Avto.ru", atau di beberapa tapak lain yang anda boleh fahami siapa mereka. Jika kereta dorong atau kereta dijual pada nombor telefon ini... Rosstat dan Daftar Entiti Undang-undang Negeri Bersepadu masih lebih banyak daftar dengan bantuan yang anda boleh meletakkan kedudukan syarikat yang bekerja - mengikut beberapa formula, menurut model yang mana-mana orang boleh menetapkan (anda boleh menentukan secara kasar wang orang ini dll.).

Tinder membantu mengumpul data tentang situasi orang ramai

Selain itu, terdapat perkara yang begitu menarik (sebagai alternatif, ia sangat lucu dalam kajian) - ini, sekali lagi, pengumpulan data dari Moscow Tinder menggunakan bot untuk Tinder ini. Jarak ke orang telah ditentukan, dan kemudian lokasi anggaran mereka ditentukan.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Objektif kajian ini adalah untuk menentukan bilangan akaun Tinder di wilayah institusi kerajaan - di Duma, pejabat pendakwa, dan sebagainya. Tetapi anda, sebagai pengiklan, boleh membayangkan apa sahaja yang anda mahukan: boleh jadi, contohnya, Starbucks atau orang lain... Iaitu, bilangan orang di Tinder yang minum kopi daripada anda, memesan sesuatu, berada di kedai Mengenai geolokasi ini: ini boleh dilakukan dengan mana-mana perkhidmatan.

Jawapan kepada soalan daripada penonton:

  • Tinder? Awak tidak tahu? Tinder ialah apl temu janji yang anda lihat melalui foto (kiri-kanan), dan apl ini menunjukkan kepada anda jarak kepada orang itu. Jika anda mendapat jarak kepada orang ini dari tiga titik berbeza, anda boleh lebih kurang (+ 5-7 meter) menentukan lokasi. Dalam kes ini, untuk penentuan di wilayah pejabat pendakwa atau Duma Negeri, ia tidak begitu sukar. Tetapi sekali lagi, ia boleh menjadi kedai anda, ia boleh menjadi apa sahaja.

Sebagai contoh, lama dahulu, kami mempunyai kes sedemikian (bukan kajian), apabila kami menerima daripada salah satu pengendali selular data ketumpatan lalu lintas, data ketumpatan pergerakan titik selular, dan semua maklumat ini ditindih pada koordinat papan iklan yang terletak di lebuh raya . Dan tugas pengendali selular adalah untuk menentukan kira-kira berapa ramai orang yang lalu lalang dan berpotensi melihat iklan papan iklan ini.

Jika terdapat pakar pengiklanan papan iklan di sini, anda boleh katakan: mustahil untuk memahami dengan sangat boleh dipercayai - seseorang akan datang, seseorang tidak melihat, seseorang melihat... Namun begitu, ini adalah contoh bagaimana terdapat 20 bilion poligon ini di Moscow, yang merupakan kepadatan orang ini pada setiap jam di sepanjang laluan tertentu... Anda boleh melihat apa yang dilalui oleh orang-orang ini pada bila-bila masa dan menganggarkan secara kasar aliran penumpang.

Jawapan kepada soalan daripada penonton:

  • Tiada siapa yang memberikan data sedemikian. Kami menjalankan kajian sedemikian untuk salah seorang pengendali; ini adalah cerita dalaman secara eksklusif, jadi, malangnya, ia tidak dibentangkan dalam bentuk gambar. Tetapi selalunya agensi pengiklanan besar tidak mempunyai masalah untuk menghubungi pengendali. Sekurang-kurangnya di Moscow, terdapat banyak preseden apabila, sebagai contoh, syarikat insurans beralih kepada syarikat seperti GetTaxi, yang menyediakan data tidak peribadi tentang umur pemandu, cara mereka memandu (baik - buruk, melulu - tidak), untuk meramalkan polisi dan sebagainya. Semua orang bergelut dengan ini, tetapi pada beberapa peringkat dalaman, memberikan data tanpa nama - saya rasa tiada siapa yang mempunyai masalah sedemikian.

Pengecaman Imej dan Corak

Teruskan. Kegemaran saya ialah pengecaman imej. Akan ada bahagian kecil tentang mencari orang mengikut wajah, tetapi kebanyakannya kami tidak mengambil bahagian ini. Kami mengambil secara khusus pengecaman imej dan menentukan apa yang ada dalam imej ini - jenama kereta, warnanya, dan sebagainya.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Saya mempunyai contoh lucu ini:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Terdapat kajian sedemikian tentang mencari tatu di pelbagai rangkaian sosial. Sehubungan itu, perkara yang sama boleh digunakan pada mana-mana jenama, kepada mana-mana imej visual, kepada hampir mana-mana imej visual. Ada yang tidak dapat ditentukan dengan pasti (kami tidak mengambilnya).

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Inilah kegemaran saya. Jenama kereta sering kali beralih kepada tugas ini kerana tugas mereka, sebagai contoh, adalah untuk mencari semua pemilik beberapa BMW X6, memahami siapa mereka, bagaimana mereka disambungkan antara satu sama lain, apa yang mereka minati, dan sebagainya. Ini berkaitan dengan persoalan tentang kereta apa yang orang ambil gambar di rangkaian sosial.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Tiada penapisan di sini sama sekali: objek itu milik mereka, kereta itu bukan milik mereka; Ia hanya pecahan kereta - umur dan sebagainya. Tetapi pengecaman imej visual digunakan agak kerap: ini adalah carian untuk wanita hamil, dan carian untuk logo jenama dalam beberapa jenis media massa (yang menyiarkan apa).

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Kes kegemaran saya (yang digunakan oleh pelbagai restoran): jenis gulungan yang disiarkan di rangkaian sosial. Ia satu perkara yang lucu, tetapi sebenarnya ia membolehkan anda memahami banyak perkara menarik, pertama sekali, tentang pelanggan anda sendiri: siapa yang datang kepada anda dan sebab mereka melakukannya. Kerana bukan rahsia bahawa di bar sushi, kebanyakan orang (saya tidak akan menyebut "perempuan") mengambil gambar untuk mendaftar masuk, mengambil gambar sesuatu, dsb.

Jenama boleh mengambil kesempatan daripada ini. Jenama itu berminat dengan jenis produk yang diperlukan untuk mengambil gambar dan menyiarkan dengan cantik, jenis orang yang datang ke sana. Perkara ini boleh dilakukan dengan hampir semua perkara, dari makanan.

Pengecaman corak video

Jawapan kepada soalan daripada penonton:

  • Bukan pada video. Kami mempunyainya dalam mod ujian. Kami mencuba teknologi ini, tetapi ternyata... Ia mengenali segala-galanya dengan video dengan cukup baik, tetapi kami tidak menemui aplikasi untuknya di mana-mana sahaja. Selamat tinggal. Selain daripada menganalisis berapa banyak dan blogger video mana yang bercakap di suatu tempat ... Terdapat kajian sedemikian. Berapa banyak wajah mereka bertemu, berapa kerap. Tetapi jenama belum mengetahui di mana untuk menghasilkan ini. Mungkin suatu hari nanti ia akan datang.

Lagi-lagi ni makanan, boleh jadi perempuan mengandung, lelaki (tak mengandung), kereta - apa-apa.

Sebagai pilihan, terdapat kajian Tahun Baru untuk satu saluran media. Juga jauh dari pengiklanan, tetapi masih. Inilah jenis makanan yang dipuasakan oleh orang ramai untuk Tahun Baru:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Ia juga dipecahkan mengikut umur di sini. Anda boleh melihat korelasi sedemikian bahawa orang muda kebanyakannya memesan makanan, orang dewasa kebanyakannya membuat meja tradisional. Ia satu perkara yang melucukan, tetapi membayangkannya sebagai pemilik jenama, anda boleh menilai sebilangan besar perkara: siapa yang mengendalikan produk anda dan bagaimana, perkara yang mereka tulis mengenainya. Selalunya, orang tidak selalu menyebut jenama itu sendiri dalam teks, dan sistem pemantauan analitik tradisional tidak boleh sentiasa memahami dan mencari sebutan jenama ini semata-mata kerana ia tidak disebut dalam teks. Atau teks salah eja, tiada tag cincang atau apa-apa.

Foto-foto kelihatan. Dengan fotografi, anda boleh mengetahui sama ada ia adalah subjek tengah bingkai atau bukan subjek tengah bingkai. Kemudian anda boleh melihat apa yang ditulis oleh orang ini. Tetapi selalunya ia digunakan sebagai pencarian khalayak berpotensi yang telah memandu kereta tertentu dan sebagainya. Dan kemudian kami akan melakukan banyak perkara menarik dengan kereta ini.

Bot diajar untuk meniru manusia

Terdapat juga pilihan sedemikian untuk menggunakan orang mengira:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Terdapat pilihan untuk membandingkan orang, apabila anda perlu mencari orang menggunakan beberapa gambar, fahami profil sosial mereka, siapa mereka. Sekali lagi, kami kembali kepada soalan bahawa jika kami mempunyai kamera di kedai luar talian, maka ini adalah cara yang agak baik untuk memahami siapa yang datang kepada anda, siapa orang ini, perkara yang mereka minati, apa yang mendorong mereka datang kepada anda .

Seterusnya datang perkara yang paling menarik: jika kami mengumpul akaun mereka di rangkaian sosial, memahami siapa orang ini, apa yang mereka minati, kami boleh (sebagai pilihan) membuat bot serupa dengan orang ini; bot ini akan mula hidup seperti orang ini dan menganalisis iklan yang dilihatnya di pelbagai rangkaian sosial. Ini akan membolehkan anda memahami dengan tepat jenama yang disasarkan kepada orang ini. Ini juga merupakan cerita yang agak biasa apabila anda bukan sahaja perlu menganalisis siapa orang ini dan minat yang dia ada, tetapi juga jenis pengiklanan bakal pesaing anda atau orang lain yang berminat harus disasarkan.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Analisis sambungan dalam rangkaian sosial

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Perkara menarik seterusnya ialah analisis hubungan antara manusia. Sebenarnya, analisis sambungan dalam rangkaian, graf rangkaian ini - tidak ada sedikit pun, tidak ada yang baru dalam hal ini, semua orang tahu ini.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Tetapi aplikasi untuk tugas pengiklanan adalah yang paling menarik. Ini adalah carian untuk orang yang menetapkan trend, ini adalah carian untuk orang yang menyebarkan maklumat mengikut kriteria tertentu dalam rangkaian ini. Katakan kami berminat dengan pemilik yang sama bagi model BMW tertentu. Dengan menyatukan mereka semua, kita boleh mencari mereka yang mengawal pendapat umum. Mereka ini tidak semestinya blogger automotif dan sebagainya. Biasanya ini adalah rakan-rakan mudah yang duduk di pelbagai halaman awam, berminat dengan beberapa kandungan dan boleh, dalam tempoh yang sangat singkat, menarik jenama anda atau seseorang yang menarik minat anda ke dalam bidang tanggungjawab ini, ke dalam bidang ​minat.

Terdapat contoh sedemikian di sini. Kami mempunyai beberapa orang yang berpotensi, hubungan antara orang. Di sini yang oren adalah orang, titik-titik kecil adalah kumpulan biasa, kawan biasa.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Jika anda mengumpulkan semua hubungan ini di antara mereka, anda dapat melihat dengan jelas bahawa terdapat orang yang mempunyai sejumlah besar kumpulan biasa, kawan biasa, mereka berada di antara mereka sendiri... Dan jika visualisasi yang sama ini dibahagikan kepada kumpulan mengikut minat, mengikut kandungan, yang mereka edarkan, berapa banyak mereka berinteraksi antara satu sama lain... Di sini anda boleh melihat bahawa gambar sebelumnya menjadi seperti ini:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Di sini kumpulan jelas dibezakan dengan warna. Dalam kes ini, ini adalah pelajar sarjana kami di Sekolah Tinggi Ekonomi. Di sini anda dapat melihat bahawa yang berwarna ungu/biru adalah mereka yang menyukai halaman awam Transparency International, Open Russia dan Khodorkovsky. Di bawah kiri adalah yang hijau, mereka yang mencintai United Russia.

Anda boleh melihat bahawa gambar sebelumnya adalah seperti ini (ini hanya hubungan antara orang), tetapi telah menjadi jelas bersempadan. Maksudnya, semua orang sentiasa berhubung antara satu sama lain, mereka mempunyai minat yang sama, mereka berkawan antara satu sama lain. Terdapat beberapa di atas, yang lain di bawah, dan beberapa rakan lain di sana. Dan jika setiap subgraf kecil ini divisualisasikan secara berasingan dengan parameter lain dan melihat pada kelajuan penyebaran kandungan (secara kasarnya, siapa yang menyiarkan semula apa yang ada), anda boleh temui dalam setiap bahagian satu atau dua orang yang sentiasa memegang pendapat umum di tangan mereka, berinteraksi dengannya, meminta menghantar beberapa jenis siaran atau sesuatu yang lain - anda boleh mendapat respons daripada keseluruhan khalayak yang menarik ini.

Saya mempunyai satu lagi contoh sedemikian. Juga graf: ini ialah pekerja Kumpulan BBDO yang ditemui di rangkaian sosial sebagai contoh. Ia kelihatan tidak menarik, besar, hijau, hubungan antara mereka...

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Tetapi saya mempunyai pilihan di mana kumpulan sudah dibina di antara mereka. Kemudian, jika ada yang berminat, terdapat versi interaktif - anda boleh klik dan lihat.

Atas kanan ialah mereka yang menyayangi Putin. Di sini yang ungu adalah pereka; mereka yang berminat dengan reka bentuk, sesuatu yang menarik, dan sebagainya. Di sini perkara putih adalah pasukan pengurusan (nampaknya, seperti yang saya faham); Ini adalah orang yang, secara amnya, tidak berhubung dalam apa jua cara, tetapi bekerja dalam kedudukan yang lebih kurang sama. Selebihnya adalah kumpulan biasa mereka, sambungan, dan sebagainya.

Jenama tidak memerlukan blogger, tetapi pemimpin pendapat

Kami mengambil orang ini dan mencari mereka - kemudian agensi pengiklanan, syarikat pengiklanan memutuskan sendiri: ia boleh memberi wang kepada orang ini supaya dia entah bagaimana berinteraksi dengan kandungan ini, sesuatu yang lain, atau mengarahkan kempen pengiklanan khususnya sendiri kepada mereka. Ini juga digunakan agak kerap, terutamanya sekarang, kerana semua jenama ingin bekerjasama dengan blogger, mereka mahu kandungan mereka dipromosikan, tetapi agensi pengiklanan tidak benar-benar mahu menghubungi (well, ini berlaku).

Dan jalan keluar sebenar dari situasi ini adalah untuk mencari orang yang bukan blogger, bukan blogger kecantikan, tetapi sebagai contoh, beberapa makhluk sebenar yang berinteraksi dengan jenama ini, yang boleh menulis dalam beberapa halaman awam yang celaka "Jawapan Mail.ru", dapatkan bilangan tontonan tertentu. Mereka ini, yang sentiasa berminat dengan kandungan orang ini, akan menyebarkan semuanya, dan jenama itu akan mendapat penglibatannya.

Pilihan kedua untuk menggunakan teknologi sedemikian sekarang agak relevan - mencari bot, kegemaran saya. Ini adalah risiko reputasi untuk pesaing anda, dan peluang untuk menyingkirkan orang yang tidak berkaitan daripada kempen pengiklanan, dan apa-apa lagi (memadamkan ulasan dan mencari hubungan antara orang). Saya mempunyai contoh sedemikian, ia juga besar dan interaktif - anda boleh mengalihkannya. Ini adalah hubungan orang yang menulis ulasan dalam komuniti Lentach.

Contoh ini adalah supaya anda memahami betapa baiknya dan mudah dilihat bot; dan untuk ini anda tidak perlu mempunyai sebarang pengetahuan teknikal. Ini bermakna "Lentach" menerbitkan siaran mengenai penyiasatan FBK tentang Dmitry Medvedev, dan orang tertentu mula menulis komen. Kami mengumpul semua orang yang menulis komen - orang ini adalah hijau. Sekarang saya akan memindahkannya:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Orangnya adalah orang hijau (yang menulis komen). Mereka di sini, mereka di sini. Titik biru di antara mereka adalah kumpulan biasa mereka, titik kuning adalah pelanggan biasa mereka, rakan, dan sebagainya. Sebahagian besar orang berhubung antara satu sama lain. Kerana, apa pun teori tiga, empat, lima jabat tangan, semua orang berhubung antara satu sama lain di rangkaian sosial. Tidak ada manusia yang terpisah antara satu sama lain. Malah rakan saya yang fobia sosial yang menggunakan VKontakte secara eksklusif untuk menonton video masih melanggan beberapa halaman awam yang sama seperti kami.

Navalny juga menggunakan bot. Setiap orang mempunyai bot

Sebahagian besar orang (di sini, di sini) bersambung antara satu sama lain. Tetapi terdapat sekumpulan kecil rakan seperjuangan yang berkawan secara eksklusif antara satu sama lain. Ini mereka, yang hijau kecil, ini adalah rakan dan kumpulan bersama mereka. Mereka juga jatuh secara berasingan di sini:

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Dan secara kebetulan, orang-orang inilah yang menulis di bawah siaran ini: "Navalny tidak mempunyai bukti" dan sebagainya, menulis komen yang sama. Sudah tentu, saya tidak berani membuat kesimpulan. Tetapi bagaimanapun, saya mempunyai satu lagi jawatan di Facebook, apabila terdapat perdebatan antara Lebedev dan Navalny, saya menganalisis komen dengan cara yang sama: ternyata semua orang yang menulis "Lebedev adalah sial", mereka tidak berada di sosial. baru-baru ini empat bulan, tidak melanggan mana-mana halaman awam, tiba-tiba pergi ke siaran khusus ini, menulis komen yang tepat ini dan pergi. Sekali lagi, adalah mustahil untuk membuat kesimpulan dari sini, tetapi seseorang daripada pasukan Navalny menulis kepada saya komen bahawa mereka tidak menggunakan bot. Baiklah!

Lebih dekat dengan pengiklanan, lebih dekat dengan jenama. Semua orang mempunyai bot sekarang! Kita mempunyainya, pesaing kita memilikinya, dan orang lain memilikinya. Mereka mesti dibuang atau dibiarkan untuk hidup dengan baik; Berdasarkan data sedemikian (menunjuk ke slaid sebelumnya), bawa mereka ke kesempurnaan supaya mereka kelihatan seperti orang sebenar dan baru menggunakannya. Walaupun menggunakan bot adalah buruk! Namun begitu, cerita yang agak biasa...

Dalam mod automatik, perkara sedemikian membolehkan anda menapis keluar daripada analisis anda orang yang tidak relevan dengan analisis, orang yang tidak sepatutnya dimasukkan dalam sampel, tidak boleh dimasukkan dalam kajian ini. Sangat kerap digunakan. Sekali lagi, tidak semua pemilik kereta sebenarnya memiliki kereta. Kadang-kadang orang hanya berminat dengan orang yang berpotensi mempunyai kereta, yang duduk dalam beberapa kumpulan, berkomunikasi dengan seseorang, mereka mempunyai penonton tertentu di sana.

Analisis fakta dan pendapat

Yang seterusnya saya ada juga kegemaran saya. Ini adalah analisis fakta dan pendapat.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Pada masa kini semua orang tahu bagaimana untuk menyebut jenama mereka dalam pelbagai sumber. Tidak ada rahsia untuk ini. Dan semua orang nampaknya dapat mengira tonaliti... Walaupun secara peribadi, saya berpendapat bahawa metrik tonaliti itu sendiri tidak begitu menarik, kerana apabila anda datang dan memberitahu pelanggan, "Man, anda mempunyai 37% neutral," dan dia berkata demikian , β€œ Wah! Sejuk!" Oleh itu, adalah lebih menarik untuk bergerak lebih jauh: daripada menilai sentimen kepada menilai pendapat tentang apa yang mereka katakan tentang produk anda.

Dan ini juga merupakan perkara yang sangat menarik, kerana... Saya secara peribadi percaya bahawa pada dasarnya tidak boleh ada mesej neutral, kerana jika seseorang menulis sesuatu di ruang awam, mesej ini entah bagaimana berwarna dalam apa jua cara. Saya secara peribadi tidak pernah melihat mesej neutral yang menyebut jenama. Biasanya ia adalah sejenis kotoran.

Jika kita mengambil sejumlah besar mesej ini (mungkin terdapat berjuta-juta, 10 juta), serlahkan idea utama daripada setiap mesej, gabungkan mereka, kita boleh memahami dengan pasti apa yang orang katakan tentang jenama ini, apa yang mereka fikirkan. "Saya tidak suka pembungkusan," "Saya tidak suka konsistensi," dan sebagainya.

Apakah pendapat orang tentang Transaero, Chupa Chups dan Presiden Amerika Syarikat?

Saya ada contoh lucu: ini ialah infografik tentang perkara yang pengguna rangkaian sosial akan lakukan dengan syarikat Transaero selepas kebankrapannya.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Terdapat banyak contoh menarik di sana: membakar, membunuh, menghantar pulang ke Eropah, malah terdapat 2% yang menulis - "Hantar mereka ke Syria untuk operasi ketenteraan." Beralih daripada perkara lucu, ia boleh menjadi hampir semua jenama - daripada makanan anjing kegemaran saya kepada beberapa kereta. Sesiapa yang tidak suka pembungkusan, sesiapa yang tidak suka perkara sebenar - anda sentiasa boleh bekerja dengan ini, anda sentiasa boleh mengambil kira perkara ini. Terdapat sejumlah besar contoh apabila orang hampir menukar pengeluaran produk mereka kerana mereka menulis di rangkaian sosial bahawa Chupa Chups tidak cukup bulat atau tidak cukup manis.

Terdapat satu lagi contoh lucu. Cuba teka apa komen dan tentang siapa?

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Atas sebab tertentu, kini analisis pendapat, analisis fakta yang diekstrak daripada mesej, tidak begitu digunakan dan tidak begitu meluas. Walaupun teknologi ini bukanlah sangat rahsia, hampir tidak ada pengetahuan dalam hal ini sama sekali, kerana dari komen orang, mengekstrak subjek, predikat dan pengelompokan mereka tidak memerlukan genius dalam linguistik pengiraan. Ia tidak begitu sukar untuk dilakukan. Tetapi saya berharap bahawa dalam beberapa tahun akan datang orang akan mula menggunakan ini, kerana... Ia akan menjadi sejuk - ini adalah maklum balas automatik! Anda sentiasa tahu apa yang mereka katakan tentang anda. Nah, anda faham bahawa ini dibuat mengenai Presiden AS.

Jawapan kepada soalan daripada penonton:

  • Ya, ini adalah Facebook dalam bahasa Inggeris. Mereka diterjemahkan ke dalam bahasa Rusia di sini. Ini ditulis di suatu tempat.

Data Besar dan teknologi politik

Sebenarnya, saya mempunyai banyak contoh politik menarik yang berbeza tentang Trump dan orang lain, tetapi kami memutuskan untuk tidak membawanya ke sini. Tetapi ada satu contoh politik.

Ini adalah pilihan raya untuk Duma Negeri. Bilakah anda? Tahun lepas? Hampir setahun setengah yang lalu.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Berikut ialah orang yang dapat menentukan lokasi tepat mereka, hingga ke titik geo tertentu, untuk memahami presint pilihan raya yang mereka masuki. Dan kemudian dari orang-orang ini hanya mereka yang menyatakan pendapat pasti mereka diambil, yang akan mereka undi.

Dari sudut pandangan teknologi politik, ini tidak begitu betul, kerana semua ini perlu dinormalisasi oleh kepadatan penduduk dan sebagainya. Namun begitu, golongan biru di sini akan mengundi anda tahu siapa, golongan merah akan mengundi rakan seperjuangan pembangkang, yang sebenarnya tidak ramai.

Saya secara peribadi percaya bahawa Data Besar tidak akan mencapai teknologi politik dalam masa terdekat, tetapi, sebagai pilihan, calon itu juga merupakan jenama. Dan ini juga, sedikit sebanyak, analisis fakta dan pendapat tentang jenama anda, dan perkara yang agak menarik, kerana anda boleh memahami dalam masa nyata siapa yang melakukan apa. Saya tahu beberapa kes daripada BBC, apabila mereka memantau rangkaian sosial dalam masa nyata dalam beberapa siaran: ada respons begini dan begitu, orang ramai menulis tentangnya, bertanya soalan begini dan begitu - dan ia hebat! Saya fikir ia akan digunakan tidak lama lagi, kerana ia menarik untuk semua orang.

Memodelkan kedudukan jenama

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Seterusnya saya mempunyai pemodelan kedudukan jenama. Sekeping kecil dan ringkas tentang cara anda boleh menentukan kedudukan jenama menggunakan pelbagai metrik (bukan suka pelanggan di rangkaian sosial, tetapi menggunakan metrik yang kompleks, minat dalam kandungan, masa yang dihabiskan untuk menerima metrik).

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Saya mempunyai contoh "pharma" atas sebab tertentu. Di sini bulatan kecil adalah dalaman, terang - ini ialah jumlah kandungan teks yang dihasilkan oleh jenama itu sendiri, bulatan besar ialah jumlah kandungan foto dan video yang dihasilkan oleh jenama itu sendiri.

Kedekatan dengan pusat menunjukkan betapa menariknya kandungan kepada penonton. Terdapat model besar, terdapat sekumpulan semua jenis parameter: suka, siaran semula, masa tindak balas, yang berkongsi di sana secara purata... Di sini anda boleh lihat: terdapat "Kagotsel" yang indah, yang mengepam sejumlah besar wang untuk mencipta kandungannya sendiri, dan disebabkan ini mereka agak dekat dengan pusat. Dan ada rakan seperjuangan yang juga mencipta kandungan mereka sendiri, tetapi penonton tidak berminat dengannya. Ini bukan contoh yang sangat memadai, kerana semua akaun ini boleh dikatakan mati.

Yegor Creed lebih disayangi daripada Basta

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Malangnya, selebihnya... dari apa yang hendak ditunjukkan... Nah, terdapat juga penyanyi rap Rusia, sebagai pilihan, dari syarikat sebenar.

Apa kelebihannya? Hakikatnya ialah syarikat boleh meletakkan hampir apa sahaja ke dalam model sedemikian, bermula dari gaji purata pelanggan yang bekerja untuk jenama anda; mana-mana model yang mereka suka. Oleh kerana setiap agensi pengiklanan mengira metriknya sendiri secara berbeza, jenama mengira metrik mereka sendiri secara berbeza.

Terdapat juga satu di sini - Basta, yang menjana sejumlah besar kandungan, tetapi terletak di pinggir, kerana kandungan ini nampaknya tidak begitu menarik kepada penonton. Sekali lagi, saya tidak menganggap untuk menilai. Namun begitu, terdapat Yegor Creed, yang, menurut rangkaian sosial, hampir menjadi pemain terbaik pada zaman kita, tetapi hanya menerbitkan gambar peribadinya. Walau bagaimanapun, dia mempunyai sejumlah besar pelanggan: terdapat sekitar satu juta daripada mereka. Saya tidak ingat nombor yang tepat; Saya masih ingat bahawa peratusan penglibatan orang-orang ini jauh lebih tinggi daripada 85%, iaitu, setiap juta pelanggan dia menerima 850 ribu maklum balas daripada orang sebenar ini - ini adalah kegilaan sebenar. Ini adalah benar.

Arthur Khachuyan: "Data Besar Sebenar dalam pengiklanan"

Jawapan kepada soalan daripada penonton:

Berapa lama masa yang diambil untuk mencipta model analisis rapper?

  • Masing-masing mempunyai khalayak sasaran sendiri, kepentingan orang-orang ini dikira untuk setiap... Semua ini dinormalisasikan kepada jarak ke pusat kira-kira, kedudukan jejari mereka tidak penting (ia hanya disapu di sini untuk kecantikan, supaya mereka melakukannya tidak bertembung antara satu sama lain). Hanya kedekatan anggaran dengan pusat adalah penting. Ini adalah model yang kami gunakan. Sebagai contoh, saya lebih suka bulatan, sesetengah orang melakukannya dalam fikiran sebagai separuh bulatan.
  • Model ini disusun dengan cepat, dalam dua atau tiga jam (ya, satu orang). Di sini hanya metrik yang dimasukkan: apa yang kita darabkan dengan apa, tambahkannya, dan kemudian entah bagaimana menormalkannya. Bergantung pada model. Terdapat orang yang berminat dengan purata gaji (ini bukan gurauan) pelanggan mereka. Dan untuk ini anda perlu mencari kenalan mereka, Avito, hitung semuanya, darabkannya. Ia berlaku bahawa ini mengambil masa yang lama untuk mengambil kira, tetapi khususnya ini (menunjuk ke slaid sebelumnya) - parameter di sini sangat mudah: pelanggan, siaran semula, dan sebagainya. Ia mengambil masa kira-kira dua hingga tiga jam untuk disiapkan. Sehubungan itu, perkara ini kemudian dikemas kini dalam masa nyata, dan anda boleh menggunakannya.

Sekarang datang bahagian yang menyeronokkan. Saya sudah selesai dengan contoh, kerana tidak menarik untuk bercakap lama sahaja. Dan saya harap anda sekarang akan bertanya soalan, dan kami, sebenarnya, akan beralih dari topik ke topik, kerana saya mempunyai contoh seperti bagaimana teknologi boleh digunakan dan sebagainya...

Jawapan kepada soalan daripada penonton:

  • Saya mempunyai satu dan satu-satunya kes peribadi dengan satu, boleh dikatakan, "berhampiran-kasino", apabila kamera diletakkan di sana, wajah dikenali, dan sebagainya. Peratusan orang yang diiktiraf pastinya agak besar - kedua-dua kita dan pesaing kita. Tetapi ia sebenarnya agak menarik. Saya melihat ini sebagai satu perkara yang menarik: anda boleh memahami siapa mereka ini dan meramalkan dengan baik mengapa mereka datang ke sini, apa yang telah berubah dalam hidup mereka sehingga mereka memutuskan untuk datang ke kasino. Tetapi bagi jenis perniagaan tertentu... Jika anda meletakkan perkara sedemikian di farmasi, maka tidak ada gunanya - anda tidak boleh meramalkan mengapa seseorang datang ke farmasi.

    Tugas global di sini adalah untuk membina model untuk memahami apabila seseorang berpotensi mahu berminat dengan jenama anda, supaya anda boleh memberinya pengiklanan bukan selepas dia membeli sesuatu (seperti yang berlaku sekarang), tetapi memberinya pengiklanan " dalam ramalan” bila semua ini akan berlaku. Ia adalah menarik dengan "berhampiran-kasino" sedemikian; ternyata terdapat peratusan yang agak menarik daripada orang ini - mengapa: seseorang tiba-tiba menerima kenaikan pangkat, orang lain mendapat sesuatu yang lain - cerapan yang begitu menarik. Tetapi dengan beberapa kedai, dengan runcit, dengan kedai sejenis pil, nampaknya saya tidak akan betul.

Adakah Big Data digunakan di luar talian?

  • Ia di luar talian. Anda hanya perlu memahami dengan tepat, secara kasar, sama ada model ini sesuai atau tidak. Lagi-lagi dengan air sparkling..semuanya saya minat sebenarnya, tapi saya sendiri tak berapa faham, macam mana profile diorang ni, perangai dia boleh bergantung bila nak beli air botol. Walaupun ini mungkin benar, saya tidak tahu.

Berapa banyak akaun media sosial yang terbuka?

  • Kami secara khusus mempunyai 11 rangkaian sosial - ini adalah "Vkontakte", "Facebook", "Twitter", "Odnoklassniki", "Instagram" dan beberapa perkara kecil (saya boleh melihat senarai, seperti "Mail.ru" dan sebagainya) . Di VKontakte kami pasti mempunyai salinan semua rakan seperjuangan ini. Kami mempunyai orang di VKontakte - iaitu 430 juta daripada semua orang yang pernah wujud (yang mana kira-kira 200 juta sentiasa aktif); ada kumpulan, ada hubungan antara orang-orang ini dan ada kandungan yang menarik minat kita (teks), dan sebahagian daripada media, tetapi sangat kecil... Secara kasarnya, kita lihat gambar ini: jika ada muka di sana, kita selamatkan mereka, jika ada meme, kami selamatkan mereka Kami tidak menyimpannya, kerana walaupun kami tidak akan mempunyai cukup untuk menyimpan kandungan media.

    Terdapat Facebook berbahasa Rusia. Di suatu tempat sekarang 60-80% adalah Odnoklassniki, dalam beberapa bulan kita mungkin akan mendapatkan semuanya hingga akhir. Instagram Rusia. Untuk semua rangkaian sosial ini terdapat kumpulan, orang, hubungan antara mereka dan teks.

  • Kira-kira 400 juta orang. Terdapat kehalusan: ada orang yang bandarnya tidak dinyatakan (mereka berpotensi Rusia / bukan Rusia); Daripada jumlah ini, purata untuk rangkaian sosial ialah 14% daripada akaun tertutup di VKontakte, saya tidak tahu angka yang tepat di Facebook.
  • Kami juga tidak menyimpan media di Instagram - hanya jika terdapat wajah di sana. Kami tidak menyimpan kandungan media (lain) sedemikian. Biasanya menarik: teks sahaja, hubungan antara orang; Semua. Penyelidikan yang paling biasa di Instagram ialah penyelidikan biasa mengenai penonton: siapa mereka ini, dan, yang paling penting, hubungan orang ini dengan rangkaian sosial lain. Cari profil orang ini di Vkontakte dan Facebook untuk mengira umurnya dan sebagainya.
  • Tidak perlu mengambil orang lain lagi - hanya kerana tiada pelanggan. Mengenai bahasa: kami mempunyai bahasa Rusia, Inggeris, Sepanyol, tetapi ini masih digunakan secara eksklusif untuk jenama dari Rusia; baik, atau syarikat yang membawa mereka dari Rusia.
  • Kami menemu bual orang setiap hari dalam banyak, banyak, banyak urutan: kami mengumpul data dengan mengumpul web dan mengemas kini penunjuk ini menggunakan Api. Dalam 2-3 hari anda boleh melalui keseluruhan "VKontakte", melaluinya; Dalam masa kira-kira seminggu anda boleh membaca keseluruhan Facebook, memahami siapa yang telah mengemas kini perkara dan perkara yang belum. Dan kemudian kumpulkan semula orang-orang ini secara berasingan: apa sebenarnya yang telah berubah, tuliskan keseluruhan cerita ini. Sangat jarang dalam pengalaman saya profil media sosial lama seseorang digunakan untuk tujuan perniagaan sebenar. Ini adalah masa apabila seorang tokoh politik memohon, dan tugasnya adalah untuk memahami jenis orang yang datang ke ibu pejabat, siapa mereka ini 6-8 bulan yang lalu (adakah mereka memadam profil mereka, tetapi sebenarnya untuk calon lain, undi tiba merosakkan).

    Dan beberapa kali - cerita peribadi apabila gambar seseorang diterbitkan dalam domain awam. Ia adalah perlu untuk mencari sambungan, dsb. Malangnya, sayang sekali, tetapi kami tidak boleh memberi keterangan di mahkamah, kerana pangkalan data kami tidak cair dari segi undang-undang.

  • Storan MongoDB adalah kegemaran saya.

Rangkaian sosial cuba melawan pengumpulan data

  • Biasanya kami hanya memuat naik senarai akaun ini kepada pengiklan, dan kemudian mereka menggunakan yang standard... Iaitu, di rangkaian sosial, di VKontakte, anda boleh menentukan senarai orang ini.

    Tetapi Facebook menggunakan kuki yang dibeli. Kami sendiri tidak bekerja dengan kuki, tetapi terdapat beberapa cerita apabila pengiklan sendiri memberi beberapa orang, kami berinteraksi dengan mereka - mereka mempunyai rangkaian ini, dengan pengiklanan penggoda, bukan penggoda, "kuki" ini. Anda boleh mengikatnya - tiada soalan! Tetapi saya tidak begitu menyukai barangan ini kerana saya rasa ia tidak begitu asli. Ini semata-mata pada pendapat saya, ia seperti TNS, yang "menjejaki" TV - tidak jelas sama ada anda menonton TV ini atau tidak, sama ada anda sedang membasuh pinggan semasa TV anda dihidupkan... Dan ia adalah sama di sini : Saya sangat kerap google sesuatu di Internet, tetapi itu tidak bermakna saya mahu membelinya.

  • Jika anda menggunakan beberapa jenis rangkaian pengiklanan kontekstual standard: Saya mempunyai beberapa cerita apabila kami memunggah orang ini kepada mereka dan cuba, menggunakan antara muka mereka, untuk menghubungkan mereka dengan "kuki" di tapak mereka. Tapi saya tak suka sangat benda macam ni.

Formula untuk mengira gaji pengguna Internet

  • Formula umum untuk gaji purata: ini adalah wilayah di mana seseorang tinggal, ini adalah kategori perniagaan di mana dia bekerja (iaitu, syarikat yang menjadi majikannya), maka kedudukannya dalam syarikat ini diambil, purata gaji untuk jawatan ini dianggarkan... Gaji purata diambil daripada "Head Hunter" dan "Superjob" (dan terdapat beberapa sumber lain) untuk kekosongan yang diberikan di wilayah tertentu dan untuk konteks perniagaan tertentu.

    Daripada "Avito" dan "Avto.ru" parameter tambahan biasanya diambil jika seseorang telah menerangi telefon. Dengan Avito anda boleh melihat jenis barang yang dijual oleh seseorang - mahal, murah, terpakai, tidak digunakan. Dengan "Avto.ru" anda boleh melihat sama ada dia mempunyai kereta - dia memilikinya, dia tidak memilikinya. Ini adalah kurang daripada 20% orang yang secara tidak sengaja menjatuhkan telefon mereka di suatu tempat, dan akaun mereka boleh dipautkan dengan data ini.

Apakah jumlah yang dikendalikan oleh syarikat pengumpulan data?

  • Isipadu gambar yang disimpan dalam petabait ialah 6,4. Saya tidak dapat menyatakan dengan tepat kadar pertumbuhan sekarang, kerana pada tahun 2016 kami mula merakam "periskop" dan baru mula merakam video.

    Saya tidak dapat menyatakan dengan tepat bila ia adalah sifar. Kami berpindah dari syarikat ke syarikat - ini semua cerita panjang. Tetapi saya boleh katakan bahawa VK, Facebook, Instagram dan Twitter - semua perniagaan ini (orang, kumpulan dan hubungan antara mereka) dengan teks dan kandungan - ini sebenarnya bukan banyak data, tidak mungkin walaupun satu petabyte mendapat cukup. Saya fikir ia adalah 700 gigabait, mungkin 800.

Adakah anda membantu pelanggan menentukan niche semasa dan di mana untuk digali?

  • Apabila pelanggan datang, kami mencadangkan perkara sedemikian kepadanya, tetapi kami sendiri, seperti Google Trends, tidak melakukan perkara sedemikian.
  • Kami mempunyai beberapa cerita hampir sosiologi, dengan sejarah pilihan raya, sebelum pilihan raya - kami menganalisis semuanya. Dengan jenama dan menilai pendapat tentang jenama, semuanya hampir selalu bersetuju. Berikut ialah cerita pilihan raya - tidak (dengan penilaian calon mana yang patut menang). Saya tidak tahu siapa yang salah di sini - kami, atau mereka yang berfikir dalam VTsIOM.
  • Biasanya kami mengambil keputusan kawalan ini dari jenama itu sendiri, mereka mengambilnya dari rakan-rakan yang memesan penyelidikan - penyelidikan telefon, penyelidikan pemasaran, dan sebagainya. Selain itu, keseluruhan perkara ini boleh disemak dengan perkara asas: seseorang menjawab senarai mel, seseorang membuat tinjauan... Jika ia adalah jenama besar (Coca-Cola, contohnya), mereka pasti mempunyai satu atau dua ulasan dalaman daripada pelanggan – ini bukan sahaja ulasan di rangkaian sosial dan beberapa pendapat; Ini adalah beberapa jenis sistem dalaman, ulasan, dan sebagainya.

Undang-undang tidak "tahu" apa itu data peribadi!

  • Kami menganalisis sumber data terbuka secara eksklusif dan tidak pernah terlibat dalam sebarang helah kotor. Model kami dibina berdasarkan fakta bahawa kami menyimpan semua data terbuka di beberapa pusat data awam, menyewanya di tempat lain dan menganalisisnya di rumah, di pejabat kami, di pelayan kami, dan ia tidak pergi ke mana-mana di luar wilayah.

    Tetapi perundangan kami dalam bidang data terbuka sangat kabur.

    Kami tidak mempunyai pemahaman yang jelas tentang apa itu data terbuka, apakah itu data peribadi - terdapat Undang-undang Persekutuan ke-152 ini, tetapi masih... Bagaimana mereka mengira? Sekarang, jika saya mempunyai nama anda dan nombor telefon anda dalam satu pangkalan data, dalam pangkalan data lain saya mempunyai nombor telefon anda dan e-mel anda, dalam satu pertiga saya ada, katakan, e-mel anda dan kereta anda; Semua ini nampaknya bukan data peribadi. Jika anda meletakkan semua ini, nampaknya mengikut undang-undang ia akan menjadi data peribadi.

    Kami mengatasi ini dengan dua cara. Yang pertama ialah memasang pelayan dengan perisian untuk pelanggan, dan kemudian data ini tidak melampaui wilayahnya, dan kemudian pelanggan bertanggungjawab untuk pengedaran data peribadi ini, data bukan peribadi, dan sebagainya. Atau pilihan kedua: jika ini adalah sejenis cerita di mana anda perlu menyaman rangkaian sosial atau sesuatu yang lain...

    Kami mempunyai kajian sedemikian apabila kami mengumpul (ada sekolah rendah United Russia) untuk Lifenews akaun rakan-rakan ini dan melihat jenis lucah yang mereka suka. Ia adalah perkara yang lucu, tetapi masih. Kami menjual ini sebagai pendapat peribadi kami sendiri, tanpa mendedahkan secara sah dalam dokumen apa yang kami analisis - Daftar Negeri Bersatu Entiti Undang-undang, gaji, rangkaian sosial; Kami menjual pendapat pakar, dan kemudian di luar kami menerangkan kepada orang itu perkara yang kami analisis dan bagaimana.
    Terdapat beberapa cerita, tetapi ia berkaitan dengan beberapa projek komersial awam. Sebagai contoh, kami mempunyai projek bukan untung percuma untuk mereka yang menaiki papan panjang (papan sedemikian panjang): tugasnya adalah untuk mengumpul penerbitan orang - apabila seseorang menyiarkan "Saya pergi ke Taman Gorky untuk menumpang." Dan kini dia harus masuk ke peta, dan orang di sekelilingnya dapat melihat bahawa seseorang berada berdekatan dengannya. VK bercakap dengan kami mengenai topik ini untuk masa yang sangat lama, kerana mereka tidak menyukai fakta bahawa kami menerbitkan maklumat ini tanpa kebenaran orang. Tetapi perkara itu tidak sampai ke mahkamah, kerana dalam beberapa komuniti besar kami menambah peraturan bahawa data itu boleh digunakan oleh pihak ketiga, agensi, syarikat, analisis, dll. Sudah tentu, ia tidak beretika, tetapi masih.

  • Kami baru menyedarinya tepat pada masanya dan mula menjual pendapat pakar kami kepada semua orang.

Adakah anda bekerja dengan institusi pendidikan?

  • Kami bekerjasama dengan institusi pendidikan, ya. Kami mempunyai rangkaian keseluruhan: kami mempunyai program sarjana di Sekolah Tinggi, dan kami bekerjasama dengan universiti lain. Kami sangat mencintai universiti!
  • Jika anda mempunyai kenalan saya, anda boleh menulis kepada saya. Dan pautan ke pembentangan, jika sesiapa berminat - semua contoh ini ada, anda boleh mengalihkannya.
  • Jika anda tahu nombor telefon, mel - ini hampir seratus peratus pilihan, tiada siapa yang akan mengeluarkannya. Jika tiada nombor telefon, ia biasanya gambar; jika tiada gambar, itu adalah tahun, tempat tinggal, pekerjaan. Iaitu, mengikut tahun, tempat tinggal dan kerja, hampir semua orang sentiasa boleh dikenal pasti dengan agak halus. Tetapi ini, sekali lagi, adalah soalan mengenai tugas itu.

    Kami mempunyai, katakan, pelanggan yang menjual televisyen Internet. Seseorang membeli langganan "Games of Thrones" ini daripada mereka, dan tugasnya ialah menggunakan CRM mereka untuk mencari orang ini di rangkaian sosial, dan kemudian mencari mereka yang berpotensi dari kawasan pengaruh mereka. Saya hanya maksudkan bahawa mereka mempunyai, katakan, nama pertama, nama keluarga dan e-mel... Dan kemudian sangat sukar untuk melakukan apa-apa. Dalam kebanyakan kes, orang boleh ditemui melalui e-mel.

  • Berdasarkan komposisi rakan kami, kami biasanya "memadankan" orang di rangkaian sosial, tetapi ini tidak selalu betul. Bukannya ia tidak selalu betul - ia tidak selalu berkesan. Pertama, ini memerlukan banyak tenaga kerja, kerana operasi ini (yang sepadan dengan orang) perlu dijalankan terlebih dahulu untuk setiap rakan - untuk memahami sama ada mereka datang dari rangkaian sosial atau tidak. Dan kemudian - fakta yang tidak diketahui oleh sesiapa sahaja bahawa di VKontakte kita mempunyai rakan yang sama, di Facebook kita mempunyai rakan yang berbeza. Bukan untuk semua orang, tetapi bagi saya, sebagai contoh, ia seperti ini; dan ini juga berlaku untuk kebanyakan orang.

Bagaimanakah data paling lengkap dikumpul?

  • Memasang perisian untuk pelanggan di sisinya. Pelayan dipasang pada mereka, yang hanya mengambil data awam daripada kami, dan memproses data peribadi mereka secara dalaman. NDA dibuat dengan pelanggan. Ini, sudah tentu, tidak betul bahawa mereka memindahkan ini kepada kami, tetapi tanggungjawab undang-undang terletak pada pelanggan - baik, iaitu, memasang perisian untuknya, atau memindahkan data tanpa nama. Tetapi ini sangat jarang berlaku, kerana - penganamaan yang betul atau salah - dalam kebanyakan kes, pergantungan antara orang ini hilang.

Siapa yang Membeli Perisian Pengecaman Muka?

  • Kami sebenarnya pergi ke sini kerana perisian utama kami yang kami jual ialah carian muka, analisis korelasi, dan kami menjualnya kepada agensi kerajaan. Dan setahun setengah yang lalu, kami memutuskan bahawa kami akan meletakkan semua cerita ini ke dalam pengiklanan, ke dalam pemasaran, ke dalam pasaran awam - ini adalah bagaimana Hab Data Sosial, entiti undang-undang komersial, dibentuk. Dan sekarang kami baru datang ke sini. Kami telah melepak di sini selama satu setengah tahun sekarang, cuba menjelaskan kepada orang ramai bahawa tidak perlu memberi orang muat turun dengan sebutan, bahawa mereka perlu diberi jawapan kepada soalan, bahawa tidak ada keperluan untuk nada suara , dan sebagainya. Jadi sukar untuk mengatakan di mana...
  • (Siapa yang anda maksudkan?) Kepada semua rakan seperjuangan yang perlu mencari pengganas dan pedofil.
    Saya boleh katakan dengan segera (ini akan menjadi soalan seterusnya): menurut data kami, tiada guru dipenjarakan kerana menyiarkan semula.
  • Di VKontakte - 14%; di Facebook tidak ada profil tertutup seperti itu (terdapat senarai tertutup rakan, dan sebagainya). Dan perkara yang paling menarik ialah saya baru sahaja menulis mesej - kini mereka akan mengira dan berkata.

Jangan siarkan sesuatu yang anda akan malu!

  • Jangan siarkan apa-apa di rangkaian sosial yang akan membuat anda malu - saya secara peribadi mengikuti ini. Walaupun saya mempunyai banyak peribadi, kerana saya bersumpah di Facebook. Nah, ada dan ada sesuatu yang perlu dilakukan... Jangan siarkan apa-apa yang memalukan! Jika anda akan bekerja di suatu tempat di Dewan Awam nanti, ya, lebih baik jangan komen. Jika anda tidak akan melakukan ini, pada umumnya, tiada siapa yang peduli. Saya hanya boleh memberi jaminan kepada anda bahawa tiada siapa yang membaca surat-menyurat peribadi anda, dan semua ini membina keseluruhan cerita ini...

    Setiap minggu, seseorang pasti datang kepada saya dan berkata: "Nah, foto rakan saya telah dibocorkan ke beberapa halaman awam tanpa nama! Tolong! Dengan cara ini, jangan sekali-kali menerbitkan apa-apa ke halaman awam tanpa nama.

  • Saya tidak tahu tentang sistem pemantauan lain - kita pasti akan mengambil kira ini, bahawa sebutan jenama itu negatif, Tuhan ampunkan saya ... Tetapi saya boleh mengatakan bahawa semua jenis rakan dekat negeri hanya berminat dengan orang. yang mempunyai penonton lebih daripada 5 ribu, dan pendapat umum mereka boleh mempengaruhi seseorang. kemudian mempengaruhi. Dalam pengalaman saya, tidak pernah berlaku bahawa agensi HR yang memerintahkan penilaian profil daripada kami berkata: "Sesiapa yang suka Navalny, jangan mengupah sesiapa!"

Mengenai penerbitan keputusan. Berapa ramai orang yang bekerja dalam penyelidikan?

  • Daripada 10 syarikat pengiklanan teratas, tujuh kini menerbitkan. Sukar untuk mengatakan: apabila kami memulakannya setahun setengah yang lalu... Kami mempunyai beberapa orang di setiap kawasan - terdapat beberapa orang di bank, terdapat beberapa orang dalam HR, terdapat beberapa orang dalam pengiklanan. Dan sekarang kita sedang memikirkan tentang siapa yang lebih menguntungkan untuk pergi dahulu, untuk siapa kita perlu mula membuat beberapa antara muka...
  • (kira-kira bilangan orang setiap segmen pasaran) Tidak lebih daripada 25 orang, kerana kami tidak merogol sesiapa.
  • Secara umum, pada dasarnya, teknologi dari pasaran ini digunakan, saya fikir, lebih daripada 50%. Beberapa dalam kempen pengiklanan, beberapa dalam beberapa jenis analisis dalaman. Saya akan katakan 40 peratus menggunakannya dalam analitik dalaman, 50-60% menjualnya kepada jenama tamat. Tetapi ini sudah bergantung kepada syarikat pengiklanan itu sendiri. Anda lihat, sesetengah orang melaporkan semata-mata untuk wang yang dibelanjakan, pengiklanan yang mereka letakkan, manakala yang lain menulis tentang berapa ramai orang yang mereka bawa, jenis penonton apa... Saya akan berkata begitu, tetapi saya boleh silap - saya tidak t really imagine how all these comrades bekerja. Saya tahu hanya dalam data kuantitatif.

Beberapa iklan πŸ™‚

Terima kasih kerana tinggal bersama kami. Adakah anda suka artikel kami? Ingin melihat kandungan yang lebih menarik? Sokong kami dengan membuat pesanan atau mengesyorkan kepada rakan, cloud VPS untuk pembangun dari $4.99, analog unik pelayan peringkat permulaan, yang kami cipta untuk anda: Keseluruhan kebenaran tentang VPS (KVM) E5-2697 v3 (6 Teras) 10GB DDR4 480GB SSD 1Gbps daripada $19 atau bagaimana untuk berkongsi pelayan? (tersedia dengan RAID1 dan RAID10, sehingga 24 teras dan sehingga 40GB DDR4).

Dell R730xd 2 kali lebih murah di pusat data Equinix Tier IV di Amsterdam? Hanya disini 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV daripada $199 di Belanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - daripada $99! Baca tentang Bagaimana untuk membina infrastruktur corp. kelas dengan penggunaan pelayan Dell R730xd E5-2650 v4 bernilai 9000 euro untuk satu sen?

Sumber: www.habr.com

Tambah komen