Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Pada 14 Maret 2017, Arthur Khachuyan, CEO Social Data Hub, berbicara di ruang kuliah BBDO. Artur berbicara tentang pemantauan cerdas, membangun model perilaku, mengenali konten foto dan video, serta alat dan studi lain tentang Hub Data Sosial yang memungkinkan penargetan audiens menggunakan jejaring sosial dan teknologi Big Data.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Artur Khachuyan (selanjutnya - AH): - Halo! Halo semua! Nama saya Artur Khachuyan, saya mengelola perusahaan Pusat Data Sosial, dan kami terlibat dalam berbagai analisis intelektual yang menarik tentang sumber data terbuka, bidang informasi, dan melakukan segala macam penelitian menarik, dan seterusnya.

Dan hari ini, kolega dari Grup BBDO diminta untuk berbicara tentang teknologi modern untuk menganalisis data besar, data besar dan tidak terlalu besar untuk periklanan: bagaimana penerapannya, untuk menunjukkan beberapa contoh menarik. Saya harap Anda akan mengajukan pertanyaan di sepanjang jalan, karena saya bisa mulai mendorong dan tidak mengungkapkan esensi dan sebagainya, jadi silakan saja.

Sebenarnya, arahan utama, beberapa solusi "mendekati besar" pernah digunakan di suatu tempat, semuanya jelas - ini adalah penargetan audiens, analisis, melakukan semacam analisis dan riset pemasaran. Tetapi selalu menarik data tambahan apa yang dapat ditemukan, makna tambahan apa yang dapat ditemukan setelah menerapkan analisis.

Mengapa kita membutuhkan teknologi untuk periklanan?

Di mana kita mulai? Yang paling bisa dimengerti adalah beriklan di jejaring sosial. Hari ini saya melepasnya di pagi hari: untuk beberapa alasan Vkontakte berpikir saya harus melihat iklan khusus ini ... Apakah itu baik atau buruk - ini adalah pertanyaan kedua. Kami melihat bahwa saya pasti termasuk dalam kategori wajib militer:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Hal pertama dan menarik yang dapat diambil sebagai solusi teknologi ... Hal pertama yang ingin saya putuskan sebelum kita mulai adalah mendefinisikan istilah: apa itu data terbuka dan apa itu data besar? Karena semua orang memiliki pemahamannya sendiri tentang masalah ini, dan saya tidak ingin memaksakan ketentuan saya kepada siapa pun, tetapi ... Hanya agar tidak ada perbedaan.

Secara pribadi, menurut saya data terbuka adalah satu-satunya yang dapat saya capai tanpa login atau kata sandi apa pun. Ini adalah profil terbuka di jejaring sosial, ini adalah hasil pencarian, ini adalah pendaftar terbuka, dll. Data besar, menurut pemahaman saya sendiri, saya melihat seperti ini: jika ini adalah pelat data, ini adalah satu miliar baris, jika ini adalah semacam penyimpanan file, ini adalah petabyte data. Selebihnya dalam terminologi saya bukanlah data besar, tetapi sesuatu yang dekat dengannya.

Profil presisi tinggi dan penilaian profil

Ayo pergi secara berurutan. Hal pertama dan paling menarik yang dapat muncul dari analisis sumber data terbuka adalah pemrofilan presisi tinggi dan penilaian profil. Apa ini? Ini adalah cerita ketika, menurut akun Anda di jejaring sosial, Anda tidak hanya dapat memprediksi siapa Anda, tidak hanya minat Anda.

Namun kini, dengan menggabungkan berbagai sumber, Anda bisa mengetahui tingkat rata-rata gaji Anda, berapa harga apartemen Anda, di mana lokasinya. Dan semua data ini dapat digunakan secara harfiah dari cara improvisasi. Misalnya, jika Anda mengambil akun Anda di jejaring sosial, lihat, katakanlah, di mana Anda tinggal, di mana Anda bekerja; memahami di bagian bisnis mana perusahaan tempat Anda bekerja; unggah lowongan serupa dari HH dan Superjob jika Anda seorang analis, manajer, dll.; lihat di mana Anda tinggal (dasar, katakanlah, CYAN), pahami berapa biaya sewa rumah di tempat ini, berapa biaya untuk membeli rumah di tempat ini, perkirakan kira-kira berapa penghasilan Anda. Lebih jauh di jejaring sosial Anda, Anda dapat memahami seberapa banyak Anda bepergian, di mana Anda berada, seberapa loyal Anda kepada majikan.

Karenanya, dari metrik yang begitu banyak, kami dapat melakukan apa saja. Kami dapat memperkenalkan produk yang Anda minati. Bayangkan sebuah toko online? Anda pergi ke sana - toko online ini menangkap akun jejaring sosial Anda dan memberi tahu Anda: "Masha, kamu baru saja putus dengan seorang pria, ini beberapa produk untukmu." Ini bukan waktu dekat ...

Bagaimana lokasi seseorang ditentukan?

Jawaban atas pertanyaan dari audiens:

  • Biasanya, 80% dari semua check-in dianggap sebagai tempat tinggal yang tepat. Tetapi bagi orang yang tidak check-in di mana pun, ada beberapa opsi: check-in, atau geolokasi, atau ini adalah analisis postingan dan publikasi selama periode waktu tertentu ketika seseorang menulis sesuatu ... Dan di suatu tempat, sesuatu akan muncul seperti "Saya ingin membeli kereta bayi di dekat Akademicheskaya" atau "Saya baru saja melihat grafiti jelek di dinding di sini." Artinya, hampir 80% orang dapat ditentukan berdasarkan geolokasinya, tempat kerjanya, dan tempat tinggalnya menurut data atau metadata yang dapat dikumpulkan dari jejaring sosial.

    Sekali lagi, ini adalah analisis pasca. Dalam arti paling sederhana, ini adalah analisis check-in dan geolokasi di jejaring sosial yang tidak menghapus metadata jpeg (Anda dapat mengurai sesuatu darinya). Tetapi untuk orang lain, ini biasanya siaran teks: baik seseorang "menyinari" lokasinya ketika dia menulis tentang sesuatu, atau dia "menyinari" teleponnya, di mana Anda dapat menemukan beberapa iklannya di Avito atau akunnya pada "RU Otomatis". Berdasarkan data ini, Anda dapat menggabungkan (misalnya, "Saya menjual mobil di dekat Mayakovskaya") dan mengasumsikannya secara kasar.

  • Biasanya orang mempostingnya di media sosial. Kami hanya bekerja dengan sumber terbuka dan di sini kami hanya berbicara tentang sumber terbuka. Biasanya mereka menerbitkan iklan, yaitu, dalam enam puluh persen kasus, cerita paling umum ketika orang "menyinari" nomor ponsel mereka saat ini adalah iklan untuk menjual sesuatu. Entah di beberapa kelompok seseorang menulis (“Saya menjual ini atau itu di sana), atau pergi ke suatu tempat.

    Ya! Mereka biasanya berkomentar, seperti: “Jawab saya atau lempar SMS, hubungi saya di nomor tersebut. Ini sangat sering terjadi pada orang yang menjual sesuatu, membeli sesuatu di jejaring sosial, berkomunikasi dengan seseorang ... Oleh karena itu, dengan nomor ini Anda dapat menautkan profilnya di CYAN kepadanya, jika dia pernah menerbitkan sesuatu, atau , sekali lagi, di "Avito". Ini hanya yang paling populer, sumber teratas, akan terus demikian - ini adalah Avito, CYAN, dan seterusnya.

  • Maksud saya toko online. Berikutnya adalah pengenalan wajah dan teknologi pencocokan profil (kami akan membicarakannya). Secara teoritis murni, ini dapat diterapkan ke toko offline. Dan secara umum, impian besar saya adalah ketika spanduk jalanan muncul, ketika Anda berjalan melewati kamera, itu "menjejak" wajah Anda. Namun kasus ini akan dilarang oleh undang-undang, karena merupakan pelanggaran privasi. Saya berharap cepat atau lambat itu akan terjadi.
  • Saya punya dari pengalaman pribadi. Sangat sering, ketika seseorang menulis sesuatu kepada Anda, Anda beroperasi dengan beberapa fakta dari hidupnya yang tampaknya tidak perlu Anda ketahui ... Orang-orang dalam banyak kasus menjadi takut. Tetapi! Berdasarkan statistik terbaru, jumlah akun yang ditutup di jejaring sosial telah menurun sebesar 14%. Jumlah pemalsuan meningkat, jumlah akun terbuka bertambah - orang semakin bergerak menuju keterbukaan. Saya pikir dalam 3-4 tahun mereka akan berhenti bereaksi begitu tajam terhadap fakta bahwa seseorang mengetahui informasi tentang mereka yang seharusnya tidak dia ketahui. Namun sebenarnya sangat mudah untuk mendapatkannya dengan melihat dindingnya.

Apa yang bisa diambil dari sumber terbuka?

Ada daftar perkiraan hal-hal yang dapat dipahami dengan kepastian yang cukup tinggi dari sumber terbuka. Faktanya, ada lebih banyak lagi metrik yang berbeda; itu tergantung pada pelanggan dari studi tersebut. Ada beberapa agen SDM yang tertarik apakah Anda bersumpah di jejaring sosial atau di suatu tempat di ruang publik. Seseorang bertanya-tanya apakah Anda menyukai publikasi Navalny atau, sebaliknya, di bawah publikasi Rusia Bersatu, atau semacam konten pornografi - hal seperti itu cukup sering terjadi.

Yang utama adalah nilai keluarga, perkiraan biaya apartemen, rumah, pencarian mobil, dan sebagainya. Menurut ini, orang dapat dibagi menjadi kelompok sosial. Inilah para pengguna Moscow Tinder, siapa mereka (menurut foto mereka yang ditemukan di akun Facebook mereka); atas dasar kepentingan mereka dibagi menjadi berbagai kelompok sosial:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Jika kita mendekati periklanan, maka kita perlahan-lahan menjauh dari penargetan periklanan standar, ketika Anda memilih dalam "Vkontakte" bersyarat bahwa Anda tertarik pada pria berusia 18 tahun yang berlangganan grup tertentu. Saya memiliki gambar berikut, sekarang saya akan menunjukkan kepada Anda:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Intinya adalah bahwa sebagian besar layanan saat ini yang terlibat dalam analisis, pada prinsipnya, orang-orang yang terlibat dalam analisis jejaring sosial terlibat dalam analisis minat ... Hal pertama yang terlintas di benak orang adalah tentang menganalisis kelompok teratas pelanggan mereka. Ini mungkin berhasil dengan seseorang, tetapi secara pribadi saya pikir ini salah secara fundamental. Mengapa?

Suka Anda dikumpulkan dan dianalisis

Ambil ponsel Anda sekarang, lihat grup teratas Anda - pasti akan ada lebih dari 50% grup yang sudah Anda lupakan, ini adalah semacam konten yang sebenarnya tidak relevan bagi Anda. Anda tidak mengkonsumsinya sama sekali, namun demikian sistem akan meregangkan Anda menurut mereka: bahwa Anda berlangganan resep, ke beberapa grup populer. Artinya, Anda akan melanggar sistem yang menganalisis profil Anda, dan minat Anda tidak akan dibenarkan.

Pindah ... Apa yang ada di sana? Kami menganggap apa yang dilakukan orang lain. Menurut pendapat kami, cara yang paling memadai untuk menilai minat pengguna adalah suka. Misalnya, tidak ada umpan suka di Vkontakte, dan orang mengira tidak ada yang tahu apa yang mereka suka. Ya, beberapa suka ada di Instagram, kami melihat sesuatu di Facebook, tetapi sebagian besar konten di grup tertentu tidak menyiarkannya sebagai umpan umum, dan orang-orang hidup dan berpikir bahwa tidak ada yang tahu apa yang mereka sukai.

Dan, setelah mengumpulkan konten tertentu yang menarik minat kita, mengumpulkan postingan ini, mengumpulkan suka ini, lalu memeriksa orang ini menggunakan database ini, kita dapat menentukan dengan sangat akurat siapa dia, apa nasibnya, apa yang dia minati. Tentukan dengan tepat dalam kelompok sosial tertentu dan berinteraksilah dengannya.

Membeli mobil mengubah perilaku

Saya punya contoh seperti itu. Saya akan segera membuat reservasi bahwa contoh saya hampir mendekati periklanan dan pemasaran, karena, Anda tahu, sebagian besar kasus dilindungi oleh NDA dan seterusnya. Tapi tetap saja akan ada banyak hal menarik. Jadi, cerita dengan orang-orang ini: ini adalah pria yang membeli mobil antara tahun 2010 dan 2015. Bagaimana perilaku sosial online mereka berubah ditandai dengan warna. Persentase anak perempuan dalam pelanggan telah berubah, berlangganan publik "anak laki-laki", menemukan pasangan seksual tetap ...

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Semuanya dipecah berdasarkan merek mobil dan jumlah orang. Dari sini Anda bisa menarik banyak kesimpulan menarik tentang perilaku orang, cara kerjanya. Saya dapat mengatakan bahwa Porsche Cayenne dan Priora yang ditanam hampir sama dalam hal jumlah penonton yang tertarik. Kualitas penonton ini, perilakunya berbeda, tetapi jumlahnya hampir sama. Kesimpulan dari sini bisa ditarik, lebih dekat dengan pasar Anda, terserah. Anda menjual Audi - Anda membuat slogan "Beli Audi - menjauhlah dari orang tua Anda!" dan seterusnya.

Ya, ini adalah contoh lucu dari fakta bahwa perilaku orang berdasarkan analisis suka, berdasarkan grup mana mereka pergi, konten apa yang mereka analisis - dengan kemungkinan hampir 100% memperjelas siapa Anda. Karena jika Anda tidak memiliki akses ke lalu lintas jaringan, jangan membaca pesan pribadi, suka akan selalu memberi tahu Anda siapa orang ini - wanita hamil, ibu, tentara, polisi. Dan bagi Anda, sebagai orang yang bisa beriklan, ini adalah target yang sukses besar.

Jawaban atas pertanyaan dari audiens:

  • Setiap kolom adalah jumlah orang di dalam mobil ini; bagaimana pola perilaku mereka telah berubah. Lihat di sini: orang yang membeli Porsche Cayenne - sekitar 550 orang (kuning), persentase pelanggan perempuan meningkat.
  • Sampelnya adalah pengguna jejaring sosial Vkontakte, Facebook, Instagram dari tahun 2010 hingga 2015. Satu-satunya klarifikasi: berikut adalah mobil-mobil pilihan yang dapat diidentifikasi dengan akurasi lebih dari 80% dalam foto menggunakan alat tertentu.
  • Untuk jangka waktu tertentu, mobilnya (yah, bukan miliknya, kami sudah serahkan ini untuk menguji jejaring sosial) ... Untuk jangka waktu tertentu, seseorang terus-menerus difoto dengan mobil, bersama dia, publikasinya berbeda, fotonya dari sudut yang berbeda, dan seterusnya. Selanjutnya akan ada gambar orang yang difoto dengan mobil yang mana dan ... Ya, ini pertanyaan kedua - kepercayaan pada data jejaring sosial.
  • Sejak kami mengangkatnya, sayangnya, data jejaring sosial tidak selalu benar. Orang tidak selalu cenderung untuk mempublikasikan informasi mereka. Secara pribadi, saya melakukan penelitian seperti itu: Saya membandingkan jumlah lulusan universitas Moskow dengan jumlah orang yang terdaftar di jejaring sosial. Rata-rata, 60% lebih banyak orang terdaftar di jejaring sosial - lulusan Universitas Negeri Moskow untuk tahun tertentu dalam spesialisasi tertentu, daripada yang sebenarnya ada pada prinsipnya. Jadi ya - di sini, tentu saja, ada persentase kesalahan, dan tidak ada yang menyembunyikannya. Di sini, kami hanya mengambil sebagai dasar mobil-mobil yang dapat diidentifikasi dengan probabilitas lebih dari 80%.

Daftar sumber untuk pelatihan model

Berikut adalah perkiraan daftar sumber yang dapat digunakan, yang digunakan untuk menentukan dengan pasti profil sosial seseorang, siapa dia.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Dari jejaring sosial kami mengambil profil, dari CYAN - biaya apartemen kira-kira, "Pemburu Kepala", "Pekerjaan Super" - ini adalah gaji rata-rata untuk orang ini. Saya berharap tidak ada perwakilan Head Hunter di sini, karena mereka percaya bahwa tidak baik mengambil data ini dari mereka. Namun, ini adalah gaji rata-rata daerah tertentu untuk jenis kegiatan tertentu untuk lowongan.

"Avito", "Avto.ru": sangat sering orang, ketika mereka menyalakan ponsel, mereka pasti memilikinya (dalam banyak kasus) setidaknya sesuatu di "Avito", atau di "Avto.ru", atau di beberapa situs lain yang darinya Anda dapat memahami siapa mereka. Jika kereta dorong atau mobil dijual di ponsel ini ... Rosstat dan Daftar Badan Hukum Negara Bersatu masih merupakan daftar yang dapat digunakan untuk menentukan peringkat perusahaan pemberi kerja - menurut beberapa rumus, menurut model yang dapat diatur oleh siapa pun (Anda dapat secara kasar menentukan uang orang ini, dll.).

Tinder membantu mengumpulkan data tentang situasi orang

Plus, ada hal yang menarik (sebagai opsi, sangat lucu dalam penelitian ini) - ini, sekali lagi, adalah pengumpulan data dari Moscow Tinder menggunakan bot untuk Tinder ini. Jarak ke orang ditentukan, dan kemudian perkiraan lokasi mereka ditentukan.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Tujuan penelitian ini adalah untuk mengetahui jumlah akun Tinder di wilayah lembaga negara - di Duma, kejaksaan, dan sebagainya. Tetapi Anda, sebagai pengiklan, dapat membayangkan apa pun yang Anda suka: misalnya, Starbucks atau orang lain ... Artinya, jumlah orang di Tinder yang sama yang minum kopi dari Anda, memesan sesuatu, ada di toko . Mengenai geolokasi ini: Anda dapat melakukannya dengan layanan apa pun.

Jawaban atas pertanyaan dari audiens:

  • "Rabuk"? Kamu tidak tahu? Tinder adalah aplikasi kencan tempat Anda melihat foto (kiri-kanan) dan aplikasi ini menunjukkan jarak ke seseorang. Jika Anda mendapatkan jarak ke orang ini dari tiga titik berbeda, Anda dapat menentukan lokasi sekitar (+ 5-7 meter). Dalam hal ini, untuk menentukan di wilayah kejaksaan atau Duma Negara tidak begitu sulit. Tapi sekali lagi, itu bisa jadi toko Anda, bisa jadi apa saja.

Misalnya, kami memiliki kasus seperti itu sejak lama (bukan studi) ketika kami menerima dari salah satu operator seluler data kepadatan aliran, data kepadatan pergerakan titik sel, dan semua informasi ini ditumpangkan. pada koordinat papan reklame yang terletak di jalan raya. Dan tugas operator seluler adalah menentukan kira-kira berapa banyak orang yang lewat dan berpotensi melihat iklan billboard ini.

Jika ada pakar periklanan papan reklame di sini, Anda dapat mengatakan: tidak mungkin untuk memahami dengan sangat andal - seseorang sedang mengemudi, seseorang tidak melihat, seseorang melihat ... Namun demikian, ini adalah contoh bagaimana 20 miliar poligon semacam itu di sekitar Moskow, di mana kepadatan orang-orang ini setiap jam di sepanjang rute tertentu ... Anda dapat melihat apa yang dilewati orang-orang ini setiap saat dan memperkirakan secara kasar arus penumpang.

Jawaban atas pertanyaan dari audiens:

  • Tidak ada yang memberikan data seperti itu. Kami melakukan studi semacam itu untuk salah satu operator, ini adalah cerita internal yang eksklusif, jadi sayangnya tidak disajikan dalam bentuk gambar. Namun seringkali biro iklan besar tidak kesulitan menghubungi operator. Setidaknya di Moskow, ada banyak preseden ketika, misalnya, perusahaan asuransi beralih ke perusahaan seperti GetTaxi, yang memberikan data yang tidak dipersonalisasi tentang usia pengemudi, cara mereka mengemudi (baik - buruk, sembrono - tidak), untuk ke memprediksi kebijakan dan sebagainya. Setiap orang berjuang dengan ini, tetapi pada tingkat internal tertentu untuk memberikan data anonim - saya pikir tidak ada yang memiliki masalah seperti itu.

Pengenalan Gambar dan Pola

Teruskan. Favorit saya adalah pengenalan gambar. Akan ada bagian kecil tentang menemukan orang berdasarkan wajah, tetapi pada dasarnya kami tidak mengambil bagian ini. Kami mengambil pengenalan gambar dengan tepat dan menentukan apa yang ada di gambar ini - merek mobil, warnanya, dan sebagainya.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Saya punya contoh lucu ini:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Ada penelitian tentang pencarian tato di berbagai jejaring sosial. Karenanya, hal yang sama dapat diterapkan pada merek apa pun, pada citra visual apa pun, pada hampir semua citra visual. Ada yang tidak dapat ditentukan dengan cukup andal (kami tidak mengambilnya).

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Inilah favorit saya. Merek mobil sering melamar tugas seperti itu, karena tugasnya, misalnya, menemukan semua pemilik beberapa BMW X6, memahami siapa mereka, bagaimana hubungannya satu sama lain, apa yang mereka minati, dan sebagainya. Ini untuk pertanyaan tentang mobil apa yang difoto orang di jejaring sosial.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Tidak ada pemfilteran sama sekali di sini: subjeknya adalah milik mereka, mobilnya bukan milik mereka; kerusakan mobil seperti itu - usia dan sebagainya. Tetapi pengenalan pola visual cukup sering digunakan: ini adalah pencarian ibu hamil, dan pencarian logo merek di beberapa media massa (siapa yang memposting apa).

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Kasing favorit saya (yang digunakan oleh berbagai restoran): gulungan apa yang diposting di jejaring sosial. Hal yang lucu, tetapi sebenarnya memungkinkan Anda untuk memahami banyak hal menarik, pertama, tentang pelanggan Anda sendiri: siapa yang datang kepada Anda dan mengapa mereka melakukannya. Karena bukan rahasia lagi bahwa di bar sushi kebanyakan orang (saya tidak akan mengatakan "perempuan") mengambil gambar untuk check-in, memotret sesuatu, dll.

Merek dapat menggunakannya. Merek tertarik dengan produk seperti apa yang perlu difoto dan diunggah dengan indah, orang seperti apa yang datang ke sana. Hal seperti itu bisa dilakukan dengan hampir semua hal, mulai dari makanan.

Pengenalan Pola Video

Jawaban atas pertanyaan dari audiens:

  • Di video, tidak. Kami memilikinya dalam mode uji. Kami mencoba teknologi ini, tetapi ternyata ... Itu mengenali semuanya dengan video dengan cukup baik, tetapi kami belum menemukan aplikasi untuk ini di mana pun. Selamat tinggal. Kecuali sebagai analisis tentang seberapa banyak, video blogger seperti apa yang dibicarakan di suatu tempat ... Ada penelitian seperti itu. Berapa banyak wajah mereka bertemu, seberapa sering. Tetapi untuk merek, mereka belum menemukan di mana harus muncul. Mungkin suatu saat akan datang.

Lagi-lagi ini makanan, bisa ibu hamil, laki-laki (tidak hamil), mobil, apa saja.

Sebagai pilihan, ada studi Tahun Baru untuk satu outlet media. Juga jauh dari iklan, tapi tetap saja. Inilah makanan yang diposting orang untuk Tahun Baru:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Ini juga dipecah berdasarkan usia. Anda dapat melihat korelasi sedemikian rupa sehingga anak muda kebanyakan memesan makanan, orang dewasa kebanyakan membuat meja tradisional. Sebuah lelucon, tetapi membayangkannya sebagai pemilik merek, Anda dapat mengevaluasi banyak hal: siapa dan bagaimana memperlakukan produk Anda, apa yang mereka tulis tentangnya. Seringkali, orang tidak selalu menyebutkan merek itu sendiri dalam teks, dan sistem pemantauan analitik tradisional tidak selalu dapat memahami, temukan penyebutan merek ini semata-mata karena tidak disebutkan dalam teks. Atau salah eja dalam teks, tidak ada tag hash, atau apa pun.

Foto terlihat. Dengan sebuah foto, Anda dapat memahami apakah itu objek sentral bingkai, bukan objek sentral bingkai. Kemudian Anda dapat melihat apa yang ditulis orang ini. Namun paling sering digunakan sebagai pencarian calon audiens yang mengendarai mobil tertentu dan sebagainya. Dan kemudian kami akan melakukan banyak hal menarik dengan mobil-mobil ini.

Bot diajarkan untuk meniru manusia

Ada juga opsi untuk menggunakan penghitungan orang:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Ada varian membandingkan orang, ketika Anda perlu menemukan orang dari beberapa foto, memahami profil sosial mereka, siapa mereka. Sekali lagi, kembali ke pertanyaan bahwa jika kita memiliki kamera di toko offline, maka ini adalah cara yang cukup baik untuk memahami siapa yang mendatangi Anda, siapa orang-orang ini, apa yang mereka minati, apa yang membuat mereka mendatangi Anda.

Kemudian hal yang paling menarik: jika kita mengumpulkan akun mereka di jejaring sosial, memahami siapa orang-orang ini, apa yang mereka minati, kita dapat (sebagai opsi) membuat bot yang mirip dengan orang-orang ini; bot ini akan mulai hidup seperti orang-orang ini dan menganalisis iklan apa yang dilihatnya di berbagai jejaring sosial. Ini akan memungkinkan Anda untuk memahami secara akurat merek mana yang difokuskan pada orang ini. Ini juga merupakan cerita yang cukup umum ketika diperlukan tidak hanya untuk menganalisis siapa orang ini dan apa minatnya, tetapi juga jenis iklan apa yang ditargetkan oleh pesaing potensial Anda atau orang lain yang tertarik padanya.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Analisis koneksi di jejaring sosial

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Hal berikutnya yang menarik: ini adalah analisis hubungan antar manusia. Sebenarnya analisis koneksi di jaringan itu sendiri, grafik jaringan ini - tidak ada penurunan sama sekali, tidak ada yang baru, semua orang tahu ini.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Tetapi aplikasi untuk tugas periklanan adalah yang paling menarik. Ini adalah pencarian orang-orang yang menentukan tren, ini adalah pencarian orang-orang yang mendistribusikan informasi menurut kriteria tertentu dalam jaringan ini. Katakanlah kita tertarik pada pemilik yang sama dari model BMW tertentu. Dengan menyatukan mereka semua, kita dapat menemukan mereka yang memegang opini publik di tangan mereka. Ini belum tentu blogger otomotif dan sebagainya. Biasanya ini adalah kawan-kawan sederhana yang duduk di berbagai publik, tertarik pada beberapa jenis konten dan dapat, dalam waktu yang sangat singkat, memikat merek Anda atau seseorang yang Anda minati ke dalam area tanggung jawab ini, ke area bunga.

Ada contoh seperti itu di sini. Kami memiliki beberapa orang potensial, koneksi antar orang. Di sini oranye adalah orang, titik kecil adalah kelompok yang sama, teman yang sama.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Jika Anda mengumpulkan semua koneksi di antara mereka, Anda dapat dengan jelas melihat bahwa ada orang yang memiliki banyak grup yang sama, teman yang sama, mereka ada di sana satu sama lain ... Dan jika kita membagi visualisasi yang sama menjadi beberapa grup berdasarkan minat , berdasarkan konten yang mereka distribusikan, seberapa banyak mereka berinteraksi satu sama lain ... Di sini Anda dapat melihat bahwa gambar sebelumnya menjadi seperti ini:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Di sini kelompok-kelompok tersebut dibedakan dengan jelas berdasarkan warna. Dalam hal ini, ini adalah mahasiswa program master kami di Sekolah Tinggi Ekonomi. Di sini Anda dapat melihat bahwa ungu / biru adalah mereka yang menyukai publik Transparansi Internasional, Rusia Terbuka, Khodorkovsky. Kiri bawah - hijau, mereka yang mencintai Rusia Bersatu.

Anda dapat melihat bahwa gambar sebelumnya adalah seperti ini (ini hanya hubungan antar manusia), tetapi telah dibatasi dengan jelas. Artinya, semua orang selalu terhubung satu sama lain, mereka memiliki minat yang sama, mereka berteman satu sama lain. Ada yang dari atas, ada yang dari bawah, masih ada beberapa kawan. Dan jika masing-masing subgraf kecil ini divisualisasikan secara terpisah dengan parameter berbeda dan Anda dapat melihat kecepatan distribusi konten (secara kasar, siapa yang memposting ulang apa), Anda dapat menemukan satu atau dua orang di setiap bagian yang selalu memegang opini publik di tangan mereka, berinteraksi dengan yang, meminta mengirim posting atau sesuatu yang lain - Anda bisa mendapatkan tanggapan dari semua audiens yang menarik ini.

Saya punya contoh lain seperti itu. Juga grafik: ini adalah karyawan Grup BBDO, ditemukan di jejaring sosial sebagai contoh. Sepertinya koneksi yang tidak menarik, besar, hijau, di antara mereka ...

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Tapi saya punya varian di mana grup sudah dibangun di antara mereka. Lalu, jika ada yang tertarik, ada versi interaktifnya - Anda bisa klik dan lihat.

Kanan atas - mereka yang mencintai Putin. Di sini yang ungu adalah para desainer; mereka yang menyukai desain, sesuatu yang begitu menarik dan sebagainya. Di sini, bagian putihnya adalah tim manajemen (ternyata, saya memahaminya seperti itu); ini adalah orang-orang yang, secara umum, tidak terhubung dengan cara apa pun, tetapi bekerja di posisi yang kurang lebih sama. Selebihnya adalah kelompok umum, koneksi, dan sebagainya.

Merek tidak membutuhkan blogger, tetapi pemimpin opini

Kami mengambil orang-orang ini dan menemukan - kemudian biro iklan, perusahaan periklanan memutuskan sendiri: dapat memberikan uang kepada orang ini sehingga dia entah bagaimana berinteraksi dengan konten ini, sesuatu yang lain, atau mengarahkan kampanye iklan khusus mereka kepada mereka. Ini juga cukup sering digunakan, terutama sekarang, karena semua merek ingin bekerja dengan blogger, mereka ingin kontennya dipromosikan, dan biro iklan tidak terlalu ingin menghubungi (yah, itu terjadi).

Dan jalan keluar sebenarnya dari situasi ini adalah menemukan orang yang bukan blogger, bukan blogger kecantikan, tetapi misalnya, beberapa makhluk nyata yang berinteraksi dengan merek ini, dapat menulis di beberapa publik yang menyedihkan dari Mail.ru Jawaban mereka, dapatkan yang pasti jumlah tampilan. Orang-orang yang terus-menerus tertarik dengan konten orang ini, mereka akan menyebarkan semuanya, dan merek akan terlibat.

Opsi kedua, bagaimana menggunakan teknologi ini sekarang, cukup relevan - ini adalah pencarian bot, favorit saya. Ini adalah risiko reputasi bagi pesaing Anda, dan kemampuan untuk menyingkirkan orang-orang yang tidak relevan dari kampanye iklan, dan apa saja (baik menghapus komentar, maupun mencari koneksi antar orang). Saya punya contoh seperti itu, ia juga memiliki contoh interaktif yang besar - Anda dapat memindahkannya. Ini adalah koneksi orang-orang yang menulis komentar di komunitas Lentach.

Contohnya adalah agar Anda memahami seberapa baik dan sederhana bot terlihat; dan Anda tidak perlu memiliki pengetahuan teknis. Maka, Lentach merilis postingan tentang investigasi FBK tentang Dmitry Medvedev, dan beberapa orang mulai menulis komentar. Kami mengumpulkan semua orang yang menulis komentar - orang-orang ini berwarna hijau. Sekarang saya akan pindah:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Orang-orang berwarna hijau (yang menulis komentar). Mereka di sini, mereka di sini. Titik biru di antara mereka adalah kelompok umum mereka, titik kuning adalah pengikut, teman, dan seterusnya. Di sinilah sebagian besar orang terhubung. Sebab, apapun teori tiga, empat, lima jabat tangan, semua orang saling terhubung dalam jejaring sosial. Tidak ada orang yang terpisah satu sama lain. Bahkan teman saya yang fobia sosial yang menggunakan Vkontakte secara eksklusif untuk menonton video masih berlangganan beberapa publik yang sama dengan kami.

Navalny juga menggunakan bot. Setiap orang memiliki bot

Sebagian besar orang (ini dia, ini) saling berhubungan. Tetapi ada sekelompok kecil kawan yang berteman secara eksklusif satu sama lain. Ini dia, anak-anak kecil yang hijau, ini teman dan kelompok bersama mereka. Mereka bahkan jatuh secara terpisah di sini:

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Dan kebetulan yang membahagiakan, orang-orang inilah yang menulis tepat di bawah postingan ini: "Navalny tidak punya bukti," dan seterusnya, mereka menulis komentar yang sama. Tentu saja, saya tidak langsung mengambil kesimpulan. Tapi bagaimanapun, saya punya postingan lain di Facebook, ketika ada debat antara Lebedev dan Navalny, saya menganalisa komentarnya dengan cara yang sama: ternyata semua orang yang menulis “Lebedev itu sial”, mereka tidak masuk ke sosial jaringan selama empat bulan terakhir, tidak berlangganan publik mana pun, tiba-tiba pergi ke pos khusus ini, menulis komentar khusus ini dan pergi. Kesimpulan, sekali lagi, tidak dapat ditarik dari sini, tetapi seseorang dari tim Navalny menulis komentar kepada saya bahwa mereka tidak menggunakan bot. Baiklah!

Lebih dekat dengan iklan, lebih dekat dengan merek. Setiap orang memiliki bot sekarang! Kami memilikinya, pesaing kami memilikinya, dan orang lain memilikinya. Mereka harus dibuang atau ditinggalkan agar mereka hidup dengan baik; berdasarkan data tersebut (menunjuk ke slide sebelumnya) untuk menyempurnakannya sehingga terlihat seperti orang sungguhan dan baru kemudian menggunakannya. Meskipun menggunakan bot itu buruk! Namun, itu adalah cerita yang cukup umum ...

Dalam mode otomatis, hal seperti itu memungkinkan Anda untuk menyaring dari analisis Anda orang-orang yang tidak relevan dengan analisis, orang-orang yang tidak boleh dimasukkan dalam sampel, tidak boleh dimasukkan dalam penelitian ini. Sangat sering digunakan. Sekali lagi, tidak semua pemilik mobil benar-benar pemilik mobil. Terkadang hanya orang yang berpotensi memiliki mobil yang menarik, yang duduk dalam beberapa kelompok, berkomunikasi dengan seseorang, mereka memiliki audiens tertentu di sana.

Analisis fakta dan opini

Yang berikutnya yang saya miliki juga favorit saya. Ini adalah analisis fakta dan opini.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Menyebutkan brand Anda di berbagai sumber kini bisa melakukan segalanya. Tidak ada rahasia dalam hal ini. Dan semua orang tampaknya dapat menghitung nada... Meskipun menurut saya pribadi metrik nada itu sendiri tidak terlalu menarik, karena ketika Anda datang dan memberi tahu klien, "Bung, Anda memiliki 37% netral," dan dia mengatakan itu , “Wah! Dingin!" Oleh karena itu, akan lebih menarik untuk bergerak sedikit lebih jauh: dari menilai sentimen hingga menilai opini dari apa yang mereka katakan tentang produk Anda.

Dan ini juga hal yang sangat menarik, karena ... Menurut saya pribadi tidak boleh ada pesan yang netral, karena jika seseorang menulis sesuatu di ruang publik, pesan ini diwarnai dengan cara apa pun. Jadi saya pribadi belum pernah melihat pesan netral yang menyebutkan merek. Biasanya itu semacam kotoran.

Jika kami mengambil sejumlah besar pesan ini (mungkin ada jutaan, 10 juta), kami memilih ide utama dari setiap pesan, menggabungkannya, kami dapat memahami dengan andal apa yang dikatakan orang tentang merek ini, apa yang mereka pikirkan. "Saya tidak suka kemasannya", "Saya tidak suka konsistensinya", dan seterusnya.

Apa pendapat mereka tentang Transaero, Chupa Chups, dan Presiden Amerika Serikat

Saya punya contoh lucu: ini adalah infografis tentang apa yang akan dilakukan pengguna jejaring sosial dengan Transaero setelah kebangkrutannya.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Ada banyak contoh menarik: bakar, bunuh, deportasi ke Eropa, bahkan ada 2% yang menulis - "Kirim mereka ke Suriah untuk aksi militer." Beranjak dari hal yang lucu, bisa jadi hampir semua merek, dari makanan anjing favorit saya hingga beberapa mobil. Siapa yang tidak suka pengemasan, siapa yang tidak suka hal-hal nyata - Anda selalu dapat mengerjakannya, Anda selalu dapat memperhitungkannya. Ada banyak contoh ketika orang hampir mengubah produksi produknya, karena mereka menulis di jejaring sosial bahwa lolipop tidak cukup bulat atau tidak cukup manis.

Ada contoh lucu lainnya. Coba tebak komentar apa dan tentang siapa?

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Entah kenapa, sekarang analisis opini, analisis fakta yang diambil dari pesan, yang tidak banyak digunakan, tidak tersebar luas. Meskipun teknologi ini bukan super rahasia, praktis tidak ada pengetahuan sama sekali tentang hal ini, karena dari komentar orang untuk mengekstrak subjek, predikat, dan mengelompokkannya - tidak perlu kejeniusan linguistik komputasi untuk melakukan ini. Ini tidak terlalu sulit untuk dilakukan. Tapi saya berharap dalam beberapa tahun ke depan orang akan mulai menggunakannya, karena ... Ini akan keren - ini umpan balik otomatis! Anda selalu tahu apa yang mereka katakan tentang Anda. Nah, Anda mengerti bahwa ini tentang Presiden Amerika Serikat.

Jawaban atas pertanyaan dari audiens:

  • Ya, Facebook dalam bahasa Inggris. Mereka di sini diterjemahkan ke dalam bahasa Rusia. Di suatu tempat itu tertulis.

Big Data dan teknologi politik

Faktanya, saya memiliki banyak contoh politisi yang menarik tentang Trump dan tentang orang lain, tetapi saya memutuskan untuk tidak membawanya ke sini. Tapi ada satu contoh politik.

Ini adalah pemilihan Duma Negara. Kapan kamu? Tahun lalu? Hampir satu setengah tahun yang lalu.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Berikut adalah orang-orang yang berhasil menentukan lokasi persisnya, hingga geopoint tertentu, untuk memahami PEC elektoral mana mereka termasuk. Dan kemudian dari orang-orang ini hanya mereka yang menyatakan pendapat pasti mereka, yang akan mereka pilih.

Dari sudut pandang teknologi politik, ini sangat tidak benar, karena semuanya perlu dinormalisasi untuk kepadatan penduduk dan sebagainya. Namun demikian, biru di sini akan memilih Anda tahu siapa, merah akan memilih rekan oposisi, yang, omong-omong, tidak begitu banyak.

Saya pribadi berpikir bahwa Big Data tidak akan segera mencapai teknologi politik, tetapi, sebagai opsi, kandidat juga merupakan merek. Dan ini juga, sampai batas tertentu, analisis fakta dan opini tentang merek Anda, dan hal yang cukup menarik, karena Anda dapat memahami secara real time siapa yang melakukan apa di sana. Saya mengetahui beberapa kasus dari BBC, ketika mereka memantau jejaring sosial secara real time dalam beberapa jenis siaran: tanggapan ini dan itu, orang menulis tentang itu, mengajukan pertanyaan ini dan itu - dan itu bagus! Saya pikir ini akan segera diterapkan, karena menarik untuk semua orang.

Pemodelan Posisi Merek

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Selanjutnya saya memiliki pemodelan posisi merek. Sepotong kecil dan singkat tentang bagaimana berbagai metrik (tidak suka pelanggan di jejaring sosial, tetapi dengan bantuan metrik kompleks, minat pada konten, waktu yang dihabiskan untuk mendapatkan metrik) dapat digunakan untuk menentukan peringkat merek.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Saya punya contoh "pertanian" untuk yang tertentu. Di sini, lingkaran bundar kecil bersifat internal, cerah - ini adalah jumlah konten teks yang dibuat oleh merek itu sendiri, lingkaran bundar besar - ini adalah jumlah konten foto dan video yang dibuat oleh merek itu sendiri.

Kedekatan dengan pusat menunjukkan betapa menariknya konten ini bagi penonton. Ada model besar, ada banyak parameter: suka, repost, waktu respons, rata-rata siapa yang berbagi di sana ... Di sini Anda dapat melihat: ada Kagocel yang luar biasa, yang memompa sejumlah besar uang ke membuat kontennya sendiri, dan karena itu mereka cukup dekat dengan pusat. Dan ada kawan-kawan yang juga membuat kontennya sendiri, tetapi penonton tidak tertarik. Ini bukan contoh yang sangat memadai, karena semua akun ini praktis sudah mati.

Yegor Creed lebih dicintai daripada Basta

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Sayangnya, sisanya ... dari apa yang akan ditampilkan ... Di sini, ada juga rapper Rusia, sebagai opsi, dari perusahaan nyata.

Apa kelebihannya? Fakta bahwa sebuah perusahaan dapat memasukkan hampir semua hal ke dalam model seperti itu, mulai dari gaji rata-rata pelanggan yang ada di merek Anda; model apapun yang mereka suka. Karena setiap biro iklan menghitung metriknya sendiri secara berbeda, merek menghitung metriknya sendiri secara berbeda.

Ada juga di sini - Basta, yang menghasilkan konten dalam jumlah besar, tetapi pada saat yang sama berada di pinggiran, karena konten ini tampaknya tidak terlalu menarik bagi penonton. Sekali lagi, saya tidak menghakimi. Namun demikian, ada Yegor Creed, yang menurut jejaring sosial, pada umumnya adalah pemain terbaik di zaman kita, dan pada saat yang sama hanya menerbitkan foto pribadinya. Namun demikian, ia memiliki banyak pelanggan: ada sekitar satu juta di antaranya. Saya tidak ingat angka pastinya; Saya ingat persentase keterlibatan orang-orang ini jauh lebih tinggi dari 85%, yaitu, untuk satu juta pelanggan, dia menerima 850 ribu tanggapan dari orang-orang nyata ini - ini benar-benar gila. Ini benar.

Artur Khachuyan: "Data Besar Nyata dalam periklanan"

Jawaban atas pertanyaan dari audiens:

Berapa lama waktu yang dibutuhkan untuk membangun model analisis rapper?

  • Masing-masing memiliki target audiensnya sendiri, kepentingannya sendiri dari orang-orang ini, untuk masing-masing dihitung... Semua ini dinormalisasi dengan kira-kira jarak ke pusat, posisi radial mereka tidak penting (hanya dioleskan di sini untuk kecantikan sehingga mereka tidak bertemu satu sama lain). Hanya perkiraan kedekatan dengan pusat yang penting. Ini adalah model yang kami gunakan. Misalnya saya lebih suka lingkaran, ada yang melakukannya dalam bentuk setengah lingkaran.
  • Model ini disusun dengan cepat, dalam dua jam, tiga (ya, satu orang). Di sini, hanya metrik yang dimasukkan: apa yang kita kalikan dengan apa, jumlahkan, lalu entah bagaimana dinormalisasi. Tergantung modelnya. Ada orang yang tertarik dengan gaji rata-rata (ini bukan lelucon) pelanggannya. Dan untuk ini Anda perlu menemukan kontak mereka, "Avito", hitung semua ini, gandakan. Kebetulan ini dipertimbangkan untuk waktu yang lama, tetapi secara khusus ini (menunjuk ke slide sebelumnya) - ada parameter yang sangat sederhana di sini: pelanggan, repost, dan sebagainya. Itu dilakukan sekitar dua atau tiga jam. Dengan demikian, hal ini kemudian diperbarui secara real time, dapat digunakan.

Sekarang yang paling menarik. Saya memiliki segalanya dengan contoh, karena tidak menarik untuk berbicara sendirian dalam waktu yang lama. Dan saya harap Anda sekarang akan mengajukan pertanyaan, dan kami akan bergerak lebih jauh, sebenarnya, dari topik ke topik, karena saya memiliki contoh bagaimana teknologi dapat digunakan dan seterusnya ...

Jawaban atas pertanyaan dari audiens:

  • Saya memiliki satu-satunya kasus pribadi dengan satu, jika boleh saya katakan, "dekat kasino", ketika kamera dipasang di sana, wajah dikenali, dan sebagainya. Persentase orang yang dikenali pasti cukup besar - apa yang kita miliki, apa yang dimiliki pesaing kita. Tapi sebenarnya cukup menarik. Saya melihat ini sebagai hal yang menarik: Anda dapat memahami siapa orang-orang ini dan memprediksi dengan baik mengapa mereka datang ke sini, apa yang telah begitu banyak mengubah hidup mereka sehingga mereka memutuskan untuk datang ke kasino. Tetapi tentang jenis bisnis tertentu... Jika Anda meletakkan barang seperti itu di apotek, maka tidak ada gunanya - Anda tidak dapat memprediksi mengapa seseorang datang ke apotek.

    Tugas global di sini adalah membangun model untuk memahami kapan seseorang berpotensi tertarik dengan merek Anda, untuk memberinya iklan bukan setelah dia membeli sesuatu (seperti yang terjadi sekarang), tetapi memberinya iklan " dalam perkiraan” ketika itu semua terjadi. Dengan "kasino dekat" seperti itu, itu menarik; ternyata ada persentase yang cukup menarik dari orang-orang ini - mengapa: seseorang tiba-tiba menerima promosi, orang lain sesuatu - wawasan yang sangat menarik. Tetapi dengan beberapa toko, dengan eceran, dengan toko beberapa pil, menurut saya itu tidak akan benar.

Apakah Big Data digunakan secara offline?

  • Itu offline. Anda hanya perlu memahami dengan tepat, kira-kira - model ini akan menyatu, tidak akan menyatu. Sekali lagi, dengan air soda… Saya sangat tertarik dengan segala hal, tetapi saya pribadi tidak mengerti seberapa banyak, bagaimana profil orang-orang ini, perilaku mereka dapat bergantung pada saat mereka ingin membeli air kemasan. Meskipun ini mungkin benar, saya tidak tahu.

Berapa banyak akun media sosial yang dibuka?

  • Kami secara khusus memiliki 11 jejaring sosial - ini adalah Vkontakte, Facebook, Twitter, Odnoklassniki, Instagram, dan beberapa hal kecil di sana (saya dapat melihat daftarnya, seperti Mail.ru dan sebagainya). "Vkontakte" kami pasti memiliki salinan dari semua rekan ini. Kami memiliki orang-orang di VKontakte - ini adalah 430 juta dari semua yang pernah ada (sekitar 200 juta di antaranya terus aktif); ada grup, ada koneksi antara orang-orang ini, dan ada konten yang menarik bagi kami (teks), dan sebagian dari media, tetapi sangat kecil ... Secara kasar, kami melihat gambar ini: jika ada wajah, kami simpan mereka, jika ada meme, kami menyimpannya tidak kami simpan, karena bahkan kami tidak akan memiliki cukup untuk menyimpan konten media.

    Ada Facebook berbahasa Rusia. Di suatu tempat sekarang, 60-80% adalah Odnoklassniki, dalam beberapa bulan kami mungkin akan menyelesaikan semuanya. Instagram Rusia. Untuk semua jejaring sosial ini ada grup, orang, koneksi di antara mereka dan teks.

  • Sekitar 400 juta orang. Ada kehalusan: ada orang yang tidak memiliki kota (mereka berpotensi orang Rusia / non-Rusia); yang rata-rata di jejaring sosial, di sini - di Vkontakte, 14% akun ditutup, di Facebook, saya tidak tahu angka pastinya.
  • Kami juga tidak menyimpan media di Instagram - hanya jika ada wajah di sana. Kami tidak menyimpan konten media (lainnya) tersebut. Biasanya menarik: hanya teks, koneksi antar orang; Semua. Riset yang paling sering dilakukan di Instagram adalah riset umum tentang audiens: siapa orang-orang ini, dan juga, yang terpenting, hubungan orang-orang ini dengan jejaring sosial lainnya. Temukan profil orang ini di Vkontakte dan Facebook untuk menghitung usianya dan seterusnya.
  • Tidak perlu mengambil sisanya - hanya karena tidak ada pelanggan. Mengenai bahasa: kami memiliki bahasa Rusia, Inggris, Spanyol, tetapi masih digunakan hanya untuk merek dari Rusia; baik, atau perusahaan yang memimpin mereka dari Rusia.
  • Kami melakukan jajak pendapat orang setiap hari di banyak, banyak, banyak utas: kami mengumpulkan data dengan mengumpulkan web, dan kami memperbarui indikator ini menggunakan Api. Dalam 2-3 hari, Anda dapat melewati seluruh Vkontakte dengan melewatinya; suatu tempat dalam seminggu Anda dapat menelusuri seluruh Facebook, memahami siapa yang telah diperbarui di sana, apa yang tidak. Dan kemudian kami akan mengumpulkan kembali orang-orang ini secara terpisah: apa yang sebenarnya telah berubah, tuliskan keseluruhan cerita ini. Dalam ingatan saya, sangat jarang profil media sosial lama seseorang digunakan untuk beberapa tugas bisnis nyata. Ini adalah waktu ketika seorang politisi melamar, dan tugasnya adalah memahami orang seperti apa yang datang ke markas, siapa orang-orang ini 6-8 bulan yang lalu (apakah mereka menghapus profil mereka, tetapi pada kenyataannya untuk kandidat lain, surat suara rusak. ).

    Dan beberapa kali - cerita pribadi, saat foto seseorang dipublikasikan di domain publik. Itu perlu untuk menemukan koneksi, dll. Sayangnya, sayang sekali, tetapi kami tidak dapat bersaksi di pengadilan, karena basis data kami tidak likuid secara hukum.

  • Penyimpanan MongoDB adalah favorit saya.

Jejaring sosial mencoba melawan pengumpulan data

  • Biasanya, kami hanya mengunggah daftar akun ini ke pengiklan, lalu mereka menggunakan yang standar ... Artinya, di jejaring sosial, di Vkontakte, Anda dapat menentukan daftar orang-orang ini.

    Tetapi Facebook menggunakan cookie yang dibeli. Kami sendiri tidak bekerja dengan cookie, tetapi ada beberapa cerita ketika pengiklan sendiri memberikan beberapa orang, kami berinteraksi dengan mereka - mereka memiliki jaringan ini, dengan penggoda, bukan iklan penggoda, cookie ini. Anda bisa mengikat - tidak masalah! Tapi saya tidak terlalu suka hal-hal ini karena menurut saya itu tidak terlalu bisa diandalkan. Ini murni menurut saya, ini seperti TNS, yang "melacak" TV - tidak jelas apakah Anda menonton TV ini, jangan menontonnya, Anda mencuci piring saat TV menyala ... Dan di sini sama: Saya sangat sering google sesuatu di Internet, tetapi itu tidak berarti saya ingin membelinya.

  • Jika Anda menggunakan beberapa jaringan periklanan kontekstual standar: Saya memiliki beberapa cerita ketika kami membongkar orang-orang ini untuk mereka, mencoba menggunakan antarmuka mereka untuk mengikat mereka dengan "cookie" di situs mereka. Tapi aku tidak terlalu suka hal semacam itu.

Rumus untuk menghitung gaji pengguna Internet

  • Rumus umum gaji rata-rata: ini adalah wilayah tempat tinggal seseorang, ini adalah kategori bisnis tempat dia bekerja (yaitu perusahaan yang menjadi majikannya), kemudian diambil posisinya di perusahaan ini, dan gaji rata-rata di posisi ini adalah pura-pura ... Gaji rata-rata diambil dari Head Hunter dan Superjob (dan ada beberapa sumber lain) untuk lowongan tertentu di wilayah tertentu dan untuk konteks bisnis tertentu.

    Dengan "Avito" dan "Avto.ru", parameter tambahan biasanya diambil jika seseorang menyalakan telepon. Dengan "Avito" Anda dapat melihat barang apa yang dijual seseorang - mahal, murah, bekas, tidak bekas. Dengan "Avto.ru" Anda dapat melihat apakah dia memiliki mobil - dia memiliki, tidak memiliki. Ini adalah kurang dari 20% orang yang secara tidak sengaja menjatuhkan ponsel mereka di suatu tempat, dan akun mereka dapat diikat dengan data ini.

Berapa banyak perusahaan pengumpulan data beroperasi?

  • Jumlah foto yang disimpan dalam petabyte adalah 6,4. Saya tidak bisa memastikan tingkat pertumbuhannya sekarang, karena pada 2016 kami mulai merekam "periskop" dan mulai merekam video sedikit.

    Saya tidak bisa mengatakan dengan tepat kapan itu nol. Kami berpindah dari satu perusahaan ke perusahaan lain - semua ini adalah cerita yang sangat panjang. Tetapi saya dapat mengatakan bahwa VK, Facebook, Instagram, dan Twitter adalah masalah (orang, grup, dan koneksi di antara mereka) dengan teks dan konten - ini sebenarnya bukan data yang begitu banyak, bahkan hampir tidak ada petabyte yang diambil. Saya pikir itu 700 gigabyte, mungkin 800.

Membantu klien mengidentifikasi ceruk saat ini, di mana harus "menggali"?

  • Saat klien datang, kami menyarankan hal seperti itu kepadanya, tetapi kami sendiri, seperti Google Trends, tidak melakukan hal seperti itu.
  • Kami memiliki beberapa cerita yang hampir sosiologis, dengan sejarah pemilu, pra-pemilihan - kami menganalisis semuanya. Dengan merek dan penilaian pendapat tentang merek, hampir selalu semuanya menyatu. Berikut adalah cerita pemilu-pra-pemilu - tidak (dengan penilaian kandidat mana yang harus menang). Siapa yang salah di sini - kami, atau mereka yang percaya pada VTsIOM - saya tidak tahu.
  • Biasanya kami mengambil hasil kontrol ini dari merek itu sendiri, mereka mengambilnya dari rekan-rekan mereka yang memesan riset - riset telepon, riset pemasaran, dan sebagainya. Plus, semua ini dapat diperiksa dengan hal-hal dasar: seseorang menjawab milis, seseorang melakukan polling ... Jika itu merek besar (Coca-Cola, misalnya), mereka selalu memiliki satu atau dua juta ulasan internal mereka sendiri dari pelanggan - ini bukan hanya komentar di jejaring sosial dan beberapa pendapat; ini adalah beberapa sistem internal, ulasan dan sebagainya.

Hukum tidak “tahu” apa itu data pribadi!

  • Kami menganalisis sumber data terbuka secara eksklusif, kami tidak pernah membuang sampah kotor apa pun. Model kami didasarkan pada fakta bahwa kami menyimpan semua data terbuka di beberapa pusat data publik, menyewanya di tempat lain, dan menganalisisnya di rumah, di wilayah kantor, di server kami, dan ini tidak melampaui wilayah tersebut.

    Tapi undang-undang data terbuka kami sangat kabur.

    Kami tidak memiliki pemahaman yang jelas tentang apa itu data terbuka, apa itu data pribadi - ada Undang-Undang Federal ke-152 ini, tapi tetap saja ... Mereka berpikir bagaimana? Di sini, jika saya memiliki nama dan nomor telepon Anda di satu database, nomor telepon dan email Anda di database lain, dan email Anda serta mobil Anda di database ketiga; Semua ini seperti informasi non-pribadi. Jika semua ini disatukan, sepertinya secara hukum itu akan menjadi data pribadi.

    Kami menyiasatinya dengan dua cara. Yang pertama adalah kami menempatkan server dengan perangkat lunak pada klien, dan kemudian data ini tidak melampaui wilayahnya, dan kemudian klien bertanggung jawab atas distribusi data pribadi ini, bukan data pribadi, dan seterusnya. Atau opsi kedua: jika ini semacam cerita di mana Anda harus menuntut jejaring sosial atau yang lainnya ...

    Kami memiliki studi seperti itu ketika kami mengumpulkan (ada pemilihan pendahuluan Rusia Bersatu) untuk LifeNews akun rekan-rekan ini dan menonton jenis porno apa yang mereka sukai. Itu lucu, tapi tetap saja. Kami menjualnya sebagai pendapat pribadi kami sendiri, tanpa mengungkapkan secara hukum dalam dokumen apa yang kami analisis - Daftar Badan Hukum Negara Bersatu, gaji, jejaring sosial; kami menjual pendapat ahli, lalu di sela-sela kami menjelaskan kepada orang tersebut apa yang kami analisis dan bagaimana caranya.
    Ada beberapa cerita, tetapi terkait dengan beberapa proyek komersial publik. Misalnya, kami memiliki proyek non-komersial gratis bagi mereka yang mengendarai longboard (papan semacam itu panjang): tugasnya adalah mengumpulkan publikasi orang - ketika seseorang memposting "Saya pergi ke Gorky Park untuk berkendara." Dan sekarang dia harus masuk ke peta, dan orang-orang di sekitarnya dapat melihat bahwa ada seseorang di sebelahnya. VK bertengkar dengan kami tentang topik ini untuk waktu yang sangat lama, karena mereka tidak suka kami menerbitkan informasi ini tanpa izin orang. Tetapi kemudian masalah tersebut tidak sampai ke pengadilan, karena kami menambahkan aturan dalam beberapa komunitas besar bahwa data tersebut dapat digunakan oleh pihak ketiga, agensi, perusahaan, analisis, dll. Tentu saja, itu tidak terlalu etis, namun demikian.

  • Kami baru menyadarinya tepat pada waktunya dan mulai menjual pendapat ahli kepada semua orang.

Apakah Anda bekerja dengan lembaga pendidikan?

  • Kami bekerja sama dengan lembaga pendidikan, ya. Kami memiliki berbagai macam: kami memiliki program master di Sekolah Tinggi, kami bekerja sama dengan universitas lain. Kami mencintai universitas!
  • Saya memiliki kontak saya - Anda dapat menulis. Dan tautan ke presentasi, jika ada yang tertarik - ada semua contoh ini, Anda dapat memindahkannya.
  • Jika Anda tahu telepon, surat - ini hampir merupakan opsi XNUMX%, tidak ada yang akan menghapusnya. Jika tidak ada telepon, ini biasanya gambar; tidak ada gambar - ini adalah tahun, tempat tinggal, pekerjaan. Artinya, berdasarkan tahun, tempat tinggal dan pekerjaan, hampir setiap orang selalu dapat diidentifikasi secara halus. Tapi ini, sekali lagi, adalah pertanyaan tentang tugas itu.

    Kami memiliki, katakanlah, klien yang menjual TV Internet. Di sini, seseorang membeli langganan "Game of Thrones" ini dari mereka, dan tugasnya adalah menemukan orang-orang ini di jejaring sosial dari CRM mereka, dan kemudian menemukan orang-orang potensial dari area pengaruh mereka. Maksud saya, mereka memiliki, katakanlah, nama depan, nama belakang, dan email ... Dan kemudian sangat sulit untuk melakukan sesuatu. Melalui e-mail'u Anda dapat menemukan kira-kira dalam banyak kasus orang.

  • Menurut komposisi teman, kami biasanya "menjodohkan" orang dengan jejaring sosial, tetapi ini tidak selalu benar. Bukannya itu tidak selalu benar - itu tidak selalu berhasil. Pertama, ini membutuhkan banyak tenaga, karena operasi ini (dengan mencocokkan orang) harus dilakukan terlebih dahulu untuk setiap teman - untuk memahami apakah mereka beralih dari jejaring sosial atau tidak. Dan kemudian - karena tidak ada fakta yang tidak diketahui bahwa kami memiliki teman yang sama di Vkontakte, kami memiliki teman lain di Facebook. Tidak sama sekali, tapi pada saya, misalnya, jadi; dan itu sama untuk kebanyakan orang.

Bagaimana data terlengkap dikumpulkan?

  • Menginstal perangkat lunak ke klien di sisinya. Server disiapkan untuk mereka, yang hanya mengambil data publik dari kami, dan di dalam memproses data pribadi mereka. NDA diakhiri dengan klien. Ini, tentu saja, tidak terlalu benar bahwa mereka meneruskannya kepada kami, tetapi tanggung jawab hukum terletak pada klien - yaitu, menginstal perangkat lunak untuknya, atau mentransfer data anonim. Tetapi ini sangat jarang, karena - anonimisasi yang benar dan salah - dalam banyak kasus, ketergantungan antara orang-orang ini hilang.

Siapa yang membeli perangkat lunak pengenal wajah?

  • Kami sebenarnya datang ke sini karena kami memiliki perangkat lunak utama yang kami jual - ini adalah pencarian wajah, analisis hubungan - dan kami menjualnya ke lembaga pemerintah. Dan satu setengah tahun yang lalu, kami memutuskan bahwa kami akan memasukkan semua cerita ini ke dalam periklanan, pemasaran, dan pasar publik - begitulah cara Hub Data Sosial, sebuah badan hukum komersial, dibentuk. Dan di sini kita baru saja datang. Kami telah nongkrong di sini selama satu setengah tahun, mencoba menjelaskan kepada orang-orang bahwa orang tidak boleh diberikan unggahan dengan menyebutkan bahwa mereka perlu diberi jawaban atas pertanyaan, bahwa mereka tidak membutuhkan nada suara dan sebagainya. . Jadi sulit untuk mengatakan di mana ...
  • (Siapa maksudmu?) Untuk semua kawan yang perlu mencari teroris, pedofil.
    Saya bisa langsung bilang (ini pertanyaan selanjutnya): tidak ada guru, menurut data kami, yang dipenjara karena reposting.
  • Di Vkontakte - 14%, di Facebook tidak ada profil tertutup seperti itu (ada daftar teman tertutup dan sebagainya). Dan yang paling menarik adalah saya baru saja menulis pesan - sekarang mereka akan menghitung dan berkata.

Jangan memposting apa pun yang membuat Anda malu!

  • Jangan memposting apa pun di jejaring sosial yang membuat Anda malu - saya pribadi dipandu oleh ini. Padahal saya punya banyak pribadi, karena saya bersumpah di Facebook. Ya, ada dan ada sesuatu yang harus dilakukan ... Jangan memposting apa pun yang membuat Anda malu! Kalau nanti akan bekerja di suatu tempat di Kamar Umum, ya, lebih baik tidak berkomentar. Jika Anda tidak akan melakukan ini - pada umumnya, tidak ada yang peduli. Saya hanya dapat meyakinkan Anda bahwa tidak ada yang membaca korespondensi pribadi Anda, dan semua ini memaksa keseluruhan cerita ...

    Setiap minggu seseorang pasti mendatangi saya dan berkata: “Ini, foto teman saya diunggah ke publik oleh seseorang yang tidak dikenal! Membantu!" Omong-omong, jangan pernah memposting apa pun ke publik anonim.

  • Saya tidak tahu bagaimana sistem pemantauan lainnya – kami pasti akan mempertimbangkan bahwa penyebutan merek itu negatif, Tuhan maafkan saya… Tapi saya dapat mengatakan bahwa semua jenis kawan dekat negara hanya tertarik pada orang yang memiliki lebih dari 5 ribu penonton, dan opini publik mereka dapat mempengaruhi seseorang. Dalam praktik saya, tidak pernah terjadi bahwa agen SDM yang memesan penilaian profil dari kami mengatakan: "Siapa pun yang menyukai Navalny, jangan bawa siapa pun ke saya!"

Tentang publikasi hasil. Berapa banyak orang yang terlibat dalam penelitian?

  • Dari 10 perusahaan periklanan teratas, tujuh sekarang menerbitkan. Sulit untuk mengatakan: ketika kami memulainya satu setengah tahun yang lalu… Kami memiliki beberapa orang di setiap area – ada beberapa orang di bank, ada beberapa orang di SDM, ada beberapa orang di pengiklan. Dan sekarang kami sedang memikirkan siapa yang lebih menguntungkan untuk pergi dulu, untuk siapa kami harus mulai membuat semacam antarmuka ...
  • (tentang jumlah orang per segmen pasar) Tidak lebih dari 25 orang, karena kami tidak memperkosa siapa pun.
  • Secara umum, pada prinsipnya, teknologi dari pasar ini digunakan, menurut saya, lebih dari 50%. Siapa dalam kampanye periklanan, siapa dalam semacam analitik internal. Menurut saya, 40 persen menggunakannya dalam analitik internal, 50-60% menjualnya untuk merek akhir. Tapi itu sudah tergantung pada perusahaan periklanan itu sendiri. Anda lihat, seseorang melaporkan hanya untuk uang yang dihabiskan, memutar iklan, dan seseorang menulis, sebenarnya berapa banyak orang yang mereka bawa, audiens seperti apa ... Saya akan mengatakannya, tetapi saya bisa saja salah - saya tidak terlalu membayangkan bagaimana semua kawan ini bekerja. Saya hanya tahu dalam data kuantitatif.

Beberapa iklan 🙂

Terima kasih untuk tetap bersama kami. Apakah Anda menyukai artikel kami? Ingin melihat konten yang lebih menarik? Dukung kami dengan melakukan pemesanan atau merekomendasikan kepada teman, cloud VPS untuk pengembang mulai $4.99, analog unik dari server level awal, yang kami temukan untuk Anda: Seluruh kebenaran tentang VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps dari $19 atau bagaimana cara berbagi server? (tersedia dengan RAID1 dan RAID10, hingga 24 core dan hingga 40GB DDR4).

Dell R730xd 2x lebih murah di pusat data Equinix Tier IV di Amsterdam? Hanya disini 2 x Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 TV dari $199 di Belanda! Dell R420 - 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB - mulai $99! Membaca tentang Bagaimana membangun infrastruktur corp. kelas dengan penggunaan server Dell R730xd E5-2650 v4 senilai 9000 euro untuk satu sen?

Sumber: www.habr.com

Tambah komentar