Pengebilan besar data besar: tentang BigData dalam telekom

Pada tahun 2008, BigData ialah istilah baharu dan trend bergaya. Pada tahun 2019, BigData ialah objek jualan, sumber keuntungan dan sebab untuk bil baharu.

Musim luruh lalu, kerajaan Rusia memulakan rang undang-undang untuk mengawal data besar. Individu mungkin tidak dikenal pasti daripada maklumat, tetapi boleh berbuat demikian atas permintaan pihak berkuasa persekutuan. Memproses BigData untuk pihak ketiga hanya selepas pemberitahuan Roskomnadzor. Syarikat yang mempunyai lebih daripada 100 ribu alamat rangkaian berada di bawah undang-undang. Dan, sudah tentu, di mana tanpa daftar - ia sepatutnya mencipta satu dengan senarai pengendali pangkalan data. Dan jika sebelum ini Big Data tidak diambil serius oleh semua orang, kini ia perlu diambil kira.

Saya, sebagai pengarah syarikat pembangun pengebilan yang memproses Data Besar ini, tidak boleh mengabaikan pangkalan data. Saya akan memikirkan tentang data besar melalui prisma pengendali telekomunikasi, melalui sistem pengebilan yang mengalirkan maklumat tentang beribu-ribu pelanggan setiap hari.

Teorem

Mari kita mulakan, seperti dalam masalah matematik: pertama kita membuktikan bahawa data pengendali telekomunikasi boleh dipanggil BigDat. Biasanya, data besar dicirikan oleh tiga ciri VVV, walaupun dalam tafsiran percuma bilangan "V" mencapai tujuh.

Kelantangan. MVNO Rostelecom sahaja memberi perkhidmatan kepada lebih sejuta pelanggan. Pengendali hos utama mengendalikan data untuk 44 hingga 78 juta orang. Trafik berkembang setiap saat: pada suku pertama 2019, pelanggan telah pun mengakses 3,3 bilion GB daripada telefon mudah alih.

Halaju. Tiada siapa yang boleh memberitahu anda tentang dinamik lebih baik daripada statistik, jadi saya akan meneliti ramalan Cisco. Menjelang 2021, 20% daripada trafik IP akan pergi ke trafik mudah alih - ia akan meningkat hampir tiga kali ganda dalam tempoh lima tahun. Satu pertiga daripada sambungan mudah alih akan menjadi M2M – pembangunan IoT akan membawa kepada peningkatan enam kali ganda dalam sambungan. Internet Perkara akan menjadi bukan sahaja menguntungkan, tetapi juga intensif sumber, jadi sesetengah pengendali hanya akan menumpukan padanya. Dan mereka yang membangunkan IoT sebagai perkhidmatan berasingan akan menerima trafik berganda.

Kepelbagaian. Kepelbagaian adalah konsep subjektif, tetapi pengendali telekom benar-benar mengetahui hampir segala-galanya tentang pelanggan mereka. Daripada butiran nama dan pasport kepada model telefon, pembelian, tempat yang dilawati dan minat. Menurut undang-undang Yarovaya, fail media disimpan selama enam bulan. Jadi mari kita ambil sebagai aksiom bahawa data yang dikumpul adalah berbeza-beza.

Perisian dan metodologi

Penyedia ialah salah satu pengguna utama BigData, jadi kebanyakan teknik analisis data besar boleh digunakan untuk industri telekomunikasi. Soalan lain ialah siapa yang bersedia untuk melabur dalam pembangunan ML, AI, Pembelajaran Dalam, melabur dalam pusat data dan perlombongan data. Kerja penuh dengan pangkalan data terdiri daripada infrastruktur dan pasukan, kos yang tidak semua orang mampu. Perusahaan yang sudah mempunyai gudang korporat atau sedang membangunkan metodologi Tadbir Urus Data harus bertaruh pada BigData. Bagi mereka yang belum bersedia untuk pelaburan jangka panjang, saya menasihati anda untuk membina secara beransur-ansur seni bina perisian dan memasang komponen satu demi satu. Anda boleh meninggalkan modul berat dan Hadoop untuk yang terakhir. Beberapa orang membeli penyelesaian siap sedia untuk masalah seperti Kualiti Data dan Perlombongan Data; syarikat biasanya menyesuaikan sistem mengikut spesifikasi dan keperluan khusus mereka - sendiri atau dengan bantuan pembangun.

Tetapi tidak setiap pengebilan boleh diubah suai untuk berfungsi dengan BigData. Atau sebaliknya, bukan sahaja semuanya boleh diubah suai. Hanya sedikit orang yang boleh melakukan ini.

Tiga tanda bahawa sistem pengebilan mempunyai peluang untuk menjadi alat pemprosesan pangkalan data:

  • Skala mendatar. Perisian mestilah fleksibel - kita bercakap tentang data besar. Peningkatan dalam jumlah maklumat harus ditangani dengan peningkatan berkadar dalam perkakasan dalam kelompok.
  • Toleransi kesalahan. Sistem prabayar yang serius biasanya bertolak ansur dengan kesalahan secara lalai: pengebilan digunakan dalam kelompok dalam beberapa geolokasi supaya mereka menginsuranskan satu sama lain secara automatik. Terdapat juga komputer yang mencukupi dalam kelompok Hadoop sekiranya satu atau lebih gagal.
  • Lokaliti. Data mesti disimpan dan diproses pada satu pelayan, jika tidak, anda boleh rosak semasa pemindahan data. Salah satu skim pendekatan Map-Reduce yang popular: stor HDFS, proses Spark. Sebaik-baiknya, perisian harus disepadukan dengan lancar ke dalam infrastruktur pusat data dan dapat melakukan tiga perkara dalam satu: mengumpul, menyusun dan menganalisis maklumat.

Pasukan

Apa, bagaimana dan untuk tujuan apa program akan memproses data besar diputuskan oleh pasukan. Selalunya ia terdiri daripada satu orang - seorang saintis data. Walaupun, pada pendapat saya, pakej minimum pekerja untuk Data Besar juga termasuk Pengurus Produk, Jurutera Data dan Pengurus. Yang pertama memahami perkhidmatan, menterjemah bahasa teknikal ke dalam bahasa manusia dan sebaliknya. Jurutera Data menghidupkan model menggunakan Java/Scala dan eksperimen dengan Pembelajaran Mesin. Pengurus menyelaras, menetapkan matlamat, dan mengawal peringkat.

Masalah

Di pihak pasukan BigData, masalah biasanya timbul apabila mengumpul dan memproses data. Program ini perlu menerangkan perkara yang perlu dikumpulkan dan cara memprosesnya - untuk menjelaskan perkara ini, anda perlu memahaminya sendiri terlebih dahulu. Tetapi bagi pembekal, perkara tidak begitu mudah. Saya bercakap tentang masalah menggunakan contoh tugas mengurangkan pergolakan pelanggan - inilah yang cuba diselesaikan oleh pengendali telekomunikasi dengan bantuan Data Besar.

Menetapkan matlamat. Spesifikasi teknikal yang ditulis dengan baik dan pemahaman yang berbeza tentang istilah telah menjadi kesakitan berkurun lamanya bukan sahaja untuk pekerja bebas. Malah pelanggan yang "jatuh" boleh ditafsirkan dengan cara yang berbeza - seperti mereka yang tidak menggunakan perkhidmatan pengendali selama sebulan, enam bulan atau setahun. Dan untuk mencipta MVP berdasarkan data sejarah, anda perlu memahami kekerapan pulangan pelanggan daripada churn - mereka yang mencuba operator lain atau meninggalkan bandar dan menggunakan nombor yang berbeza. Satu lagi soalan penting: berapa lama sebelum pelanggan dijangka pergi harus pembekal menentukan perkara ini dan mengambil tindakan? Enam bulan terlalu awal, seminggu sudah terlambat.

Penggantian konsep. Biasanya, pengendali mengenal pasti pelanggan melalui nombor telefon, jadi adalah logik bahawa tanda-tanda harus dimuat naik menggunakannya. Bagaimana dengan akaun peribadi atau nombor aplikasi perkhidmatan anda? Adalah perlu untuk memutuskan unit mana yang harus diambil sebagai pelanggan supaya data dalam sistem pengendali tidak berbeza-beza. Menilai nilai pelanggan juga boleh dipersoalkan - pelanggan mana yang lebih bernilai untuk syarikat, pengguna mana yang memerlukan lebih banyak usaha untuk mengekalkannya, dan mana yang akan "jatuh" dalam apa jua keadaan dan tidak ada gunanya membelanjakan sumber untuk mereka.

Kekurangan maklumat. Tidak semua pekerja pembekal dapat menerangkan kepada pasukan BigData perkara yang secara khusus mempengaruhi pergolakan pelanggan dan cara kemungkinan faktor dalam pengebilan dikira. Walaupun mereka menamakan salah satu daripada mereka - ARPU - ternyata ia boleh dikira dengan cara yang berbeza: sama ada dengan pembayaran pelanggan berkala, atau dengan caj pengebilan automatik. Dan dalam proses kerja, sejuta persoalan lain timbul. Adakah model itu meliputi semua pelanggan, berapakah harga untuk mengekalkan pelanggan, adakah ada gunanya memikirkan model alternatif, dan apa yang perlu dilakukan dengan pelanggan yang telah dikekalkan secara buatan.

Penetapan matlamat. Saya mengetahui tiga jenis ralat hasil yang menyebabkan pengendali menjadi kecewa dengan pangkalan data.

  1. Pembekal melabur dalam BigData, memproses gigabait maklumat, tetapi mendapat hasil yang mungkin diperoleh dengan lebih murah. Gambar rajah dan model mudah, analitik primitif digunakan. Kosnya berkali ganda lebih tinggi, tetapi hasilnya adalah sama.
  2. Operator menerima data pelbagai rupa sebagai output, tetapi tidak memahami cara menggunakannya. Terdapat analitik - ini adalah, boleh difahami dan banyak, tetapi ia tidak berguna. Hasil akhir, yang tidak boleh terdiri daripada matlamat "memproses data," belum difikirkan dengan teliti. Ia tidak mencukupi untuk memproses - analitik harus menjadi asas untuk mengemas kini proses perniagaan.
  3. Halangan kepada penggunaan analisis BigData boleh menjadi proses perniagaan yang lapuk dan perisian yang tidak sesuai untuk tujuan baharu. Ini bermakna mereka membuat kesilapan pada peringkat penyediaan - mereka tidak memikirkan algoritma tindakan dan peringkat memperkenalkan Data Besar ke dalam kerja.

Apa untuk

Bercakap tentang keputusan. Saya akan membincangkan cara menggunakan dan mengewangkan Data Besar yang telah digunakan oleh pengendali telekomunikasi.
Pembekal meramalkan bukan sahaja aliran keluar pelanggan, tetapi juga beban di stesen pangkalan.

  1. Maklumat tentang pergerakan pelanggan, aktiviti dan perkhidmatan kekerapan dianalisis. Keputusan: pengurangan bilangan beban berlebihan disebabkan oleh pengoptimuman dan pemodenan kawasan masalah infrastruktur.
  2. Pengendali telekomunikasi menggunakan maklumat tentang geolokasi pelanggan dan kepadatan trafik semasa membuka tempat jualan. Oleh itu, analitik BigData telah digunakan oleh MTS dan VimpelCom untuk merancang lokasi pejabat baharu.
  3. Penyedia mengewangkan data besar mereka sendiri dengan menawarkannya kepada pihak ketiga. Pelanggan utama pengendali BigData ialah bank perdagangan. Menggunakan pangkalan data, mereka memantau aktiviti mencurigakan kad SIM pelanggan yang mana kad tersebut dipautkan, dan menggunakan perkhidmatan pemarkahan risiko, pengesahan dan pemantauan. Dan pada 2017, kerajaan Moscow meminta dinamik pergerakan berdasarkan data BigData daripada Tele2 untuk merancang infrastruktur teknikal dan pengangkutan.
  4. Analitis BigData ialah lombong emas untuk pemasar, yang boleh membuat kempen pengiklanan diperibadikan untuk beribu-ribu kumpulan pelanggan jika mereka mahu. Syarikat telekomunikasi mengagregatkan profil sosial, minat pengguna dan corak tingkah laku pelanggan, dan kemudian menggunakan BigData yang dikumpul untuk menarik pelanggan baharu. Tetapi untuk promosi berskala besar dan perancangan PR, pengebilan tidak selalunya mempunyai fungsi yang mencukupi: program mesti mengambil kira banyak faktor secara serentak dengan maklumat terperinci tentang pelanggan.

Walaupun sesetengah masih menganggap BigData sebagai frasa kosong, Big Four sudah pun menjana wang daripadanya. MTS memperoleh 14 bilion rubel daripada pemprosesan data besar dalam tempoh enam bulan, dan Tele2 meningkatkan hasil daripada projek sebanyak tiga setengah kali ganda. BigData bertukar daripada trend kepada mesti ada, di mana keseluruhan struktur pengendali telekom akan dibina semula.

Sumber: www.habr.com

Tambah komen