大數據大計費:關於電信中的大數據

2008年,大數據是一個新術語和時尚趨勢。 2019年,大數據是一個銷售對象、一個利潤來源和新帳單的一個原因。

去年秋天,俄羅斯政府發起了一項監管大數據的法案。 可能無法從資訊中識別個人身份,但可以根據聯邦當局的要求這樣做。 僅在 Roskomnadzor 通知後才為第三方處理大數據。 擁有超過 100 萬個網路位址的公司受該法律管轄。 當然,如果沒有註冊表我們會在哪裡呢?我們應該建立一個包含資料庫操作員清單的註冊表。 如果說以前大數據沒有被大家認真對待的話,現在就必須考慮到了。

身為處理這種大數據的計費開發公司的主管,我不能忽視資料庫。 我將從電信業者的角度來思考大數據,每天都有數千名用戶的資訊流通過電信業者的計費系統。

定理

讓我們開始吧,就像數學問題一樣:首先我們證明電信業者的數據可以稱為BigDat。 通常,大數據具有三個VVV特徵,儘管在自由解釋中「V」的數量達到了七個。

體積。 光是 Rostelecom 的 MVNO 就為超過 44 萬用戶提供服務。 主要主機業者處理 78 至 2019 萬人的資料。 流量每秒都在成長:3,3 年第一季度,用戶已透過手機存取了 XNUMX 億GB。

速度。 沒有人能比統計數據更好地告訴你動態,所以我將回顧思科的預測。 到 2021 年,20% 的 IP 流量將流向行動流量——五年內幾乎增加兩倍。 三分之一的行動連線將是M2M——物聯網的發展將導致連線數量增加六倍。 物聯網不僅會變得有利可圖,而且會變得資源密集型,因此一些運營商只會專注於它。 將物聯網開發為單獨服務的人將獲得雙倍流量。

種類。 多樣性是一個主觀概念,但電信業者確實幾乎了解其用戶的一切。 從姓名和護照詳細資訊到手機型號、購買、去過的地方和興趣。 根據 Yarovaya 法律,媒體文件的保質期為六個月。 因此,我們將收集的數據多種多樣作為一個公理。

軟體和方法

供應商是大數據的主要消費者之一,因此大多數大數據分析技術都適用於電信業。 另一個問題是誰準備好投資ML、AI、深度學習的發展,投資資料中心和資料探勘。 成熟的資料庫工作由基礎設施和團隊組成,其成本並不是每個人都能負擔得起。 已經擁有企業倉庫或正在開發資料治理方法的企業應該押注於大數據。 對於那些還沒做好長期投資準備的人,我建議你逐步搭建軟體架構,並一一安裝組件。 您可以將繁重的模組和 Hadoop 留到最後。 很少有人會購買現成的解決方案來解決資料品質和資料探勘等問題;公司通常會根據自己的特定規格和需求自訂系統 - 自己或在開發人員的幫助下。

但並非所有帳單都可以修改以與大數據一起使用。 或者更確切地說,不僅一切都可以修改。 很少有人能做到這一點。

計費系統有機會成為資料庫處理工具的三個跡象:

  • 水平可擴展性。 軟體必須靈活——我們談論的是大數據。 資訊量的增加應該透過集群中硬體的成比例增加來應對。
  • 容錯性。 嚴格的預付費系統通常預設是容錯的:計費部署在多個地理位置的叢集中,以便它們可以自動相互保證。 Hadoop 叢集中也應該有足夠的計算機,以防一台或多台發生故障。
  • 地點。 資料必須在一台伺服器上儲存和處理,否則資料傳輸可能會導致崩潰。 流行的 Map-Reduce 方法方案之一:HDFS 儲存、Spark 進程。 理想情況下,該軟體應無縫整合到資料中心基礎設施中,並且能夠將三件事合而為一:收集、組織和分析資訊。

團隊

程式處理大數據的內容、方式和目的由團隊決定。 通常它由一個人組成——一名數據科學家。 不過,在我看來,大數據的最低員工配置還包括產品經理、資料工程師和經理。 第一個理解服務,將技術語言翻譯成人類語言,反之亦然。 資料工程師使用 Java/Scala 和機器學習實驗將模型變為現實。 經理協調、設定目標並控制各個階段。

問題

在收集和處理資料時,通常會出現問題的是大數據團隊。 程式需要解釋要收集什麼以及如何處理它 - 為了解釋這一點,您首先需要自己理解它。 但對供應商來說,事情就沒那麼簡單了。 我以減少用戶流失的任務為例來討論這些問題——這就是電信業者首先試圖借助大數據來解決的問題。

設定目標。 編寫良好的技術規範和對術語的不同理解不僅對自由工作者來說是一個數百年的痛苦。 即使「放棄」的用戶也可以有不同的解釋——一個月、六個月或一年沒有使用營運商服務的用戶。 要根據歷史數據建立 MVP,您需要了解用戶流失後返回的頻率 - 那些嘗試過其他運營商或離開城市並使用不同號碼的用戶。 另一個重要問題:提供者應在訂閱者預計離開之前多久確定這一點並採取行動? 六個月太早,一周就太晚了。

概念的替換。 通常,運營商透過電話號碼識別客戶,因此使用它上傳標誌是合乎邏輯的。 您的個人帳號或服務申請號碼怎麼樣? 需要決定將哪個單位作為客戶端,以使運營商系統中的資料不發生變化。 評估客戶的價值也是值得懷疑的——哪些訂戶對公司更有價值,哪些用戶需要付出更多努力才能留住,哪些用戶無論如何都會“流失”,而在他們身上花費資源是沒有意義的。

缺乏資訊。 並非所有提供者員工都能向大數據團隊解釋具體影響訂戶流失的因素以及如何計算計費中的可能因素。 即使他們將其中之一命名為 ARPU,但事實證明它可以通過不同的方式計算:要么通過定期客戶付款,要么通過自動計費。 在工作過程中,還會出現一百萬個其他問題。 該模型是否涵蓋了所有客戶,保留客戶的價格是多少,思考替代模型是否有意義,以及如何處理被錯誤人為保留的客戶。

目標設定。 我知道三種類型的結果錯誤會導致操作員對資料庫感到沮喪。

  1. 該提供者投資於大數據,處理千兆位元組的信息,但得到的結果本來可以更便宜。 使用簡單的圖表和模型以及原始分析。 成本高出很多倍,但結果是一樣的。
  2. 操作員接收多方面的資料作為輸出,但不了解如何使用它。 有分析——就在這裡,可以理解,而且很長,但是沒有用。 最終的結果不能包含「處理資料」的目標,還沒有經過深思熟慮。 僅僅處理是不夠的-分析應該成為更新業務流程的基礎。
  3. 使用大數據分析的障礙可能是過時的業務流程和不適合新用途的軟體。 這意味著他們在準備階段犯了一個錯誤——他們沒有考慮清楚行動的演算法和將大數據引入工作的階段。

為了什麼

說到結果。 我將回顧電信業者已經在使用的大數據的使用和貨幣化方法。
提供者不僅預測用戶的流出,還預測基地台的負載。

  1. 分析有關使用者移動、活動和頻率服務的資訊。 結果:由於基礎設施問題區域的最佳化和現代化,過載數量減少。
  2. 電信業者在開設銷售點時會使用有關用戶地理位置和流量密度的資訊。 因此,MTS 和 VimpelCom 已使用大數據分析來規劃新辦公室的位置。
  3. 提供者透過向第三方提供自己的大數據來貨幣化。 大數據業者的主要客戶是商業銀行。 他們利用該資料庫監控與卡片連接的用戶 SIM 卡的可疑活動,並使用風險評分、驗證和監控服務。 2017 年,莫斯科政府要求 Tele2 提供基於大數據的運動動態,以規劃技術和交通基礎設施。
  4. 大數據分析對於行銷人員來說是一座金礦,如果他們願意的話,他們可以為多達數千個用戶群創建個人化的廣告活動。 電信公司彙整用戶的社群資料、消費者興趣和行為模式,然後利用收集到的大數據來吸引新客戶。 但對於大規模的促銷和公關策劃,計費並不總是具有足夠的功能:該計劃必須同時考慮許多因素以及有關客戶的詳細資訊。

儘管有些人仍然認為大數據只是一句空話,但四大巨頭已經在利用它賺錢。 MTS 在六個月內透過大數據處理賺取了 14 億盧布,Tele2 的專案收入增加了三倍半。 大數據正在從趨勢變成必然,電信業者的整個架構將被重構。

來源: www.habr.com

添加評論