En 2008, le BigData était un nouveau terme et une tendance à la mode. En 2019, le BigData est devenu un objet commercial, une source de profit et un motif de nouvelle législation.
L'automne dernier, le gouvernement russe a prĂ©sentĂ© un projet de loi visant Ă rĂ©glementer le Big Data. Il est interdit d'identifier des personnes par des informations, mais cette identification est autorisĂ©e Ă la demande des agences fĂ©dĂ©rales. Le traitement de Big Data pour des tiers ne peut ĂȘtre effectuĂ© qu'aprĂšs notification au Roskomnadzor. La loi s'applique aux entreprises disposant de plus de 100 XNUMX adresses rĂ©seau. Et, bien sĂ»r, que serions-nous sans registres ? Il est proposĂ© d'en crĂ©er un avec une liste d'opĂ©rateurs de bases de donnĂ©es. Si auparavant le Big Data n'Ă©tait pas pris au sĂ©rieux par tous, il faudra dĂ©sormais en tenir compte.
En tant que directeur d'une société de développement de solutions de facturation qui traite ce BigData, je ne peux ignorer la base de données. Je vais aborder le Big Data à travers le prisme des opérateurs télécoms, dont les systÚmes de facturation font transiter quotidiennement des flux d'informations concernant des milliers d'abonnés.
ThéorÚme
Commençons par un problĂšme mathĂ©matique : dĂ©montrons d'abord que les donnĂ©es des opĂ©rateurs tĂ©lĂ©coms peuvent ĂȘtre qualifiĂ©es de BigDat. Le Big Data est gĂ©nĂ©ralement caractĂ©risĂ© par trois caractĂ©ristiques VVV, bien que dans les interprĂ©tations libres, le nombre de « V » atteigne sept.
Volume. Le MVNO de Rostelecom dessert à lui seul plus d'un million d'abonnés. Les principaux opérateurs hébergeurs traitent les données de 44 à 78 millions de personnes. Le trafic augmente chaque seconde : au premier trimestre 2019, les abonnés ont déjà surfé sur 3,3 milliards de Go depuis leurs téléphones portables.
Vitesse. Personne ne peut mieux vous renseigner sur la dynamique que les statistiques, je vais donc passer en revue les prévisions de Cisco. D'ici 2021, 20 % du trafic IP sera mobile ; ce trafic sera presque multiplié par trois en cinq ans. Un tiers des connexions mobiles seront M2M ; le développement de l'IoT entraßnera une multiplication par six du nombre de connexions. L'Internet des objets deviendra non seulement rentable, mais aussi un secteur gourmand en ressources, ce qui incitera certains opérateurs à s'y concentrer exclusivement. Ceux qui développeront l'IoT comme un service distinct recevront un trafic deux fois plus important.
VariĂ©tĂ©. La diversitĂ© est un concept subjectif, mais les opĂ©rateurs tĂ©lĂ©coms connaissent pratiquement tout de leurs abonnĂ©s : du nom et des informations de passeport au modĂšle de tĂ©lĂ©phone, en passant par les achats, les lieux visitĂ©s et les centres d'intĂ©rĂȘt. Les fichiers multimĂ©dias sont conservĂ©s six mois conformĂ©ment Ă la loi de Yarovaya. Partons donc du principe que les donnĂ©es collectĂ©es sont diverses.
Logiciel et méthodologie
Les fournisseurs sont parmi les principaux consommateurs de BigData ; la plupart des mĂ©thodes d'analyse du Big Data sont donc applicables au secteur des tĂ©lĂ©communications. Une autre question est de savoir qui est prĂȘt Ă investir dans le dĂ©veloppement du Machine Learning, de l'IA, du Deep Learning, ainsi que dans les centres de donnĂ©es et l'exploration de donnĂ©es. Travailler avec une base de donnĂ©es nĂ©cessite une infrastructure et une Ă©quipe, dont les coĂ»ts ne sont pas Ă la portĂ©e de tous. Les entreprises disposant dĂ©jĂ d'un stockage interne ou dĂ©veloppant une mĂ©thodologie de gouvernance des donnĂ©es devraient miser sur le BigData. Pour celles qui ne sont pas encore prĂȘtes Ă investir Ă long terme, je conseille de construire progressivement l'architecture logicielle et d'installer les composants un par un. Les modules lourds et Hadoop peuvent ĂȘtre laissĂ©s pour la fin. Rares sont ceux qui achĂštent une solution clĂ© en main pour des tĂąches telles que la qualitĂ© des donnĂ©es et l'exploration de donnĂ©es ; les entreprises adaptent gĂ©nĂ©ralement le systĂšme Ă leurs spĂ©cificitĂ©s et Ă leurs besoins, elles-mĂȘmes ou avec l'aide de dĂ©veloppeurs.
Mais toutes les facturations ne peuvent pas ĂȘtre modifiĂ©es pour fonctionner avec le BigData. Ou plutĂŽt, elles ne sont pas accessibles Ă tous. Rares sont ceux qui le peuvent.
Trois signes indiquant quâun systĂšme de facturation a une chance de devenir un outil de traitement de base de donnĂ©es :
- ĂvolutivitĂ© horizontale. Les logiciels doivent ĂȘtre flexibles â il s'agit de big data. L'augmentation du volume d'informations doit s'accompagner d'une augmentation proportionnelle du matĂ©riel du cluster.
- Tolérance aux pannes. Les systÚmes prépayés sérieux sont généralement tolérants aux pannes par défaut : la facturation est déployée dans un cluster réparti sur plusieurs sites afin qu'ils s'assurent automatiquement mutuellement. Le cluster Hadoop doit également disposer de suffisamment d'ordinateurs en cas de panne d'un ou plusieurs d'entre eux.
- LocalitĂ©. Les donnĂ©es doivent ĂȘtre stockĂ©es et traitĂ©es sur un seul site. serveurAutrement, le transfert de donnĂ©es peut s'avĂ©rer coĂ»teux. Une approche courante consiste Ă utiliser MapReduce : stockage HDFS et traitement par Spark. IdĂ©alement, le logiciel devrait s'intĂ©grer parfaitement Ă l'infrastructure du centre de donnĂ©es et remplir trois fonctions : collecter, organiser et analyser les informations.
Ăquipe
L'équipe décide de la nature, de la méthode et de l'objectif du traitement du Big Data par le programme. Elle se compose souvent d'une seule personne : un data scientist. Cependant, à mon avis, le package minimum d'employés pour le BigData comprend également un chef de produit, un ingénieur de données et un manager. Le premier comprend les services, traduit le langage technique en langage humain et inversement. L'ingénieur de données donne vie aux modÚles en Java/Scala et expérimente le Machine Learning. Le manager coordonne, fixe les objectifs et contrÎle les étapes.
ProblĂšmes
C'est généralement l'équipe BigData qui rencontre des difficultés pour collecter et traiter les données. Il est nécessaire d'expliquer au programme ce qu'il faut collecter et comment les traiter ; pour cela, il faut d'abord comprendre le fonctionnement. Et pour les fournisseurs, tout n'est pas si simple. Je vais vous présenter ces difficultés en prenant l'exemple de la réduction du taux de désabonnement : c'est précisément ce que les opérateurs télécoms cherchent à résoudre avec le BigData.
DĂ©finition des tĂąches. Une spĂ©cification technique bien rĂ©digĂ©e et une comprĂ©hension diffĂ©rente des termes sont un problĂšme rĂ©current, et pas seulement pour les freelances. MĂȘme les abonnĂ©s « abandonnĂ©s » peuvent ĂȘtre interprĂ©tĂ©s diffĂ©remment : ceux qui n'ont pas utilisĂ© les services de l'opĂ©rateur depuis un mois, six mois ou un an. Pour crĂ©er un MVP basĂ© sur des donnĂ©es historiques, il est nĂ©cessaire de comprendre la frĂ©quence de retour des abonnĂ©s sortants, c'est-Ă -dire ceux qui ont essayĂ© des connexions auprĂšs d'autres opĂ©rateurs ou qui ont quittĂ© la ville pour utiliser un autre numĂ©ro. Autre question importante : combien de temps avant le dĂ©part prĂ©vu d'un abonnĂ© le fournisseur doit-il dĂ©terminer ce dĂ©lai et agir ? Six mois, c'est trop tĂŽt, une semaine, c'est trop tard.
Substitution de concepts. Habituellement, les opérateurs identifient un client par son numéro de téléphone ; il est donc logique que les fonctionnalités soient téléchargées par ce dernier. Mais qu'en est-il du compte personnel ou du numéro de l'application de service ? Il est nécessaire de déterminer quelle unité considérer comme client afin que les données enregistrées dans le systÚme de l'opérateur soient identiques. L'évaluation de la valeur du client est également sujette à caution : quel abonné est le plus précieux pour l'entreprise, quel utilisateur nécessite davantage d'efforts de fidélisation, et lesquels « s'envoleront » de toute façon et pour lesquels il est inutile de consacrer des ressources.
Manque d'information. Tous les employĂ©s du fournisseur ne sont pas capables d'expliquer Ă l'Ă©quipe BigData ce qui influence prĂ©cisĂ©ment la perte d'abonnĂ©s et comment les facteurs possibles sont calculĂ©s dans la facturation. MĂȘme s'ils en citent un â l'ARPU â, il s'avĂšre qu'il peut ĂȘtre calculĂ© de diffĂ©rentes maniĂšres : soit par les paiements pĂ©riodiques du client, soit par des frais de facturation automatique. Et au fil du travail, un million d'autres questions se posent : le modĂšle couvre-t-il tous les clients ? Quel est le prix Ă payer pour fidĂ©liser un client ? Est-il judicieux d'envisager des modĂšles alternatifs ? Que faire des clients artificiellement fidĂ©lisĂ©s par erreur ?
Ătablissement d'objectifs. Je connais trois types dâerreurs liĂ©es aux rĂ©sultats qui frustrent les opĂ©rateurs avec la base de donnĂ©es.
- Le fournisseur investit dans le BigData, traite des gigaoctets d'informations, mais obtient un rĂ©sultat qui aurait pu ĂȘtre obtenu Ă moindre coĂ»t. Il utilise des schĂ©mas et des modĂšles simples, ainsi que des analyses primitives. Le coĂ»t est plusieurs fois supĂ©rieur, mais le rĂ©sultat est le mĂȘme.
- L'opérateur reçoit des données multiformes en sortie, mais ne sait pas comment les exploiter. L'analyse est là , claire et volumineuse, mais elle est dénuée de sens. Le résultat final n'est pas réfléchi et ne peut pas répondre à l'objectif de « traitement des données ». Le traitement ne suffit pas : l'analyse doit devenir la base de la mise à jour des processus métier.
- Des processus mĂ©tier obsolĂštes et des logiciels inadaptĂ©s aux nouvelles finalitĂ©s peuvent constituer un obstacle Ă l'utilisation de l'analyse BigData. Cela signifie que vous avez Ă©chouĂ© au stade de la prĂ©paration : vous n'avez pas rĂ©flĂ©chi Ă l'algorithme des actions et aux Ă©tapes de mise en Ćuvre du BigData.
Pourquoi
En parlant de rĂ©sultats, je vais passer en revue les mĂ©thodes dâutilisation et de monĂ©tisation du BigData que les opĂ©rateurs de tĂ©lĂ©communications utilisent dĂ©jĂ .
Les fournisseurs prévoient non seulement le flux sortant des abonnés, mais également les charges sur les stations de base.
- Les informations sur les mouvements, l'activité et les fréquences des abonnés sont analysées. Résultat : réduction du nombre de surcharges grùce à l'optimisation et à la modernisation des infrastructures problématiques.
- Les opérateurs télécoms utilisent les informations de géolocalisation des abonnés et de densité de trafic lors de l'ouverture de points de vente. Ainsi, l'analyse BigData est déjà utilisée par MTS et VimpelCom pour planifier l'implantation de nouveaux bureaux.
- Les fournisseurs monétisent leurs propres Big Data en les proposant à des entreprises tierces. Les principaux clients des opérateurs BigData sont les banques commerciales. Grùce à la base de données, ils suivent les activités suspectes sur la carte SIM de l'abonné, à laquelle les cartes sont liées, et utilisent des services de notation des risques, de vérification et de surveillance. En 2017, le gouvernement de Moscou a demandé à Tele2 d'analyser la dynamique des mouvements basée sur le BigData pour la planification des infrastructures techniques et de transport.
- L'analyse BigData est une mine d'or pour les marketeurs, qui peuvent crĂ©er des campagnes publicitaires personnalisĂ©es pour des milliers de groupes d'abonnĂ©s s'ils le souhaitent. Les opĂ©rateurs tĂ©lĂ©coms agrĂšgent les profils sociaux, les centres d'intĂ©rĂȘt et les modĂšles comportementaux des abonnĂ©s, puis exploitent les BigData collectĂ©es pour attirer de nouveaux clients. Cependant, pour la promotion et la planification des relations publiques Ă grande Ă©chelle, la facturation n'offre pas toujours les fonctionnalitĂ©s nĂ©cessaires : le programme doit prendre en compte simultanĂ©ment de nombreux facteurs, en plus d'informations dĂ©taillĂ©es sur les clients.
Si certains considÚrent encore le Big Data comme un vain mot, les « Big Four » en tirent déjà profit. MTS a engrangé 14 milliards de roubles en six mois grùce au traitement du Big Data, et Tele2 a multiplié par trois et demi son chiffre d'affaires issu de projets. Le Big Data, autrefois tendance, devient un incontournable, qui va restructurer toute la structure des opérateurs télécoms.
Source: habr.com
