Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Mir liewen an enger erstaunlecher Zäit, wou Dir séier an einfach verschidde fäerdeg Open-Source Tools kënnt verbannen, se mat Ärem "Bewosstsinn ausgeschalt" opbauen no de Rotschléi vum Stackoverflow, ouni an de "Multiple Buschtawen" ze verdéiwen, a starten se an kommerziell Operatioun. A wann Dir musst aktualiséieren / ausbauen oder een zoufälleg e puer Maschinnen nei start - Dir mierkt datt eng Aart vun obsessive schlechten Dram an der Realitéit ugefaang huet, alles ass op eemol méi komplizéiert ginn onerkennlech, et gëtt kee Réckwee, d'Zukunft ass vague a méi sécher, amplaz programméiere, Rassendiskriminéierung Bienen an do Kéis.

Et ass net fir näischt, datt méi erfuerene Kollegen, mat de Käpp mat Käfere gesträift an dofir scho gro, iwwerdenken déi onheemlech séier Ofbau vu Packen vu "Container" a "Cubes" op Dosende vu Serveren a "fashionable Sproochen" mat agebauter Ënnerstëtzung fir asynchrone net-blockéierend I / O, lächelt bescheiden. A si weider roueg weider "Mann ps" ze liesen, an de "nginx" Quellcode ze verdéiwen, bis hir Ae bléien, a schreiwen, schreiwen, schreiwen Eenheetstester. D'Kollege wëssen, datt déi interessantst Saach wäert kommen, wann "all dëst" enges Daags an der Nuecht op Silvester gesat gëtt. A si wäerten nëmmen gehollef ginn duerch en déiwe Verständnis vun der Natur vun Unix, der memoriséierter TCP / IP Staatstabell a Basis Sortéierungs-Sich Algorithmen. Fir de System erëm an d'Liewen ze bréngen wéi d'Kimmer schloen.

Oh jo, ech sinn e bëssen ofgelenkt ginn, awer ech hoffen, datt ech et fäerdeg bruecht hunn den Zoustand vun der Erwaardung ze vermëttelen.
Haut wëll ech eis Erfahrung deelen fir e prakteschen a preiswerte Stack fir DataLake z'installéieren, deen d'Majoritéit vun analyteschen Aufgaben an der Firma fir komplett verschidde strukturell Divisiounen léist.

Virun enger Zäit hu mir zum Verständnis komm datt d'Betriber ëmmer méi d'Früchte vu Produkt- an technescher Analyse brauchen (net ze schwätzen iwwer de Glace op de Kuch a Form vu Maschinnléieren) a fir Trends a Risiken ze verstoen - mir mussen sammelen an analyséieren ëmmer méi Metriken.

Basis technesch Analyse an Bitrix24

Virun e puer Joer, gläichzäiteg mam Start vum Bitrix24 Service, hu mir aktiv Zäit a Ressourcen investéiert fir eng einfach an zouverléisseg analytesch Plattform ze kreéieren déi hëlleft séier Probleemer an der Infrastruktur ze gesinn an de nächste Schrëtt ze plangen. Natierlech war et unzeroden fäerdege Tools ze huelen déi sou einfach a verständlech wéi méiglech waren. Als Resultat gouf nagios fir Iwwerwaachung gewielt a munin fir Analyse a Visualiséierung. Elo hu mir Dausende vu Schecken an Nagios, Honnerte vun Charts zu Munin, an eis Kollegen benotzen se all Dag erfollegräich. D'Metriken si kloer, d'Grafike si kloer, de System fonctionnéiert zanter e puer Joer zouverlässeg an nei Tester a Grafike ginn reegelméisseg derbäi: wa mir en neie Service a Betrib setzen, fügen mir verschidden Tester a Grafike derbäi. Vill Gléck.

Fanger op de Puls - Advanced Technical Analytics

De Wonsch Informatioun iwwer Probleemer "sou séier wéi méiglech" ze kréien huet eis zu aktiven Experimenter mat einfachen a verständleche Tools gefouert - Pinba an Xhprof.

Pinba huet eis Statistiken an UDP Pakete geschéckt iwwer d'Geschwindegkeet vun der Operatioun vun Deeler vu Websäiten am PHP, a mir konnten online an der MySQL-Speicherung gesinn (Pinba kënnt mat sengem eegene MySQL-Motor fir séier Eventanalyse) eng kuerz Lëscht vu Probleemer a reagéiert op hinnen. An xhprof erlaabt eis automatesch Grafike vun der Ausféierung vun de luesste PHP Säiten vu Clienten ze sammelen an ze analyséieren wat dozou féieren kéint - roueg, Téi schëdden oder eppes méi staark.

Virun enger Zäit gouf d'Toolkit mat engem aneren zimlech einfachen a verständleche Motor ersat op Basis vum ëmgedréint Indexéierungs Algorithmus, perfekt implementéiert an der legendärer Lucene Bibliothéik - Elastic/Kibana. Déi einfach Iddi vu Multi-threaded Opzeechnung vun Dokumenter an en inverse Lucene Index baséiert op Eventer an de Logbicher an eng séier Sich duerch si mat Facetten Divisioun huet sech als wierklech nëtzlech gewisen.

Trotz der éischter technescher Erscheinung vu Visualiséierungen zu Kibana mat nidderegen Niveau Konzepter wéi "Eemere" "fléisst no uewen" an der nei erfonnt Sprooch vun der nach net komplett vergiessene relationaler Algebra, huet d'Tool ugefaang eis gutt an de folgenden Aufgaben ze hëllefen:

  • Wéi vill PHP Feeler huet de Bitrix24 Client an der leschter Stonn um p1 Portal a wéi eng? Verstinn, verzeien a séier korrekt.
  • Wéi vill Videouriff goufen an de leschte 24 Stonnen op Portalen an Däitschland gemaach, mat wéi enger Qualitéit a goufen et Schwieregkeeten mam Kanal/Netz?
  • Wéi gutt funktionéiert d'Systemfunktionalitéit (eis C Extensioun fir PHP), aus der Quell am leschte Serviceaktualiséierung kompiléiert an un d'Clienten ausgerullt, funktionnéiert? Ginn et Segfaults?
  • Passt Clientdaten an PHP Erënnerung? Ginn et Feeler iwwer d'Iwwerschreiden vun der Erënnerung, déi u Prozesser zougewisen ass: "aus Erënnerung"? Fannen an neutraliséieren.

Hei e konkret Beispill. Trotz grëndlechen a Multi-Level Testen, krut de Client, mat engem ganz net-Standard Fall a beschiedegten Inputdaten, en lästeg an onerwaart Feeler, eng Sirene kléngt an de Prozess fir séier ze fixéieren huet ugefaang:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Zousätzlech, Kibana erlaabt Iech Notifikatiounen fir spezifizéierter Evenementer ze organiséieren, a kuerzer Zäit d'Instrument an der Firma ugefaang vun Dosende vu Mataarbechter aus verschiddenen Departementer benotzt ginn - vun technesch Ënnerstëtzung an Entwécklung ze QA.

D'Aktivitéit vun all Departement bannent der Firma ass bequem ginn ze verfolgen an ze moossen - amplaz manuell Logbicher op Serveren ze analyséieren, musst Dir just eng Kéier Parsing-Logbicher opstellen an se an den elastesche Cluster schécken fir ze genéissen, zum Beispill, an der Kibana ze iwwerdenken. Dashboard d'Zuel vun de verkaaften zwee-Kapp Kitten op 3-D Drécker gedréckt fir de leschte Moundmonat.

Basis Business Analytics

Jidderee weess datt d'Geschäftsanalyse an de Firmen dacks mat extrem aktive Gebrauch vun, jo, Excel ufänkt. Mä den Haapt Saach ass, datt et net do Enn. Cloud-baséiert Google Analytics füügt och Brennstoff un d'Feier - Dir fänkt séier un déi gutt Saache gewinnt ze ginn.

An eiser harmonesch entwéckelt Firma, hunn hei an do "Prophéiten" vun méi intensiv Aarbecht mat gréisseren Donnéeën ugefaang ze erschéngen. De Besoin fir méi am-Déift a villsäiteger Berichter ugefaang regelméisseg ze erschéngen, an duerch d'Efforte vun Kärelen aus verschiddenen Departementer, virun enger Zäit eng einfach a praktesch Léisung war organiséiert - eng Kombinatioun vun ClickHouse an PowerBI.

Zënter enger laanger Zäit huet dës flexibel Léisung vill gehollef, awer lues a lues huet d'Verständnis ugefaang ze kommen datt ClickHouse kee Gummi ass an net esou gespott ka ginn.

Hei ass et wichteg gutt ze verstoen datt ClickHouse, wéi Druid, wéi Vertica, wéi Amazon RedShift (déi op Postgres baséiert), analytesch Motore sinn optimiséiert fir zimlech praktesch Analyse (Zommen, Aggregatiounen, Minimum-maximal per Kolonn an e puer méiglech Joints) ), well organiséiert fir effizient Späichere vu Saile vu relationalen Dëscher, am Géigesaz zu MySQL an aner (reiorientéiert) Datenbanken déi eis bekannt sinn.

Am Wesentlechen ass ClickHouse just eng méi capacious "Datebank", mat net ganz praktesch Punkt-fir-Punkt Insertion (dat ass wéi et geduecht ass, alles ass ok), awer agreabel Analyse an eng Rei vun interessanten mächtege Funktiounen fir mat Daten ze schaffen. Jo, Dir kënnt souguer e Stärekoup kreéieren - awer Dir verstitt datt d'Hammern vun den Nägel mat engem Mikroskop net ganz korrekt ass a mir hunn ugefaang no aner Léisungen ze sichen.

Nofro fir Python an Analysten

Eis Firma huet vill Entwéckler déi Code bal all Dag fir 10-20 Joer schreiwen an PHP, JavaScript, C#, C/C++, Java, Go, Rust, Python, Bash. Et ginn och vill erfuerene Systemadministrateuren, déi méi wéi eng absolut onheemlech Katastroph erlieft hunn, déi net an d'Gesetzer vun der Statistik passt (zum Beispill, wann d'Majoritéit vun Disken an engem Razzia-10 duerch e staarke Blëtz zerstéiert ginn). An esou Ëmstänn, fir eng laang Zäit war et net kloer wat e "Python Analyst" ass. Python ass wéi PHP, nëmmen den Numm ass e bësse méi laang an et ginn e bësse manner Spure vu Geescht-verännerende Substanzen am Quellcode vum Dolmetscher. Wéi och ëmmer, wéi ëmmer méi analytesch Berichter erstallt goufen, hunn erfuerene Entwéckler ugefaang d'Wichtegkeet vun der schmueler Spezialisatioun an Tools wéi numpy, pandas, matplotlib, seaborn ëmmer méi ze verstoen.
Déi entscheedend Roll, héchstwahrscheinlech, gouf vun der plötzlecher Schwächung vun de Mataarbechter duerch d'Kombinatioun vun de Wierder "Logistesch Regressioun" an der Demonstratioun vun der effektiver Berichterstattung iwwer grouss Donnéeën mat, jo, jo, Pyspark gespillt.

Apache Spark, säi funktionnelle Paradigma, op deem d'relational Algebra perfekt passt, a seng Fäegkeeten hunn esou en Androck op MySQL gewinnt Entwéckler gemaach, datt d'Bedierfnes fir d'Ränge mat erfuerene Analysten ze stäerken wéi den Dag kloer gouf.

Weider Versuche vum Apache Spark / Hadoop fir ofzegoen a wat net ganz no dem Skript gaang ass

Wéi och ëmmer, et gouf séier kloer datt eppes systemesch net ganz richteg mam Spark war, oder et war einfach néideg d'Hänn besser ze wäschen. Wann den Hadoop/MapReduce/Lucene Stack vun zimlech erfuerene Programméierer gemaach gouf, wat selbstverständlech ass wann Dir de Quellcode am Java oder dem Doug Cutting seng Iddien am Lucene genau kuckt, da gëtt Spark op eemol an der exotesch Sprooch Scala geschriwwen, wat ass ganz kontrovers aus der Siicht vun der Praktikitéit an ass am Moment net entwéckelt. An déi reegelméisseg Ofsenkung vun de Berechnungen op de Spark-Cluster wéinst illogescher an net ganz transparenter Aarbecht mat Erënnerungsallokatioun fir Operatiounen ze reduzéieren (vill Schlësselen kommen op eemol) huet en Halo ronderëm vun eppes erstallt wat Plaz huet fir ze wuessen. Zousätzlech gouf d'Situatioun verschäerft duerch eng grouss Zuel vu komeschen oppenen Ports, temporäre Dateien, déi op den onverständlechste Plazen wuessen an eng Häll vu Jar Ofhängegkeeten - wat d'Systemadministrateuren e Gefill hunn, dat aus der Kandheet bekannt war: heften Haass (oder vläicht si hu missen hir Hänn mat Seef wäschen).

Als Resultat hu mir e puer intern analytesch Projeten "iwwerlieft", déi aktiv Apache Spark benotzen (inklusiv Spark Streaming, Spark SQL) an den Hadoop Ökosystem (a sou weider a sou weider). Trotz der Tatsaach, datt mir mat der Zäit geléiert hunn "et" ganz gutt virzebereeden an ze iwwerwaachen, an "et" praktesch gestoppt plötzlech ofbriechen wéinst Ännerungen an der Natur vun den Donnéeën an dem Ungleichgewicht vun der eenheetlecher RDD-Hashing, de Wonsch eppes scho prett ze huelen , aktualiséiert a verwalt iergendwou an der Wollek ëmmer méi staark ginn. Et war zu dëser Zäit datt mir probéiert hunn déi fäerdeg Cloud Assemblée vun Amazon Web Services ze benotzen - EMR an, duerno, probéiert Problemer ze léisen benotzt et. EMR ass Apache Spark virbereet vun Amazon mat zousätzlech Software aus dem Ökosystem, sou wéi Cloudera / Hortonworks baut.

Gummi Dateilagerung fir Analyse ass en dréngende Bedierfnes

D'Erfahrung vum "Kachen" Hadoop / Spark mat Verbrennunge fir verschidden Deeler vum Kierper war net ëmsoss. De Besoin fir eng eenzeg, preiswert an zouverlässeg Dateilagerung ze kreéieren déi resistent wier géint Hardwarefehler an an där et méiglech wier Dateien a verschiddene Formater vu verschiddene Systemer ze späicheren an effizient an Zäiteffizient Proben fir Berichter aus dësen Donnéeën ze maachen ass ëmmer méi kloer.

Ech wollt och datt d'Aktualiséierung vun der Software vun dëser Plattform net zu engem Neie Joer Albtraum ëmgewandelt huet mat 20-Säit Java Spuren ze liesen an Kilometer laang detailléiert Logbicher vum Cluster mat Spark History Server an engem Backlit Lupe ze analyséieren. Ech wollt en einfachen an transparenten Tool hunn deen net regelméisseg Tauchen ënner der Hood erfuerdert, wann d'Entwéckler Standard MapReduce Ufro gestoppt auszeféieren wann de Reduktiounsdatenaarbechter aus der Erënnerung gefall ass wéinst engem net ganz gutt gewielte Quelldatenpartitionalgorithmus.

Ass Amazon S3 e Kandidat fir DataLake?

D'Erfahrung mat Hadoop/MapReduce huet eis geléiert datt mir e skalierbare, zouverléissege Dateiesystem an skalierbaren Aarbechter op der Spëtzt brauchen, "kommen" méi no un d'Donnéeën fir d'Donnéeën net iwwer d'Netz ze fueren. D'Aarbechter solle fäeg sinn Daten a verschiddene Formater ze liesen, awer am léifsten net onnéideg Informatioun ze liesen a fäeg sinn Daten am Viraus a Formater ze späicheren, déi fir d'Aarbechter bequem sinn.

Nach eng Kéier d'Grondidee. Et gëtt kee Wonsch grouss Daten an een eenzegen Cluster analytesche Motor ze "goen", dee fréier oder spéider erstéckt an Dir musst et ellen zerstéieren. Ech wëll Dateien, just Dateien, an engem verständleche Format späicheren an effektiv analytesch Ufroen dorop ausféieren mat verschiddenen awer verständlechen Tools. An et ginn ëmmer méi Dateien a verschiddene Formater. An et ass besser net de Motor ze schneiden, awer d'Quelldaten. Mir brauchen en erweiderbaren an universellen DataLake, hu mir decidéiert ...

Wat wann Dir Dateien an der vertrauter a bekannter skalierbarer Cloud Storage Amazon S3 späichert, ouni datt Dir Är eege Kottletten aus Hadoop preparéiert?

Et ass kloer datt d'perséinlech Donnéeën "niddereg" sinn, awer wéi ass et mat aner Donnéeën wa mir se dohinner huelen an se "effektiv féieren"?

Cluster-bigdata-analytics-Ökosystem vun Amazon Web Services - a ganz einfache Wierder

No eiser Erfahrung mat AWS ze beurteelen, gëtt Apache Hadoop/MapReduce do zënter laangem aktiv ënner verschiddenen Zoossen benotzt, zum Beispill am DataPipeline Service (ech beneiden meng Kollegen, si hu geléiert wéi se se richteg virbereeden). Hei setze mir Backups vu verschiddene Servicer aus DynamoDB Dëscher op:
Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

A si lafe regelméisseg op embedded Hadoop / MapReduce Cluster wéi Clockwork fir e puer Joer elo. "Set et a vergiess et":

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Dir kënnt och effektiv am Datesatanismus engagéieren andeems Dir Jupiter Laptops an der Wollek fir Analysten opstellt an den AWS SageMaker Service benotzt fir AI Modeller an d'Schluecht ze trainéieren an z'installéieren. Hei ass wéi et fir eis ausgesäit:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

A jo, Dir kënnt e Laptop fir Iech selwer oder en Analyst an der Wollek ophuelen an en an en Hadoop/Spark-Cluster befestigen, d'Berechnungen maachen an dann alles erofsetzen:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Wierklech praktesch fir eenzel analytesch Projeten a fir e puer hu mir erfollegräich den EMR Service fir grouss Berechnungen an Analyse benotzt. Wat iwwer eng Systemléisung fir DataLake, funktionnéiert et? Zu dësem Moment ware mir um Rand vun Hoffnung a Verzweiflung an hunn d'Sich weidergefouert.

AWS Glue - ordentlech verpackt Apache Spark op Steroiden

Et huet sech erausgestallt datt AWS seng eege Versioun vum "Hive / Pig / Spark" Stack huet. D'Roll vum Hive, d.h. De Katalog vu Dateien an hiren Typen am DataLake gëtt vum Service "Data Katalog" gemaach, deen seng Kompatibilitéit mam Apache Hive Format net verstoppt. Dir musst Informatiounen zu dësem Service addéieren iwwer wou Är Dateie sinn an a wéi engem Format se sinn. D'Donnéeë kënnen net nëmmen am s3 sinn, awer och an der Datebank, awer dat ass net de Sujet vun dësem Post. Hei ass wéi eisen DataLake Dateverzeichnis organiséiert ass:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

D'Dateien sinn registréiert, super. Wann d'Fichier'en aktualiséiert goufen, lancéiere mir Crawler entweder manuell oder op engem Zäitplang, déi Informatioun iwwer si vum Séi aktualiséieren an se späicheren. Da kënnen d'Donnéeë vum Séi veraarbecht ginn an d'Resultater iergendwou eropgeluede ginn. Am einfachste Fall lued mir och op s3 erop. D'Dateveraarbechtung kann iwwerall gemaach ginn, awer et gëtt virgeschloen datt Dir d'Veraarbechtung op engem Apache Spark Cluster konfiguréiert mat fortgeschratt Fäegkeeten duerch den AWS Glue API. Tatsächlech kënnt Dir de gudden alen a vertraute Pythoncode mat der Pyspark-Bibliothéik huelen a seng Ausféierung op N Wirbelen vun engem Cluster vun enger Kapazitéit mat Iwwerwaachung konfiguréieren, ouni an den Darm vun Hadoop ze graven an Docker-Moker Container ze zéien an Ofhängegkeetskonflikter ze eliminéieren .

Nach eng Kéier eng einfach Iddi. Et gëtt kee Besoin fir Apache Spark ze konfiguréieren, Dir musst just Python Code fir Pyspark schreiwen, et lokal op Ärem Desktop testen an dann op e grousse Cluster an der Wollek lafen, spezifizéieren wou d'Quelldaten sinn a wou d'Resultat ze setzen. Heiansdo ass dëst néideg an nëtzlech, an hei ass wéi mir et ageriicht hunn:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Also, wann Dir eppes op engem Spark Stärekoup mat Daten am s3 ausrechne musst, schreiwen mir Code am Python / Pyspark, testen et a Vill Gléck fir d'Wollek.

Wat iwwer d'Orchesteréierung? Wat wann d'Aufgab gefall a verschwonnen ass? Jo, et gëtt proposéiert eng schéi Pipeline am Apache Pig-Stil ze maachen a mir hu se souguer probéiert, awer fir de Moment hu mir beschloss eis déif personaliséiert Orchestratioun an PHP a JavaScript ze benotzen (ech verstinn, et gëtt kognitiv Dissonanz, awer et funktionnéiert, fir Joer an ouni Feeler).

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

D'Format vun de Dateien, déi am Séi gespäichert sinn, ass de Schlëssel fir d'Leeschtung

Et ass ganz, ganz wichteg zwee méi Schlësselpunkte ze verstoen. Fir Ufroen iwwer Dateidaten am Séi sou séier wéi méiglech auszeféieren an d'Performance net ze degradéieren wann nei Informatioun dobäigesat gëtt, musst Dir:

  • Späichere Spalten vun Dateien getrennt (sou datt Dir net all d'Zeilen liesen musst fir ze verstoen wat an de Spalten ass). Fir dëst hu mir de Parkettformat mat Kompressioun geholl
  • Et ass ganz wichteg fir Dateien an Ordner ze schneiden wéi: Sprooch, Joer, Mount, Dag, Woch. Motoren, déi dës Zort vu Sharding verstoen, kucken nëmmen op déi néideg Ordner, ouni all d'Donnéeën an enger Zeil ze sëtzen.

Am Wesentlechen, op dës Manéier, leet Dir d'Quelldaten an der effizienter Form fir d'analytesch Motoren uewen hänke gelooss, déi och a geschniddene Classeure selektiv nëmmen déi néideg Kolonnen aus Dateien aginn an liesen. Dir musst d'Donnéeën net iwwerall "ausfëllen" (d'Späichere wäert einfach platzen) - just direkt an de Dateiesystem an de richtege Format setzen. Natierlech sollt et hei kloer sinn datt eng rieseg Csv-Datei an DataLake ze späicheren, déi als éischt Zeil fir Zeil vum Cluster gelies muss ginn fir d'Kolonn ze extrahieren, ass net ganz ubruecht. Denkt nach eng Kéier un déi uewe genannte Punkten wann et nach net kloer ass firwat dat alles geschitt.

AWS Athena - de Jack-an-der-Box

An dann, beim Schafe vun engem Séi, si mir iergendwéi zoufälleg op Amazon Athena komm. Op eemol huet sech erausgestallt, datt Dir, andeems Dir eis rieseg Logdateien suergfälteg an Ordnerschnitt am korrekten (Parquet)kolonneformat arrangéiert, ganz séier extrem informativ Selektiounen dovunner maache kënnt a Berichter OUNI bauen, ouni Apache Spark/Glue Cluster.

Den Athena Motor ugedriwwen duerch Daten am s3 baséiert op der legendärer Presto - e Vertrieder vun der MPP (Massive Parallel Veraarbechtung) Famill vun Approche fir Datenveraarbechtung, hëlt Daten wou se läit, vu s3 an Hadoop bis Cassandra a gewéinlech Textdateien. Dir musst just Athena froen fir eng SQL Ufro auszeféieren, an da funktionnéiert alles séier an automatesch. Et ass wichteg ze bemierken datt Athena "Smart" ass, et geet nëmmen an déi néideg sharded Classeure a liest nëmmen déi Spalten déi an der Ufro gebraucht ginn.

D'Präisser fir Ufroen un Athena sinn och interessant. Mir bezuelen fir Volume vun gescannt Donnéeën. Déi. net fir d'Zuel vun de Maschinnen am Stärekoup pro Minutt, mee ... fir d'Donnéeën déi tatsächlech op 100-500 Maschinnen gescannt sinn, nëmmen déi néideg Donnéeën fir d'Ufro ofzeschléissen.

A andeems se nëmmen déi néideg Sailen aus korrekt zerstéierten Ordner ufroen, huet sech erausgestallt datt den Athena Service eis zéng Dollar pro Mount kascht. Gutt, super, bal gratis, am Verglach mat Analysen op Cluster!

Iwwregens, hei ass wéi mir eis Donnéeën am s3 schneiden:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Als Resultat, a kuerzer Zäit, komplett verschidden Departementer an der Firma, vun Informatiounssécherheet bis Analytik, ugefaang aktiv Ufroen un Athena ze maachen a séier a Sekonnen nëtzlech Äntwerten aus "grouss" Daten iwwer zimlech laang Perioden ze kréien: Méint, en halleft Joer, etc. P.

Awer mir sinn méi wäit gaang an hunn ugefaang an d'Wollek ze goen fir Äntwerten iwwer ODBC Chauffer: en Analyst schreift eng SQL Ufro an enger vertrauter Konsol, déi op 100-500 Maschinnen "fir Pennys" Daten op s3 schéckt an eng Äntwert normalerweis an e puer Sekonnen zréckginn. Gemittlech. A séier. Ech kann et nach ëmmer net gleewen.

Als Resultat, hu mir décidéiert Daten am s3 ze späicheren, an engem effizienten Kolumnformat a mat raisonnabelen Schnëtt vun Daten an Ordner ... mir kruten DataLake an e séieren a bëllegen analytesche Motor - gratis. An hie gouf ganz populär an der Firma, well ... versteet SQL a schafft Uerderen vun der Gréisst méi séier wéi duerch Start / Stoppen / Cluster opzestellen. "A wann d'Resultat d'selwecht ass, firwat méi bezuelen?"

Eng Demande un d'Athena gesäit sou eppes aus. Wann Dir wëllt, kënnt Dir natierlech genuch bilden komplex a Multi-Säit SQL Ufro, mä mir wäerten eis op einfach Gruppéierung limitéieren. Loosst eis kucken wéi eng Äntwertcoden de Client virun e puer Wochen an de Webserver Logbicher hat a gitt sécher datt et keng Feeler gëtt:

Wéi mir en héich effizienten a preiswerten DataLake organiséiert hunn a firwat dat esou ass

Conclusiounen

Nodeems mir duerch, net fir e laangen, awer schmerzhafte Wee ze soen, dauernd adäquat d'Risiken an d'Komplexitéitsniveau an d'Käschte vun der Ënnerstëtzung beurteelen, hu mir eng Léisung fir DataLake an Analyse fonnt, déi ni ophält eis mat Geschwindegkeet a Käschten vum Besëtz ze gefalen.

Et huet sech erausgestallt datt de Bau vun engem effektiven, séieren a bëllegen DataLake fir d'Bedierfnesser vu komplett verschiddenen Departementer vun der Firma komplett an de Fäegkeete vu souguer erfuerene Entwéckler ass, déi ni als Architekt geschafft hunn an net wësse wéi Quadrate op Quadraten ze zéien. Pfeile a kennen 50 Begrëffer aus dem Hadoop-Ökosystem.

Um Ufank vun der Rees war mäi Kapp vun de ville wilde Zooss vun oppen an zougemaach Software an d'Versteesdemech vun der Belaaschtung vun Verantwortung fir Nokommen opzedeelen. Fänkt just un Ären DataLake aus einfachen Tools ze bauen: nagios / munin -> elastesch / kibana -> Hadoop / Spark / s3 ..., Feedback sammelen an d'Physik vun de Prozesser déi stattfannen déif verstoen. Alles komplex an düster - gitt et fir Feinde a Konkurrenten.

Wann Dir net wëllt an d'Wollek goen a gär Open-Source Projeten ënnerstëtzen, aktualiséieren an patchen, kënnt Dir e Schema ähnlech wéi eis lokal bauen, op preiswerte Büromaschinne mat Hadoop a Presto uewen. Den Haapt Saach ass net ze stoppen an no vir ze goen, ze zielen, no einfachen a kloere Léisungen ze sichen, an alles wäert definitiv erausgoen! Vill Gléck fir jiddereen a bis erëm!

Source: will.com

Setzt e Commentaire