Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

De modernen Web ass bal ondenkbar ouni Medieninhalt: bal all Groussmamm huet e Smartphone, jiddereen ass op sozialen Netzwierker, an Ënnerhaltzäit ass deier fir Firmen. Hei ass en Transkript vun der Geschicht vun der Firma Badoo iwwer wéi si d'Liwwerung vu Fotoen mat enger Hardware-Léisung organiséiert huet, wéi eng Leeschtungsproblemer si am Prozess begéint hunn, wat se verursaacht huet a wéi dës Probleemer mat enger Softwareléisung baséiert op Nginx geléist goufen, wärend Fehlertoleranz op allen Niveauen assuréiert (видео). Mir soen den Auteuren vun der Geschicht vum Oleg Merci Sannis Efimova an Alexandra Dymova, déi hir Erfahrung op der Konferenz gedeelt hunn Uptime Dag 4.

- Loosst eis mat enger klenger Aféierung ufänken iwwer wéi mir Fotoen späicheren an cacheieren. Mir hunn eng Schicht wou mir se späicheren, an eng Schicht wou mir d'Fotoen cache loossen. Zur selwechter Zäit, wa mir en héije Trickrate wëllen erreechen an d'Laascht op d'Späichere reduzéieren, ass et wichteg fir eis datt all Foto vun engem individuellen Benotzer op engem Caching-Server ass. Soss musse mir sou vill Mol méi Disken installéieren wéi mir méi Server hunn. Eis Trickquote läit bei ronn 99%, dat heescht, mir reduzéieren d'Laascht op eise Stockage ëm 100 Mol, a fir dat ze maachen, virun 10 Joer, wéi dat alles gebaut gouf, hate mir 50 Server. Deementspriechend, fir dës Fotoen ze déngen, brauche mir am Wesentlechen 50 extern Domainen déi dës Server servéieren.

Natierlech ass d'Fro direkt gestallt: Wann ee vun eise Serveren erof geet an net verfügbar ass, wéi en Deel vum Traffic verléiere mir? Mir hunn gekuckt wat um Maart war an hu beschloss e Stéck Hardware ze kafen fir datt et all eis Probleemer léist. De Choix ass op d'Léisung vun der F5-Netzwierkfirma gefall (déi iwwregens viru kuerzem NGINX, Inc kaaft huet): BIG-IP Local Traffic Manager.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Wat dëst Stéck Hardware (LTM) mécht: et ass en Eisenrouter deen Eisenredundanz vu sengen externen Häfen mécht an Iech erlaabt de Traffic op Basis vun der Netztopologie, op e puer Astellungen ze routen, a mécht Gesondheetskontrollen. Et war eis wichteg datt dëst Stéck Hardware programméiert ka ginn. Deementspriechend kéinte mir d'Logik beschreiwen wéi Fotoe vun engem spezifesche Benotzer aus engem spezifesche Cache zerwéiert goufen. Wéi gesäit et aus? Et gëtt e Stéck Hardware dat den Internet op engem Domain kuckt, eng IP, ssl offload mécht, http-Ufroen parséiert, eng Cache-Nummer aus IRule auswielt, wou se goen, a léisst de Verkéier dohinner goen. Zur selwechter Zäit mécht et Gesondheetsprüfungen, an am Fall wou eng Maschinn net verfügbar ass, hu mir et zu där Zäit gemaach datt de Traffic op ee Backupserver gaang ass. Aus enger Konfiguratiounssiicht sinn et natierlech e puer Nuancen, awer am Allgemengen ass alles ganz einfach: mir registréieren eng Kaart, Korrespondenz vun enger bestëmmter Zuel op eis IP am Netz, mir soen datt mir op Ports 80 lauschteren an 443, mir soen, datt wann de Server net disponibel ass, da musst Dir Verkéier op de Backupsatellit schécken, an dësem Fall 35., a mir beschreiwen eng Rëtsch vun Logik op wéi dës Architektur ofgebaut ginn soll. Deen eenzege Problem war datt d'Sprooch an där d'Hardware programméiert war Tcl. Wann iergendeen sech dat iwwerhaapt erënnert ... dës Sprooch ass méi schrëftlech wéi eng Sprooch praktesch fir ze programméieren:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Wat hu mir kritt? Mir kruten e Stéck Hardware dat eng héich Disponibilitéit vun eiser Infrastruktur garantéiert, all eise Traffic routes, Gesondheetsvirdeeler ubitt a just funktionnéiert. Desweideren, et fonctionnéiert ganz laang: an de leschten 10 Joer gouf et keng Reklamatiounen doriwwer. Bis Ufank 2018 hu mir scho ronn 80k Fotoen pro Sekonn geschéckt. Dëst ass iergendwou ongeféier 80 Gigabit Traffic vu béide vun eisen Datenzenteren.

Awer ...

Ugangs 2018 hu mir en ellent Bild an den Charts gesinn: D'Zäit, déi et gedauert huet fir Fotoen ze schécken, war kloer eropgaang. An et huet eis gestoppt. De Problem ass, datt dëst Verhalen nëmme während der Spëtzt vum Verkéier ze gesinn ass - fir eis Firma ass dëst d'Nuecht vu Sonndeg op Méindeg. Awer de Rescht vun der Zäit huet de System sech wéi gewinnt behuelen, keng Unzeeche vun Echec.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Trotzdem huet de Problem misst geléist ginn. Mir hunn méiglech Flaschenhals identifizéiert an ugefaang se ze eliminéieren. Als éischt hu mir natierlech extern Uplinks erweidert, e komplette Audit vun internen Uplinks gemaach an all méiglech Flaschenhals fonnt. Mä all dëst huet net e kloert Resultat ginn, de Problem ass net verschwannen.

En anere méigleche Flaschenhals war d'Performance vun de Fotocache selwer. A mir hunn décidéiert datt vläicht de Problem mat hinnen läit. Gutt, mir hunn d'Performance erweidert - haaptsächlech Netzwierkporten op Fotocaches. Awer erëm gouf keng offensichtlech Verbesserung gesinn. Um Enn hu mir d'Performance vum LTM selwer opmierksam gemaach, an hei hu mir e traureg Bild op de Grafike gesinn: d'Laascht op all CPUs fänkt un glat ze goen, awer kënnt dann op eemol op e Plateau. Zur selwechter Zäit stoppt LTM adäquat op Gesondheetskontrollen an Uplinks ze reagéieren a fänkt se zoufälleg auszeschalten, wat zu enger seriöer Leeschtungsverschlechterung féiert.

Dat ass, mir hunn d'Quell vum Problem identifizéiert, de Flaschenhals identifizéiert. Et bleift ze entscheeden wat mir maachen.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Dat éischt, offensichtlechst wat mir maache kënnen ass den LTM selwer iergendwéi ze moderniséieren. Awer et ginn e puer Nuancen hei, well dës Hardware ganz eenzegaarteg ass, gitt Dir net an de nooste Supermarché a kaaft. Dëst ass e separaten Kontrakt, e separate Lizenzvertrag, an et wäert vill Zäit huelen. Déi zweet Optioun ass fir Iech selwer ze denken, mat Ärer eegener Léisung mat Ären eegene Komponenten ze kommen, am léifsten mat engem Open Access Programm. Alles wat bleift ass ze entscheeden wat mir genee dofir wielen a wéi vill Zäit mir verbréngen fir dëse Problem ze léisen, well d'Benotzer net genuch Fotoen kréien. Dofir musse mer dat ganz, ganz séier maachen, kéint ee gëschter soen.

Zënter datt d'Aufgab kléngt wéi "eppes sou séier wéi méiglech maachen an d'Hardware benotzen déi mir hunn", déi éischt Saach, déi mir geduecht hunn, war einfach e puer net ganz mächteg Maschinnen vun der viischter ewechzehuelen, Nginx do ze setzen, mat deem mir Mir wësse wéi Aarbecht a probéiert all déiselwecht Logik ëmzesetzen déi d'Hardware benotzt huet. Dat ass, tatsächlech hu mir eis Hardware verlooss, 4 méi Serveren installéiert déi mir hu misse konfiguréieren, extern Domainen fir si erstallt hunn, ähnlech wéi et virun 10 Joer war ... Mir hunn e bëssen an der Disponibilitéit verluer wann dës Maschinnen gefall sinn, awer nach manner, si geléist de Problem vun eise Benotzer lokal.

Deementspriechend bleift d'Logik déiselwecht: mir installéieren Nginx, et kann SSL-Offload maachen, mir kënnen iergendwéi d'Routing Logik programméieren, Gesondheetschecken an de Konfiguratiounen an einfach d'Logik duplizéieren déi mir virdru haten.

Loosst eis sëtzen fir Configuratiounen ze schreiwen. Am Ufank huet et geschéngt datt alles ganz einfach war, awer leider ass et ganz schwéier Handbuch fir all Aufgab ze fannen. Dofir empfeelen mir net einfach ze googelen "wéi konfiguréiert Nginx fir Fotoen": et ass besser op déi offiziell Dokumentatioun ze referenzéieren, déi weist wéi eng Astellunge beréiert ginn. Awer et ass besser de spezifesche Parameter selwer ze wielen. Gutt, dann ass alles einfach: mir beschreiwen d'Serveren déi mir hunn, mir beschreiwen d'Zertifikater ... Awer déi interessantst ass tatsächlech d'Routinglogik selwer.

Am Ufank huet et eis geschéngt datt mir eis Plaz einfach beschreiwen, d'Zuel vun eisem Fotocache dran passen, eis Hänn oder e Generator benotze fir ze beschreiwen wéivill Upstream mir brauchen, an all Upstream weisen mir de Server un deen de Verkéier soll goen, an e Backup Server - wann den Haaptserver net verfügbar ass:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Awer, wahrscheinlech, wann alles sou einfach wier, géife mir einfach heem goen an näischt soen. Leider, mat de Standard Nginx Astellungen, déi allgemeng iwwer vill Joer Entwécklung gemaach goufen an net ganz gëeegent fir dëse Fall sinn ... d'Konfiguratioun gesäit esou aus: wann e puer Upstream Server en Ufrofehler oder Timeout huet, Nginx ëmmer wiesselt de Verkéier op déi nächst. Desweideren, no der éischter Echec, bannent 10 Sekonnen, gëtt de Server och ausgeschalt, souwuel duerch Feeler an duerch Timeout - dëst kann net emol op all Manéier konfiguréiert ginn. Dat ass, wa mir d'Timeout-Optioun an der Upstream-Direktiv ewechhuelen oder zrécksetzen, dann, obwuel Nginx dës Ufro net veraarbecht a mat e puer net ganz gudde Feeler reagéiert, gëtt de Server zou.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Fir dëst ze vermeiden, hu mir zwou Saache gemaach:

a) si hunn Nginx verbueden dëst manuell ze maachen - a leider ass deen eenzege Wee fir dëst ze maachen ass einfach d'Maxfailen Astellungen ze setzen.

b) Mir hunn eis drun erënnert datt mir an anere Projete e Modul benotzen, deen eis erlaabt Gesondheetschecken am Hannergrond ze maachen - deementspriechend hu mir zimlech heefeg Gesondheetskontrolle gemaach, sou datt d'Dauerzäit am Fall vun engem Accident minimal wier.

Leider ass dat och net alles, well wuertwiertlech déi éischt zwou Woche vun der Operatioun vun dësem Schema gewisen hunn datt TCP Gesondheetscheck och eng onzouverlässeg Saach ass: um Upstream Server ass et vläicht net Nginx, oder Nginx am D-State, an an an dësem Fall akzeptéiert de Kernel d'Verbindung, d'Gesondheetscheck passéiert, awer funktionnéiert net. Dofir hu mir dat direkt ersat duerch Gesondheetscheck http, e spezifesche gemaach, deen, wann et 200 zréckkënnt, da funktionnéiert alles an dësem Skript. Dir kënnt zousätzlech Logik maachen - zum Beispill, am Fall vu Cache-Server, kontrolléiert datt de Dateiesystem richteg montéiert ass:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

An dat géif eis passen, ausser datt de Circuit de Moment komplett widderholl huet wat d'Hardware gemaach huet. Mee mir wollten et besser maachen. Virdru hate mir e Backup-Server, an dëst ass wahrscheinlech net ganz gutt, well wann Dir honnert Serveren hutt, da wann e puer gläichzäiteg feelen, ass e Backup-Server onwahrscheinlech mat der Laascht ze këmmeren. Dofir hu mir décidéiert d'Reservatioun iwwer all Server ze verdeelen: mir hunn einfach en aneren separaten Upstream gemaach, all d'Serveren do mat bestëmmte Parameteren geschriwwen am Aklang mat der Belaaschtung déi se kënne servéieren, déiselwecht Gesondheetskontrolle bäigefüügt wéi mir virdru haten:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Well et onméiglech ass, an engem Upstream an engem Upstream an engem Upstream ze goen, war et néideg ze suergen, datt wann den Haapt-Upstream, an deem mir einfach de richtegen, noutwendege Fotocache opgeholl hunn, net verfügbar ass, mir einfach duerch d'Error_Säit op de Fallback gaang sinn, vun wou mir an de Backup upstream gaangen sinn:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

An duerch wuertwiertlech véier Serveren derbäi, dat ass wat mir kruten: Mir hunn en Deel vun der Laascht ersat - mir hunn et vum LTM op dës Serveren ewechgeholl, déi selwecht Logik do ëmgesat, mat Standard Hardware a Software benotzt, an direkt de Bonus kritt datt dës Server kënnen skaléiert ginn, well se einfach sou vill liwweren wéi néideg. Gutt, déi eenzeg negativ ass datt mir héich Disponibilitéit fir extern Benotzer verluer hunn. Mä dee Moment hu mer dat missen opferen, well et néideg war, de Problem direkt ze léisen. Also hu mir en Deel vun der Laascht ewechgeholl, et war ongeféier 40% zu där Zäit, LTM huet sech gutt gefillt, a wuertwiertlech zwou Wochen nodeems de Problem ugefaang huet, hu mir ugefaang net 45k Ufroen pro Sekonn ze schécken, awer 55k. Tatsächlech si mir ëm 20% gewuess - dëst ass kloer de Traffic dee mir dem Benotzer net ginn hunn. An duerno hunn se ugefaang ze denken wéi de Rescht Problem ze léisen - fir héich extern Accessibilitéit ze garantéieren.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Mir haten eng Paus, an där mir diskutéiert hunn, wéi eng Léisung mir dofir géife benotzen. Et goufe Virschléi fir d'Zouverlässegkeet mat DNS ze garantéieren, e puer hausgeschriwwene Scripten ze benotzen, dynamesch Routingprotokoller ... et goufe vill Méiglechkeeten, awer et gouf scho kloer datt fir eng wierklech zouverlässeg Liwwerung vu Fotoen eng aner Schicht aféieren déi dëst iwwerwaacht . Mir genannt dës Maschinnen Foto Direktere. D'Software op mir vertraut war Keepalved:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Fir unzefänken, aus wat besteet Keepalved? Déi éischt ass de VRRP Protokoll, wäit bekannt fir Netzwierker, déi op Netzwierkausrüstung läit, déi Fehltoleranz fir déi extern IP Adress ubitt, op déi Cliente verbannen. Den zweeten Deel ass IPVS, IP virtuelle Server, fir d'Balance tëscht Fotorouteren an d'Feeltoleranz op dësem Niveau ze garantéieren. An drëtt - Gesondheet Kontrollen.

Loosst eis mam éischten Deel ufänken: VRRP - wéi gesäit et aus? Et gëtt eng gewësse virtuell IP, déi eng Entrée an der dns badoocdn.com huet, wou d'Clientë verbannen. Irgendwann hu mir eng IP Adress op engem Server. Keepalved Pakete lafen tëscht de Serveren mat dem VRRP Protokoll, a wann de Master vum Radar verschwënnt - de Server huet nei gestart oder soss eppes, da hëlt de Backup Server automatesch dës IP Adress op - keng manuell Handlungen sinn erfuerderlech. Den Ënnerscheed tëscht Master a Backup ass haaptsächlech Prioritéit: wat méi héich ass, wat méi grouss d'Chance ass datt d'Maschinn e Master gëtt. E ganz grousse Virdeel ass datt Dir keng IP Adressen um Server selwer konfiguréiere musst, et ass genuch fir se an der Configuratioun ze beschreiwen, a wann d'IP Adressen e puer personaliséiert Routingregele brauchen, gëtt dëst direkt an der Configuratioun beschriwwen, mat der Hëllef vun der selwecht Syntax wéi am VRRP Package beschriwwen. Dir wäert keng ongewéinlech Saachen stousse.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Wéi gesäit dat an der Praxis aus? Wat geschitt wann ee vun de Serveren versoen? Soubal de Master verschwënnt, hält eise Backup op Reklammen ze kréien a gëtt automatesch e Master. No enger Zäit hu mir de Master gefléckt, nei gestart, opgehuewen Keepalived - Annoncë kommen mat enger méi héijer Prioritéit wéi de Backup, an de Backup gëtt automatesch zréck, läscht IP Adressen, keng manuell Handlunge musse gemaach ginn.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Sou hu mir d'Feeltoleranz vun der externer IP Adress geséchert. Den nächsten Deel ass iergendwéi de Traffic vun der externer IP Adress op d'Fotorouter ze balanséieren, déi et scho ofschléissen. Alles ass ganz kloer mat de Balanceprotokoller. Dëst ass entweder eng einfach Ronn-Robin, oder liicht méi komplex Saachen, wrr, Lëscht Verbindung an sou op. Dëst ass am Fong an der Dokumentatioun beschriwwen, et gëtt näischt Besonnesches. Awer d'Liwwermethod ... Hei kucke mer méi genau firwat mir ee vun hinnen gewielt hunn. Dëst sinn NAT, Direct Routing an TUN. De Fakt ass datt mir direkt geplangt hunn 100 Gigabit Traffic vun de Site ze liwweren. Wann Dir schätzt, braucht Dir 10 Gigabit Kaarten, richteg? 10 Gigabit Kaarten an engem Server ass schonn iwwer den Ëmfang vun, op d'mannst, eisem Konzept vun "Standard Equipement". An dann hu mir eis drun erënnert datt mir net nëmmen e puer Traffic ginn, mir ginn Fotoen ewech.

Wat ass speziell? - Enorme Ënnerscheed tëscht erakommen an erausginn Traffic. Den erakommende Traffic ass ganz kleng, den erausginn Traffic ass ganz grouss:

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Wann Dir dës Grafike kuckt, kënnt Dir feststellen datt de Regisseur am Moment ongeféier 200 MB pro Sekonn kritt, dat ass e ganz normalen Dag. Mir ginn 4,500 MB pro Sekonn zréck, eise Verhältnis ass ongeféier 1/22. Et ass scho kloer datt fir voll ausgaang Traffic op 22 Aarbechter Serveren ze bidden, brauche mir nëmmen een deen dës Verbindung akzeptéiert. Dëst ass wou den direkten Routing Algorithmus eis Hëllef kënnt.

Wéi gesäit et aus? Eise Fotodirekter, no sengem Dësch, iwwerdréit Verbindunge mat Fotorouteren. Mee Foto routers schécken zréck Verkéier direkt op den Internet, schéckt et un de Client, et geet net zréck duerch d'Foto Direkter, also, mat engem Minimum Unzuel vun Maschinnen, mir garantéieren komplett Feeler Toleranz an Pompelstatiounen vun all Verkéier. An de Konfiguratioune gesäit et esou aus: mir spezifizéieren den Algorithmus, an eisem Fall ass et en einfachen rr, gitt déi direkt Routingmethod an fänkt dann un all déi richteg Serveren ze lëschten, wéi vill vun hinnen mir hunn. Wat wäert dëse Verkéier bestëmmen. Wa mir een oder zwee méi Serveren do hunn, oder e puer Serveren, esou e Besoin entsteet - mir addéiere just dës Sektioun un d'Konfiguratioun a maach der keng Suergen. Vun der Säit vun echte Serveren, vun der Säit vum Fotorouter, erfuerdert dës Method déi minimal Konfiguratioun, et ass perfekt an der Dokumentatioun beschriwwen, an et gi keng Falen do.

Wat besonnesch flott ass, datt esou eng Léisung net eng radikal Redesign vun der lokal Reseau implizéiert dëst war wichteg fir eis, datt mir dëst mat minimal Käschten ze léisen; Wann Dir kuckt IPVS Admin Kommando Ausgang, da kucke mer wéi et ausgesäit. Hei hu mir e bestëmmte virtuelle Server, um Hafen 443, lauschtert, akzeptéiert d'Verbindung, all funktionnéiert Serveren sinn opgelëscht, an Dir kënnt gesinn datt d'Verbindung ass, gitt oder huelen, d'selwecht. Wa mir d'Statistiken op deemselwechte virtuelle Server kucken, hu mir erakommen Pakete, erakommen Verbindungen, awer absolut keng erausginn. Ausgaang Verbindunge ginn direkt un de Client. Okay, mir konnten et ausgläichen. Elo, wat geschitt wann ee vun eise Fotorouter fällt? No allem ass Eisen Eisen. Et kann a Kernel Panik goen, et kann briechen, d'Energieversuergung kann ausbrennen. Alles. Dofir sinn Gesondheetskontrollen néideg. Si kënne sou einfach sinn wéi z'iwwerpréiwen wéi den Hafen op ass, oder eppes méi komplex, bis zu e puer hausgeschriwwene Skripte déi souguer d'Geschäftslogik iwwerpréiwen.

Mir hunn iergendwou an der Mëtt opgehalen: mir hunn eng https Ufro op eng spezifesch Plaz, de Skript gëtt genannt, wann et mat enger 200. einfach.

Wéi gesäit dat erëm an der Praxis aus? Loosst eis de Server fir Ënnerhalt ausschalten - zum Beispill de BIOS blénken. An de Logbicher hu mir direkt e Timeout, mir gesinn déi éischt Zeil, dann no dräi Versuche gëtt et als "gescheitert" markéiert, an et gëtt einfach aus der Lëscht geläscht.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Eng zweet Verhalensoptioun ass och méiglech, wann VS einfach op Null gesat ass, awer wann d'Foto zréckgeet, funktionnéiert dat net gutt. De Server kënnt op, Nginx fänkt do un, Gesondheetscheck versteet direkt datt d'Verbindung funktionnéiert, datt alles gutt ass, an de Server erschéngt an eiser Lëscht, an d'Laascht fänkt direkt un. Keng manuell Handlunge si vum Pflichtadministrator erfuerderlech. De Server huet an der Nuecht nei gestart - d'Iwwerwaachungsdepartement rifft eis net iwwer dëst an der Nuecht. Si informéieren Iech datt dëst geschitt ass, alles ass gutt.

Also, op eng zimlech einfach Manéier, mat der Hëllef vun enger klenger Zuel vu Serveren, hu mir de Problem vun der externer Fehltoleranz geléist.

Et bleift ze soen, datt dat alles natierlech muss iwwerwaacht ginn. Separat sollt et bemierkt ginn datt Keepalivede, als Software viru laanger Zäit geschriwwe gouf, eng Rëtsch Weeër huet fir se ze iwwerwaachen, souwuel mat Kontrollen iwwer DBus, SMTP, SNMP a Standard Zabbix. Plus, hie weess selwer fir bal all Niesen Bréiwer ze schreiwen, an éierlech ze sinn, iergendwann hu mir iwwerhaapt geduecht et auszeschalten, well hie schreift vill Bréiwer fir all Traffic Wiesselen, Schalten, fir all IP Verbindung, a sou weider . Natierlech, wann et vill Serveren sinn, da kënnt Dir Iech mat dëse Bréiwer iwwerwannen. Mir iwwerwaachen nginx op Fotorouter mat Standardmethoden, an Hardware Iwwerwaachung ass net fort. Mir géifen natierlech nach zwou Saache beroden: éischtens, extern Gesondheetschecken an Disponibilitéit, well och wann alles funktionéiert, tatsächlech kréien d'Benotzer vläicht keng Fotoen wéinst Probleemer mat externen Ubidder oder eppes méi Komplexes. Et ass ëmmer derwäert iergendwou op engem anere Netzwierk, op Amazon oder soss anzwousch, eng separat Maschinn ze halen déi Är Servere vu bausse kann pingelen, an et ass och derwäert entweder Anomalie Detektioun ze benotzen, fir déi, déi wësse wéi een komplizéiert Maschinnléiere maache kann, oder einfach Iwwerwaachung , op d'mannst fir ze verfollegen ob d'Demande staark erofgaange sinn, oder am Géigendeel eropgaange sinn. Et kann och nëtzlech sinn.

Loosst eis zesummefaassen: mir hunn tatsächlech déi Eisenbekleeder Léisung, déi eis iergendwann net méi ugepasst huet, duerch e relativ einfache System ersat, deen alles d'selwecht mécht, dat heescht, en Enn vum HTTPS Traffic a weider intelligent Routing mat der néideg Gesondheetskontrolle. Mir hunn d'Stabilitéit vun dësem System erhéicht, dat heescht, mir hunn nach ëmmer héich Disponibilitéit fir all Layer, plus mir hunn de Bonus datt et ganz einfach ass alles op all Layer ze skaléieren, well et Standard Hardware mat Standard Software ass, dat ass , Mir hu vereinfacht Diagnose méiglech Problemer.

Mat wat hu mer op en Enn komm? Mir haten e Problem an der Januar Vakanz 2018. An den éischte sechs Méint wärend mir dëse Schema a Betrib geholl hunn, hu mir et op all Traffic ausgebaut fir all Traffic vum LTM ze läschen, mir sinn nëmmen am Traffic an engem Datenzenter vu 40 Gigabit op 60 Gigabit gewuess, a gläichzäiteg fir dat ganzt Joer 2018 konnte bal dräimol méi Fotoen pro Sekonn schécken.

Wéi Badoo d'Fäegkeet erreecht huet 200k Fotoen pro Sekonn ze schécken

Source: will.com

Setzt e Commentaire