Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus

Nomen meum est Antonius Baderin. Apud Maximum Technologiam Centrum laboro et administratio systematis facio. Mensis abhinc colloquium nostrum corporatum finivit, ubi experientiam cum IT communitatis civitatis nostrae communicavimus. Locutus sum de applicationibus vigilantiae interretialibus. Materia juniori vel medio gradu destinata est, qui hunc processum a scabere non aedificavit.

Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus

Lapis angularis aliqua ratio magna subsit problemata negotia solvenda. Cras in est quis nulla commodo aliquam. Quid negotii vis? Ut omnia cito et sine mendis operantur. Negotiationes proactiva esse volunt, ut problemata ipsi in servitio cognoscantur et eas quam celerrime defigant. Hae enim sunt quaestiones, quas toto anno superiore anno in incepto pro clientibus nostris solvi.

De project

Propositum est unum ex maxima fidelitate programmatum in patria. Vincula scruta adiuvamus frequentiam venditionum per varia instrumenta venalia augere sicut bonus schedulas. In summa, consilium includit 14 applicationes quae decem servientibus currunt.

In processu colloquii, saepe animadverti admins non semper ad applicationes interretiales recte accedere: plures adhuc intendunt in systemate metrica operandi et officia monitoria interdum.

In casu meo, systema monitorium emptoris antea in Icinga fundatum erat. Istas quaestiones nullo modo solvit. Saepe ipse cliens de quaestionibus nos docuit, et saepius quam non, simpliciter non satis notitiae ad fundum rationis perveniamus.

Praeterea uanitas eius ulterioris progressionis erat perspicua. Puto notos Icingae me intelliget. Ita placuit ut magna applicatione ad rem penitus redesign ratio interretialis.

Prometheum

Prometheum elegimus ex tribus indicibus principalibus;

  1. Ingens numerus metri in promptu est. In nobis sunt LX milia. Utique notatu dignum est quod pluribus eorum non utimur (probabiliter de 60%). Contra, omnes viliores sunt. Pro nobis hoc alterum extremum comparatur ad Icinga antea adhibita. In ea, additis metricis dolor peculiaris erat: entes carus erant (solum codicem cuiuslibet plugin spectant). Quodlibet plugin scriptum erat in Bash vel Pythone cuius launches pretiosae in terminis facultatum consumptae sunt.
  2. Haec ratio relative parvam copiam facultatum consumit. 600 MB of RAM, 15% nuclei unius et duorum duodenarum IOPS satis sunt omnibus nostris metricis. Utique exportatores metrics currere debes, sed omnia scripta sunt in Go et etiam non multum esurit. In modernis rebus hoc problema non puto.
  3. Facultatem praebet ad Kubernetes migrandi. Considerata consilia emptoris, electio manifesta est.

ALCE

Antea non ligna neque processus colligemus. Vitium omnibus patet. Elegimus ELK quia hoc systematis experti sumus. Tantum applicationes tigna ibi reponunt. Praecipua delectu criteria plena sunt inquisitionis textus eiusque celeritas.

lickhouse

Initio, cecidit electio in InfluxDB. Intelleximus necessitatem colligendi Nginx trabes, statisticas ex pg_stat_statibus, et Prometheum reponunt notitia historica. Noluimus Influxum, quod periodice magnum pondus memoriae consumere coepit et ingruebat. Praeterea volui quaerere coetus ab remotis_addr, sed in hoc DBMS solum per tags conglobatio est. Tags sunt pretiosa (memoria) eorum numerus sub condicione circumscriptus est.

Inquisitionem nostram denuo incepimus. Quod opus fuit database analytico cum minimalis ope consumptio, potius cum pressione data in disco.

Clickhouse occurrit his omnibus criteriis, et electionem nostram numquam paenituimus. Copias extraordinarias notitiarum in eam non scribimus (numerus insertionum tantum est circiter quinque milia per minutos).

NewRelic

NewRelic historice nobiscum fuit quod electio emptoris erat. Utimur eo ut APM.

Zabbix

Zabbix solum utimur ad Monitorem APIs Niger variarum.

Definiens Cras accede

Negotium dissoluere voluimus ac per hoc accessum ad vigilantiam disponere.

Ad quod faciendum, rationem nostram in sequentibus distinxi.

  • ferramentis, VMS ;
  • sistema operatum;
  • ratio muneris, programmatio acervus;
  • applicatione;
  • negotium logicum.

Quare accessio haec opportuna est;

  • novimus qui operis cuiusque gradus idoneus sit et, secundum hoc, summas mittere possimus;
  • uti possumus structuram cum summis erectis suppressis - mirum esset in arduum de database incavabilitate mittere, cum virtualis machina tota perpendat.

Cum negotium nostrum sit violationes in operatione systematis cognoscere, debemus in unoquoque gradu elucidari certam quandam metri rationem, quae operae pretium est observare cum regulas scribentis admonere. Deinde eamus per gradus "VMS", "ratio operandi" et "ratio officia, acervus programmator".

Machinarum lorem ipsum

Hosting nobis disponit processum, orbis, memoriam et ornatum. Et primo cum duabus difficultatibus habuimus. Ita, metrice;

CPU tempus furatum - cum virtualem machinam in Amazonibus emis (t2.micro, exempli gratia), intelleges te non totum processum nucleum collocari, sed tantum temporis numerum. et cum illud exhauries, processus abs te auferetur.

Haec metrica permittit ut momenta talia indagare ac iudicare. Exempli gratia, necesse est accipere omissionem pinguiorem vel dispensatorem negotiorum curriculorum distribuere et API petitiones diversorum ministrantium?

IOPS + CPU iowait time - aliqua de causa, multi hostings nubeculae peccant non satis praebentes IOPS. Praeterea schedula humilibus IOPS argumentum pro illis non est. Ergo CPU iowait colligendum est. Cum hoc graphi par - ima IOPS et alta I/O exspecta - potes iam loqui obnoxius et problema solvendum.

Operating system

Ratio operandi metrica:

  • amount of available memory in %;
  • permuto usu agendi: vmstat swapin, swapout;
  • numerus inodis praesto ac liberum spatium in tabella ratio in %
  • mediocris onus;
  • nexus in tw status;
  • conntrack mensae plenitudo;
  • Qualitas reticuli viverra utens utilitate ss, sarcina iproute2 - indicatorum RTT nexus ab eius output et globus per dest portum.

Etiam in gradu operante tale ens processuum habemus. Magni momenti est cognoscere in systemate processus processus, qui in operatione sua primas partes agunt. Si, exempli gratia, pgpools plures habes, tunc informationes pro singulis colligere debes.

metri copia talis est:

  • CPUs;
  • memoria principaliter residet;
  • IO - potissimum in IOPS;
  • FileFd - apertum et limitem;
  • significantes paginam infringunt — hoc modo intellegere potes quid processus involvatur.

Omnia vigilantia in Docker explicamus et Consiliario utimur ad notitias metricas colligendas. In aliis machinis utimur processus-exportator.

Systema officia, software acervus

Uniuscuiusque applicatio speciales habet proprias, et difficile est peculiarem metri speciem excutere.

Universale est:

  • rate peto;
  • errata numerus;
  • latency;
  • satietatem.

Praeclara exempla nostra vigilantiae in hoc gradu sunt Nginx et PostgreSQL.

Plenissimum ministerium in systemate nostro datorum est. In praeterito, saepe molesti erant remanentes quid ageret database.

Vidimus magnum onus in disco, sed tarda ligna nihil re vera demonstraverunt. Hanc quaestionem solvimus utens pg_stat_state, quod visum est quod quaestionem mutant mutant.

Id omnes admin eget.

Graphs construimus actionis petitiones legere et scribere:

Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus
Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus

Omnia simplicia sunt et perspicua, quaeque petitio suum colorem habet.

Pariter insigne exemplum est Nginx acta. Mirum non est quod pauci illi parse vel nominare in musti indice. Forma norma non admodum informativa est et amplianda eget.

Personaliter, request_time, upstream_response_time, body_bytes_sent, request_length, request_id addidi. Tempus et numerus errorum machinamur.

Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus
Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus

Graphs responsionis tempus ac numerum errorum construimus. Memento? Nonne aliquip de negotio loqui? Ut cito et sine mendis? Has quaestiones duabus chartis iam fecimus. Et administratores iam vocare potes in officio utendo.

Sed unum problema restat magis - ut causae incidentis eliminandae rapidae sint.

Resolutio incident

Totus processus e identitate ad problema solvendum in plures gradus dividi potest;

  • quaestionem cognoscendi;
  • de notitia officii administratoris;
  • responsio ad casum;
  • causarum amotio.

Magni interest ut hoc quam celerrime debeamus. Et si in gradibus quaestionis cognoscendi et notificationis mittendi multum temporis consequi non possumus - duo minuta in quolibet casu impendentur, sequentia simpliciter campus pro melioramentis inaratus est.

Id modo fingamus quod officium telephoni gestaminis insonuit. Quid faciet? Quaere responsa quaestionibus - quid fregit, ubi fregerit, quomodo agere? Ecce quomodo his quaestionibus respondemus:

Quomodo vigilantia in Prometheo, Clickhouse et ELK edificavimus

Simpliciter omnia haec informationes in textu notificationis includimus, ei nexum praebemus paginae wiki, quae describitur quomodo huic quaestioni respondeat, quomodo eam solvat et dimittat.

Nihil adhuc de applicatione tabulatorum et negotiorum logicalium dixi. Dolendum est, applicationes nostras nondum metri collectio efficiendi. Solus fons cuiuslibet informationis ex his gradibus est omnia.

A duobus punctis.

Primum trabes structas scribe. Nihil opus est ut contextus in textu nuntii comprehendatur. Inde difficiles ad coetum et explicationem facit. Logstash longum tempus omnia haec normalize.

Secundo, utere severitate inaequat recte. Unaquaeque lingua suum vexillum habet. Personaliter quattuor gradus distinguo;

  1. nullus error;
  2. latus erroris clientis;
  3. erratum est pro nobis, pecuniam non amittimus, pericula non sustinemus;
  4. Error est in nobis, pecuniam amittimus.

Summatim. Opus est ut vigilantia ex negotio logicae aedificandae conetur. Conare applicationem ipsam monere et cum talibus metricis operari ut numerus venditionum, numerus registrations novorum usorum, numerus usorum actuosorum actuorum, et sic porro.

Si totum negotium tuum est unum bullam in navigatro, debes monitorem num bene strepit et operatur. Caetera nihil refert.

Si hoc non habes, conare cum ea in schedulis adhibitis, Nginx tigna, et sic porro, sicut fecimus. Applicatio quam proxime debes esse.

Systema metri operandi sane magni momenti sunt, sed res in illis non est curae, nobis non solvitur.

Source: www.habr.com

Add a comment