Сайн уу. Тавдугаар сард OTUS нээлтээ хийнэ
Байгаль орчин
Бидэнд дараах зүйлс хэрэгтэй болно.
- Kubernetes
- Прометей оператор
Экспортлогчийн хар хайрцагны тохиргоо
Blackbox-ыг тохируулж байна ConfigMap
тохиргооны хувьд http
вэб үйлчилгээний хяналтын модуль.
apiVersion: v1
kind: ConfigMap
metadata:
name: prometheus-blackbox-exporter
labels:
app: prometheus-blackbox-exporter
data:
blackbox.yaml: |
modules:
http_2xx:
http:
no_follow_redirects: false
preferred_ip_protocol: ip4
valid_http_versions:
- HTTP/1.1
- HTTP/2
valid_status_codes: []
prober: http
timeout: 5s
Модуль http_2xx
вэб үйлчилгээ HTTP 2xx төлөвийн кодыг буцаадаг эсэхийг шалгахад ашигладаг. Хар хайрцагны экспортлогчийн тохиргоог хэсэгт илүү дэлгэрэнгүй тайлбарласан болно
Kubernetes кластерт хар хайрцагны экспортлогчийг байрлуулж байна
Дүрслэх Deployment
и Service
Kubernetes-д байршуулах зориулалттай.
---
kind: Service
apiVersion: v1
metadata:
name: prometheus-blackbox-exporter
labels:
app: prometheus-blackbox-exporter
spec:
type: ClusterIP
ports:
- name: http
port: 9115
protocol: TCP
selector:
app: prometheus-blackbox-exporter
---
apiVersion: apps/v1
kind: Deployment
metadata:
name: prometheus-blackbox-exporter
labels:
app: prometheus-blackbox-exporter
spec:
replicas: 1
selector:
matchLabels:
app: prometheus-blackbox-exporter
template:
metadata:
labels:
app: prometheus-blackbox-exporter
spec:
restartPolicy: Always
containers:
- name: blackbox-exporter
image: "prom/blackbox-exporter:v0.15.1"
imagePullPolicy: IfNotPresent
securityContext:
readOnlyRootFilesystem: true
runAsNonRoot: true
runAsUser: 1000
args:
- "--config.file=/config/blackbox.yaml"
resources:
{}
ports:
- containerPort: 9115
name: http
livenessProbe:
httpGet:
path: /health
port: http
readinessProbe:
httpGet:
path: /health
port: http
volumeMounts:
- mountPath: /config
name: config
- name: configmap-reload
image: "jimmidyson/configmap-reload:v0.2.2"
imagePullPolicy: "IfNotPresent"
securityContext:
runAsNonRoot: true
runAsUser: 65534
args:
- --volume-dir=/etc/config
- --webhook-url=http://localhost:9115/-/reload
resources:
{}
volumeMounts:
- mountPath: /etc/config
name: config
readOnly: true
volumes:
- name: config
configMap:
name: prometheus-blackbox-exporter
Blackbox экспортлогчийг дараах тушаалыг ашиглан байрлуулж болно. Нэрийн орон зай monitoring
Прометей операторыг хэлнэ.
kubectl --namespace=monitoring apply -f blackbox-exporter.yaml
Дараах тушаалыг ашиглан бүх үйлчилгээ ажиллаж байгаа эсэхийг шалгана уу.
kubectl --namespace=monitoring get all --selector=app=prometheus-blackbox-exporter
Blackbox шалгах
Та Blackbox экспортлогч вэб интерфэйсийг ашиглан хандаж болно port-forward
:
kubectl --namespace=monitoring port-forward svc/prometheus-blackbox-exporter 9115:9115
Blackbox экспортлогч вэб интерфэйс рүү вэб хөтчөөр холбогдоно уу
Хэрэв та хаягаар нь очвол
Метрийн утга probe_success
1-тэй тэнцэх нь амжилттай шалгалт гэсэн үг. 0 утга нь алдаа байгааг илтгэнэ.
Прометейг суулгаж байна
BlackBox экспортлогчийг байрлуулсны дараа бид Prometheus-г тохируулна prometheus-additional.yaml
.
- job_name: 'kube-api-blackbox'
scrape_interval: 1w
metrics_path: /probe
params:
module: [http_2xx]
static_configs:
- targets:
- https://www.google.com
- http://www.example.com
- https://prometheus.io
relabel_configs:
- source_labels: [__address__]
target_label: __param_target
- source_labels: [__param_target]
target_label: instance
- target_label: __address__
replacement: prometheus-blackbox-exporter:9115 # The blackbox exporter.
Бид үүсгэдэг Secret
дараах тушаалыг ашиглан.
PROMETHEUS_ADD_CONFIG=$(cat prometheus-additional.yaml | base64)
cat << EOF | kubectl --namespace=monitoring apply -f -
apiVersion: v1
kind: Secret
metadata:
name: additional-scrape-configs
type: Opaque
data:
prometheus-additional.yaml: $PROMETHEUS_ADD_CONFIG
EOF
Заана уу additional-scrape-configs
Prometheus Operator ашиглахад зориулагдсан additionalScrapeConfigs
.
kubectl --namespace=monitoring edit prometheuses k8s
...
spec:
additionalScrapeConfigs:
key: prometheus-additional.yaml
name: additional-scrape-configs
Бид Prometheus вэб интерфэйс рүү орж, хэмжүүр, зорилгыг шалгана.
kubectl --namespace=monitoring port-forward svc/prometheus-k8s 9090:9090
Бид Blackbox-ийн хэмжүүр, зорилгыг харж байна.
Мэдэгдлийн дүрэм нэмэх (анхаарал)
Blackbox экспортлогчоос мэдэгдэл хүлээн авахын тулд бид Prometheus Operator-д дүрэм нэмэх болно.
kubectl --namespace=monitoring edit prometheusrules prometheus-k8s-rules
...
- name: blackbox-exporter
rules:
- alert: ProbeFailed
expr: probe_success == 0
for: 5m
labels:
severity: error
annotations:
summary: "Probe failed (instance {{ $labels.instance }})"
description: "Probe failedn VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: SlowProbe
expr: avg_over_time(probe_duration_seconds[1m]) > 1
for: 5m
labels:
severity: warning
annotations:
summary: "Slow probe (instance {{ $labels.instance }})"
description: "Blackbox probe took more than 1s to completen VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: HttpStatusCode
expr: probe_http_status_code <= 199 OR probe_http_status_code >= 400
for: 5m
labels:
severity: error
annotations:
summary: "HTTP Status Code (instance {{ $labels.instance }})"
description: "HTTP status code is not 200-399n VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: SslCertificateWillExpireSoon
expr: probe_ssl_earliest_cert_expiry - time() < 86400 * 30
for: 5m
labels:
severity: warning
annotations:
summary: "SSL certificate will expire soon (instance {{ $labels.instance }})"
description: "SSL certificate expires in 30 daysn VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: SslCertificateHasExpired
expr: probe_ssl_earliest_cert_expiry - time() <= 0
for: 5m
labels:
severity: error
annotations:
summary: "SSL certificate has expired (instance {{ $labels.instance }})"
description: "SSL certificate has expired alreadyn VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: HttpSlowRequests
expr: avg_over_time(probe_http_duration_seconds[1m]) > 1
for: 5m
labels:
severity: warning
annotations:
summary: "HTTP slow requests (instance {{ $labels.instance }})"
description: "HTTP request took more than 1sn VALUE = {{ $value }}n LABELS: {{ $labels }}"
- alert: SlowPing
expr: avg_over_time(probe_icmp_duration_seconds[1m]) > 1
for: 5m
labels:
severity: warning
annotations:
summary: "Slow ping (instance {{ $labels.instance }})"
description: "Blackbox ping took more than 1sn VALUE = {{ $value }}n LABELS: {{ $labels }}"
Prometheus вэб интерфэйсээс Status => Rules руу очоод blackbox-exporter-д зориулсан анхааруулах дүрмийг олоорой.
Kubernetes API серверийн SSL гэрчилгээний хугацаа дуусах мэдэгдлийг тохируулж байна
Kubernetes API Server SSL сертификатын хугацаа дуусах хяналтыг тохируулцгаая. Энэ нь долоо хоногт нэг удаа мэдэгдэл илгээх болно.
Kubernetes API серверийн баталгаажуулалтын Blackbox экспортлогч модулийг нэмж байна.
kubectl --namespace=monitoring edit configmap prometheus-blackbox-exporter
...
kube-api:
http:
method: GET
no_follow_redirects: false
preferred_ip_protocol: ip4
tls_config:
insecure_skip_verify: false
ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
valid_http_versions:
- HTTP/1.1
- HTTP/2
valid_status_codes: []
prober: http
timeout: 5s
Prometheus scrape тохиргоог нэмж байна
- job_name: 'kube-api-blackbox'
metrics_path: /probe
params:
module: [kube-api]
static_configs:
- targets:
- https://kubernetes.default.svc/api
relabel_configs:
- source_labels: [__address__]
target_label: __param_target
- source_labels: [__param_target]
target_label: instance
- target_label: __address__
replacement: prometheus-blackbox-exporter:9115 # The blackbox exporter.
Прометей нууцыг ашиглах
PROMETHEUS_ADD_CONFIG=$(cat prometheus-additional.yaml | base64)
cat << EOF | kubectl --namespace=monitoring apply -f -
apiVersion: v1
kind: Secret
metadata:
name: additional-scrape-configs
type: Opaque
data:
prometheus-additional.yaml: $PROMETHEUS_ADD_CONFIG
EOF
Анхааруулах дүрмийг нэмж байна
kubectl --namespace=monitoring edit prometheusrules prometheus-k8s-rules
...
- name: k8s-api-server-cert-expiry
rules:
- alert: K8sAPIServerSSLCertExpiringAfterThreeMonths
expr: probe_ssl_earliest_cert_expiry{job="kube-api-blackbox"} - time() < 86400 * 90
for: 1w
labels:
severity: warning
annotations:
summary: "Kubernetes API Server SSL certificate will expire after three months (instance {{ $labels.instance }})"
description: "Kubernetes API Server SSL certificate expires in 90 daysn VALUE = {{ $value }}n LABELS: {{ $labels }}"
Ашигтай холбоосууд
Эх сурвалж: www.habr.com