ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಈ ಲೇಖನವು ಯೋಜನೆಯನ್ನು ಚರ್ಚಿಸುತ್ತದೆ nginx-log-collector, ಇದು nginx ಲಾಗ್‌ಗಳನ್ನು ಓದುತ್ತದೆ ಮತ್ತು ಅವುಗಳನ್ನು ಕ್ಲಿಕ್‌ಹೌಸ್ ಕ್ಲಸ್ಟರ್‌ಗೆ ಕಳುಹಿಸುತ್ತದೆ. ಸಾಮಾನ್ಯವಾಗಿ ElasticSearch ಅನ್ನು ಲಾಗ್‌ಗಳಿಗಾಗಿ ಬಳಸಲಾಗುತ್ತದೆ. ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ ಕಡಿಮೆ ಸಂಪನ್ಮೂಲಗಳು ಬೇಕಾಗುತ್ತವೆ (ಡಿಸ್ಕ್ ಸ್ಪೇಸ್, ​​RAM, CPU). ಕ್ಲಿಕ್‌ಹೌಸ್ ಡೇಟಾವನ್ನು ವೇಗವಾಗಿ ದಾಖಲಿಸುತ್ತದೆ. ಕ್ಲಿಕ್‌ಹೌಸ್ ಡೇಟಾವನ್ನು ಸಂಕುಚಿತಗೊಳಿಸುತ್ತದೆ, ಡಿಸ್ಕ್‌ನಲ್ಲಿರುವ ಡೇಟಾವನ್ನು ಇನ್ನಷ್ಟು ಸಾಂದ್ರಗೊಳಿಸುತ್ತದೆ. ಕ್ಲಿಕ್‌ಹೌಸ್‌ನ ಅನುಕೂಲಗಳು ವರದಿಯಿಂದ 2 ಸ್ಲೈಡ್‌ಗಳಲ್ಲಿ ಗೋಚರಿಸುತ್ತವೆ ಹತ್ತಾರು ಸಾವಿರ ಸರ್ವರ್‌ಗಳಿಂದ ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ ವಿಕೆ ಡೇಟಾವನ್ನು ಹೇಗೆ ಸೇರಿಸುತ್ತದೆ.

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಲಾಗ್‌ಗಳ ಆಧಾರದ ಮೇಲೆ ವಿಶ್ಲೇಷಣೆಗಳನ್ನು ವೀಕ್ಷಿಸಲು, ನಾವು ಗ್ರಾಫಾನಾಗಾಗಿ ಡ್ಯಾಶ್‌ಬೋರ್ಡ್ ಅನ್ನು ರಚಿಸುತ್ತೇವೆ.

ಆಸಕ್ತಿ ಇರುವವರು, ಬೆಕ್ಕಿಗೆ ಸ್ವಾಗತ.

nginx, grafana ಅನ್ನು ಪ್ರಮಾಣಿತ ರೀತಿಯಲ್ಲಿ ಸ್ಥಾಪಿಸಿ.

ಅನ್ಸಿಬಲ್-ಪ್ಲೇಬುಕ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಕ್ಲಿಕ್‌ಹೌಸ್ ಕ್ಲಸ್ಟರ್ ಅನ್ನು ಸ್ಥಾಪಿಸಲಾಗುತ್ತಿದೆ ಡೆನಿಸ್ ಪ್ರೊಸ್ಕುರಿನ್.

ಕ್ಲಿಕ್‌ಹೌಸ್‌ನಲ್ಲಿ ಡೇಟಾಬೇಸ್‌ಗಳು ಮತ್ತು ಕೋಷ್ಟಕಗಳನ್ನು ರಚಿಸುವುದು

ಇದರಲ್ಲಿ ಕಡತ ಕ್ಲಿಕ್‌ಹೌಸ್‌ನಲ್ಲಿ nginx-log-collector ಗಾಗಿ ಡೇಟಾಬೇಸ್‌ಗಳು ಮತ್ತು ಕೋಷ್ಟಕಗಳನ್ನು ರಚಿಸಲು SQL ಪ್ರಶ್ನೆಗಳನ್ನು ವಿವರಿಸಲಾಗಿದೆ.

ಕ್ಲಿಕ್‌ಹೌಸ್ ಕ್ಲಸ್ಟರ್‌ನಲ್ಲಿರುವ ಪ್ರತಿ ಸರ್ವರ್‌ನಲ್ಲಿ ನಾವು ಪ್ರತಿ ವಿನಂತಿಯನ್ನು ಒಂದೊಂದಾಗಿ ಮಾಡುತ್ತೇವೆ.

ಪ್ರಮುಖ ಟಿಪ್ಪಣಿ. ಈ ಸಾಲಿನಲ್ಲಿ, "remote_servers" ಮತ್ತು "shard" ನಡುವಿನ clickhouse_remote_servers.xml ಫೈಲ್‌ನಿಂದ logs_cluster ಅನ್ನು ನಿಮ್ಮ ಕ್ಲಸ್ಟರ್ ಹೆಸರಿನೊಂದಿಗೆ ಬದಲಾಯಿಸಬೇಕಾಗಿದೆ.

ENGINE = Distributed('logs_cluster', 'nginx', 'access_log_shard', rand())

nginx-log-collector-rpm ಅನ್ನು ಸ್ಥಾಪಿಸುವುದು ಮತ್ತು ಸಂರಚಿಸುವುದು

Nginx-log-collector rpm ಅನ್ನು ಹೊಂದಿಲ್ಲ. ಇಲ್ಲಿ https://github.com/patsevanton/nginx-log-collector-rpm ಅದಕ್ಕಾಗಿ rpm ಅನ್ನು ರಚಿಸಿ. rpm ಅನ್ನು ಬಳಸಿಕೊಂಡು ಕಂಪೈಲ್ ಮಾಡಲಾಗುತ್ತದೆ ಫೆಡೋರಾ ಕಾಪ್ರ್

rpm ಪ್ಯಾಕೇಜ್ nginx-log-collector-rpm ಅನ್ನು ಸ್ಥಾಪಿಸಿ

yum -y install yum-plugin-copr
yum copr enable antonpatsev/nginx-log-collector-rpm
yum -y install nginx-log-collector
systemctl start nginx-log-collector

ಸಂರಚನೆಯನ್ನು ಸಂಪಾದಿಸಿ /etc/nginx-log-collector/config.yaml:

  .......
  upload:
    table: nginx.access_log
    dsn: http://ip-адрес-кластера-clickhouse:8123/

- tag: "nginx_error:"
  format: error  # access | error
  buffer_size: 1048576
  upload:
    table: nginx.error_log
    dsn: http://ip-адрес-кластера-clickhouse:8123/

nginx ಅನ್ನು ಹೊಂದಿಸಲಾಗುತ್ತಿದೆ

ಸಾಮಾನ್ಯ nginx ಸಂರಚನೆ:

user  nginx;
worker_processes  auto;

#error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

events {
    worker_connections  1024;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

    log_format avito_json escape=json
                     '{'
                     '"event_datetime": "$time_iso8601", '
                     '"server_name": "$server_name", '
                     '"remote_addr": "$remote_addr", '
                     '"remote_user": "$remote_user", '
                     '"http_x_real_ip": "$http_x_real_ip", '
                     '"status": "$status", '
                     '"scheme": "$scheme", '
                     '"request_method": "$request_method", '
                     '"request_uri": "$request_uri", '
                     '"server_protocol": "$server_protocol", '
                     '"body_bytes_sent": $body_bytes_sent, '
                     '"http_referer": "$http_referer", '
                     '"http_user_agent": "$http_user_agent", '
                     '"request_bytes": "$request_length", '
                     '"request_time": "$request_time", '
                     '"upstream_addr": "$upstream_addr", '
                     '"upstream_response_time": "$upstream_response_time", '
                     '"hostname": "$hostname", '
                     '"host": "$host"'
                     '}';

    access_log     syslog_server=unix:/var/run/nginx_log.sock,nohostname,tag=nginx avito_json; #ClickHouse
    error_log      syslog_server=unix:/var/run/nginx_log.sock,nohostname,tag=nginx_error; #ClickHouse

    #access_log  /var/log/nginx/access.log  main;

    proxy_ignore_client_abort on;
    sendfile        on;
    keepalive_timeout  65;
    include /etc/nginx/conf.d/*.conf;
}

ಒಂದು ವರ್ಚುವಲ್ ಹೋಸ್ಟ್:

vhost1.conf:

upstream backend {
    server ip-адрес-сервера-с-stub_http_server:8080;
    server ip-адрес-сервера-с-stub_http_server:8080;
    server ip-адрес-сервера-с-stub_http_server:8080;
    server ip-адрес-сервера-с-stub_http_server:8080;
    server ip-адрес-сервера-с-stub_http_server:8080;
}

server {
    listen   80;
    server_name vhost1;
    location / {
        proxy_pass http://backend;
    }
}

ವರ್ಚುವಲ್ ಹೋಸ್ಟ್‌ಗಳನ್ನು /etc/hosts ಫೈಲ್‌ಗೆ ಸೇರಿಸಿ:

ip-адрес-сервера-с-nginx vhost1

HTTP ಸರ್ವರ್ ಎಮ್ಯುಲೇಟರ್

HTTP ಸರ್ವರ್ ಎಮ್ಯುಲೇಟರ್ ಆಗಿ ನಾವು ಬಳಸುತ್ತೇವೆ nodejs-stub-server ರಿಂದ ಮ್ಯಾಕ್ಸಿಮ್ ಇಗ್ನಾಟೆಂಕೊ

Nodejs-stub-server rpm ಅನ್ನು ಹೊಂದಿಲ್ಲ. ಇಲ್ಲಿ https://github.com/patsevanton/nodejs-stub-server ಅದಕ್ಕಾಗಿ rpm ಅನ್ನು ರಚಿಸಿ. rpm ಅನ್ನು ಬಳಸಿಕೊಂಡು ಕಂಪೈಲ್ ಮಾಡಲಾಗುತ್ತದೆ ಫೆಡೋರಾ ಕಾಪ್ರ್

ಅಪ್‌ಸ್ಟ್ರೀಮ್ nginx rpm ನಲ್ಲಿ nodejs-stub-server ಪ್ಯಾಕೇಜ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿ

yum -y install yum-plugin-copr
yum copr enable antonpatsev/nodejs-stub-server
yum -y install stub_http_server
systemctl start stub_http_server

ಒತ್ತಡ ಪರೀಕ್ಷೆ

ನಾವು ಅಪಾಚೆ ಮಾನದಂಡವನ್ನು ಬಳಸಿಕೊಂಡು ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸುತ್ತೇವೆ.

ಇದನ್ನು ಸ್ಥಾಪಿಸಿ:

yum install -y httpd-tools

ನಾವು 5 ವಿಭಿನ್ನ ಸರ್ವರ್‌ಗಳಿಂದ ಅಪಾಚೆ ಮಾನದಂಡವನ್ನು ಬಳಸಿಕೊಂಡು ಪರೀಕ್ಷಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ:

while true; do ab -H "User-Agent: 1server" -c 10 -n 10 -t 10 http://vhost1/; sleep 1; done
while true; do ab -H "User-Agent: 2server" -c 10 -n 10 -t 10 http://vhost1/; sleep 1; done
while true; do ab -H "User-Agent: 3server" -c 10 -n 10 -t 10 http://vhost1/; sleep 1; done
while true; do ab -H "User-Agent: 4server" -c 10 -n 10 -t 10 http://vhost1/; sleep 1; done
while true; do ab -H "User-Agent: 5server" -c 10 -n 10 -t 10 http://vhost1/; sleep 1; done

ಗ್ರಾಫನಾವನ್ನು ಸ್ಥಾಪಿಸುವುದು

ಅಧಿಕೃತ ಗ್ರಾಫನಾ ವೆಬ್‌ಸೈಟ್‌ನಲ್ಲಿ ನೀವು ಡ್ಯಾಶ್‌ಬೋರ್ಡ್ ಅನ್ನು ಕಾಣುವುದಿಲ್ಲ.

ಆದ್ದರಿಂದ, ನಾವು ಅದನ್ನು ಕೈಯಿಂದ ಮಾಡುತ್ತೇವೆ.

ನನ್ನ ಉಳಿಸಿದ ಡ್ಯಾಶ್‌ಬೋರ್ಡ್ ಅನ್ನು ನೀವು ಕಾಣಬಹುದು ಇಲ್ಲಿ.

ನೀವು ವಿಷಯಗಳೊಂದಿಗೆ ಟೇಬಲ್ ವೇರಿಯಬಲ್ ಅನ್ನು ಸಹ ರಚಿಸಬೇಕಾಗಿದೆ nginx.access_log.
ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

Singlestat ಒಟ್ಟು ವಿನಂತಿಗಳು:

SELECT
 1 as t,
 count(*) as c
 FROM $table
 WHERE $timeFilter GROUP BY t

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

Singlestat ವಿಫಲವಾದ ವಿನಂತಿಗಳು:

SELECT
 1 as t,
 count(*) as c
 FROM $table
 WHERE $timeFilter AND status NOT IN (200, 201, 401) GROUP BY t

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಸಿಂಗಲ್‌ಸ್ಟಾಟ್ ವಿಫಲ ಶೇಕಡಾ:

SELECT
 1 as t, (sum(status = 500 or status = 499)/sum(status = 200 or status = 201 or status = 401))*100 FROM $table
 WHERE $timeFilter GROUP BY t

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

Singlestat ಸರಾಸರಿ ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯ:

SELECT
 1, avg(request_time) FROM $table
 WHERE $timeFilter GROUP BY 1

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

Singlestat ಗರಿಷ್ಠ ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯ:

SELECT
 1 as t, max(request_time) as c
 FROM $table
 WHERE $timeFilter GROUP BY t

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಎಣಿಕೆ ಸ್ಥಿತಿ:

$columns(status, count(*) as c) from $table

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಪೈ ನಂತಹ ಡೇಟಾವನ್ನು ಔಟ್ಪುಟ್ ಮಾಡಲು, ನೀವು ಪ್ಲಗಿನ್ ಅನ್ನು ಸ್ಥಾಪಿಸಬೇಕು ಮತ್ತು ಗ್ರಾಫನಾವನ್ನು ಮರುಪ್ರಾರಂಭಿಸಬೇಕು.

grafana-cli plugins install grafana-piechart-panel
service grafana-server restart

ಪೈ ಟಾಪ್ 5 ಸ್ಥಿತಿ:

SELECT
    1, /* fake timestamp value */
    status,
    sum(status) AS Reqs
FROM $table
WHERE $timeFilter
GROUP BY status
ORDER BY Reqs desc
LIMIT 5

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಮುಂದೆ ನಾನು ಸ್ಕ್ರೀನ್‌ಶಾಟ್‌ಗಳಿಲ್ಲದೆ ವಿನಂತಿಗಳನ್ನು ನೀಡುತ್ತೇನೆ:

ಎಣಿಕೆ http_user_agent:

$columns(http_user_agent, count(*) c) FROM $table

ಗುಡ್‌ರೇಟ್/ಬ್ಯಾಡ್‌ರೇಟ್:

$rate(countIf(status = 200) AS good, countIf(status != 200) AS bad) FROM $table

ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯ:

$rate(avg(request_time) as request_time) FROM $table

ಅಪ್‌ಸ್ಟ್ರೀಮ್ ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯ (1ನೇ ಅಪ್‌ಸ್ಟ್ರೀಮ್ ಪ್ರತಿಕ್ರಿಯೆ ಸಮಯ):

$rate(avg(arrayElement(upstream_response_time,1)) as upstream_response_time) FROM $table

ಎಲ್ಲಾ vhost ಗಾಗಿ ಟೇಬಲ್ ಕೌಂಟ್ ಸ್ಥಿತಿ:

$columns(status, count(*) as c) from $table

ಡ್ಯಾಶ್‌ಬೋರ್ಡ್‌ನ ಸಾಮಾನ್ಯ ನೋಟ

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ಸರಾಸರಿ () ಮತ್ತು ಕ್ವಾಂಟೈಲ್ () ಹೋಲಿಕೆ

ಸರಾಸರಿ()
ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility
ಪರಿಮಾಣ ()
ಕ್ಲಿಕ್‌ಹೌಸ್‌ಗೆ nginx ಲಾಗ್‌ಗಳನ್ನು ಕಳುಹಿಸಲು Avito ನಿಂದ Nginx-log-collector utility

ತೀರ್ಮಾನ:

ಸಮುದಾಯವು nginx-log-collector ಅನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಲ್ಲಿ/ಪರೀಕ್ಷೆಯಲ್ಲಿ ತೊಡಗಿಸಿಕೊಳ್ಳುತ್ತದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.
ಮತ್ತು ಯಾರಾದರೂ nginx-log-collector ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದಾಗ, ಅವರು ಎಷ್ಟು ಡಿಸ್ಕ್, RAM ಮತ್ತು CPU ಅನ್ನು ಉಳಿಸಿದ್ದಾರೆ ಎಂದು ಅವರು ನಿಮಗೆ ತಿಳಿಸುತ್ತಾರೆ.

ಟೆಲಿಗ್ರಾಮ್ ಚಾನೆಲ್‌ಗಳು:

ಮಿಲಿಸೆಕೆಂಡ್‌ಗಳು:

ಮಿಲಿಸೆಕೆಂಡ್‌ಗಳು ಯಾರಿಗೆ ಮುಖ್ಯ, ದಯವಿಟ್ಟು ಇದರಲ್ಲಿ ಬರೆಯಿರಿ ಅಥವಾ ಮತ ಚಲಾಯಿಸಿ ಸಮಸ್ಯೆ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ