Fiind scrisă în limbajul Rust, se caracterizează prin performanță ridicată și consum redus de RAM în comparație cu analogii săi. În plus, se acordă multă atenție funcțiilor legate de corectitudine, în special, capacitatea de a salva evenimentele netrimise într-un buffer de pe disc și de a roti fișierele.
Din punct de vedere arhitectural, Vector este un router de evenimente care primește mesaje de la unul sau mai multe surse, aplicând opțional peste aceste mesaje transformăriși trimiterea acestora către unul sau mai multe drenuri.
Vector este un înlocuitor pentru filebeat și logstash, poate acționa în ambele roluri (primire și trimite jurnale), mai multe detalii despre ele On-line.
Dacă în Logstash lanțul este construit ca intrare → filtru → ieșire, atunci în Vector este surse → transformatele → chiuvete
Exemple se găsesc în documentație.
Această instrucțiune este o instrucțiune revizuită de la Viaceslav Rakhinsky. Instrucțiunile originale conțin procesarea geoip. La testarea geoip dintr-o rețea internă, vector a dat o eroare.
Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30
Dacă cineva trebuie să proceseze geoip, atunci consultați instrucțiunile originale de la Viaceslav Rakhinsky.
Vom configura combinația Nginx (Jurnalele de acces) → Vector (Client | Filebeat) → Vector (Server | Logstash) → separat în Clickhouse și separat în Elasticsearch. Vom instala 4 servere. Deși îl poți ocoli cu 3 servere.
Schema este cam asa.
Dezactivează Selinux pe toate serverele tale
sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot
Instalăm un emulator de server HTTP + utilitare pe toate serverele
ClickHouse utilizează setul de instrucțiuni SSE 4.2, așa că, dacă nu se specifică altfel, suportul pentru acesta în procesorul utilizat devine o cerință suplimentară de sistem. Iată comanda pentru a verifica dacă procesorul actual acceptă SSE 4.2:
Configurarea Elasticsearch pentru modul cu un singur nod 1 fragment, 0 replică. Cel mai probabil veți avea un cluster cu un număr mare de servere și nu trebuie să faceți acest lucru.
Pentru indexuri viitoare, actualizați șablonul implicit:
INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.
Pe client (server web) - primul server
Pe serverul cu nginx, trebuie să dezactivați ipv6, deoarece tabelul de jurnalele din clickhouse folosește câmpul upstream_addr IPv4, deoarece nu folosesc ipv6 în rețea. Dacă ipv6 nu este dezactivat, vor apărea erori:
DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)
Mai întâi, trebuie să configuram formatul jurnalului în Nginx în fișierul /etc/nginx/nginx.conf
user nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically
# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
# provides the configuration file context in which the directives that affect connection processing are specified.
events {
# determines how much clients will be served per worker
# max clients = worker_connections * worker_processes
# max clients is also limited by the number of socket connections available on the system (~64k)
worker_connections 4000;
# optimized to serve many clients with each thread, essential for linux -- for testing environment
use epoll;
# accept as many connections as possible, may flood worker connections if set too low -- for testing environment
multi_accept on;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
log_format vector escape=json
'{'
'"node_name":"nginx-vector",'
'"timestamp":"$time_iso8601",'
'"server_name":"$server_name",'
'"request_full": "$request",'
'"request_user_agent":"$http_user_agent",'
'"request_http_host":"$http_host",'
'"request_uri":"$request_uri",'
'"request_scheme": "$scheme",'
'"request_method":"$request_method",'
'"request_length":"$request_length",'
'"request_time": "$request_time",'
'"request_referrer":"$http_referer",'
'"response_status": "$status",'
'"response_body_bytes_sent":"$body_bytes_sent",'
'"response_content_type":"$sent_http_content_type",'
'"remote_addr": "$remote_addr",'
'"remote_port": "$remote_port",'
'"remote_user": "$remote_user",'
'"upstream_addr": "$upstream_addr",'
'"upstream_bytes_received": "$upstream_bytes_received",'
'"upstream_bytes_sent": "$upstream_bytes_sent",'
'"upstream_cache_status":"$upstream_cache_status",'
'"upstream_connect_time":"$upstream_connect_time",'
'"upstream_header_time":"$upstream_header_time",'
'"upstream_response_length":"$upstream_response_length",'
'"upstream_response_time":"$upstream_response_time",'
'"upstream_status": "$upstream_status",'
'"upstream_content_type":"$upstream_http_content_type"'
'}';
access_log /var/log/nginx/access.log main;
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
Pentru a nu rupe configurația actuală, Nginx vă permite să aveți mai multe directive access_log
access_log /var/log/nginx/access.log main; # Стандартный лог
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
Nu uitați să adăugați o regulă la logrotate pentru jurnalele noi (dacă fișierul jurnal nu se termină cu .log)
Și configurați înlocuirea Filebeat în configurația /etc/vector/vector.toml. Adresa IP 172.26.10.108 este adresa IP a serverului de jurnal (Vector-Server)
data_dir = "/var/lib/vector"
[sources.nginx_file]
type = "file"
include = [ "/var/log/nginx/access.json.log" ]
start_at_beginning = false
fingerprinting.strategy = "device_and_inode"
[sinks.nginx_output_vector]
type = "vector"
inputs = [ "nginx_file" ]
address = "172.26.10.108:9876"
Nu uitați să adăugați utilizatorul vector la grupul necesar, astfel încât să poată citi fișierele jurnal. De exemplu, nginx în centos creează jurnale cu drepturi de grup adm.
usermod -a -G adm vector
Să începem serviciul vectorial
systemctl enable vector
systemctl start vector
Jurnalele vectoriale pot fi vizualizate astfel:
journalctl -f -u vector
Ar trebui să existe o intrare ca aceasta în jurnale
INFO vector::topology::builder: Healthcheck: Passed.
Testare stresanta
Testarea este efectuată folosind benchmark Apache.
Pachetul httpd-tools a fost instalat pe toate serverele
Începem testarea folosind benchmark Apache de la 4 servere diferite de pe ecran. Mai întâi, lansăm multiplexorul terminalului de ecran și apoi începem să testăm folosind benchmark-ul Apache. Cum să lucrați cu ecranul pe care îl puteți găsi în articol.
De la primul server
while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done
De la primul server
while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done
De la primul server
while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done
De la primul server
while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done
select concat(database, '.', table) as table,
formatReadableSize(sum(bytes)) as size,
sum(rows) as rows,
max(modification_time) as latest_modification,
sum(bytes) as bytes_size,
any(engine) as engine,
formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;
Să aflăm câte bușteni au ocupat în Clickhouse.
Dimensiunea tabelului de jurnal este de 857.19 MB.
Dimensiunea acelorași date din indexul din Elasticsearch este de 4,5 GB.
Dacă nu specificați date în vector în parametri, Clickhouse ia 4500/857.19 = 5.24 ori mai puțin decât în Elasticsearch.
În vector, câmpul de compresie este utilizat implicit.