Napisany w języku Rust, charakteryzuje się wysoką wydajnością i niskim zużyciem pamięci RAM w porównaniu do swoich odpowiedników. Dodatkowo dużo uwagi poświęcono funkcjom związanym z poprawnością, w szczególności możliwością zapisywania niewysłanych zdarzeń do bufora na dysku oraz rotacji plików.
Architektonicznie Vector jest routerem zdarzeń, który odbiera komunikaty od jednego lub więcej źródła, opcjonalnie stosując się do tych wiadomości przekształceniai wysyłanie ich do jednego lub więcej drenuje.
Vector zastępuje filebeat i logstash, może pełnić obie role (odbierać i wysyłać logi), więcej szczegółów na ich temat witryna internetowa.
Jeśli w Logstash łańcuch jest zbudowany jako wejście → filtr → wyjście, to w Vector tak jest źródła → transformacje → Zlewozmywaki
Przykłady można znaleźć w dokumentacji.
Niniejsza instrukcja jest poprawioną instrukcją z Wiaczesław Rachiński. Oryginalne instrukcje zawierają przetwarzanie geoip. Podczas testowania Geoip z sieci wewnętrznej, wektor dał błąd.
Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30
Jeśli ktoś potrzebuje przetworzyć geoip, zapoznaj się z oryginalnymi instrukcjami z Wiaczesław Rachiński.
Skonfigurujemy kombinację Nginx (dzienniki dostępu) → Vector (Klient | Filebeat) → Vector (Serwer | Logstash) → osobno w Clickhouse i osobno w Elasticsearch. Zainstalujemy 4 serwery. Chociaż można to ominąć za pomocą 3 serwerów.
Schemat jest mniej więcej taki.
Wyłącz Selinux na wszystkich swoich serwerach
sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot
Na wszystkich serwerach instalujemy emulator serwera HTTP + narzędzia
ClickHouse wykorzystuje zestaw instrukcji SSE 4.2, więc jeśli nie określono inaczej, obsługa go w zastosowanym procesorze staje się dodatkowym wymaganiem systemowym. Oto polecenie sprawdzające, czy bieżący procesor obsługuje SSE 4.2:
Konfigurowanie Elasticsearch dla trybu jednowęzłowego 1 fragment, 0 replik. Najprawdopodobniej będziesz mieć klaster składający się z dużej liczby serwerów i nie musisz tego robić.
W przypadku przyszłych indeksów zaktualizuj szablon domyślny:
Dzienniki wektorowe można przeglądać w następujący sposób:
journalctl -f -u vector
W logach powinny być takie wpisy
INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.
Na kliencie (serwerze internetowym) - pierwszy serwer
Na serwerze z nginx musisz wyłączyć ipv6, ponieważ tabela logów w Clickhouse używa pola upstream_addr IPv4, ponieważ nie używam protokołu IPv6 w sieci. Jeśli ipv6 nie zostanie wyłączone, pojawią się błędy:
DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)
Być może czytelnicy dodają obsługę protokołu IPv6.
Najpierw musimy skonfigurować format logu w Nginx w pliku /etc/nginx/nginx.conf
user nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically
# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
# provides the configuration file context in which the directives that affect connection processing are specified.
events {
# determines how much clients will be served per worker
# max clients = worker_connections * worker_processes
# max clients is also limited by the number of socket connections available on the system (~64k)
worker_connections 4000;
# optimized to serve many clients with each thread, essential for linux -- for testing environment
use epoll;
# accept as many connections as possible, may flood worker connections if set too low -- for testing environment
multi_accept on;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
log_format vector escape=json
'{'
'"node_name":"nginx-vector",'
'"timestamp":"$time_iso8601",'
'"server_name":"$server_name",'
'"request_full": "$request",'
'"request_user_agent":"$http_user_agent",'
'"request_http_host":"$http_host",'
'"request_uri":"$request_uri",'
'"request_scheme": "$scheme",'
'"request_method":"$request_method",'
'"request_length":"$request_length",'
'"request_time": "$request_time",'
'"request_referrer":"$http_referer",'
'"response_status": "$status",'
'"response_body_bytes_sent":"$body_bytes_sent",'
'"response_content_type":"$sent_http_content_type",'
'"remote_addr": "$remote_addr",'
'"remote_port": "$remote_port",'
'"remote_user": "$remote_user",'
'"upstream_addr": "$upstream_addr",'
'"upstream_bytes_received": "$upstream_bytes_received",'
'"upstream_bytes_sent": "$upstream_bytes_sent",'
'"upstream_cache_status":"$upstream_cache_status",'
'"upstream_connect_time":"$upstream_connect_time",'
'"upstream_header_time":"$upstream_header_time",'
'"upstream_response_length":"$upstream_response_length",'
'"upstream_response_time":"$upstream_response_time",'
'"upstream_status": "$upstream_status",'
'"upstream_content_type":"$upstream_http_content_type"'
'}';
access_log /var/log/nginx/access.log main;
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
Aby nie zepsuć bieżącej konfiguracji, Nginx pozwala na posiadanie kilku dyrektyw access_log
access_log /var/log/nginx/access.log main; # Стандартный лог
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
Nie zapomnij dodać reguły logrotate dla nowych logów (jeśli plik logu nie kończy się na .log)
I skonfiguruj zastąpienie Filebeat w konfiguracji /etc/vector/vector.toml. Adres IP 172.26.10.108 to adres IP serwera logów (Vector-Server)
data_dir = "/var/lib/vector"
[sources.nginx_file]
type = "file"
include = [ "/var/log/nginx/access.json.log" ]
start_at_beginning = false
fingerprinting.strategy = "device_and_inode"
[sinks.nginx_output_vector]
type = "vector"
inputs = [ "nginx_file" ]
address = "172.26.10.108:9876"
Nie zapomnij dodać użytkownika wektora do wymaganej grupy, aby mógł czytać pliki dziennika. Na przykład nginx w centos tworzy dzienniki z uprawnieniami grupy adm.
usermod -a -G adm vector
Uruchommy usługę wektorową
systemctl enable vector
systemctl start vector
Dzienniki wektorowe można przeglądać w następujący sposób:
journalctl -f -u vector
W logach powinien być taki wpis
INFO vector::topology::builder: Healthcheck: Passed.
Test naprężeń
Testy przeprowadzane są przy użyciu benchmarku Apache.
Pakiet httpd-tools został zainstalowany na wszystkich serwerach
Rozpoczynamy testowanie przy użyciu testu porównawczego Apache z 4 różnych serwerów na ekranie. Najpierw uruchamiamy multiplekser terminala ekranowego, a następnie rozpoczynamy testy z wykorzystaniem benchmarku Apache. Jak pracować z ekranem, który znajdziesz w Artykuł.
Z pierwszego serwera
while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done
Z pierwszego serwera
while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done
Z pierwszego serwera
while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done
Z pierwszego serwera
while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done
select concat(database, '.', table) as table,
formatReadableSize(sum(bytes)) as size,
sum(rows) as rows,
max(modification_time) as latest_modification,
sum(bytes) as bytes_size,
any(engine) as engine,
formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;
Przekonajmy się, ile logów zajęło Clickhouse.
Rozmiar tabeli dzienników wynosi 857.19 MB.
Rozmiar tych samych danych w indeksie w Elasticsearch wynosi 4,5 GB.
Jeśli w parametrach nie określisz danych w wektorze, Clickhouse pobiera 4500/857.19 = 5.24 razy mniej niż w Elasticsearch.