Rust тілінде жазылғандықтан, аналогтарымен салыстырғанда жоғары өнімділікпен және жедел жадты аз тұтынумен ерекшеленеді. Сонымен қатар, дұрыстықпен байланысты функцияларға көп көңіл бөлінеді, атап айтқанда, жіберілмеген оқиғаларды дискідегі буферге сақтау және файлдарды айналдыру мүмкіндігі.
Архитектуралық тұрғыдан Вектор - бір немесе бірнеше хабарламаларды қабылдайтын оқиға маршрутизаторы ақпарат көздері, таңдау бойынша осы хабарларға қолданылады түрлендірулер, және оларды біреуіне немесе бірнешеуіне жіберу дренаждар.
Вектор - бұл файлдық жүйені және логсташты ауыстыру, ол екі рөлде де әрекет ете алады (журналдарды қабылдау және жіберу), олар туралы толығырақ сайт.
Егер Logstash-те тізбек кіріс → сүзгі → шығыс ретінде салынған болса, онда Векторда ол солай көздері → өзгереді → раковиналар
Мысалдарды құжаттамадан табуға болады.
Бұл нұсқаулық қайта қаралған нұсқау болып табылады Вячеслав Рахинский. Түпнұсқа нұсқаулар геоип өңдеуді қамтиды. Ішкі желіден геоипті тестілеу кезінде вектор қателік берді.
Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30
Егер біреуге geoip өңдеу қажет болса, бастапқы нұсқауларды қараңыз Вячеслав Рахинский.
Біз Nginx (Access logs) → Vector (Client | Filebeat) → Vector (Сервер | Logstash) → комбинациясын Clickhouse ішінде бөлек және Elasticsearch ішінде бөлек конфигурациялаймыз. Біз 4 серверді орнатамыз. Сіз оны 3 сервермен айналып өтуге болады.
Схема осындай нәрсе.
Барлық серверлеріңізде Selinux өшіріңіз
sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot
Біз барлық серверлерде HTTP сервер эмуляторын + утилиталарын орнатамыз
ClickHouse SSE 4.2 нұсқаулар жинағын пайдаланады, сондықтан басқаша көрсетілмесе, пайдаланылған процессорда оны қолдау қосымша жүйе талабына айналады. Ағымдағы процессордың SSE 4.2 қолдайтынын тексеру пәрмені:
Кестелерді жасағаннан кейін Vector бағдарламасын іске қосуға болады
systemctl enable vector
systemctl start vector
Векторлық журналдарды келесідей көруге болады:
journalctl -f -u vector
Журналдарда осындай жазбалар болуы керек
INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.
Клиентте (веб-сервер) - 1-ші сервер
Nginx серверінде ipv6 өшіру керек, себебі clickhouse жүйесіндегі журналдар кестесі өрісті пайдаланады. upstream_addr IPv4, өйткені мен желі ішінде ipv6 қолданбаймын. Егер ipv6 өшірілмесе, қателер болады:
DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)
Алдымен, /etc/nginx/nginx.conf файлында Nginx жүйесінде журнал пішімін конфигурациялауымыз керек.
user nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically
# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
# provides the configuration file context in which the directives that affect connection processing are specified.
events {
# determines how much clients will be served per worker
# max clients = worker_connections * worker_processes
# max clients is also limited by the number of socket connections available on the system (~64k)
worker_connections 4000;
# optimized to serve many clients with each thread, essential for linux -- for testing environment
use epoll;
# accept as many connections as possible, may flood worker connections if set too low -- for testing environment
multi_accept on;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
log_format vector escape=json
'{'
'"node_name":"nginx-vector",'
'"timestamp":"$time_iso8601",'
'"server_name":"$server_name",'
'"request_full": "$request",'
'"request_user_agent":"$http_user_agent",'
'"request_http_host":"$http_host",'
'"request_uri":"$request_uri",'
'"request_scheme": "$scheme",'
'"request_method":"$request_method",'
'"request_length":"$request_length",'
'"request_time": "$request_time",'
'"request_referrer":"$http_referer",'
'"response_status": "$status",'
'"response_body_bytes_sent":"$body_bytes_sent",'
'"response_content_type":"$sent_http_content_type",'
'"remote_addr": "$remote_addr",'
'"remote_port": "$remote_port",'
'"remote_user": "$remote_user",'
'"upstream_addr": "$upstream_addr",'
'"upstream_bytes_received": "$upstream_bytes_received",'
'"upstream_bytes_sent": "$upstream_bytes_sent",'
'"upstream_cache_status":"$upstream_cache_status",'
'"upstream_connect_time":"$upstream_connect_time",'
'"upstream_header_time":"$upstream_header_time",'
'"upstream_response_length":"$upstream_response_length",'
'"upstream_response_time":"$upstream_response_time",'
'"upstream_status": "$upstream_status",'
'"upstream_content_type":"$upstream_http_content_type"'
'}';
access_log /var/log/nginx/access.log main;
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
Ағымдағы конфигурацияңызды бұзбау үшін Nginx сізге бірнеше access_log директивасына ие болуға мүмкіндік береді
access_log /var/log/nginx/access.log main; # Стандартный лог
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
Жаңа журналдар үшін логротация ережесін қосуды ұмытпаңыз (егер журнал файлы .log деп аяқталмаса)
default.conf файлын /etc/nginx/conf.d/ ішінен жойыңыз
Және /etc/vector/vector.toml конфигурациясында Filebeat ауыстыруды теңшеңіз. IP мекенжайы 172.26.10.108 – журнал серверінің IP мекенжайы (Вектор-Сервер)
data_dir = "/var/lib/vector"
[sources.nginx_file]
type = "file"
include = [ "/var/log/nginx/access.json.log" ]
start_at_beginning = false
fingerprinting.strategy = "device_and_inode"
[sinks.nginx_output_vector]
type = "vector"
inputs = [ "nginx_file" ]
address = "172.26.10.108:9876"
Вектор пайдаланушысын журнал файлдарын оқи алатындай етіп қажетті топқа қосуды ұмытпаңыз. Мысалы, centos ішіндегі nginx adm тобы құқықтарымен журналдарды жасайды.
usermod -a -G adm vector
Векторлық қызметті бастайық
systemctl enable vector
systemctl start vector
Векторлық журналдарды келесідей көруге болады:
journalctl -f -u vector
Журналдарда осындай жазба болуы керек
INFO vector::topology::builder: Healthcheck: Passed.
Стресс тестілеу
Тестілеу Apache эталоны арқылы жүзеге асырылады.
httpd-tools бумасы барлық серверлерде орнатылды
Экрандағы 4 түрлі серверден Apache бенчмаркін пайдаланып тестілеуді бастаймыз. Алдымен экран терминалының мультиплексорын іске қосамыз, содан кейін Apache эталоны арқылы тестілеуді бастаймыз. Экранмен қалай жұмыс істеу керектігін мына жерден таба аласыз мақала.
1-ші серверден
while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done
2-ші серверден
while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done
3-ші серверден
while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done
4-ші серверден
while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done
select concat(database, '.', table) as table,
formatReadableSize(sum(bytes)) as size,
sum(rows) as rows,
max(modification_time) as latest_modification,
sum(bytes) as bytes_size,
any(engine) as engine,
formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;
Clickhouse-да қанша журнал жинағанын білейік.
Журналдар кестесінің өлшемі 857.19 Мбайт.
Elasticsearch индексіндегі бірдей деректердің өлшемі 4,5 ГБ құрайды.
Параметрлердегі векторда деректерді көрсетпесеңіз, Clickhouse Elasticsearch жүйесіне қарағанда 4500/857.19 = 5.24 есе аз алады.