نظرًا لكونها مكتوبة بلغة Rust ، فهي تتميز بأداء عالٍ واستهلاك منخفض لذاكرة الوصول العشوائي مقارنةً بنظيراتها. بالإضافة إلى ذلك ، يتم إيلاء الكثير من الاهتمام للوظائف المتعلقة بالصحة ، على وجه الخصوص ، القدرة على حفظ الأحداث غير المرسلة في مخزن مؤقت على القرص وتناوب الملفات.
من الناحية المعمارية ، يعد Vector جهاز توجيه أحداث يقبل الرسائل من واحد أو أكثر مصادر، يتم تطبيقه اختياريًا على هذه الرسائل التحولات، وإرسالها إلى واحد أو أكثر المصارف.
Vector هو بديل لـ filebeat و logstash ، يمكنه العمل في كلا الدورين (استلام السجلات وإرسالها) ، مزيد من التفاصيل عنها على الانترنت.
هذه التعليمات هي تعليمات منقحة من فياتشيسلاف راخينسكي. التعليمات الأصلية لها معالجة geoip. عند اختبار geoip من الشبكة الداخلية ، أعطاني المتجه خطأ.
Aug 05 06:25:31.889 DEBUG transform{name=nginx_parse_rename_fields type=rename_fields}: vector::transforms::rename_fields: Field did not exist field=«geoip.country_name» rate_limit_secs=30
إذا احتاج شخص ما إلى معالجة geoip ، فراجع التعليمات الأصلية من فياتشيسلاف راخينسكي.
سنقوم بتكوين Nginx (سجلات الوصول) → Vector (Client | Filebeat) → Vector (Server | Logstash) → بشكل منفصل في Clickhouse وبشكل منفصل في Elasticsearch. قم بإعداد 4 خوادم. على الرغم من أنه من الممكن تجاوز 3 خوادم.
المخطط شيء من هذا القبيل.
قم بإيقاف تشغيل Selinux على جميع الخوادم الخاصة بك
sed -i 's/^SELINUX=.*/SELINUX=disabled/g' /etc/selinux/config
reboot
قم بتثبيت محاكي خادم HTTP + الأدوات المساعدة على جميع الخوادم
يستخدم ClickHouse مجموعة تعليمات SSE 4.2 ، لذلك ، ما لم يُذكر خلاف ذلك ، يصبح دعمه في المعالج المستخدم مطلبًا إضافيًا للنظام. إليك الأمر للتحقق مما إذا كان المعالج الحالي يدعم SSE 4.2:
INFO vector::topology::builder: Healthcheck: Passed.
INFO vector::topology::builder: Healthcheck: Passed.
على العميل (خادم الويب) - الخادم الأول
على الخادم مع nginx ، تحتاج إلى تعطيل ipv6 ، لأن جدول السجلات في clickhouse يستخدم الحقل upstream_addr IPv4 لأنني لا أستخدم IPv6 داخليًا. إذا لم يتم تعطيل ipv6 ، فستكون هناك أخطاء:
DB::Exception: Invalid IPv4 value.: (while read the value of key upstream_addr)
نحتاج أولاً إلى تكوين تنسيق سجل Nginx في ملف /etc/nginx/nginx.conf
user nginx;
# you must set worker processes based on your CPU cores, nginx does not benefit from setting more than that
worker_processes auto; #some last versions calculate it automatically
# number of file descriptors used for nginx
# the limit for the maximum FDs on the server is usually set by the OS.
# if you don't set FD's then OS settings will be used which is by default 2000
worker_rlimit_nofile 100000;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
# provides the configuration file context in which the directives that affect connection processing are specified.
events {
# determines how much clients will be served per worker
# max clients = worker_connections * worker_processes
# max clients is also limited by the number of socket connections available on the system (~64k)
worker_connections 4000;
# optimized to serve many clients with each thread, essential for linux -- for testing environment
use epoll;
# accept as many connections as possible, may flood worker connections if set too low -- for testing environment
multi_accept on;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
log_format vector escape=json
'{'
'"node_name":"nginx-vector",'
'"timestamp":"$time_iso8601",'
'"server_name":"$server_name",'
'"request_full": "$request",'
'"request_user_agent":"$http_user_agent",'
'"request_http_host":"$http_host",'
'"request_uri":"$request_uri",'
'"request_scheme": "$scheme",'
'"request_method":"$request_method",'
'"request_length":"$request_length",'
'"request_time": "$request_time",'
'"request_referrer":"$http_referer",'
'"response_status": "$status",'
'"response_body_bytes_sent":"$body_bytes_sent",'
'"response_content_type":"$sent_http_content_type",'
'"remote_addr": "$remote_addr",'
'"remote_port": "$remote_port",'
'"remote_user": "$remote_user",'
'"upstream_addr": "$upstream_addr",'
'"upstream_bytes_received": "$upstream_bytes_received",'
'"upstream_bytes_sent": "$upstream_bytes_sent",'
'"upstream_cache_status":"$upstream_cache_status",'
'"upstream_connect_time":"$upstream_connect_time",'
'"upstream_header_time":"$upstream_header_time",'
'"upstream_response_length":"$upstream_response_length",'
'"upstream_response_time":"$upstream_response_time",'
'"upstream_status": "$upstream_status",'
'"upstream_content_type":"$upstream_http_content_type"'
'}';
access_log /var/log/nginx/access.log main;
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
من أجل عدم كسر إعداداتك الحالية ، يسمح لك Nginx بالحصول على عدة توجيهات access_log
access_log /var/log/nginx/access.log main; # Стандартный лог
access_log /var/log/nginx/access.json.log vector; # Новый лог в формате json
لا تنس إضافة قاعدة لتسجيل الدخول لسجلات جديدة (إذا كان ملف السجل لا ينتهي بـ .log)
وقم بتكوين استبدال Filebeat في /etc/vector/vector.toml config. عنوان IP 172.26.10.108 هو عنوان IP لخادم السجل (Vector-Server)
data_dir = "/var/lib/vector"
[sources.nginx_file]
type = "file"
include = [ "/var/log/nginx/access.json.log" ]
start_at_beginning = false
fingerprinting.strategy = "device_and_inode"
[sinks.nginx_output_vector]
type = "vector"
inputs = [ "nginx_file" ]
address = "172.26.10.108:9876"
لا تنس إضافة متجه المستخدم إلى المجموعة الصحيحة حتى يتمكن من قراءة ملفات السجل. على سبيل المثال ، يقوم nginx على السنتوس بإنشاء سجلات مع حقوق مجموعة adm.
usermod -a -G adm vector
لنبدأ خدمة المتجهات
systemctl enable vector
systemctl start vector
يمكن عرض سجلات المتجهات على هذا النحو
journalctl -f -u vector
يجب أن تحتوي السجلات على شيء من هذا القبيل
INFO vector::topology::builder: Healthcheck: Passed.
اختبار الإجهاد
يتم إجراء الاختبار باستخدام معيار أباتشي.
تم تثبيت حزمة أدوات httpd على كافة الخوادم
نبدأ الاختبار باستخدام معيار Apache من 4 خوادم مختلفة في الشاشة. أولاً ، نطلق معدد الإرسال الطرفي للشاشة ، ثم نبدأ في الاختبار باستخدام معيار Apache. كيفية العمل مع الشاشة التي يمكنك العثور عليها مقالة.
من الخادم الأول
while true; do ab -H "User-Agent: 1server" -c 100 -n 10 -t 10 http://vhost1/; sleep 1; done
من الخادم الأول
while true; do ab -H "User-Agent: 2server" -c 100 -n 10 -t 10 http://vhost2/; sleep 1; done
من الخادم الأول
while true; do ab -H "User-Agent: 3server" -c 100 -n 10 -t 10 http://vhost3/; sleep 1; done
من الخادم الأول
while true; do ab -H "User-Agent: 4server" -c 100 -n 10 -t 10 http://vhost4/; sleep 1; done
select concat(database, '.', table) as table,
formatReadableSize(sum(bytes)) as size,
sum(rows) as rows,
max(modification_time) as latest_modification,
sum(bytes) as bytes_size,
any(engine) as engine,
formatReadableSize(sum(primary_key_bytes_in_memory)) as primary_keys_size
from system.parts
where active
group by database, table
order by bytes_size desc;
دعنا نتعرف على عدد السجلات التي تم تسجيلها في Clickhouse.
حجم جدول السجلات 857.19 ميجابايت.
حجم نفس البيانات في الفهرس في Elasticsearch هو 4,5 جيجابايت.
إذا لم يتم تحديد معلمات المتجه في Clickhouse ، فإن البيانات تأخذ 4500 / 857.19 = 5.24 مرة أقل من Elasticsearch.