ฉันชื่อ Igor Sidorenko ฉันเป็นผู้นำด้านเทคนิคในทีมผู้ดูแลระบบที่ดูแลโครงสร้างพื้นฐานทั้งหมดของ Domclick
ฉันต้องการแบ่งปันประสบการณ์ของฉันในการตั้งค่าการจัดเก็บข้อมูลแบบกระจายใน Elasticsearch เราจะดูว่าการตั้งค่าใดบนโหนดมีหน้าที่รับผิดชอบในการกระจายเศษ วิธีการทำงานของ ILM และการทำงาน
ผู้ที่ทำงานกับบันทึกไม่ทางใดก็ทางหนึ่งประสบปัญหาในการจัดเก็บข้อมูลระยะยาวสำหรับการวิเคราะห์ในภายหลัง สิ่งนี้เป็นจริงโดยเฉพาะอย่างยิ่งใน Elasticsearch เพราะทุกอย่างโชคไม่ดีกับการทำงานของผู้ดูแล เวอร์ชัน 6.6 แนะนำฟังก์ชัน ILM ประกอบด้วย 4 ขั้นตอน:
- ร้อน - ดัชนีกำลังได้รับการอัปเดตและสอบถามอย่างแข็งขัน
- อบอุ่น - ดัชนีไม่ได้รับการอัพเดตอีกต่อไป แต่ยังคงถูกสอบถาม
- เย็น - ดัชนีไม่ได้รับการอัพเดตอีกต่อไปและไม่ค่อยมีการสอบถาม ข้อมูลยังคงสามารถค้นหาได้ แต่ข้อความค้นหาอาจช้าลง
- ลบ - ไม่จำเป็นต้องใช้ดัชนีอีกต่อไปและสามารถลบได้อย่างปลอดภัย
ที่ให้ไว้
- Elasticsearch Data Hot: 24 โปรเซสเซอร์, หน่วยความจำ 128 GB, 1,8 TB SSD RAID 10 (8 โหนด)
- Elasticsearch Data Warm: โปรเซสเซอร์ 24 ตัว, หน่วยความจำ 64 GB, นโยบาย NetApp SSD 8 TB (4 โหนด)
- Elasticsearch Data Cold: 8 โปรเซสเซอร์, หน่วยความจำ 32 GB, 128 TB HDD RAID 10 (4 โหนด)
เป้า
การตั้งค่าเหล่านี้เป็นรายบุคคล ทุกอย่างขึ้นอยู่กับตำแหน่งบนโหนด จำนวนดัชนี บันทึก ฯลฯ เรามีข้อมูล 2-3 TB ต่อวัน
- 5 วัน - เฟสร้อน (8 หลัก / 1 แบบจำลอง)
- 20 วัน - ระยะอบอุ่น (
ดัชนีการหดตัว 4 ตัวหลัก / 1 ตัวจำลอง) - 90 วัน - ระยะเย็น (
ดัชนีการแช่แข็ง 4 ตัวหลัก / 1 ตัวจำลอง) - 120 วัน - ลบเฟส.
การตั้งค่า ElasticSearch
ในการกระจายชาร์ดข้ามโหนด คุณต้องมีพารามิเตอร์เพียงตัวเดียว:
- ร้อน- โหนด:
~]# cat /etc/elasticsearch/elasticsearch.yml | grep attr # Add custom attributes to the node: node.attr.box_type: hot
- อบอุ่น- โหนด:
~]# cat /etc/elasticsearch/elasticsearch.yml | grep attr # Add custom attributes to the node: node.attr.box_type: warm
- เย็น- โหนด:
~]# cat /etc/elasticsearch/elasticsearch.yml | grep attr # Add custom attributes to the node: node.attr.box_type: cold
การตั้งค่า Logstash
ทั้งหมดทำงานอย่างไร และเราใช้คุณลักษณะนี้อย่างไร เริ่มต้นด้วยการเข้าสู่ระบบของ Elasticsearch มีสองวิธี:
- Logstash ดึงบันทึกจาก Kafka สามารถรับทำความสะอาดหรือแปลงด้านข้างของคุณ
- มีบางอย่างที่เขียนไปยัง Elasticsearch เช่น เซิร์ฟเวอร์ APM
พิจารณาตัวอย่างการจัดการดัชนีผ่าน Logstash มันสร้างดัชนีและนำไปใช้กับมัน
k8s-ingress.conf
input {
kafka {
bootstrap_servers => "node01, node02, node03"
topics => ["ingress-k8s"]
decorate_events => false
codec => "json"
}
}
filter {
ruby {
path => "/etc/logstash/conf.d/k8s-normalize.rb"
}
if [log] =~ "[warn]" or [log] =~ "[error]" or [log] =~ "[notice]" or [log] =~ "[alert]" {
grok {
match => { "log" => "%{DATA:[nginx][error][time]} [%{DATA:[nginx][error][level]}] %{NUMBER:[nginx][error][pid]}#%{NUMBER:[nginx][error][tid]}: *%{NUMBER:[nginx][error][connection_id]} %{DATA:[nginx][error][message]}, client: %{IPORHOST:[nginx][error][remote_ip]}, server: %{DATA:[nginx][error][server]}, request: "%{WORD:[nginx][error][method]} %{DATA:[nginx][error][url]} HTTP/%{NUMBER:[nginx][error][http_version]}", (?:upstream: "%{DATA:[nginx][error][upstream][proto]}://%{DATA:[nginx][error][upstream][host]}:%{DATA:[nginx][error][upstream][port]}/%{DATA:[nginx][error][upstream][url]}", )?host: "%{DATA:[nginx][error][host]}"(?:, referrer: "%{DATA:[nginx][error][referrer]}")?" }
remove_field => "log"
}
}
else {
grok {
match => { "log" => "%{IPORHOST:[nginx][access][host]} - [%{IPORHOST:[nginx][access][remote_ip]}] - %{DATA:[nginx][access][remote_user]} [%{HTTPDATE:[nginx][access][time]}] "%{WORD:[nginx][access][method]} %{DATA:[nginx][access][url]} HTTP/%{NUMBER:[nginx][access][http_version]}" %{NUMBER:[nginx][access][response_code]} %{NUMBER:[nginx][access][bytes_sent]} "%{DATA:[nginx][access][referrer]}" "%{DATA:[nginx][access][agent]}" %{NUMBER:[nginx][access][request_lenght]} %{NUMBER:[nginx][access][request_time]} [%{DATA:[nginx][access][upstream][name]}] (?:-|%{IPORHOST:[nginx][access][upstream][addr]}:%{NUMBER:[nginx][access][upstream][port]}) (?:-|%{NUMBER:[nginx][access][upstream][response_lenght]}) %{DATA:[nginx][access][upstream][response_time]} %{DATA:[nginx][access][upstream][status]} %{DATA:[nginx][access][request_id]}" }
remove_field => "log"
}
}
}
output {
elasticsearch {
id => "k8s-ingress"
hosts => ["node01", "node02", "node03", "node04", "node05", "node06", "node07", "node08"]
manage_template => true # включаем управление шаблонами
template_name => "k8s-ingress" # имя применяемого шаблона
ilm_enabled => true # включаем управление ILM
ilm_rollover_alias => "k8s-ingress" # alias для записи в индексы, должен быть уникальным
ilm_pattern => "{now/d}-000001" # шаблон для создания индексов, может быть как "{now/d}-000001" так и "000001"
ilm_policy => "k8s-ingress" # политика прикрепляемая к индексу
index => "k8s-ingress-%{+YYYY.MM.dd}" # название создаваемого индекса, может содержать %{+YYYY.MM.dd}, зависит от ilm_pattern
}
}
การตั้งค่า Kibana
มีรูปแบบพื้นฐานที่ใช้กับดัชนีใหม่ทั้งหมด โดยจะตั้งค่าการกระจายของดัชนีฮอต จำนวนเศษ การจำลอง ฯลฯ น้ำหนักของเทมเพลตถูกกำหนดโดยตัวเลือก order
. เทมเพลตที่มีน้ำหนักสูงกว่าจะแทนที่พารามิเตอร์เทมเพลตที่มีอยู่หรือเพิ่มใหม่
GET_template/ค่าเริ่มต้น
{
"default" : {
"order" : -1, # вес шаблона
"version" : 1,
"index_patterns" : [
"*" # применяем ко всем индексам
],
"settings" : {
"index" : {
"codec" : "best_compression", # уровень сжатия
"routing" : {
"allocation" : {
"require" : {
"box_type" : "hot" # распределяем только по горячим нодам
},
"total_shards_per_node" : "8" # максимальное количество шардов на ноду от одного индекса
}
},
"refresh_interval" : "5s", # интервал обновления индекса
"number_of_shards" : "8", # количество шардов
"auto_expand_replicas" : "0-1", # количество реплик на ноду от одного индекса
"number_of_replicas" : "1" # количество реплик
}
},
"mappings" : {
"_meta" : { },
"_source" : { },
"properties" : { }
},
"aliases" : { }
}
}
จากนั้นใช้การแมปกับดัชนี k8s-ingress-*
ใช้เทมเพลตที่มีน้ำหนักมากกว่า
รับ _template/k8s-ingress
{
"k8s-ingress" : {
"order" : 100,
"index_patterns" : [
"k8s-ingress-*"
],
"settings" : {
"index" : {
"lifecycle" : {
"name" : "k8s-ingress",
"rollover_alias" : "k8s-ingress"
},
"codec" : "best_compression",
"routing" : {
"allocation" : {
"require" : {
"box_type" : "hot"
}
}
},
"number_of_shards" : "8",
"number_of_replicas" : "1"
}
},
"mappings" : {
"numeric_detection" : false,
"_meta" : { },
"_source" : { },
"dynamic_templates" : [
{
"all_fields" : {
"mapping" : {
"index" : false,
"type" : "text"
},
"match" : "*"
}
}
],
"date_detection" : false,
"properties" : {
"kubernetes" : {
"type" : "object",
"properties" : {
"container_name" : {
"type" : "keyword"
},
"container_hash" : {
"index" : false,
"type" : "keyword"
},
"host" : {
"type" : "keyword"
},
"annotations" : {
"type" : "object",
"properties" : {
"value" : {
"index" : false,
"type" : "text"
},
"key" : {
"index" : false,
"type" : "keyword"
}
}
},
"docker_id" : {
"index" : false,
"type" : "keyword"
},
"pod_id" : {
"type" : "keyword"
},
"labels" : {
"type" : "object",
"properties" : {
"value" : {
"type" : "keyword"
},
"key" : {
"type" : "keyword"
}
}
},
"namespace_name" : {
"type" : "keyword"
},
"pod_name" : {
"type" : "keyword"
}
}
},
"@timestamp" : {
"type" : "date"
},
"nginx" : {
"type" : "object",
"properties" : {
"access" : {
"type" : "object",
"properties" : {
"agent" : {
"type" : "text"
},
"response_code" : {
"type" : "integer"
},
"upstream" : {
"type" : "object",
"properties" : {
"port" : {
"type" : "keyword"
},
"name" : {
"type" : "keyword"
},
"response_lenght" : {
"type" : "integer"
},
"response_time" : {
"index" : false,
"type" : "text"
},
"addr" : {
"type" : "keyword"
},
"status" : {
"index" : false,
"type" : "text"
}
}
},
"method" : {
"type" : "keyword"
},
"http_version" : {
"type" : "keyword"
},
"bytes_sent" : {
"type" : "integer"
},
"request_lenght" : {
"type" : "integer"
},
"url" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword"
}
}
},
"remote_user" : {
"type" : "text"
},
"referrer" : {
"type" : "text"
},
"remote_ip" : {
"type" : "ip"
},
"request_time" : {
"format" : "yyyy/MM/dd HH:mm:ss||yyyy/MM/dd||epoch_millis||dd/MMM/YYYY:H:m:s Z",
"type" : "date"
},
"host" : {
"type" : "keyword"
},
"time" : {
"format" : "yyyy/MM/dd HH:mm:ss||yyyy/MM/dd||epoch_millis||dd/MMM/YYYY:H:m:s Z",
"type" : "date"
}
}
},
"error" : {
"type" : "object",
"properties" : {
"server" : {
"type" : "keyword"
},
"upstream" : {
"type" : "object",
"properties" : {
"port" : {
"type" : "keyword"
},
"proto" : {
"type" : "keyword"
},
"host" : {
"type" : "keyword"
},
"url" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword"
}
}
}
}
},
"method" : {
"type" : "keyword"
},
"level" : {
"type" : "keyword"
},
"http_version" : {
"type" : "keyword"
},
"pid" : {
"index" : false,
"type" : "integer"
},
"message" : {
"type" : "text"
},
"tid" : {
"index" : false,
"type" : "keyword"
},
"url" : {
"type" : "text",
"fields" : {
"keyword" : {
"type" : "keyword"
}
}
},
"referrer" : {
"type" : "text"
},
"remote_ip" : {
"type" : "ip"
},
"connection_id" : {
"index" : false,
"type" : "keyword"
},
"host" : {
"type" : "keyword"
},
"time" : {
"format" : "yyyy/MM/dd HH:mm:ss||yyyy/MM/dd||epoch_millis||dd/MMM/YYYY:H:m:s Z",
"type" : "date"
}
}
}
}
},
"log" : {
"type" : "text"
},
"@version" : {
"type" : "text",
"fields" : {
"keyword" : {
"ignore_above" : 256,
"type" : "keyword"
}
}
},
"eventtime" : {
"type" : "float"
}
}
},
"aliases" : { }
}
}
หลังจากใช้เทมเพลตทั้งหมดแล้ว เราจะใช้นโยบาย ILM และเริ่มตรวจสอบอายุของดัชนี
รับ _ilm/policy/k8s-ingress
{
"k8s-ingress" : {
"version" : 14,
"modified_date" : "2020-06-11T10:27:01.448Z",
"policy" : {
"phases" : {
"warm" : { # теплая фаза
"min_age" : "5d", # срок жизни индекса после ротации до наступления теплой фазы
"actions" : {
"allocate" : {
"include" : { },
"exclude" : { },
"require" : {
"box_type" : "warm" # куда перемещаем индекс
}
},
"shrink" : {
"number_of_shards" : 4 # обрезание индексов, т.к. у нас 4 ноды
}
}
},
"cold" : { # холодная фаза
"min_age" : "25d", # срок жизни индекса после ротации до наступления холодной фазы
"actions" : {
"allocate" : {
"include" : { },
"exclude" : { },
"require" : {
"box_type" : "cold" # куда перемещаем индекс
}
},
"freeze" : { } # замораживаем для оптимизации
}
},
"hot" : { # горячая фаза
"min_age" : "0ms",
"actions" : {
"rollover" : {
"max_size" : "50gb", # максимальный размер индекса до ротации (будет х2, т.к. есть 1 реплика)
"max_age" : "1d" # максимальный срок жизни индекса до ротации
},
"set_priority" : {
"priority" : 100
}
}
},
"delete" : { # фаза удаления
"min_age" : "120d", # максимальный срок жизни после ротации перед удалением
"actions" : {
"delete" : { }
}
}
}
}
}
}
ปัญหา
มีปัญหาในขั้นตอนการตั้งค่าและการดีบัก
เฟสร้อน
สำหรับการหมุนดัชนีที่ถูกต้อง การแสดงตนในตอนท้ายเป็นสิ่งสำคัญ index_name-date-000026
จัดรูปแบบตัวเลข 000001
. มีบรรทัดในรหัสที่ตรวจสอบดัชนีโดยใช้นิพจน์ทั่วไปสำหรับการมีอยู่ของตัวเลขในตอนท้าย มิฉะนั้นจะเกิดข้อผิดพลาด จะไม่มีนโยบายใดๆ ใช้กับดัชนี และจะอยู่ในช่วงร้อนแรงเสมอ
วอร์มเฟส
หด (ทางลัด) - ลดจำนวนของเศษเพราะเรามี 4 โหนดในเฟสอุ่นและเย็น เอกสารประกอบด้วยบรรทัดต่อไปนี้:
- ดัชนีต้องเป็นแบบอ่านอย่างเดียว
- สำเนาของทุกชาร์ดในดัชนีต้องอยู่บนโหนดเดียวกัน
- สถานะความสมบูรณ์ของคลัสเตอร์ต้องเป็นสีเขียว
ในการตัดดัชนี Elasticsearch จะย้ายชาร์ดหลักทั้งหมดไปยังโหนดเดียว ทำซ้ำดัชนีที่ถูกตัดด้วยพารามิเตอร์ที่จำเป็น จากนั้นลบอันเก่าออก พารามิเตอร์ total_shards_per_node
ต้องเท่ากับหรือมากกว่าจำนวนชาร์ดหลักเพื่อให้พอดีกับหนึ่งโหนด มิฉะนั้น จะมีการแจ้งเตือนและชิ้นส่วนจะไม่ย้ายไปยังโหนดที่ถูกต้อง
รับ /shrink-k8s-ingress-2020.06.06-000025/_settings
{
"shrink-k8s-ingress-2020.06.06-000025" : {
"settings" : {
"index" : {
"refresh_interval" : "5s",
"auto_expand_replicas" : "0-1",
"blocks" : {
"write" : "true"
},
"provided_name" : "shrink-k8s-ingress-2020.06.06-000025",
"creation_date" : "1592225525569",
"priority" : "100",
"number_of_replicas" : "1",
"uuid" : "psF4MiFGQRmi8EstYUQS4w",
"version" : {
"created" : "7060299",
"upgraded" : "7060299"
},
"lifecycle" : {
"name" : "k8s-ingress",
"rollover_alias" : "k8s-ingress",
"indexing_complete" : "true"
},
"codec" : "best_compression",
"routing" : {
"allocation" : {
"initial_recovery" : {
"_id" : "_Le0Ww96RZ-o76bEPAWWag"
},
"require" : {
"_id" : null,
"box_type" : "cold"
},
"total_shards_per_node" : "8"
}
},
"number_of_shards" : "4",
"routing_partition_size" : "1",
"resize" : {
"source" : {
"name" : "k8s-ingress-2020.06.06-000025",
"uuid" : "gNhYixO6Skqi54lBjg5bpQ"
}
}
}
}
}
}
ระยะเย็น
แข็ง (หยุด) - เราตรึงดัชนีเพื่อเพิ่มประสิทธิภาพการค้นหาข้อมูลประวัติ
การค้นหาที่ดำเนินการบนดัชนีที่ถูกตรึงจะใช้ threadpool ขนาดเล็กเฉพาะสำหรับ search_throttled เพื่อควบคุมจำนวนของการค้นหาพร้อมกันที่กระทบกับเศษที่ถูกแช่แข็งในแต่ละโหนด ซึ่งจะจำกัดจำนวนหน่วยความจำเพิ่มเติมที่จำเป็นสำหรับโครงสร้างข้อมูลชั่วคราวที่สอดคล้องกับชิ้นส่วนที่ถูกแช่แข็ง ซึ่งส่งผลให้ป้องกันโหนดจากการใช้หน่วยความจำมากเกินไป
ดัชนีที่แช่แข็งเป็นแบบอ่านอย่างเดียว: คุณไม่สามารถจัดทำดัชนีได้
การค้นหาดัชนีที่ถูกระงับคาดว่าจะดำเนินการอย่างช้าๆ ดัชนีที่ถูกแช่แข็งไม่ได้มีไว้สำหรับโหลดการค้นหาสูง เป็นไปได้ว่าการค้นหาดัชนีที่ตรึงไว้อาจใช้เวลาเป็นวินาทีหรือนาทีจึงจะเสร็จสมบูรณ์ แม้ว่าการค้นหาเดียวกันจะเสร็จสิ้นในหน่วยมิลลิวินาทีเมื่อดัชนีไม่ได้ถูกหยุด
ผลของการ
เราได้เรียนรู้วิธีเตรียมโหนดสำหรับการทำงานกับ ILM ตั้งค่าเทมเพลตสำหรับการกระจายชาร์ดระหว่างฮอตโหนด และตั้งค่า ILM สำหรับดัชนีที่มีทุกช่วงอายุ
ลิงค์ที่มีประโยชน์
https://www.elastic.co/guide/en/elasticsearch/reference/master/index-lifecycle-management-api.html https://www.elastic.co/guide/en/elasticsearch/reference/master/recovery-prioritization.html https://www.elastic.co/guide/en/elasticsearch/reference/master/indices-shrink-index.html#indices-shrink-index https://www.elastic.co/guide/en/elasticsearch/reference/master/frozen-indices.html https://www.elastic.co/guide/en/elasticsearch/reference/master/modules-cluster.html#shard-allocation-awareness
ที่มา: will.com