ProHoster > Օրագիր > Վարչակազմը > 6 զվարճալի համակարգի սխալներ Kubernetes-ի շահագործման մեջ [և դրանց լուծումը]
6 զվարճալի համակարգի սխալներ Kubernetes-ի շահագործման մեջ [և դրանց լուծումը]
Արտադրության մեջ Kubernetes-ի օգտագործման տարիների ընթացքում մենք կուտակել ենք բազմաթիվ հետաքրքիր պատմություններ, թե ինչպես են համակարգի տարբեր բաղադրիչների սխալները հանգեցրել տհաճ և/կամ անհասկանալի հետևանքների՝ ազդելով տարաների և պատիճների աշխատանքի վրա: Այս հոդվածում մենք ընտրել ենք ամենատարածված կամ հետաքրքիրներից մի քանիսը: Նույնիսկ եթե դուք երբեք բախտ չեք ունենում նման իրավիճակների հանդիպելու, նման կարճ դետեկտիվ պատմությունների մասին կարդալը, հատկապես «առաջին ձեռքից», միշտ հետաքրքիր է, այնպես չէ՞:
Պատմություն 1. Supercronic և Docker կախված
Կլաստերներից մեկի վրա մենք պարբերաբար ստանում էինք սառեցված Docker, որը խանգարում էր կլաստերի բնականոն աշխատանքին: Միևնույն ժամանակ, Docker-ի տեղեկամատյաններում նկատվել է հետևյալը.
level=error msg="containerd: start init process" error="exit status 2: "runtime/cgo: pthread_create failed: No space left on device
SIGABRT: abort
PC=0x7f31b811a428 m=0
goroutine 0 [idle]:
goroutine 1 [running]:
runtime.systemstack_switch() /usr/local/go/src/runtime/asm_amd64.s:252 fp=0xc420026768 sp=0xc420026760
runtime.main() /usr/local/go/src/runtime/proc.go:127 +0x6c fp=0xc4200267c0 sp=0xc420026768
runtime.goexit() /usr/local/go/src/runtime/asm_amd64.s:2086 +0x1 fp=0xc4200267c8 sp=0xc4200267c0
goroutine 17 [syscall, locked to thread]:
runtime.goexit() /usr/local/go/src/runtime/asm_amd64.s:2086 +0x1
…
Այս սխալի մեջ մեզ ամենաշատը հետաքրքրում է հաղորդագրությունը. pthread_create failed: No space left on device. Արագ ուսումնասիրություն փաստաթղթավորում բացատրեց, որ Docker-ը չի կարող պատառաքաղել գործընթաց, ինչի պատճառով այն պարբերաբար սառեցնում է:
Մոնիտորինգում տեղի ունեցողին համապատասխանում է հետևյալ պատկերը.
Նմանատիպ իրավիճակ նկատվում է այլ հանգույցների վրա.
Պարզվեց, որ այս պահվածքը պատիճի հետ աշխատելու հետևանք է գերքրոնիկ (Go օգտակար ծրագիր, որը մենք օգտագործում ենք cron-ի աշխատանքները pods-ում գործարկելու համար):
Խնդիրը հետևյալն է. երբ առաջադրանքը կատարվում է սուպերկրոնիկում, պրոցեսն առաջանում է նրա կողմից չի կարող ճիշտ ավարտվել, վերածվելով զոմբիներ.
ՆշումԱվելի ճշգրիտ լինելու համար, գործընթացները առաջանում են cron առաջադրանքների միջոցով, բայց սուպերկրոնիկը սկզբնական համակարգ չէ և չի կարող «ընդունել» գործընթացները, որոնք ստեղծել են իր երեխաները: Երբ SIGHUP կամ SIGTERM ազդանշանները բարձրացվում են, դրանք չեն փոխանցվում երեխայի գործընթացներին, ինչի հետևանքով երեխայի գործընթացները չեն ավարտվում և մնում են զոմբիի կարգավիճակում: Այս ամենի մասին ավելին կարող եք կարդալ, օրինակ՝ ք նման հոդված.
Խնդիրները լուծելու մի քանի եղանակ կա.
Որպես ժամանակավոր լուծում՝ ավելացրեք համակարգում PID-ների քանակը ժամանակի մեկ կետում.
/proc/sys/kernel/pid_max (since Linux 2.5.34)
This file specifies the value at which PIDs wrap around (i.e., the value in this file is one greater than the maximum PID). PIDs greater than this value are not allo‐
cated; thus, the value in this file also acts as a system-wide limit on the total number of processes and threads. The default value for this file, 32768, results in the
same range of PIDs as on earlier kernels
Կամ գործարկեք առաջադրանքները supercronic-ում ոչ ուղղակիորեն, այլ օգտագործելով նույնը տինի, որն ի վիճակի է ճիշտ դադարեցնել գործընթացները և զոմբիներ չառաջացնել։
Պատմություն 2. «Զոմբիներ» cgroup-ը ջնջելիս
Kubelet-ը սկսեց շատ CPU սպառել.
Սա ոչ մեկին դուր չի գա, ուստի մենք զինվեցինք պերֆ և սկսեց զբաղվել խնդրով: Հետաքննության արդյունքները հետևյալն էին.
Kubelet-ը ծախսում է իր պրոցեսորի ժամանակի ավելի քան մեկ երրորդը՝ բոլոր cխմբերից հիշողության տվյալները հանելու համար.
Միջուկի մշակողների փոստային ցուցակում կարող եք գտնել խնդրի քննարկում. Մի խոսքով, բանը հանգում է հետևյալին. տարբեր tmpfs ֆայլեր և նմանատիպ այլ բաներ ամբողջությամբ չեն հեռացվում համակարգից cgroup-ը ջնջելիս, այսպես կոչված memcg Zombie. Վաղ թե ուշ դրանք կջնջվեն էջի քեշից, բայց սերվերի վրա շատ հիշողություն կա, և միջուկը իմաստ չի տեսնում դրանք ջնջելու վրա ժամանակ կորցնելու մեջ։ Դրա համար էլ նրանք շարունակում են կուտակվել: Ինչու է դա նույնիսկ տեղի ունենում: Սա cron աշխատատեղերով սերվեր է, որը մշտապես ստեղծում է նոր աշխատատեղեր, և դրանց հետ միասին՝ նոր pods: Այսպիսով, դրանցում պարունակվող բեռնարկղերի համար ստեղծվում են նոր cgroups, որոնք շուտով ջնջվում են։
Ինչու է cAdvisor-ը kubelet-ում այդքան ժամանակ վատնում: Սա հեշտ է տեսնել ամենապարզ կատարման դեպքում time cat /sys/fs/cgroup/memory/memory.stat. Եթե առողջ մեքենայի վրա գործողությունը տևում է 0,01 վայրկյան, ապա խնդրահարույց cron02-ի վրա՝ 1,2 վայրկյան։ Բանն այն է, որ cAdvisor-ը, որը շատ դանդաղ է կարդում sysfs-ից տվյալները, փորձում է հաշվի առնել zombie cgroup-ներում օգտագործվող հիշողությունը։
Զոմբիներին ուժով հեռացնելու համար մենք փորձեցինք մաքրել քեշերը, ինչպես առաջարկվում է LKML-ում. sync; echo 3 > /proc/sys/vm/drop_caches, - բայց միջուկը պարզվեց ավելի բարդ ու վթարի ենթարկեց մեքենան։
Կրկին, kubelet-ը չափազանց շատ ռեսուրսներ է սպառում որոշ հանգույցների վրա, բայց այս անգամ այն սպառում է չափազանց շատ հիշողություն.
Պարզվեց, որ Ubuntu 16.04-ում օգտագործվող systemd-ում խնդիր կա, և դա առաջանում է միացման համար ստեղծված մոնտաժների կառավարման ժամանակ: subPath ConfigMap-ից կամ գաղտնիքներից: Այն բանից հետո, երբ պատիճն ավարտել է իր աշխատանքը systemd ծառայությունը և դրա սպասարկման մոնտաժը մնում են համակարգում։ Ժամանակի ընթացքում դրանց հսկայական քանակություն է կուտակվում։ Այս թեմայով նույնիսկ խնդիրներ կան.
...որոնցից վերջինը վերաբերում է համակարգում PR-ին. #7811 (համարը համակարգում - #7798).
Խնդիրն այլևս գոյություն չունի Ubuntu 18.04-ում, բայց եթե ցանկանում եք շարունակել օգտագործել Ubuntu 16.04-ը, կարող եք օգտակար գտնել այս թեմայի վերաբերյալ մեր լուծումը:
#!/bin/bash
# we will work only on xenial
hostrelease="/etc/lsb-release-host"
test -f ${hostrelease} && grep xenial ${hostrelease} > /dev/null || exit 0
# sleeping max 30 minutes to dispense load on kube-nodes
sleep $((RANDOM % 1800))
stoppedCount=0
# counting actual subpath units in systemd
countBefore=$(systemctl list-units | grep subpath | grep "run-" | wc -l)
# let's go check each unit
for unit in $(systemctl list-units | grep subpath | grep "run-" | awk '{print $1}'); do
# finding description file for unit (to find out docker container, who born this unit)
DropFile=$(systemctl status ${unit} | grep Drop | awk -F': ' '{print $2}')
# reading uuid for docker container from description file
DockerContainerId=$(cat ${DropFile}/50-Description.conf | awk '{print $5}' | cut -d/ -f6)
# checking container status (running or not)
checkFlag=$(docker ps | grep -c ${DockerContainerId})
# if container not running, we will stop unit
if [[ ${checkFlag} -eq 0 ]]; then
echo "Stopping unit ${unit}"
# stoping unit in action
systemctl stop $unit
# just counter for logs
((stoppedCount++))
# logging current progress
echo "Stopped ${stoppedCount} systemd units out of ${countBefore}"
fi
done
... և այն աշխատում է յուրաքանչյուր 5 րոպեն մեկ՝ օգտագործելով նախկինում նշված սուպերկրոնիկը: Դրա Dockerfile-ն ունի հետևյալ տեսքը.
Պատմություն 4. Մրցունակությունը պատիճ պլանավորելիս
Նկատվեց, որ եթե հանգույցի վրա դրված է պատիճ, և դրա պատկերը երկար ժամանակ դուրս է մղվում, ապա նույն հանգույցին «հարվածող» մեկ այլ պատիճ պարզապես կ չի սկսում քաշել նոր պատի պատկերը. Փոխարենը, այն սպասում է մինչև նախորդ պատիվի պատկերը քաշվի: Արդյունքում, փոդը, որն արդեն պլանավորված էր, և որի պատկերը կարելի էր ներբեռնել ընդամենը մեկ րոպեում, կհայտնվի կարգավիճակում։ containerCreating.
Իրադարձությունները կունենան հետևյալ տեսքը.
Normal Pulling 8m kubelet, ip-10-241-44-128.ap-northeast-1.compute.internal pulling image "registry.example.com/infra/openvpn/openvpn:master"
Ստացվում է, որ դանդաղ ռեեստրից մեկ պատկեր կարող է արգելափակել տեղակայումը մեկ հանգույցի համար:
Դժբախտաբար, իրավիճակից ելքեր շատ չեն.
Փորձեք օգտագործել ձեր Docker Registry-ը անմիջապես կլաստերում կամ անմիջապես կլաստերի հետ (օրինակ՝ GitLab Registry, Nexus և այլն);
Օգտագործեք կոմունալ ծառայություններ, ինչպիսիք են Kraken.
Պատմվածք 5. Հանգույցները կախված են հիշողության բացակայության պատճառով
Տարբեր հավելվածների շահագործման ընթացքում մենք նաև հանդիպեցինք մի իրավիճակի, երբ հանգույցն ամբողջությամբ դադարում է հասանելի լինել. SSH-ը չի արձագանքում, մոնիտորինգի բոլոր դևերը թափվում են, և այնուհետև տեղեկամատյաններում անոմալ բան չկա (կամ գրեթե ոչինչ):
Ես ձեզ կասեմ նկարներով՝ օգտագործելով մեկ հանգույցի օրինակը, որտեղ գործում էր MongoDB-ն:
Ահա թե ինչ տեսք ունի վերևում դեպի դժբախտ պատահարներ:
Եվ այսպես - այն բանից հետո դժբախտ պատահարներ:
Մոնիտորինգում կա նաև կտրուկ թռիչք, որի դեպքում հանգույցը դադարում է հասանելի լինել.
Այսպիսով, սքրինշոթներից պարզ է դառնում, որ.
Մեքենայի RAM-ը մոտ է ավարտին.
RAM-ի սպառման կտրուկ թռիչք կա, որից հետո ամբողջ մեքենայի մուտքը կտրուկ անջատվում է.
Mongo-ի վրա մեծ խնդիր է հայտնվում, որը ստիպում է DBMS գործընթացին ավելի շատ հիշողություն օգտագործել և ակտիվորեն կարդալ սկավառակից:
Ստացվում է, որ եթե Linux-ը սպառվում է ազատ հիշողությունից (հիշողության ճնշումը սահմանվում է) և փոխանակում չի լինում, ապա դեպի Երբ OOM մարդասպանը ժամանում է, կարող է առաջանալ հավասարակշռող գործողություն էջերը էջերի քեշի մեջ գցելու և դրանք սկավառակի վրա գրելու միջև: Դա արվում է kswapd-ի միջոցով, որը համարձակորեն ազատում է հնարավորինս շատ հիշողության էջեր հետագա բաշխման համար:
Ցավոք, I/O մեծ բեռնվածությամբ՝ զուգորդված փոքր քանակությամբ ազատ հիշողության հետ, kswapd-ը դառնում է ամբողջ համակարգի խոչընդոտը, քանի որ կապված են դրա հետ բոլորը համակարգում հիշողության էջերի տեղաբաշխումներ (էջի սխալներ): Սա կարող է շարունակվել շատ երկար ժամանակ, եթե գործընթացներն այլևս չեն ցանկանում օգտագործել հիշողությունը, այլ ամրագրված են OOM-մարդասպան անդունդի եզրին:
Բնական հարցն այն է, թե ինչու է OOM մարդասպանն այդքան ուշ գալիս: Իր ներկայիս կրկնության մեջ OOM մարդասպանը չափազանց հիմար է. այն կսպանի գործընթացը միայն այն ժամանակ, երբ հիշողության էջ հատկացնելու փորձը ձախողվի, այսինքն. եթե էջի սխալը ձախողվի: Դա տեղի չի ունենում բավականին երկար ժամանակ, քանի որ kswapd-ը խիզախորեն ազատում է հիշողության էջերը՝ էջերի քեշը (ըստ էության, համակարգում գտնվող ամբողջ սկավառակի մուտքի/ելքը) հետ թողնելով սկավառակ: Ավելի մանրամասն, միջուկում նման խնդիրները վերացնելու համար անհրաժեշտ քայլերի նկարագրությամբ, կարող եք կարդալ այստեղ.
Որոշ կլաստերներում, որոնցում իսկապես շատ պատիճներ կան, մենք սկսեցինք նկատել, որ դրանց մեծ մասը շատ երկար ժամանակ «կախվում է» նահանգում: Pending, թեև Docker կոնտեյներներն իրենք արդեն աշխատում են հանգույցների վրա և կարող են ձեռքով աշխատել։
Ավելին, in describe սխալ բան չկա.
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 1m default-scheduler Successfully assigned sphinx-0 to ss-dev-kub07
Normal SuccessfulAttachVolume 1m attachdetach-controller AttachVolume.Attach succeeded for volume "pvc-6aaad34f-ad10-11e8-a44c-52540035a73b"
Normal SuccessfulMountVolume 1m kubelet, ss-dev-kub07 MountVolume.SetUp succeeded for volume "sphinx-config"
Normal SuccessfulMountVolume 1m kubelet, ss-dev-kub07 MountVolume.SetUp succeeded for volume "default-token-fzcsf"
Normal SuccessfulMountVolume 49s (x2 over 51s) kubelet, ss-dev-kub07 MountVolume.SetUp succeeded for volume "pvc-6aaad34f-ad10-11e8-a44c-52540035a73b"
Normal Pulled 43s kubelet, ss-dev-kub07 Container image "registry.example.com/infra/sphinx-exporter/sphinx-indexer:v1" already present on machine
Normal Created 43s kubelet, ss-dev-kub07 Created container
Normal Started 43s kubelet, ss-dev-kub07 Started container
Normal Pulled 43s kubelet, ss-dev-kub07 Container image "registry.example.com/infra/sphinx/sphinx:v1" already present on machine
Normal Created 42s kubelet, ss-dev-kub07 Created container
Normal Started 42s kubelet, ss-dev-kub07 Started container
Որոշակի փորումներից հետո մենք ենթադրեցինք, որ kubelet-ը պարզապես ժամանակ չունի API սերվերին ուղարկելու պատիճների վիճակի և ակտիվության/պատրաստվածության թեստերի մասին ողջ տեղեկատվությունը:
Եվ օգնությունն ուսումնասիրելուց հետո մենք գտանք հետևյալ պարամետրերը.
--kube-api-qps - QPS to use while talking with kubernetes apiserver (default 5)
--kube-api-burst - Burst to use while talking with kubernetes apiserver (default 10)
--event-qps - If > 0, limit event creations per second to this value. If 0, unlimited. (default 5)
--event-burst - Maximum size of a bursty event records, temporarily allows event records to burst to this number, while still not exceeding event-qps. Only used if --event-qps > 0 (default 10)
--registry-qps - If > 0, limit registry pull QPS to this value.
--registry-burst - Maximum size of bursty pulls, temporarily allows pulls to burst to this number, while still not exceeding registry-qps. Only used if --registry-qps > 0 (default 10)
Ինչպես երևում է, լռելյայն արժեքները բավականին փոքր են, իսկ 90%-ով նրանք ծածկում են բոլոր կարիքները... Սակայն մեր դեպքում դա բավարար չէր։ Այսպիսով, մենք սահմանում ենք հետևյալ արժեքները.
... և վերագործարկեց kubelets-ը, որից հետո API սերվերի զանգերի գրաֆիկներում տեսանք հետևյալ պատկերը.
... և այո, ամեն ինչ սկսեց թռչել:
PS
Սխալներ հավաքելու և այս հոդվածը պատրաստելու հարցում նրանց օգնության համար ես իմ խորին շնորհակալությունն եմ հայտնում մեր ընկերության բազմաթիվ ինժեներներին և հատկապես մեր R&D թիմի իմ գործընկեր Անդրեյ Կլիմենտևին (զուզաներ).