O fywyd gyda Kubernetes: Sut nad oedd y gweinydd HTTP yn ffafrio'r Sbaenwyr

O fywyd gyda Kubernetes: Sut nad oedd y gweinydd HTTP yn ffafrio'r Sbaenwyr

Aeth cynrychiolydd o'n cleient, y mae ei stac cais yn byw yn y cwmwl Microsoft (Azure), i'r afael Γ’ phroblem: yn ddiweddar, dechreuodd rhai ceisiadau gan rai cleientiaid o Ewrop ddod i ben gyda gwall 400 (Cais drwg). Mae pob cais wedi'i ysgrifennu yn .NET, yn cael ei ddefnyddio yn Kubernetes ...

Un o'r cymwysiadau yw'r API, y daw'r holl draffig drwyddo yn y pen draw. Mae'r gweinydd HTTP yn gwrando ar y traffig hwn Cudyll coch, wedi'i ffurfweddu gan y cleient .NET a'i gynnal mewn pod. Gyda dadfygio, roeddem yn ffodus yn yr ystyr bod yna ddefnyddiwr penodol a oedd yn atgynhyrchu'r broblem yn gyson. Fodd bynnag, cymhlethwyd popeth gan y gadwyn draffig:

O fywyd gyda Kubernetes: Sut nad oedd y gweinydd HTTP yn ffafrio'r Sbaenwyr

Roedd y gwall yn Ingress yn edrych fel hyn:

{
   "number_fields":{
      "status":400,
      "request_time":0.001,
      "bytes_sent":465,
      "upstream_response_time":0,
      "upstream_retries":0,
      "bytes_received":2328
   },
   "stream":"stdout",
   "string_fields":{
      "ingress":"app",
      "protocol":"HTTP/1.1",
      "request_id":"f9ab8540407208a119463975afda90bc",
      "path":"/api/sign-in",
      "nginx_upstream_status":"400",
      "service":"app",
      "namespace":"production",
      "location":"/front",
      "scheme":"https",
      "method":"POST",
      "nginx_upstream_response_time":"0.000",
      "nginx_upstream_bytes_received":"120",
      "vhost":"api.app.example.com",
      "host":"api.app.example.com",
      "user":"",
      "address":"83.41.81.250",
      "nginx_upstream_addr":"10.240.0.110:80",
      "referrer":"https://api.app.example.com/auth/login?long_encrypted_header",
      "service_port":"http",
      "user_agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36",
      "time":"2019-03-06T18:29:16+00:00",
      "content_kind":"cache-headers-not-present",
      "request_query":""
   },
   "timestamp":"2019-03-06 18:29:16",
   "labels":{
      "app":"nginx",
      "pod-template-generation":"6",
      "controller-revision-hash":"1682636041"
   },
   "namespace":"kube-nginx-ingress",
   "nsec":6726612,
   "source":"kubernetes",
   "host":"k8s-node-55555-0",
   "pod_name":"nginx-v2hcb",
   "container_name":"nginx",
   "boolean_fields":{}
}

Ar yr un pryd, rhoddodd Kestrel:

HTTP/1.1 400 Bad Request
Connection: close
Date: Wed, 06 Mar 2019 12:34:20 GMT
Server: Kestrel
Content-Length: 0

Hyd yn oed gyda'r geirfa mwyaf, roedd gwall y Cudyll Coch yn cynnwys hynod o ychydig o wybodaeth ddefnyddiol:

{
   "number_fields":{"ThreadId":76},
   "stream":"stdout",
   "string_fields":{
      "EventId":"{"Id"=>17, "Name"=>"ConnectionBadRequest"}",
      "SourceContext":"Microsoft.AspNetCore.Server.Kestrel",
      "ConnectionId":"0HLL2VJSST5KV",
      "@mt":"Connection id "{ConnectionId}" bad request data: "{message}"",
      "@t":"2019-03-07T13:06:48.1449083Z",
      "@x":"Microsoft.AspNetCore.Server.Kestrel.Core.BadHttpRequestException: Malformed request: invalid headers.n   at Microsoft.AspNetCore.Server.Kestrel.Core.Internal.Http.Http1Connection.TryParseRequest(ReadResult result, Boolean& endConnection)n   at Microsoft.AspNetCore.Server.Kestrel.Core.Internal.Http.HttpProtocol.<ProcessRequestsAsync>d__185`1.MoveNext()",
      "message":"Malformed request: invalid headers."
   },
   "timestamp":"2019-03-07 13:06:48",
   "labels":{
      "pod-template-hash":"2368795483",
      "service":"app"
   },
   "namespace":"production",
   "nsec":145341848,
   "source":"kubernetes",
   "host":"k8s-node-55555-1",
   "pod_name":"app-67bdcf98d7-mhktx",
   "container_name":"app",
   "boolean_fields":{}
}

Mae'n ymddangos mai dim ond tcpdump fydd yn helpu i ddatrys y broblem hon ... ond ailadroddaf am y gadwyn draffig:

O fywyd gyda Kubernetes: Sut nad oedd y gweinydd HTTP yn ffafrio'r Sbaenwyr

Ymchwiliad

Yn amlwg, mae'n well gwrando ar draffig ar y nod penodol hwnnw, lle mae Kubernetes wedi defnyddio pod: bydd cyfaint y domen yn golygu y bydd yn bosibl dod o hyd i rywbeth yn eithaf cyflym o leiaf. Ac yn wir, wrth ei archwilio, sylwyd ar y ffrΓ’m ganlynol:

GET /back/user HTTP/1.1
Host: api.app.example.com
X-Request-ID: 27ceb14972da8c21a8f92904b3eff1e5
X-Real-IP: 83.41.81.250
X-Forwarded-For: 83.41.81.250
X-Forwarded-Host: api.app.example.com
X-Forwarded-Port: 443
X-Forwarded-Proto: https
X-Original-URI: /front/back/user
X-Scheme: https
X-Original-Forwarded-For: 83.41.81.250
X-Nginx-Geo-Client-Country: Spain
X-Nginx-Geo-Client-City: M.laga
Accept-Encoding: gzip
CF-IPCountry: ES
CF-RAY: 4b345cfd1c4ac691-MAD
CF-Visitor: {"scheme":"https"}
pragma: no-cache
cache-control: no-cache
accept: application/json, text/plain, */*
origin: https://app.example.com
user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36
referer: https://app.example.com/auth/login
accept-language: en-US,en;q=0.9,en-GB;q=0.8,pl;q=0.7
cookie: many_encrypted_cookies; .AspNetCore.Identity.Application=something_encrypted; 
CF-Connecting-IP: 83.41.81.250
True-Client-IP: 83.41.81.250
CDN-Loop: cloudflare

HTTP/1.1 400 Bad Request
Connection: close
Date: Wed, 06 Mar 2019 12:34:20 GMT
Server: Kestrel
Content-Length: 0

Ar Γ΄l edrych yn agosach ar y domen, sylwyd ar y gair M.laga. Mae'n hawdd dyfalu nad oes dinas M.laga yn Sbaen (ond mae yna Malaga). Gan fanteisio ar y syniad hwn, gwnaethom edrych ar gyfluniadau Ingress, lle gwelsom yr un a fewnosodwyd fis yn Γ΄l (ar gais y cleient) pyt "diniwed".:

    ingress.kubernetes.io/configuration-snippet: |
      proxy_set_header X-Nginx-Geo-Client-Country $geoip_country_name;
      proxy_set_header X-Nginx-Geo-Client-City $geoip_city;

Ar Γ΄l analluogi anfon y penawdau hyn ymlaen, daeth popeth yn iawn! (Daeth yn amlwg yn fuan nad oedd angen y penawdau hyn ar y cais ei hun mwyach.)

Nawr gadewch i ni edrych ar y broblem yn fwy cyffredinol. Gellir ei atgynhyrchu'n hawdd y tu mewn i'r cais trwy wneud cais telnet i localhost:80:

GET /back/user HTTP/1.1
Host: api.app.example.com
cache-control: no-cache
accept: application/json, text/plain, */*
origin: https://app.example.com
Cookie: test=Desiree

... yn dychwelyd 401 Unauthorized, yn Γ΄l y disgwyl. Beth sy'n digwydd os gwnawn ni:

GET /back/user HTTP/1.1
Host: api.app.example.com
cache-control: no-cache
accept: application/json, text/plain, */*
origin: https://app.example.com
Cookie: test=DΓ©sirΓ©e

?

Bydd yn dychwelyd 400 Bad request β€” yn y log cais byddwn yn derbyn gwall sydd eisoes yn gyfarwydd i ni:

{
   "@t":"2019-03-31T12:59:54.3746446Z",
   "@mt":"Connection id "{ConnectionId}" bad request data: "{message}"",
   "@x":"Microsoft.AspNetCore.Server.Kestrel.Core.BadHttpRequestException: Malformed request: invalid headers.n   at Microsoft.AspNetCore.Server.Kestrel.Core.Internal.Http.Http1Connection.TryParseRequest(ReadResult result, Boolean& endConnection)n   at Microsoft.AspNetCore.Server.Kestrel.Core.Internal.Http.HttpProtocol.<ProcessRequestsAsync>d__185`1.MoveNext()",
   "ConnectionId":"0HLLLR1J974L9",
   "message":"Malformed request: invalid headers.",
   "EventId":{
      "Id":17,
      "Name":"ConnectionBadRequest"
   },
   "SourceContext":"Microsoft.AspNetCore.Server.Kestrel",
   "ThreadId":71
}

Canlyniadau

Cudyll coch yn benodol ni all prosesu penawdau HTTP yn gywir gyda'r nodau cywir yn UTF-8, sydd wedi'u cynnwys yn enwau nifer eithaf mawr o ddinasoedd.

Ffactor ychwanegol yn ein hachos ni yw nad yw'r cleient ar hyn o bryd yn bwriadu newid gweithrediad Kestrel yn y cais. Fodd bynnag, mae problemau yn AspNetCore ei hun (No.4318, No.7707) maen nhw'n dweud na fydd hyn yn helpu...

I grynhoi: nid yw'r nodyn bellach yn ymwneud Γ’ phroblemau penodol Cudyll Coch neu UTF-8 (yn 2019?!), ond am y ffaith bod ymwybyddiaeth ofalgar ac astudiaeth gyson Bydd pob cam a gymerwch wrth chwilio am broblemau yn dwyn ffrwyth yn hwyr neu'n hwyrach. Pob lwc!

PS

Darllenwch hefyd ar ein blog:

Ffynhonnell: hab.com

Ychwanegu sylw