Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

A dh 'aindeoin gu bheil tòrr dàta ann a-nis cha mhòr anns a h-uile àite, tha stòran-dàta anailis fhathast gu math annasach. Chan eil mòran eòlach orra agus nas miosa buileach comasach air an cleachdadh gu h-èifeachdach. Bidh mòran a’ leantainn orra “ag ithe cactus” le MySQL no PostgreSQL, a tha air an dealbhadh airson suidheachaidhean eile, a’ fulang le NoSQL, no a’ pàigheadh ​​cus airson fuasglaidhean malairteach. Bidh ClickHouse ag atharrachadh riaghailtean a’ gheama agus a’ lughdachadh gu mòr an stairsneach airson a dhol a-steach do shaoghal DBMS anailiseach.

Aithisg bho BackEnd Conf 2018 agus tha e air fhoillseachadh le cead bhon neach-labhairt.


Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)
Cò mise agus carson a tha mi a’ bruidhinn mu dheidhinn ClickHouse? Tha mi nam stiùiriche leasachaidh aig LifeStreet, a bhios a’ cleachdadh ClickHouse. Cuideachd, is mise am fear a stèidhich Altinity. Tha e na chom-pàirtiche Yandex a bhios a’ brosnachadh ClickHouse agus a’ cuideachadh Yandex gus ClickHouse a dhèanamh nas soirbheachaile. Cuideachd deiseil airson eòlas a cho-roinn mu ClickHouse.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus chan e bràthair Petya Zaitsev a th’ annam. Bidh mi tric a’ faighneachd mu dheidhinn seo. Chan e, chan e bràithrean a th’ annainn.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

“Tha fios aig a h-uile duine” gu bheil ClickHouse:

  • Gu math luath,
  • Gu math comhfhurtail
  • Air a chleachdadh ann an Yandex.

Tha fios beagan nas lugha anns na companaidhean agus mar a thèid a chleachdadh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Innsidh mi dhut carson, càite agus ciamar a thèid ClickHouse a chleachdadh, ach a-mhàin Yandex.

Innsidh mi dhut mar a tha gnìomhan sònraichte air am fuasgladh le cuideachadh bho ClickHouse ann an diofar chompanaidhean, dè na h-innealan ClickHouse as urrainn dhut a chleachdadh airson do ghnìomhan, agus mar a chaidh an cleachdadh ann an diofar chompanaidhean.

Thog mi trì eisimpleirean a sheallas ClickHouse bho dhiofar cheàrnan. Tha mi a’ smaoineachadh gum bi e inntinneach.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Is e a’ chiad cheist: “Carson a tha feum againn air ClickHouse?”. Tha e coltach gur e ceist gu math follaiseach a th’ ann, ach tha barrachd air aon fhreagairt ann.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Tha a 'chiad fhreagairt airson coileanadh. Tha ClickHouse gu math luath. Tha Analytics air ClickHouse cuideachd gu math luath. Faodar a chleachdadh gu tric far a bheil rudeigin eile gu math slaodach no gu math dona.
  • Is e an dàrna freagairt cosgais. Agus an toiseach, cosgais sgèileadh. Mar eisimpleir, tha Vertica na stòr-dàta fìor mhath. Bidh e ag obair glè mhath mura h-eil tòrr terabytes de dhàta agad. Ach nuair a thig e gu ceudan de terabytes no petabytes, tha cosgais cead agus taic a’ dol a-steach gu ìre gu math mòr. Agus tha e daor. Agus tha ClickHouse an-asgaidh.
  • Is e an treas freagairt cosgais obrachaidh. Is e dòigh-obrach beagan eadar-dhealaichte a tha seo. Tha RedShift na dheagh analog. Air RedShift, faodaidh tu co-dhùnadh a dhèanamh gu math luath. Obraichidh e gu math, ach aig an aon àm, gach uair a thìde, a h-uile latha, agus a h-uile mìos, pàighidh tu Amazon gu math daor, oir is e seirbheis gu math daor a tha seo. Google BigQuery cuideachd. Ma chleachd cuideigin e, tha fios aige gum faod thu grunn iarrtasan a ruith agus bile fhaighinn airson ceudan dolar gu h-obann.

Chan eil na duilgheadasan sin aig ClickHouse.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Càite a bheil ClickHouse air a chleachdadh a-nis? A bharrachd air Yandex, tha ClickHouse air a chleachdadh ann an grunn ghnìomhachasan agus chompanaidhean.

  • An toiseach, is e seo mion-sgrùdadh tagradh lìn, ie is e cùis cleachdaidh a tha seo a thàinig bho Yandex.
  • Bidh mòran de chompanaidhean AdTech a’ cleachdadh ClickHouse.
  • Iomadh companaidh a dh’ fheumas sgrùdadh a dhèanamh air logaichean malairt bho dhiofar stòran.
  • Bidh grunn chompanaidhean a’ cleachdadh ClickHouse gus sùil a chumail air logaichean tèarainteachd. Bidh iad gan luchdachadh suas gu ClickHouse, a’ dèanamh aithisgean, agus a’ faighinn na toraidhean a tha a dhìth orra.
  • Tha companaidhean a’ tòiseachadh ga chleachdadh ann am mion-sgrùdadh ionmhais, i.e. mean air mhean tha gnìomhachasan mòra a’ tighinn faisg air ClickHouse.
  • sgòthan. Ma leanas cuideigin ClickHouse, is dòcha gu bheil iad air ainm a’ chompanaidh seo a chluinntinn. 'S e seo aon den fheadhainn a tha air leth cudromach bhon choimhearsnachd. Agus tha fìor dhroch stàladh ClickHouse aca. Mar eisimpleir, rinn iad Kafka Engine airson ClickHouse.
  • Thòisich companaidhean cian-conaltraidh a’ cleachdadh. Bidh grunn chompanaidhean a’ cleachdadh ClickHouse an dàrna cuid mar dhearbhadh air bun-bheachd no mar-thà ann an riochdachadh.
  • Bidh aon chompanaidh a’ cleachdadh ClickHouse gus sùil a chumail air pròiseasan toraidh. Bidh iad a’ dèanamh deuchainn air microcircuits, a’ cuir dheth dòrlach de pharamadairean, tha timcheall air 2 feart ann. Agus an uairsin bidh iad a’ sgrùdadh a bheil an geama math no dona.
  • Mion-sgrùdadh blockchain. Tha leithid de chompanaidh Ruiseanach ann mar Bloxy.info. Is e seo mion-sgrùdadh air an lìonra ethereum. Rinn iad seo cuideachd air ClickHouse.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus chan eil am meud gu diofar. Tha mòran chompanaidhean ann a bhios a’ cleachdadh aon fhrithealaiche beag. Agus leigidh e leotha na duilgheadasan aca fhuasgladh. Agus bidh eadhon barrachd chompanaidhean a’ cleachdadh cruinneachaidhean mòra de dh’ iomadh seirbheisiche no dusanan de luchd-frithealaidh.

Agus ma choimheadas tu air na clàran, an uairsin:

  • Yandex: 500+ frithealaichean, bidh iad a’ stòradh 25 billean clàr gach latha an sin.
  • LifeStreet: 60 frithealaiche, timcheall air 75 billean clàr gach latha. Tha nas lugha de luchd-frithealaidh ann, barrachd chlàran na ann an Yandex.
  • CloudFlare: 36 frithealaichean, bidh iad a’ sàbhaladh 200 billean clàr gach latha. Tha eadhon nas lugha de luchd-frithealaidh aca agus bidh iad a’ stòradh eadhon barrachd dàta.
  • Bloomberg: 102 frithealaiche, timcheall air trillean inntrigeadh gach latha. Neach-clàraidh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

A thaobh sgìrean, tha seo cuideachd tòrr. Tha am mapa seo an seo a’ sealltainn mapa teas de far a bheil ClickHouse ga chleachdadh air an t-saoghal. Tha an Ruis, Sìona, Ameireagaidh a’ seasamh a-mach gu soilleir an seo. Chan eil mòran dhùthchannan Eòrpach ann. Agus tha 4 buidhnean ann.

Is e mion-sgrùdadh coimeasach a tha seo, chan fheumar coimhead airson figearan iomlan. Is e seo mion-sgrùdadh air luchd-tadhail a leugh stuthan Beurla air làrach-lìn Altinity, leis nach eil feadhainn le Ruiseanach ann. Agus an Ruis, an Ucràin, Belarus, ie am pàirt Ruiseanach den choimhearsnachd, is iad sin an luchd-cleachdaidh as lìonmhoire. An uairsin thig na SA agus Canada. Tha Sìona a’ dol suas gu mòr. Cha mhòr nach robh Sìona an sin o chionn sia mìosan, a-nis tha Sìona air a dhol seachad air an Roinn Eòrpa mu thràth agus a ’sìor fhàs. Chan eil an t-seann Roinn Eòrpa fada air dheireadh cuideachd, agus tha an stiùiriche ann an cleachdadh ClickHouse, gu h-annasach gu leòr, san Fhraing.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Carson a tha mi ag innse seo uile? Gus sealltainn gu bheil ClickHouse gu bhith na fhuasgladh àbhaisteach airson mion-sgrùdadh dàta mòr agus gu bheil e air a chleachdadh ann an iomadh àite mu thràth. Ma chleachdas tu e, tha thu anns a’ ghluasad cheart. Mura h-eil thu ga chleachdadh fhathast, chan urrainn dhut a bhith fo eagal gum bi thu air fhàgail leat fhèin agus nach cuidich duine thu, oir tha mòran ga dhèanamh mar-thà.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Tha iad sin nan eisimpleirean de fhìor chleachdadh ClickHouse ann an grunn chompanaidhean.

  • Is e a’ chiad eisimpleir lìonra sanasachd: imrich bho Vertica gu ClickHouse. Agus tha fios agam air beagan chompanaidhean a tha air gluasad bho Vertica no a tha an-dràsta ag atharrachadh.
  • Is e an dàrna eisimpleir stòradh malairt air ClickHouse. Seo eisimpleir a chaidh a thogail air antipatterns. Tha a h-uile dad nach bu chòir a dhèanamh ann an ClickHouse air comhairle luchd-leasachaidh air a dhèanamh an seo. Agus tha e air a dhèanamh cho èifeachdach is gu bheil e ag obair. Agus bidh e ag obair mòran nas fheàrr na am fuasgladh malairt àbhaisteach.
  • Tha an treas eisimpleir air a chuairteachadh coimpiutaireachd air ClickHouse. Bha ceist ann mu mar as urrainnear ClickHouse fhilleadh a-steach do eag-shiostam Hadoop. Seallaidh mi eisimpleir de mar a rinn companaidh rudeigin coltach ri mapa lughdachadh inneal air ClickHouse, a’ cumail sùil air sgìreachadh dàta, msaa, gus gnìomh nach eil cho beag a thomhas.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Tha LifeStreet na chompanaidh Ad Tech aig a bheil an teicneòlas gu lèir a thig an cois lìonra sanasachd.
  • Tha i an sàs ann an optimization sanasachd, tagraidhean prògramaichte.
  • Tòrr dàta: timcheall air 10 billean tachartas gach latha. Aig an aon àm, faodar tachartasan an sin a roinn ann an grunn fo-thachartasan.
  • Tha mòran de luchd-dèiligidh an dàta seo, agus chan e a-mhàin daoine a tha seo, mòran a bharrachd - tha iad sin nan diofar algorithms a tha an sàs ann an tagraidhean prògram.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Tha a’ chompanaidh air slighe fhada agus dhromach a thighinn. Agus bhruidhinn mi mu dheidhinn air HighLoad. An toiseach, ghluais LifeStreet bho MySQL (le stad goirid aig Oracle) gu Vertica. Agus gheibh thu sgeulachd mu dheidhinn.

Agus bha a h-uile dad fìor mhath, ach dh'fhàs e soilleir gu luath gu bheil an dàta a 'fàs agus gu bheil Vertica daor. Mar sin, chaidh diofar roghainnean eile a shireadh. Tha cuid dhiubh air an liostadh an seo. Agus gu dearbh, rinn sinn dearbhadh air bun-bheachd no uaireannan deuchainn dèanadais air cha mhòr a h-uile stòr-dàta a bha rim faighinn air a’ mhargaidh bhon 13mh gu an 16mh bliadhna agus a bha cha mhòr iomchaidh a thaobh comas-gnìomh. Agus bhruidhinn mi cuideachd mu chuid dhiubh air HighLoad.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

B 'e an obair imrich bho Vertica sa chiad àite, oir dh'fhàs an dàta. Agus dh’ fhàs iad gu mòr thar nam bliadhnaichean. An uairsin chaidh iad air an sgeilp, ach a dh'aindeoin sin. Agus le ro-innse an fhàs seo, riatanasan gnìomhachais airson an ìre de dhàta air am feumadh seòrsa de mhion-sgrùdadh a dhèanamh, bha e soilleir gum biodh petabytes air an deasbad a dh’ aithghearr. Agus tha pàigheadh ​​​​airson petabytes gu math daor mar-thà, agus mar sin bha sinn a’ coimhead airson àite eile airson a dhol.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Càite a dhol? Agus airson ùine fhada cha robh e soilleir càite an tèid e, oir air an aon làimh tha stòran-dàta malairteach, tha e coltach gu bheil iad ag obair gu math. Bidh cuid ag obair cha mhòr cho math ri Vertica, cuid nas miosa. Ach tha iad uile daor, chan eil dad nas saoire agus cha b 'urrainnear a lorg nas fheàrr.

Air an làimh eile, tha fuasglaidhean stòr fosgailte ann, nach eil gu math iomadach, ie airson anailisean, faodar an cunntadh air na corragan. Agus tha iad saor no saor, ach slaodach. Agus gu tric chan eil an comas-gnìomh riatanach agus feumail aca.

Agus cha robh dad ann airson am math a tha ann an stòran-dàta malairteach a chur còmhla agus a h-uile dad an-asgaidh a tha ann an stòr fosgailte.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Cha robh dad ann gus, ris nach robh dùil, tharraing Yandex ClickHouse a-mach, mar dhraoidh bho ad, mar choineanach. Agus b 'e co-dhùnadh ris nach robh dùil, tha iad fhathast a' faighneachd na ceiste: "Carson?", Ach a dh'aindeoin sin.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus anns a 'bhad as t-samhradh 2016, thòisich sinn a' coimhead air dè a th 'ann an ClickHouse. Agus thionndaidh e a-mach gum faod e uaireannan a bhith nas luaithe na Vertica. Rinn sinn deuchainn air diofar shuidheachaidhean air diofar cheistean. Agus mura do chleachd a’ cheist ach aon bhòrd, is e sin, gun cheangal sam bith (join), bha ClickHouse dà uair cho luath ri Vertica.

Cha robh mi ro leisg agus choimhead mi air deuchainnean Yandex an latha eile. Tha e an aon rud an sin: tha ClickHouse dà uair cho luath ri Vertica, agus mar sin bidh iad gu tric a’ bruidhinn mu dheidhinn.

Ach ma tha ceanglaichean anns na ceistean, chan eil a h-uile dad a 'tionndadh a-mach gu tur gun teagamh. Agus faodaidh ClickHouse a bhith dà uair cho slaodach ri Vertica. Agus ma nì thu beagan ceartachadh air an iarrtas agus ath-sgrìobhadh, tha iad timcheall air co-ionann. Chan eil sin dona. Agus an-asgaidh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus às deidh dha toraidhean na deuchainn fhaighinn, agus coimhead air bho dhiofar cheàrnan, chaidh LifeStreet gu ClickHouse.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Seo an 16mh bliadhna, tha mi gad chuimhneachadh. Bha e coltach ri fealla-dhà mu luchainn a bha ag èigheach agus gam priobadh fhèin, ach a lean orra ag ithe an cactus. Agus chaidh seo a mhìneachadh gu mionaideach, tha bhidio ann mu dheidhinn seo, msaa.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Mar sin, cha bhith mi a 'bruidhinn mu dheidhinn gu mionaideach, cha bhith mi a' bruidhinn ach mu na toraidhean agus beagan rudan inntinneach air nach do bhruidhinn mi an uairsin.

Is iad na toraidhean:

  • Imrich soirbheachail agus còrr is bliadhna tha an siostam mar-thà ag obair ann an riochdachadh.
  • Tha cinneasachd agus sùbailteachd air àrdachadh. De na 10 billean clàr a b’ urrainn dhuinn a stòradh gach latha agus an uairsin airson ùine ghoirid, tha LifeStreet a-nis a’ stòradh 75 billean clàr gach latha agus is urrainn dhuinn seo a dhèanamh airson 3 mìosan no barrachd. Ma tha thu a’ cunntadh aig an ìre as àirde, tha seo suas ri millean tachartas gach diog. Bidh còrr air millean ceist SQL gach latha a’ ruighinn an t-siostam seo, a’ mhòr-chuid bho dhiofar innealan-fuadain.
  • A dh’ aindeoin gun deach barrachd luchd-frithealaidh a chleachdadh airson ClickHouse na airson Vertica, shàbhail iad air bathar-cruaidh cuideachd, leis gun deach diosgan SAS caran daor a chleachdadh ann an Vertica. Chleachd ClickHouse SATA. Agus carson? Leis gu bheil cuir a-steach ann an Vertica sioncronaich. Agus tha sioncronadh ag iarraidh nach bi na diosgan a 'slaodadh cus, agus cuideachd nach bi an lìonra a' slaodadh cus, is e sin, obrachadh caran daor. Agus ann an ClickHouse tha cuir a-steach asyncronach. A bharrachd air an sin, faodaidh tu an-còmhnaidh a h-uile dad a sgrìobhadh gu h-ionadail, chan eil cosgaisean a bharrachd ann airson seo, agus mar sin faodar dàta a chuir a-steach gu ClickHouse fada nas luaithe na ann an Vertika, eadhon air draibhearan nas slaodaiche. Agus tha leughadh mu dheidhinn an aon rud. Leughadh air SATA, ma tha iad ann an RAID, tha seo uile luath gu leòr.
  • Gun a bhith cuibhrichte le cead, ie 3 petabytes de dhàta ann an 60 frithealaiche (tha 20 frithealaiche mar aon mac-samhail) agus 6 trillean clàr ann am fìrinnean agus cruinneachaidhean. Cha b’ urrainn dad mar seo a thoirt seachad aig Vertica.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Tionndaidhidh mi a-nis gu rudan practaigeach san eisimpleir seo.

  • Tha a’ chiad fhear na sgeama èifeachdach. Tha tòrr an urra ris an sgeama.
  • Is e an dàrna fear gineadh SQL èifeachdach.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Is e ceist àbhaisteach OLAP taghadh. Bidh cuid de na colbhan a’ dol gu buidheann le, cuid de na colbhan a’ dol gu gnìomhan iomlan. Tha àite ann, a dh'fhaodar a riochdachadh mar sliseag de chiùb. Faodar smaoineachadh air a’ bhuidheann gu lèir mar ro-mheasadh. Agus is ann air sgàth sin a chanar mion-sgrùdadh dàta multivariate ris.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus gu tric tha seo air a mhodail ann an cruth sgeama rionnagan, nuair a tha prìomh fhìrinn agus feartan na fìrinn seo air na taobhan, air na ghathan.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus a thaobh dealbhadh corporra, mar a tha e a 'freagairt air a' bhòrd, mar as trice bidh iad a 'dèanamh riochdachadh àbhaisteach. Faodaidh tu dì-normalachadh, ach tha e daor air diosc agus chan eil e gu math èifeachdach air ceistean. Mar sin, mar as trice bidh iad a’ dèanamh riochdachadh àbhaisteach, i.e. clàr fiosrachaidh agus mòran, mòran chlàran tomhasan.

Ach chan eil e ag obair gu math ann an ClickHouse. Tha dà adhbhar ann:

  • Tha a’ chiad fhear air sgàth nach eil ceanglaichean fìor mhath aig ClickHouse, i.e. tha ceanglaichean ann, ach tha iad dona. Fhad 'sa tha e dona.
  • Is e an dàrna fear nach eil na clàran air an ùrachadh. Mar as trice anns na truinnsearan sin, a tha timcheall air a’ chuairt-rionnag, feumar rudeigin atharrachadh. Mar eisimpleir, ainm teachdaiche, ainm companaidh, msaa. Agus chan eil e ag obair.

Agus tha slighe a-mach à seo ann an ClickHouse. eadhon dhà:

  • Is e a’ chiad fhear cleachdadh fhaclairean. Is e Faclairean Taobh a-muigh a chuidicheas 99% gus fuasgladh fhaighinn air an duilgheadas leis an sgeama rionnag, le ùrachaidhean is mar sin air adhart.
  • Is e an dàrna fear a bhith a 'cleachdadh arrays. Bidh arrays cuideachd a’ cuideachadh le bhith a’ faighinn cuidhteas joints agus duilgheadasan le gnàthachadh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Chan eil feum air ballrachd.
  • Àrdachadh. Bhon Mhàrt 2018, tha cothrom gun sgrìobhainn air nochdadh (chan fhaigh thu seo anns na sgrìobhainnean) gus faclairean ùrachadh gu ìre, i.e. na h-inntrigidhean sin a tha air atharrachadh. Gu practaigeach, tha e coltach ri bòrd.
  • An-còmhnaidh mar chuimhneachan, mar sin bidh e a’ tighinn còmhla ri faclair ag obair nas luaithe na bhiodh e na bhòrd a tha air diosc agus chan eil e na fhìrinn fhathast gu bheil e san tasgadan, is dòcha nach eil.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Chan fheum thu ceanglaichean idir.
  • Is e riochdachadh teann 1-gu-mòran a tha seo.
  • Agus nam bheachd-sa, tha arrays air an dèanamh airson geeks. Is iad sin gnìomhan lambda agus mar sin air adhart.

Chan eil seo airson faclan dearga. Is e gnìomh fìor chumhachdach a tha seo a leigeas leat mòran rudan a dhèanamh ann an dòigh gu math sìmplidh agus eireachdail.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Eisimpleirean àbhaisteach a chuidicheas le bhith a 'fuasgladh arrays. Tha na h-eisimpleirean seo sìmplidh agus soilleir gu leòr:

  • Lorg le tagaichean. Ma tha hashtags agad an sin agus gu bheil thu airson cuid de phuist a lorg le hashtag.
  • Rannsaich le paidhrichean prìomh-luach. Tha cuid de fheartan ann cuideachd le luach.
  • A 'stòradh liostaichean de iuchraichean a dh'fheumas tu eadar-theangachadh gu rudeigin eile.

Faodar na gnìomhan sin uile fhuasgladh gun arrays. Faodar tagaichean a chuir ann an loidhne air choreigin agus an taghadh le abairt àbhaisteach no ann an clàr air leth, ach an uairsin feumaidh tu ceanglaichean a dhèanamh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus ann an ClickHouse, chan fheum thu dad a dhèanamh, tha e gu leòr cunntas a thoirt air an t-sreath sreang airson hashtags no structar neadachaidh a dhèanamh airson prìomh shiostaman luach.

Is dòcha nach e structar neadachaidh an t-ainm as fheàrr. Is iad seo dà raon aig a bheil pàirt cumanta san ainm agus cuid de fheartan co-cheangailte riutha.

Agus tha e gu math furasta a lorg le tag. Biodh gnìomh agad has, a nì cinnteach gu bheil eileamaid san raon. A h-uile duine, lorg iad na h-inntrigidhean uile a bhuineas don cho-labhairt againn.

Tha rannsachadh le subid beagan nas iom-fhillte. Feumaidh sinn an toiseach clàr-amais na h-iuchrach a lorg, agus an uairsin an eileamaid a ghabhail leis a’ chlàr-amais seo agus dèanamh cinnteach gur e an luach seo a tha a dhìth oirnn. Ach, tha e gu math sìmplidh agus comhfhurtail.

An abairt chunbhalach a bu mhath leat a sgrìobhadh nan cumadh tu e uile ann an aon loidhne, bhiodh e, an toiseach, gòrach. Agus, san dàrna àite, dh'obraich e mòran nas fhaide na dà shreath.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Eisimpleir eile. Tha raon agad far an glèidh thu an ID. Agus faodaidh tu an eadar-theangachadh gu ainmean. Gnìomh arrayMap. Is e seo gnìomh àbhaisteach lambda. Bidh thu a 'dol seachad air briathran lambda an sin. Agus tha i a’ tarraing a-mach luach an ainm airson gach ID bhon fhaclair.

Faodar rannsachadh a dhèanamh san aon dòigh. Thèid gnìomh ro-innse a thoirt seachad a nì sgrùdadh air na tha na h-eileamaidean a’ maidseadh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Bidh na rudan sin gu mòr a’ sìmpleachadh a’ chuairt agus a’ fuasgladh dòrlach de dhuilgheadasan.

Ach is e an ath dhuilgheadas a tha romhainn, agus air am bu mhath leam iomradh a thoirt, ceistean èifeachdach.

  • Chan eil dealbhaiche ceiste aig ClickHouse. Gu dearbh chan eil.
  • A dh'aindeoin sin, feumar ceistean iom-fhillte a dhealbhadh fhathast. Ann an cùisean?
  • Ma tha iomadh ceangal anns a’ cheist, còmhdaichidh tu iad ann am fo-thaghadh. Agus tha an òrdugh anns a bheil iad air an cur an gnìomh cudromach.
  • Agus an dàrna - ma thèid an t-iarrtas a sgaoileadh. Air sgàth 's ann an ceist sgaoilte, chan eil ach an fho-thaghadh as fhaide a-staigh air a sgaoileadh, agus thèid a h-uile càil eile a chuir gu aon fhrithealaiche ris an do cheangail thu agus a chuir thu gu bàs an sin. Mar sin, ma tha thu air ceistean a sgaoileadh le mòran cheanglaichean (join), feumaidh tu an òrdugh a thaghadh.

Agus eadhon ann an cùisean nas sìmplidh, uaireannan tha e riatanach cuideachd obair a 'chlàr-ama a dhèanamh agus ceistean ath-sgrìobhadh beagan.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Seo eisimpleir. Air an taobh chlì tha ceist a sheallas na 5 dùthchannan as fheàrr. Agus bheir e 2,5 diogan, nam bheachd-sa. Agus air an taobh cheart, an aon cheist, ach beagan ath-sgrìobhadh. An àite a bhith a’ cruinneachadh le sreang, thòisich sinn a’ cruinneachadh le iuchair (int). Agus tha e nas luaithe. Agus an uairsin cheangail sinn faclair ris an toradh. An àite 2,5 diogan, bheir an t-iarrtas 1,5 diogan. Tha seo math.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Eisimpleir coltach ri ath-sgrìobhadh sìoltachain. Seo iarrtas airson an Ruis. Bidh e a 'ruith airson 5 diogan. Ma nì sinn ath-sgrìobhadh air ann an dòigh a nì sinn coimeas a-rithist chan e sreang, ach àireamhan le cuid de sheata de na h-iuchraichean sin a tha co-cheangailte ris an Ruis, bidh e fada nas luaithe.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Tha iomadh cleas mar sin ann. Agus leigidh iad leat luathachadh mòr a dhèanamh air ceistean a tha thu a’ smaoineachadh a tha a’ ruith gu luath mu thràth, no, air an làimh eile, a’ ruith gu slaodach. Faodar an dèanamh eadhon nas luaithe.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • An obair as àirde ann am modh sgaoilte.
  • A 'rèiteachadh a rèir seòrsaichean as ìsle, mar a rinn mi le ints.
  • Ma tha ceangal sam bith (join), faclairean ann, tha e nas fheàrr an dèanamh mar an roghainn mu dheireadh, nuair a tha dàta agad mu thràth co-dhiù ann am pàirt, an uairsin thèid an obair ceangail no gairm fhaclair a ghairm nas lugha de thursan agus bidh e nas luaithe .
  • A ’cur sìoltachain an àite.

Tha dòighean eile ann, agus chan e dìreach an fheadhainn a sheall mi. Agus faodaidh iad uile uaireannan luathachadh gu mòr air coileanadh cheistean.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Gluaisidh sinn air adhart chun ath eisimpleir. Companaidh X às na SA. Dè tha i a' dèanamh?

Bha obair ann:

  • Ceangal far-loidhne de ghnothaichean sanasachd.
  • Modaladh diofar mhodalan ceangail.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Dè an suidheachadh a th’ ann?

Bidh neach-tadhail àbhaisteach a 'tighinn chun làraich, mar eisimpleir, 20 uair sa mhìos bho shanasan eadar-dhealaichte, no dìreach mar sin uaireannan a' tighinn gun shanasan sam bith, oir tha cuimhne aige air an làrach seo. A 'coimhead air cuid de stuthan, gan cur anns a' bhasgaid, gan toirt a-mach às a 'bhasgaid. Agus, aig a 'cheann thall, tha rudeigin a' ceannach.

Ceistean reusanta: "Cò a bu chòir pàigheadh ​​​​airson sanasachd, ma tha sin riatanach?" agus “Dè an t-sanasachd a thug buaidh air, ma tha idir?”. Is e sin, carson a cheannaich e agus ciamar a gheibh thu air daoine mar an neach seo a cheannach cuideachd?

Gus an duilgheadas seo fhuasgladh, feumaidh tu na tachartasan a tha a ’tachairt air an làrach-lìn a cheangal san dòigh cheart, is e sin, dòigh air choireigin ceangal a thogail eatorra. An uairsin thèid an cur gu DWH airson mion-sgrùdadh. Agus stèidhichte air an anailis seo, tog modalan de cò agus dè na sanasan a sheallas tu.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Is e malairt sanasachd seata de thachartasan cleachdaiche co-cheangailte a thòisicheas bho bhith a’ sealltainn sanas, an uairsin bidh rudeigin a’ tachairt, an uairsin is dòcha ceannach, agus an uairsin is dòcha gum bi ceannach taobh a-staigh ceannach. Mar eisimpleir, mas e tagradh gluasadach no geama gluasadach a tha seo, mar as trice thèid an tagradh a chuir a-steach an-asgaidh, agus ma thèid rudeigin a dhèanamh an sin, is dòcha gum bi feum air airgead airson seo. Agus mar as motha a chosgas neach san tagradh, is ann as luachmhoire a tha e. Ach airson seo feumaidh tu a h-uile càil a cheangal.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Tha mòran mhodalan ceangail ann.

Is e an fheadhainn as mòr-chòrdte:

  • Eadar-obrachadh mu dheireadh, far a bheil eadar-obrachadh an dàrna cuid cliog no sealladh.
  • A’ chiad eadar-obrachadh, i.e. a’ chiad rud a thug duine chun làraich.
  • Cothlamadh loidhneach - uile co-ionann.
  • Lughdachadh.
  • Agus mar sin air adhart.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus ciamar a bha e uile ag obair sa chiad àite? Bha Runtime agus Cassandra ann. Chaidh Cassandra a chleachdadh mar stòradh malairt, i.e. bha a h-uile gnothach co-cheangailte ris air a stòradh ann. Agus nuair a thig tachartas air choireigin ann an Runtime, mar eisimpleir, a’ sealltainn duilleag air choireigin no rudeigin eile, chaidh iarrtas a chuir gu Cassandra - a bheil an leithid de dhuine ann no nach eil. An uairsin fhuaireadh na gnothaichean co-cheangailte ris. Agus chaidh an ceangal a dhèanamh.

Agus ma tha e fortanach gu bheil id malairt aig an iarrtas, tha e furasta. Ach mar as trice chan eil fortan ann. Mar sin, bha e riatanach an gnothach mu dheireadh no an gnothach a lorg leis a’ bhriogadh mu dheireadh, msaa.

Agus dh’ obraich e uile glè mhath fhad ‘s a bha an ceangal ris a’ bhriogadh mu dheireadh. Leis gu bheil, can, 10 millean cliog gach latha, 300 millean sa mhìos, ma shuidhicheas sinn uinneag airson mìos. Agus leis gu bheil e ann an Cassandra feumaidh e a bhith uile mar chuimhneachan gus ruith gu sgiobalta, oir feumaidh an Runtime freagairt gu sgiobalta, thug e timcheall air 10-15 frithealaiche.

Agus nuair a bha iad airson gnothach a cheangal ris an taisbeanadh, cha robh e cho spòrsail sa bhad. Agus carson? Chìthear gum feumar 30 uair a bharrachd de thachartasan a stòradh. Agus, a rèir sin, feumaidh tu 30 uair a bharrachd frithealaichean. Agus tha e a 'tionndadh a-mach gur e seo seòrsa de fhigear reul-eòlais. Gus suas ri 500 frithealaiche a chumail gus an ceangal a dhèanamh, a dh’ aindeoin gu bheil mòran nas lugha de luchd-frithealaidh ann an Runtime, is e seo seòrsa de fhigear ceàrr. Agus thòisich iad air smaoineachadh dè a dhèanadh iad.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus chaidh sinn gu ClickHouse. Agus ciamar a nì thu e air ClickHouse? Aig a 'chiad shealladh, tha e coltach gur e seo seata de anti-pàtrain.

  • Bidh an gnothach a’ fàs, bidh sinn a’ ceangal barrachd is barrachd thachartasan ris, ie tha e mutable, agus chan eil ClickHouse ag obair glè mhath le nithean mutable.
  • Nuair a thig neach-tadhail thugainn, feumaidh sinn na gnothaichean aige a tharraing a-mach le iuchair, leis an id tadhal aige. Is e ceist puing a tha seo cuideachd, cha bhith iad a’ dèanamh sin ann an ClickHouse. Mar as trice tha sganaidhean mòra aig ClickHouse, ach an seo feumaidh sinn cuid de chlàran fhaighinn. Cuideachd antipattern.
  • A bharrachd air an sin, bha an gnothach ann an json, ach cha robh iad airson a ath-sgrìobhadh, agus mar sin bha iad airson json a stòradh ann an dòigh neo-structaraichte, agus ma tha sin riatanach, rudeigin a tharraing a-mach às. Agus tha seo cuideachd na antipattern.

Is e sin, seata de antipatterns.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Ach a dh'aindeoin sin thionndaidh e a-mach siostam a dhèanamh a dh'obraich glè mhath.

Dè chaidh a dhèanamh? Nochd ClickHouse, anns an deach logaichean a thilgeil, air an roinn ann an clàran. Nochd seirbheis ainmichte a fhuair logaichean bho ClickHouse. Às deidh sin, airson gach inntrig, le tadhal id, fhuair mi gnothaichean a dh’ fhaodadh nach deach a phròiseasadh fhathast agus a bharrachd air dealbhan, ie gnothaichean ceangailte mar-thà, is e sin toradh obair roimhe. Rinn mi loidsig bhuapa mu thràth, thagh mi an gnothach ceart, cheangail mi tachartasan ùra. Clàraichte a-rithist. Chaidh an log air ais gu ClickHouse, i.e. is e siostam a th’ ann an-còmhnaidh cearcallach. Agus a bharrachd air an sin, chaidh mi gu DWH airson a sgrùdadh an sin.

Bha e anns an fhoirm seo nach do dh'obraich e glè mhath. Agus gus a dhèanamh nas fhasa dha ClickHouse, nuair a bha iarrtas ann le tadhal id, chuir iad na h-iarrtasan sin còmhla ann am blocaichean de 1-000 ids tadhal agus tharraing iad a-mach a h-uile gnothach airson 2-000 neach. Agus an uairsin dh'obraich e uile.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Ma choimheadas tu taobh a-staigh ClickHouse, chan eil ann ach 3 prìomh bhùird a bhios a’ frithealadh seo gu lèir.

A 'chiad chlàr anns a bheil logaichean air an luchdachadh suas, agus tha na logaichean air an luchdachadh suas cha mhòr gun a bhith a' giullachd.

An dàrna clàr. Tron t-sealladh tàbhachdach, bho na logaichean sin, chaidh tachartasan nach deach ainmeachadh fhathast, i.e., feadhainn gun cheangal, a bhìdeadh a-mach. Agus tron ​​​​t-sealladh susbainteach, chaidh gnothaichean a tharraing a-mach às na logaichean sin gus dealbh a thogail. Is e sin, thog sealladh tàbhachdach sònraichte dealbh, is e sin an suidheachadh cruinnichte mu dheireadh den ghnothach.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Seo an teacsa sgrìobhte ann an SQL. Bu mhath leam iomradh a thoirt air beagan rudan cudromach ann.

Is e a’ chiad rud cudromach an comas colbhan agus raointean a tharraing a-mach bho json ann an ClickHouse. Is e sin, tha cuid de dhòighean aig ClickHouse airson a bhith ag obair le json. Tha iad glè, glè prìomhadail.

Leigidh visitParamExtractInt leat buadhan a thoirt a-mach à json, i.e. a’ chiad obraichean hit. Agus san dòigh seo faodaidh tu id malairt a tharraing a-mach no tadhal air id. An turas seo.

San dàrna h-àite, thathas a’ cleachdadh raon toraidh duilich an seo. Dè a tha e a’ ciallachadh? Tha seo a’ ciallachadh nach urrainn dhut a chuir a-steach don bhòrd, i.e. chan eil e air a chuir a-steach, tha e air a thomhas agus air a stòradh nuair a thèid a chuir a-steach. Nuair a chuireas tu seachad, nì ClickHouse an obair dhut. Agus tha na tha a dhìth ort nas fhaide air adhart air a tharraing a-mach à json mu thràth.

Anns a 'chùis seo, tha sealladh tàthaichte airson sreathan amh. Agus tha a 'chiad bhòrd le logaichean gu math amh dìreach air a chleachdadh. Agus dè tha e a’ dèanamh? An toiseach, bidh e ag atharrachadh an seòrsachadh, ie bidh an rèiteachadh a-nis a’ dol le tadhal id, oir feumaidh sinn an gnothach aige a tharraing a-mach gu sgiobalta airson neach sònraichte.

Is e an dàrna rud cudromach index_granularity. Ma tha thu air MergeTree fhaicinn, mar as trice tha e 8 a rèir index_granularity bunaiteach. Dè th' ann? Is e seo am paramadair gann de chlàr-amais. Ann an ClickHouse tha an clàr-amais gann, cha bhith e uair sam bith a’ clàr-amais a h-uile inntrig. Bidh e a 'dèanamh seo a h-uile 192. Agus tha seo math nuair a tha feum air tòrr dàta a bhith air a thomhas, ach dona nuair a tha beagan, oir tha àrdachadh mòr ann. Agus ma lùghdaicheas sinn an granularity clàr-amais, an uairsin lughdaichidh sinn an còrr. Chan urrainnear a lughdachadh gu aon, oir is dòcha nach eil cuimhne gu leòr ann. Tha an clàr-amais an-còmhnaidh air a stòradh mar chuimhne.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Bidh Snapshot cuideachd a’ cleachdadh cuid de fheartan inntinneach eile ClickHouse.

An toiseach, is e AggregatingMergeTree a th’ ann. Agus stòran AggregatingMergeTree argMax, ie is e seo staid a’ ghnothaich a rèir an stampa-ama mu dheireadh. Bidh gnothaichean air an cruthachadh fad na h-ùine airson neach-tadhail sònraichte. Agus anns an staid mu dheireadh den ghnothach seo, chuir sinn tachartas ris agus tha stàit ùr againn. Bhuail e air ClickHouse a-rithist. Agus tro argMax anns an t-sealladh tàbhachdach seo, gheibh sinn an-còmhnaidh an staid làithreach.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Tha an ceangal “decoupled” bhon Runtime.
  • Bidh suas ri 3 billean malairt gach mìos air an stòradh agus air an giullachd. Is e seo òrdugh meudachd nas motha na bha e ann an Cassandra, ie ann an siostam malairt àbhaisteach.
  • Buidheann de luchd-frithealaidh ClickHouse 2x5. 5 frithealaichean agus tha mac-samhail aig gach frithealaiche. Tha seo eadhon nas lugha na bha e ann an Cassandra gus brìgh stèidhichte air cliog a dhèanamh, agus an seo tha sinn stèidhichte air beachd. Is e sin, an àite an àireamh de luchd-frithealaidh àrdachadh 30 uair, chaidh aca air an lughdachadh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus is e an eisimpleir mu dheireadh companaidh ionmhais Y, a rinn mion-sgrùdadh air co-dhàimhean atharrachaidhean ann am prìsean stoc.

Agus b’ e an obair:

  • Tha timcheall air 5 earrann ann.
  • Tha fios air luachan gach 100 milliseconds.
  • Tha an dàta air a chruinneachadh thairis air 10 bliadhna. A rèir coltais, airson cuid de chompanaidhean barrachd, airson cuid nas lugha.
  • Tha timcheall air 100 billean sreath gu h-iomlan.

Agus bha e riatanach obrachadh a-mach co-dhàimh nan atharrachaidhean.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Seo dà stoc agus na luachan aca. Ma thèid aon suas agus am fear eile suas, is e co-dhàimh adhartach a tha seo, ie thèid aon suas agus thèid am fear eile suas. Ma thèid aon suas, mar aig deireadh a’ ghraf, agus am fear eile a’ dol sìos, is e co-dhàimh àicheil a tha seo, i.e. nuair a dh’ èiricheas aon, tuitidh an tè eile.

Le bhith a’ dèanamh anailis air na h-atharrachaidhean dha chèile sin, faodaidh duine ro-innse a dhèanamh anns a’ mhargaidh ionmhais.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Ach tha an obair duilich. Dè thathar a’ dèanamh airson seo? Tha 100 billean clàr againn aig a bheil: ùine, stoc, agus prìs. Feumaidh sinn obrachadh a-mach an toiseach 100 billean uair an eadar-dhealachadh ruith bhon algairim prìsean. Tha RunningDifference na ghnìomh ann an ClickHouse a bhios a’ tomhas an eadar-dhealachadh eadar dà shreath ann an sreath.

Agus às deidh sin, feumaidh tu an co-dhàimh obrachadh a-mach, agus feumar an co-dhàimh a thomhas airson gach paidhir. Airson 5 earrann, tha paidhrichean 000 millean. Agus tha seo tòrr, ie 12,5 tursan feumar obrachadh a-mach dìreach gnìomh co-dhàimh.

Agus ma dhìochuimhnich cuideigin, tha ͞x agus ͞y na neach-seic. dùil samplachaidh. Is e sin, tha e riatanach chan ann a-mhàin obrachadh a-mach na freumhan agus na suimean, ach cuideachd aon suimean eile taobh a-staigh nan suimean sin. Feumar dòrlach de àireamhachadh a dhèanamh 12,5 millean uair, agus eadhon air an cruinneachadh a rèir uairean. Tha tòrr uairean againn cuideachd. Agus feumaidh tu a dhèanamh ann an 60 diog. Is e fealla-dhà a th’ ann.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Bha feum air ùine co-dhiù dòigh air choireigin, oir dh’ obraich seo uile gu math slaodach mus tàinig ClickHouse.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Dh'fheuch iad ri obrachadh a-mach air Hadoop, air Spark, air Greenplum. Agus bha seo uile gu math slaodach no daor. Is e sin, bha e comasach dòigh air choireigin àireamhachadh, ach an uair sin bha e daor.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus an uairsin thàinig ClickHouse agus dh’ fhàs cùisean tòrr na b’ fheàrr.

Tha mi gad chuimhneachadh gu bheil duilgheadas againn le sgìre dàta, leis nach urrainn co-dhàimhean a bhith ionadail. Chan urrainn dhuinn cuid den dàta a chuir air aon fhrithealaiche, cuid air fear eile agus obrachadh a-mach, feumaidh an dàta gu lèir a bhith againn anns a h-uile àite.

Dè rinn iad? An toiseach, tha an dàta ionadail. Bidh gach frithealaiche a’ stòradh dàta mu phrìsean seata earrannan sònraichte. Agus chan eil iad a 'dol thairis air. Mar sin, tha e comasach àireamhachadh logReturn ann an co-shìnte agus gu neo-eisimeileach, tha seo uile a 'tachairt gu ruige seo ann an co-shìnte agus air a sgaoileadh.

An uairsin chuir sinn romhainn an dàta sin a lughdachadh, gun a bhith a’ call faireachdainneachd. Lùghdaich le bhith a’ cleachdadh arrays, i.e. airson gach ùine, dèan sreath de stocan agus raon de phrìsean. Mar sin, bidh e a’ toirt mòran nas lugha de rùm dàta. Agus tha iad beagan nas fhasa obrachadh leotha. Tha iad sin nan obraichean cha mhòr co-shìnte, ie bidh sinn a’ leughadh gu ìre ann an co-shìnte agus an uairsin a’ sgrìobhadh chun t-seirbheisiche.

Às deidh sin, faodaidh e bhith air ath-aithris. Tha an litir “r” a’ ciallachadh gun do rinn sinn ath-riochdachadh air an dàta seo. Is e sin, tha an aon dàta againn air na trì frithealaichean - is iad sin na h-arrays.

Agus an uairsin le sgriobt sònraichte bhon t-seata seo de 12,5 millean co-dhàimhean a dh’ fheumar a thomhas, faodaidh tu pasganan a dhèanamh. Is e sin, 2 gnìomh le 500 paidhir co-dhàimhean. Agus tha an obair seo gu bhith air a thomhas air frithealaiche sònraichte ClickHouse. Tha an dàta gu lèir aige, oir tha an dàta mar an ceudna agus is urrainn dha an àireamhachadh ann an òrdugh.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

A-rithist, seo mar a tha e coltach. An toiseach, tha an dàta gu lèir againn san structar seo: ùine, earrannan, prìs. An uairsin rinn sinn cunntas air logReturn, ie dàta den aon structar, ach an àite a’ phrìs tha logReturn againn mu thràth. An uairsin chaidh an ath-nuadhachadh, i.e. fhuair sinn an ùine agus a’ bhuidheannArray airson stocan is prìsean. Air ath-aithris. Agus às deidh sin, chruthaich sinn dòrlach de ghnìomhan agus thug sinn biadh dhaibh gu ClickHouse gus am biodh e gan cunntadh. Agus tha e ag obair.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Mar dhearbhadh air bun-bheachd, b’ e fo-obair a bh’ anns a’ ghnìomh, i.e., chaidh nas lugha de dhàta a thogail. Agus dìreach trì frithealaichean.

Thug a’ chiad dà ìre seo timcheall air uair a thìde gus Log_return obrachadh a-mach agus pasgadh ann an arrays.

Agus tha àireamhachadh a’ cho-dhàimh timcheall air 50 uair. Ach chan eil 50 uair gu leòr, oir b’ àbhaist dhaibh a bhith ag obair airson seachdainean. Bha e na shoirbheachadh mòr. Agus ma tha thu a’ cunntadh, an uairsin 70 uair san diog chaidh a h-uile càil a chunntadh air a’ bhuidheann seo.

Ach is e an rud as cudromaiche gu bheil an siostam seo cha mhòr às aonais botail, is e sin, bidh e a ’sgèile cha mhòr sreathach. Agus rinn iad sgrùdadh air. Àrdaich e gu soirbheachail.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

  • Tha an sgeama ceart leth an t-soirbheachais. Agus is e an sgeama ceart cleachdadh nan teicneòlasan ClickHouse riatanach uile.
  • Is e teicneòlasan a th’ ann an Summing/AggregatingMergeTrees a leigeas leat dealbh stàite a chruinneachadh no beachdachadh mar chùis shònraichte. Agus tha e gu mòr a 'sìmpleachadh tòrr rudan.
  • Leigidh Seallaidhean Tàthaichte leat a dhol seachad air an aon chrìoch clàr-amais. Is dòcha nach tuirt mi e gu math soilleir, ach nuair a bha sinn a’ luchdachadh na logaichean, bha na logaichean amh sa chlàr le aon chlàr, agus bha na logaichean buadhan sa chlàr, ie an aon dàta, dìreach sìoladh, ach bha an clàr-amais gu tur cuid eile. Tha e coltach gur e an aon dàta a th’ ann, ach seòrsachadh eadar-dhealaichte. Agus leigidh Seallaidhean Tàthaichte leat, ma tha feum agad air, a dhol seachad air a leithid de chuingealachadh ClickHouse.
  • Lùghdaich granularity clàr-amais airson ceistean puing.
  • Agus sgaoil an dàta gu sgiobalta, feuch ris an dàta a shuidheachadh taobh a-staigh an fhrithealaiche cho mòr ‘s as urrainn dhut. Agus feuch ri dèanamh cinnteach gu bheil iarrtasan cuideachd a’ cleachdadh sgìreachadh far a bheil sin comasach cho mòr ‘s a ghabhas.

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

Agus a’ toirt geàrr-chunntas air an òraid ghoirid seo, faodaidh sinn a ràdh gu bheil ClickHouse a-nis air seilbh làidir a ghabhail air fearann ​​​​an dà chuid stòran-dàta malairteach agus stòran-dàta fosgailte, ie, gu sònraichte airson anailisean. Bidh e a’ freagairt gu foirfe ris a’ chruth-tìre seo. Agus a bharrachd air an sin, bidh e gu slaodach a’ tòiseachadh a ’toirt a-mach feadhainn eile, oir nuair a bhios ClickHouse agad, chan fheum thu InfiniDB. Is dòcha nach bi feum air Vertika a dh'aithghearr ma nì iad taic àbhaisteach SQL. Gabh tlachd!

Teòiridh agus cleachdadh mu bhith a’ cleachdadh ClickHouse ann an tagraidhean fìor. Alasdair Zaitsev (2018)

-Tapadh leibh airson an aithris! Glè inntinneach! An robh coimeas ann le Apache Phoenix?

Chan e, cha chuala mi coimeas idir. Feuchaidh sinn fhèin agus Yandex ri sùil a chumail air a h-uile coimeas ClickHouse le diofar stòran-dàta. Air sgàth 's ma tha rudeigin gu h-obann a' tionndadh gu bhith nas luaithe na ClickHouse, chan urrainn dha Lesha Milovidov cadal air an oidhche agus tòisichidh i ga luathachadh gu luath. Cha chuala mi iomradh air a leithid de choimeas.

  • (Aleksey Milovidov) Tha Apache Phoenix na einnsean SQL le cumhachd Hbase. Tha Hbase gu sònraichte airson suidheachadh obrach prìomh luach. An sin, anns gach loidhne, faodaidh àireamh neo-riaghailteach de cholbhan a bhith ann le ainmean neo-riaghailteach. Faodar seo a ràdh mu shiostaman leithid Hbase, Cassandra. Agus is e dìreach ceistean anailis trom nach obraich gu h-àbhaisteach dhaibh. No is dòcha gu bheil thu a’ smaoineachadh gu bheil iad ag obair gu math mura h-eil eòlas sam bith agad le ClickHouse.

  • Спасибо

    • Feasgar math Tha ùidh mhòr agam sa chuspair seo mu thràth, oir tha fo-shiostam anailis agam. Ach nuair a choimheadas mi air ClickHouse, gheibh mi am faireachdainn gu bheil ClickHouse gu math freagarrach airson mion-sgrùdadh tachartais, mutable. Agus ma dh'fheumas mi tòrr dàta gnìomhachais a mhion-sgrùdadh le dòrlach de chlàran mòra, an uairsin chan eil ClickHouse, cho fad 'sa tha mi a' tuigsinn, gu math freagarrach dhomh? Gu sònraichte ma tha iad ag atharrachadh. A bheil seo ceart no a bheil eisimpleirean ann as urrainn seo a dhiùltadh?

    • Tha seo ceart. Agus tha seo fìor mun mhòr-chuid de stòran-dàta anailis sònraichte. Tha iad air an dèanamh freagarrach airson gu bheil aon no barrachd chlàran mòra ann a tha mutable, agus airson mòran de fheadhainn bheaga a bhios ag atharrachadh gu slaodach. Is e sin, chan eil ClickHouse coltach ri Oracle, far an urrainn dhut a h-uile càil a chuir agus cuid de cheistean fìor iom-fhillte a thogail. Gus ClickHouse a chleachdadh gu h-èifeachdach, feumaidh tu sgeama a thogail ann an dòigh a tha ag obair gu math ann an ClickHouse. Is e sin, seachain cus gnàthachadh, cleachd faclairean, feuch ri nas lugha de cheanglaichean fada a dhèanamh. Agus ma thèid an sgeama a thogail san dòigh seo, faodar gnìomhan gnìomhachais den aon seòrsa fhuasgladh air ClickHouse mòran nas èifeachdaiche na air stòr-dàta dàimh traidiseanta.

Tapadh leibh airson an aithris! Tha ceist agam mun chùis ionmhais as ùire. Bha analytics aca. Bha e riatanach coimeas a dhèanamh eadar mar a thèid iad suas is sìos. Agus tha mi a’ tuigsinn gun do thog thu an siostam gu sònraichte airson an anailis seo? Ma tha a-màireach, mar eisimpleir, feumaidh iad aithisg eile air an dàta seo, am feum iad an sgeama ath-thogail agus an dàta a luchdachadh suas? Is e sin, a bhith a’ dèanamh seòrsa de ro-phròiseasadh gus an t-iarrtas fhaighinn?

Gu dearbh, is e seo cleachdadh ClickHouse airson gnìomh sònraichte. Dh’ fhaodadh e a bhith air fhuasgladh nas traidiseanta taobh a-staigh Hadoop. Airson Hadoop, is e obair air leth a tha seo. Ach air Hadoop tha e gu math slaodach. Agus is e an t-amas agam sealltainn gun urrainn ClickHouse gnìomhan fhuasgladh a tha mar as trice air am fuasgladh ann an dòighean gu tur eadar-dhealaichte, ach aig an aon àm a dhèanamh tòrr nas èifeachdaiche. Tha e air a dhealbh airson obair shònraichte. Tha e soilleir ma tha duilgheadas ann le rudeigin coltach ris, faodar a rèiteachadh san aon dòigh.

Tha e soilleir. Thuirt thu gun deach 50 uair a ghiullachd. An ann bhon fhìor thoiseach, cuin a luchdaich thu an dàta no a fhuair thu na toraidhean?

Seadh Tha.

OK tapadh leat gu mòr.

Tha seo air buidheann de 3 frithealaichean.

Beannachdan! Tapadh leibh airson an aithris! Tha a h-uile dad gu math inntinneach. Cha bhith mi a’ faighneachd beagan mu ghnìomhachd, ach mu chleachdadh ClickHouse a thaobh seasmhachd. Is e sin, an robh gin agad, an robh agad ri ath-nuadhachadh? Ciamar a bhios ClickHouse gad ghiùlan fhèin sa chùis seo? Agus an do thachair e gu robh mac-samhail agad cuideachd? Mar eisimpleir, thachair sinn ri duilgheadas le ClickHouse nuair a tha e fhathast a’ faighinn a-mach às a chrìoch agus a’ tuiteam.

Gu dearbh, chan eil siostaman foirfe ann. Agus tha na duilgheadasan aige fhèin aig ClickHouse cuideachd. Ach an cuala tu mu dheidhinn Yandex.Metrica nach eil ag obair airson ùine mhòr? Is dòcha nach eil. Tha e air a bhith ag obair gu earbsach bho 2012-2013 air ClickHouse. Is urrainn dhomh an aon rud a ràdh mun eòlas agam. Cha robh fàilligidhean iomlan againn a-riamh. Dh’ fhaodadh cuid de rudan pàirteach tachairt, ach cha robh iad a-riamh deatamach gu leòr airson buaidh mhòr a thoirt air a’ ghnìomhachas. Cha do thachair e a-riamh. Tha ClickHouse gu math earbsach agus cha bhith e a’ tuiteam air thuaiream. Chan fheum thu a bhith draghail mu dheidhinn. Chan e rud amh a th’ ann. Tha seo air a dhearbhadh le mòran chompanaidhean.

Halò! Thuirt thu gum feum thu smaoineachadh air an sgeama dàta sa bhad. Dè ma thachair? Tha an dàta agam a 'dòrtadh agus a' dòrtadh. Bidh sia mìosan a’ dol seachad, agus tha mi a’ tuigsinn gu bheil e do-dhèanta a bhith beò mar seo, feumaidh mi an dàta ath-luchdachadh suas agus rudeigin a dhèanamh leotha.

Tha seo gu dearbh an urra ris an t-siostam agad. Tha grunn dhòighean ann seo a dhèanamh le cha mhòr gun stad. Mar eisimpleir, is urrainn dhut Sealladh Tàthaichte a chruthachadh anns an dèan thu structar dàta eadar-dhealaichte mas urrainnear a mhapadh gun samhail. Is e sin, ma cheadaicheas e mapadh a’ cleachdadh ClickHouse, i.e. thoir a-mach cuid de rudan, atharraich am prìomh iuchair, atharraich sgaradh, faodaidh tu Sealladh Stuth a dhèanamh. Sgrìobh thairis air an t-seann dàta agad an sin, thèid feadhainn ùra a sgrìobhadh gu fèin-ghluasadach. Agus an uairsin dìreach gluais gu bhith a’ cleachdadh an Materialized View, an uairsin atharraich an clàr agus cuir às don t-seann chlàr. San fharsaingeachd is e dòigh neo-stad a tha seo.

Tapadh leibh.

Source: www.habr.com

Cuir beachd ann