Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

In ainneoin go bhfuil go leor sonraí beagnach i ngach áit anois, tá bunachair shonraí anailíse fós go leor coimhthíocha. Níl mórán aithne orthu agus is measa fós iad in ann iad a úsáid go héifeachtach. Leanann go leor ag "ithe cactus" le MySQL nó PostgreSQL, atá deartha le haghaidh cásanna eile, ag fulaingt le NoSQL, nó ró-íocaíocht le haghaidh réitigh tráchtála. Athraíonn ClickHouse rialacha an chluiche agus íslíonn sé go suntasach an tairseach chun dul isteach i saol na DBMS anailíseacha.

Tuairisc ó BackEnd Conf 2018 agus foilsítear í le cead an chainteora.


Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)
Cé mise agus cén fáth a bhfuil mé ag caint faoi ClickHouse? Is stiúrthóir forbartha mé ag LifeStreet, a úsáideann ClickHouse. Chomh maith leis sin, tá mé bunaitheoir Altinity. Is comhpháirtí Yandex é a chuireann ClickHouse chun cinn agus a chuidíonn le Yandex ClickHouse a dhéanamh níos rathúla. Réidh freisin chun eolas a roinnt faoi ClickHouse.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus nach bhfuil mé deartháir Petya Zaitsev. Is minic a chuirtear ceist orm faoi seo. Níl, ní deartháireacha muid.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

“Tá a fhios ag gach duine” go bhfuil ClickHouse:

  • An-tapa,
  • An-chompordach
  • Úsáidtear i Yandex.

Tá beagán níos lú ar eolas maidir leis na cuideachtaí agus conas a úsáidtear é.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Inseoidh mé duit cén fáth, cén áit agus conas a úsáidtear ClickHouse, ach amháin i gcás Yandex.

Inseoidh mé duit conas a dhéantar tascanna sonracha a réiteach le cabhair ó ClickHouse i gcuideachtaí éagsúla, cad iad na huirlisí ClickHouse is féidir leat a úsáid le haghaidh do thascanna, agus conas a úsáideadh iad i gcuideachtaí éagsúla.

Phioc mé suas trí shampla a léiríonn ClickHouse ó uillinneacha éagsúla. Sílim go mbeidh sé suimiúil.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Is í an chéad cheist: “Cén fáth a bhfuil ClickHouse de dhíth orainn?”. Dealraíonn sé gur ceist sách soiléir í, ach tá níos mó ná freagra amháin ann.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Is é an chéad fhreagra le haghaidh feidhmíochta. Tá ClickHouse an-tapa. Tá Analytics ar ClickHouse an-tapa freisin. Is féidir é a úsáid go minic nuair a bhíonn rud éigin eile an-mhall nó an-dona.
  • Is é an dara freagra costas. Agus ar an gcéad dul síos, an costas scálaithe. Mar shampla, is bunachar sonraí iontach é Vertica. Oibríonn sé go han-mhaith mura bhfuil go leor terabytes sonraí agat. Ach nuair a thagann sé leis na céadta terabytes nó petabytes, téann costas ceadúnais agus tacaíochta isteach i méid sách suntasach. Agus tá sé costasach. Agus tá ClickHouse saor in aisce.
  • Is é an tríú freagra ná costas oibriúcháin. Is cur chuige beagán difriúil é seo. Is analóg iontach é RedShift. Ar RedShift, is féidir leat cinneadh a dhéanamh go han-tapa. Oibreoidh sé go maith, ach ag an am céanna, gach uair an chloig, gach lá, agus gach mí, íocfaidh tú Amazon go daor, toisc gur seirbhís costasach suntasach é seo. Google BigQuery freisin. Má d'úsáid duine éigin é, tá a fhios aige ansin gur féidir leat roinnt iarratas a rith agus bille a fháil do na céadta dollar go tobann.

Níl na fadhbanna seo ag ClickHouse.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Cá n-úsáidtear ClickHouse anois? Chomh maith le Yandex, úsáidtear ClickHouse i ngrúpaí gnólachtaí agus cuideachtaí éagsúla.

  • Ar an gcéad dul síos, is anailísí feidhmchlár gréasáin é seo, i.e. cás úsáide é seo a tháinig ó Yandex.
  • Úsáideann go leor cuideachtaí AdTech ClickHouse.
  • Cuideachtaí iomadúla a bhfuil gá acu chun anailís a dhéanamh ar logaí idirbheart ó fhoinsí éagsúla.
  • Úsáideann roinnt cuideachtaí ClickHouse chun monatóireacht a dhéanamh ar logaí slándála. Uaslódálann siad iad chuig ClickHouse, déanann siad tuarascálacha, agus faigheann siad na torthaí a theastaíonn uathu.
  • Tá cuideachtaí ag tosú á úsáid san anailís airgeadais, i.e. de réir a chéile tá gnólachtaí móra ag druidim le ClickHouse freisin.
  • bladhmra. Má leanann duine ClickHouse, is dócha gur chuala siad ainm na cuideachta seo. Tá sé seo ar cheann de na rannpháirtithe riachtanacha ón bpobal. Agus tá suiteáil ClickHouse an-tromchúiseach acu. Mar shampla, rinne siad Kafka Engine do ClickHouse.
  • Thosaigh cuideachtaí teileachumarsáide a úsáid. Úsáideann roinnt cuideachtaí ClickHouse mar chruthúnas ar choincheap nó i dtáirgeadh cheana féin.
  • Úsáideann cuideachta amháin ClickHouse chun monatóireacht a dhéanamh ar phróisis táirgthe. Tástáil siad microcircuits, díscríobh a bunch paraiméadair, tá thart ar 2 saintréithe. Agus ansin déanann siad anailís ar cibé an bhfuil an cluiche maith nó olc.
  • Anailísíocht Blockchain. Tá a leithéid de chuideachta Rúisis mar Bloxy.info. Seo anailís ar an líonra ethereum. Rinne siad é seo freisin ar ClickHouse.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus is cuma faoin méid. Tá go leor cuideachtaí a úsáideann freastalaí beag amháin. Agus ligeann sé dóibh a gcuid fadhbanna a réiteach. Agus úsáideann fiú níos mó cuideachtaí braislí móra de go leor freastalaithe nó mórán freastalaithe.

Agus má fhéachann tú ar na taifid, ansin:

  • Yandex: 500+ freastalaí, stórálann siad 25 billiún taifead in aghaidh an lae ann.
  • LifeStreet: 60 freastalaí, thart ar 75 billiún taifead in aghaidh an lae. Tá níos lú freastalaithe, níos mó taifead ná i Yandex.
  • CloudFlare: 36 freastalaí, sábhálann siad 200 billiún taifead in aghaidh an lae. Tá níos lú freastalaithe acu agus stórálann siad níos mó sonraí fós.
  • Bloomberg: 102 freastalaí, thart ar trilliún iontráil in aghaidh an lae. Sealbhóir taifead.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Go geografach, tá sé seo go leor freisin. Taispeánann an léarscáil seo anseo léarscáil teasa den áit a bhfuil ClickHouse in úsáid ar fud an domhain. Seasann an Rúis, an tSín, Meiriceá amach go soiléir anseo. Is beag tíortha Eorpacha. Agus tá 4 braisle.

Anailís chomparáideach í seo, ní gá fíorfhigiúirí a lorg. Anailís é seo ar chuairteoirí a léann ábhair Bhéarla ar shuíomh Gréasáin Altinity, toisc nach bhfuil aon Rúisis ina labhraítear ann. Agus an Rúis, an Úcráin, an Bhealarúis, i.e. an chuid den phobal ina labhraítear Rúisis, is iad seo na húsáideoirí is líonmhaire. Ansin tagann na Stáit Aontaithe agus Ceanada. Tá an tSín ag teacht suas go mór. Ní raibh an tSín beagnach ann sé mhí ó shin, anois tá an tSín tar éis dul thar an Eoraip cheana féin agus ag fás i gcónaí. Níl an tSean-Eoraip i bhfad taobh thiar freisin, agus is í an Fhrainc an ceannaire in úsáid ClickHouse, rud aisteach go leor.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Cén fáth a bhfuil mé ag rá seo go léir? Chun a thaispeáint go bhfuil ClickHouse ag éirí ina réiteach caighdeánach le haghaidh anailíse sonraí mór agus go bhfuil sé in úsáid cheana féin i go leor áiteanna. Má úsáideann tú é, tá tú sa treocht cheart. Mura bhfuil tú á úsáid fós, ansin ní féidir eagla a bheith ort go bhfágfar tú i d'aonar agus ní bheidh aon duine ag cabhrú leat, toisc go bhfuil go leor á dhéanamh cheana féin.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Is samplaí iad seo d’úsáid ClickHouse fíor i roinnt cuideachtaí.

  • Is é an chéad sampla líonra fógraí: aistriú ó Vertica go ClickHouse. Agus tá aithne agam ar roinnt cuideachtaí atá tar éis aistriú ó Vertica nó atá i mbun aistrithe.
  • Is é an dara sampla ná stóráil idirbheartaíochta ar ClickHouse. Is sampla é seo a tógadh ar fhrithphátrúin. Déantar gach rud nár cheart a dhéanamh i ClickHouse ar chomhairle na bhforbróirí anseo. Agus déantar é chomh héifeachtach sin go n-oibríonn sé. Agus oibríonn sé i bhfad níos fearr ná an réiteach idirbheartaíochta tipiciúil.
  • Is é an tríú sampla ná ríomhaireacht a dháileadh ar ClickHouse. Bhí ceist ann faoi conas is féidir ClickHouse a chomhtháthú in éiceachóras Hadoop. Taispeánfaidh mé sampla den chaoi a ndearna cuideachta rud éigin cosúil le coimeádán laghdaithe léarscáil ar ClickHouse, ag coinneáil rian ar logánú sonraí, etc., chun tasc an-neamhfhánach a ríomh.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Is cuideachta Ad Tech é LifeStreet a bhfuil an teicneolaíocht ar fad a bhaineann le líonra fógraí aige.
  • Tá sí ag gabháil do leas iomlán a bhaint ad, tairiscint cláir.
  • Go leor sonraí: thart ar 10 billiún imeacht in aghaidh an lae. Ag an am céanna, is féidir imeachtaí ann a roinnt i roinnt fo-imeachtaí.
  • Tá go leor cliant de na sonraí seo, agus tá siad seo ní hamháin daoine, i bhfad níos mó - is halgartaim éagsúla atá ag gabháil do thairiscint cláir.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Tá cosán fada agus deilgneach tagtha ar an gcuideachta. Agus labhair mé faoi ar HighLoad. Ar dtús, bhog LifeStreet ó MySQL (le stad gairid ag Oracle) go Vertica. Agus is féidir leat teacht ar scéal faoi.

Agus bhí gach rud an-mhaith, ach ba léir go tapa go bhfuil na sonraí ag fás agus go bhfuil Vertica costasach. Dá bhrí sin, lorgaíodh roghanna eile. Tá cuid acu liostaithe anseo. Agus i ndáiríre, rinneamar cruthúnas coincheapa nó uaireanta tástáil feidhmíochta ar bheagnach gach bunachar sonraí a bhí ar fáil ar an margadh ón 13ú go dtí an 16ú bliain agus a bhí beagnach oiriúnach i dtéarmaí feidhmiúlachta. Agus labhair mé freisin faoi chuid acu ar HighLoad.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Ba é an tasc ná imirce ó Vertica ar an gcéad dul síos, mar gheall ar fhás na sonraí. Agus d'fhás siad easpónantúil thar na blianta. Ansin chuaigh siad ar an seilf, ach mar sin féin. Agus an fás seo á thuar, ceanglais ghnó maidir leis an méid sonraí ar a raibh gá le hanailísí de chineál éigin a dhéanamh, ba léir go bpléifí petabytes go luath. Agus tá íoc as petabytes an-chostasach cheana féin, agus mar sin bhíomar ag lorg rogha eile cá háit le dul.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Cá háit le dul? Agus ar feadh i bhfad ní raibh sé soiléir ar chor ar bith cá háit le dul, mar ar thaobh amháin tá bunachair shonraí tráchtála ann, is cosúil go n-oibríonn siad go maith. Oibríonn cuid acu beagnach chomh maith le Vertica, cuid eile níos measa. Ach tá siad go léir costasach, ní fhéadfaí teacht ar aon rud níos saoire agus níos fearr.

Ar an láimh eile, tá réitigh foinse oscailte ann, nach bhfuil an-iomadúla, ie le haghaidh anailíse, is féidir iad a chomhaireamh ar na méara. Agus tá siad saor in aisce nó saor, ach mall. Agus is minic nach mbíonn an fheidhmiúlacht riachtanach agus úsáideach acu.

Agus ní raibh aon rud ann chun an leas atá i mbunachair shonraí tráchtála agus an t-saor in aisce ar fad atá i bhfoinse oscailte a chomhcheangal.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Ní raibh aon rud ann go dtí, gan choinne, tharraing Yandex amach ClickHouse, cosúil le magician as hata, cosúil le coinín. Agus cinneadh gan choinne a bhí ann, cuireann siad fós an cheist: “Cén fáth?”, Ach mar sin féin.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus ar an bpointe boise i samhradh na bliana 2016, thosaigh muid ag féachaint ar cad é ClickHouse. Agus d'éirigh sé amach go uaireanta is féidir é a bheith níos tapúla ná Vertica. Thástáil muid cásanna éagsúla ar cheisteanna éagsúla. Agus murar bhain an cheist úsáid as ach tábla amháin, is é sin, gan aon naisc (join), bhí ClickHouse dhá uair chomh tapa le Vertica.

Ní raibh mé ró-leisciúil agus d'fhéach mé ar thástálacha Yandex an lá eile. Tá sé mar an gcéanna ansin: tá ClickHouse dhá uair chomh tapa le Vertica, mar sin is minic a labhraíonn siad faoi.

Ach má tá naisc sna fiosrúcháin, ansin ní bhíonn gach rud an-débhríoch. Agus is féidir le ClickHouse a bheith dhá uair chomh mall le Vertica. Agus má cheartaíonn tú an t-iarratas beagán agus má athscríobhann tú é, tá siad beagnach comhionann. Ní dona. Agus saor in aisce.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus na torthaí tástála faighte, agus féachaint air ó uillinneacha éagsúla, chuaigh LifeStreet go ClickHouse.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Seo an 16ú bliain, me i gcuimhne duit. Bhí sé cosúil le magadh faoi lucha a gol agus pricked iad féin, ach lean ar aghaidh ag ithe an cactus. Agus cuireadh síos go mion ar seo, tá físeán faoi seo, etc.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Dá bhrí sin, ní bheidh mé ag caint faoi go mion, ní bheidh mé ag caint ach faoi na torthaí agus cúpla rudaí suimiúla nár labhair mé faoi ansin.

Is iad na torthaí:

  • Imirce rathúil agus níos mó ná bliain tá an córas ag obair cheana féin i dtáirgeadh.
  • Tá méadú tagtha ar tháirgiúlacht agus ar sholúbthacht. As na 10 billiún taifead a d’fhéadfaimis a stóráil in aghaidh an lae agus ansin ar feadh tamaill ghairid, stórálann LifeStreet 75 billiún taifead in aghaidh an lae anois agus is féidir leo é seo a dhéanamh ar feadh 3 mhí nó níos mó. Má chomhaireamh tú ag an bhuaic, ansin tá sé seo suas le milliún imeachtaí in aghaidh an tsoicind. Tagann níos mó ná milliún fiosrú SQL sa lá chuig an gcóras seo, go príomha ó róbait éagsúla.
  • In ainneoin gur úsáideadh níos mó freastalaithe le haghaidh ClickHouse ná le Vertica, shábháil siad ar chrua-earraí freisin, toisc gur úsáideadh dioscaí SAS sách daor in Vertica. D'úsáid ClickHouse SATA. Agus cén fáth? Toisc go bhfuil cuir isteach i Vertica sioncrónach. Agus éilíonn sioncrónú nach ndéanann na dioscaí ró-mhoilliú, agus freisin nach mhoillíonn an líonra an iomarca, is é sin, oibríocht sách costasach. Agus i ClickHouse tá cuir isteach asincrónach. Ina theannta sin, is féidir leat gach rud a scríobh go háitiúil i gcónaí, níl aon chostais bhreise ann, mar sin is féidir sonraí a chur isteach i ClickHouse i bhfad níos tapúla ná i Vertika, fiú ar thiomáineann níos moille. Agus tá léamh thart ar an gcéanna. Ag léamh ar SATA, má tá siad i RAID, ansin tá sé seo go léir tapa go leor.
  • Gan a bheith teoranta ag ceadúnas, i.e. 3 pheitil sonraí i 60 freastalaí (is macasamhail amháin é 20 freastalaí) agus 6 trilliún taifead i bhfíorais agus i gcomhiomlánaithe. Níorbh fhéidir aon rud mar seo a sholáthar ag Vertica.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Casaim anois ar rudaí praiticiúla sa sampla seo.

  • Is scéim éifeachtach an chéad cheann. Braitheann go leor ar an scéimre.
  • Is é an dara giniúint éifeachtach SQL.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Roghnaítear gnáthcheist OLAP. Téann cuid de na colúin go dtí grúpa de réir, téann cuid de na colúin chuig feidhmeanna comhiomlána. Tá áit, ar féidir a léiriú mar slice de ciúb. Is féidir smaoineamh ar an ngrúpa ar fad mar theilgean. Agus sin an fáth go bhfuil sé ar a dtugtar anailís sonraí multivariate.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus is minic a mhúnlaítear é seo i bhfoirm scéime réalta, nuair a bhíonn fíoras lárnach agus tréithe an fhíric seo feadh na taobhanna, feadh na gathanna.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus i dtéarmaí dearadh fisiceach, mar a luíonn sé ar an tábla, is gnách go ndéanann siad léiriú normalaithe. Is féidir leat dínormalú, ach tá sé costasach ar diosca agus níl sé an-éifeachtach ar cheisteanna. Mar sin, is gnách go ndéanann siad léiriú normalaithe, i.e. tábla fíricí agus go leor táblaí toise.

Ach ní oibríonn sé go maith i ClickHouse. Tá dhá chúis ann:

  • Is é an chéad cheann ná nach bhfuil nascanna an-mhaith ag ClickHouse, i.e. tá ceangail ann, ach tá siad go dona. Cé go dona.
  • Is é an dara ceann nach bhfuil na táblaí nuashonraithe. De ghnáth sna plátaí seo, atá timpeall an chuaird réalta, ní mór rud éigin a athrú. Mar shampla, ainm an chustaiméara, ainm cuideachta, etc. Agus ní oibríonn sé.

Agus tá bealach amach as seo i ClickHouse. fiú dhá:

  • Is é an chéad úsáid a bhaint as foclóirí. Is é Foclóirí Seachtracha an rud a chabhraíonn le 99% an fhadhb a réiteach leis an scéimre réalta, le nuashonruithe agus mar sin de.
  • Is é an dara ceann an úsáid a bhaint as eagair. Cuidíonn eagair freisin le fáil réidh le hailt agus fadhbanna le normalú.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Níl gá le páirt a ghlacadh.
  • Uasghrádaithe. Ó mhí an Mhárta 2018, tháinig deis gan doiciméid (ní bhfaighidh tú é seo sa doiciméadú) chun foclóirí a nuashonrú go páirteach, i.e. na hiontrálacha sin a d’athraigh. Go praiticiúil, tá sé cosúil le tábla.
  • I gcónaí i gcuimhne, mar sin téann sé le foclóir ag obair níos tapúla ná dá mba tábla atá ar diosca agus nach bhfuil sé fós ina bhfíric go bhfuil sé sa taisce, is dócha nach bhfuil.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Níl aon cheangal uait ach an oiread.
  • Is léiriú dlúth 1-go-go leor é seo.
  • Agus is é mo thuairim go ndéantar arrays do geeks. Is feidhmeanna lambda iad seo agus mar sin de.

Níl sé seo le haghaidh focail dearg. Is feidhmiúlacht an-chumhachtach é seo a ligeann duit go leor rudaí a dhéanamh ar bhealach an-simplí agus galánta.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Samplaí tipiciúla a chuidíonn le eagair a réiteach. Tá na samplaí seo simplí agus soiléir go leor:

  • Cuardaigh de réir clibeanna. Má tá hashtags agat ansin agus gur mhaith leat roinnt postálacha a aimsiú le hashtag.
  • Cuardaigh de réir péirí eochairluacha. Tá roinnt tréithe ann freisin a bhfuil luach acu.
  • Liostaí eochracha a stóráil a chaithfidh tú a aistriú go rud éigin eile.

Is féidir na tascanna seo go léir a réiteach gan eagair. Is féidir clibeanna a chur i líne éigin agus a roghnú le slonn rialta nó i dtábla ar leith, ach ansin caithfidh tú ceangail a dhéanamh.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus i ClickHouse, ní gá duit aon rud a dhéanamh, is leor cur síos a dhéanamh ar an tsraith teaghrán le haghaidh hashtags nó struchtúr neadaithe a dhéanamh do chórais eochairluacha.

Seans nach é struchtúr neadaithe an t-ainm is fearr. Is dhá eagar iad seo a bhfuil páirt choitianta acu san ainm agus roinnt tréithe gaolmhara.

Agus tá sé an-éasca cuardach a dhéanamh de réir clib. Bíodh feidhm agat has, a sheiceálann go bhfuil eilimint san eagar. Gach duine, d'aimsigh na hiontrálacha go léir a bhaineann lenár gcomhdháil.

Tá cuardach de réir subid beagán níos casta. Ní mór dúinn innéacs na heochrach a fháil ar dtús, agus ansin an eilimint a ghlacadh leis an innéacs seo agus seiceáil gurb é an luach seo a theastaíonn uainn. Mar sin féin, tá sé an-simplí agus dlúth.

An slonn rialta ar mhaith leat a scríobh dá gcoimeádfá é ar fad in aon líne amháin, bheadh ​​sé, ar an gcéad dul síos, clumsy. Agus, sa dara háit, d'oibrigh sé i bhfad níos faide ná dhá shraith.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Sampla eile. Tá eagar agat ina stórálann tú an ID. Agus is féidir leat iad a aistriú go hainmneacha. Feidhm arrayMap. Is feidhm tipiciúil lambda é seo. Gabhann tú nathanna lambda ann. Agus tarraingíonn sí amach luach an ainm do gach ID ón bhfoclóir.

Is féidir cuardach a dhéanamh ar an mbealach céanna. Ritear feidhm tuar a sheiceálann cad a mheaitseálann na heilimintí.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Déanann na rudaí seo an ciorcad a shimpliú go mór agus a lán fadhbanna a réiteach.

Ach is í an chéad fhadhb eile atá romhainn, agus ba mhaith liom a lua, ná ceisteanna éifeachtacha.

  • Níl pleanálaí fiosrúcháin ag ClickHouse. Cinnte nach bhfuil.
  • Mar sin féin, tá gá fós le fiosrúcháin chasta a phleanáil. Cé na cásanna?
  • Má tá naisc iolracha sa cheist, fillteann tú i bhfo-roghanna iad. Agus an t-ord ina ndéantar iad a fhorghníomhú ábhair.
  • Agus an dara ceann - má tá an t-iarratas a dháileadh. Mar gheall ar fhiosrúchán dáilte, ní dhéantar ach an fo-roghnú is faide isteach a fhorghníomhú, agus cuirtear gach rud eile ar aghaidh chuig freastalaí amháin a bhfuil nasc agat leis agus a chuir tú i gcrích ann. Mar sin, má tá fiosrúcháin scaipthe agat le go leor ceangail (join), ansin ní mór duit an t-ordú a roghnú.

Agus fiú i gcásanna níos simplí, uaireanta tá sé riachtanach freisin obair an sceidealóra a dhéanamh agus ceisteanna a athscríobh beagán.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Seo sampla. Ar an taobh clé tá ceist a thaispeánann na 5 thír is fearr. Agus tógann sé 2,5 soicind, i mo thuairim. Agus ar an taobh dheis, an cheist chéanna, ach beagán athscríobh. In ionad grúpáil de réir teaghrán, thosaigh muid ag grúpáil de réir eochair (int). Agus tá sé níos tapúla. Agus ansin cheangaileamar foclóir leis an toradh. In ionad 2,5 soicind, tógann an t-iarratas 1,5 soicind. Tá sé seo go maith.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Sampla den chineál céanna le scagairí athscríobh. Seo iarratas don Rúis. Ritheann sé ar feadh 5 soicind. Má athscríobhfaimid é sa chaoi is go gcuirfimid i gcomparáid arís ní teaghrán, ach uimhreacha le sraith éigin de na heochracha sin a bhaineann leis an Rúis, ansin beidh sé i bhfad níos tapúla.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Tá go leor cleasanna den sórt sin. Agus cuireann siad ar do chumas dlús a chur go suntasach le fiosruithe a cheapann tú atá ag rith go tapa cheana féin, nó, os a choinne sin, ag rith go mall. Is féidir iad a dhéanamh níos tapúla fós.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Uasmhéid oibre i mód dáilte.
  • Sórtáil de réir cineálacha íosta, mar a rinne mé de réir ints.
  • Má tá aon nascanna (join), foclóirí ann, is fearr iad a dhéanamh mar rogha dheireanach, nuair a bhíonn sonraí agat cheana féin ar a laghad i ngrúpaí go páirteach, ansin is lú uaireanta a ghlaofar ar an gcomhoibríocht nó ar an bhfoclóir agus beidh sé níos tapúla. .
  • Scagairí a athsholáthar.

Tá teicníochtaí eile ann, agus ní hamháin iad siúd a léirigh mé. Agus is féidir leo go léir uaireanta dlús suntasach a chur le comhlíonadh fiosrúchán.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

A ligean ar bogadh ar aghaidh go dtí an chéad sampla eile. Cuideachta X ó Stáit Aontaithe Mheiriceá. Cad atá sí ag déanamh?

Bhí tasc:

  • Idirbhearta fógraíochta a nascadh as líne.
  • Múnlaí ceangailteacha éagsúla a shamhaltú.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Cad é an cás?

Tagann cuairteoir gnáth chuig an suíomh, mar shampla, 20 uair sa mhí ó fhógraí éagsúla, nó díreach mar sin a thagann uaireanta gan aon fhógraí, toisc go cuimhin leis an suíomh seo. Breathnaíonn sé ar roinnt táirgí, cuireann sé sa chiseán iad, tógann sé amach as an gciseán iad. Agus, sa deireadh, ceannaíonn rud éigin.

Ceisteanna réasúnta: "Cé ba cheart íoc as fógraíocht, más gá?" agus “Cén fógraíocht a chuaigh i bhfeidhm air, más ann di?”. Is é sin, cén fáth a cheannaigh sé agus conas a fháil ar dhaoine mar an duine seo a cheannach freisin?

D'fhonn an fhadhb seo a réiteach, ní mór duit na himeachtaí a tharlaíonn ar an láithreán gréasáin a nascadh ar an mbealach ceart, is é sin, nasc a thógáil eatarthu ar bhealach éigin. Ansin seoltar chuig DWH iad le haghaidh anailíse. Agus bunaithe ar an anailís seo, tóg samhlacha de cé hé agus cad iad na fógraí atá le taispeáint.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Is éard atá in idirbheart fógraíochta ná sraith imeachtaí úsáideora gaolmhara a thosaíonn ó fhógra a thaispeáint, ansin tarlaíonn rud éigin, ansin b'fhéidir ceannachán, agus ansin d'fhéadfadh go mbeadh ceannacháin laistigh de cheannachán. Mar shampla, más feidhmchlár soghluaiste nó cluiche soghluaiste é seo, de ghnáth tarlaíonn suiteáil an fheidhmchláir saor in aisce, agus má dhéantar rud éigin ann, d’fhéadfadh go mbeadh airgead ag teastáil le haghaidh seo. Agus an níos mó a chaitheann duine san iarratas, is amhlaidh is luachmhaire é. Ach le haghaidh seo ní mór duit gach rud a nascadh.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Tá go leor samhlacha ceangailteach ann.

Is iad na cinn is mó tóir:

  • Idirghníomhaíocht Dheireanach, áit a bhfuil idirghníomhú mar chliceáil nó le tuiscint.
  • An Chéad Idirghníomhaíocht, i.e. an chéad rud a thug duine chuig an suíomh.
  • Comhcheangal líneach - go léir go cothrom.
  • Caolú.
  • Agus mar sin de.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus conas a d'oibrigh sé ar fad ar an gcéad dul síos? Bhí Runtime agus Cassandra ann. Baineadh úsáid as Cassandra mar stóráil idirbheart, i.e. rinneadh gach idirbheart gaolmhar a stóráil ann. Agus nuair a thagann imeacht éigin i Runtime, mar shampla, ag taispeáint leathanach éigin nó rud éigin eile, rinneadh iarratas chuig Cassandra - an bhfuil a leithéid de dhuine ann nó nach bhfuil. Ansin fuarthas na hidirbhearta a bhaineann leis. Agus rinneadh an ceangal.

Agus má tá an t-ádh leis go bhfuil aitheantas idirbhirt ag an iarratas, ansin tá sé éasca. Ach de ghnáth ní luck. Mar sin, bhí sé riachtanach an t-idirbheart deireanach nó an t-idirbheart a aimsiú leis an cliceáil deireanach, etc.

Agus d'oibrigh sé go han-mhaith chomh fada agus a bhí an ceangailteach leis an cliceáil dheireanach. Toisc go bhfuil, abair, 10 milliún cliceáil in aghaidh an lae, 300 milliún in aghaidh na míosa, má leagaimid fuinneog ar feadh míosa. Agus ós rud é i Cassandra caithfidh sé a bheith ar fad i gcuimhne d'fhonn a reáchtáil go tapa, toisc go gcaithfidh an Runtime freagairt go tapa, thóg sé thart ar 10-15 freastalaithe.

Agus nuair a bhí siad ag iarraidh idirbheart a nascadh leis an taispeáint, d'éirigh sé amach láithreach nach raibh sé chomh spraoi. Agus cén fáth? Is féidir a fheiceáil gur gá 30 uair níos mó imeachtaí a stóráil. Agus, dá réir sin, is gá duit 30 uair níos mó freastalaithe. Agus tharla sé gur figiúr réalteolaíoch de chineál éigin é seo. Chun suas le 500 freastalaí a choinneáil chun an nascadh a dhéanamh, in ainneoin go bhfuil i bhfad níos lú freastalaithe i Runtime, ansin is figiúr mícheart de chineál éigin é seo. Agus thosaigh siad ag smaoineamh cad atá le déanamh.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus chuamar go ClickHouse. Agus conas é a dhéanamh ar ClickHouse? Ar an gcéad amharc, is cosúil gur sraith frith-patrúin é seo.

  • Fásann an t-idirbheart, déanaimid níos mó agus níos mó imeachtaí a cheangal leis, i.e. tá sé mutable, agus ní oibríonn ClickHouse go han-mhaith le rudaí mutable.
  • Nuair a thagann cuairteoir chugainn, ní mór dúinn a chuid idirbhearta a tharraingt amach le heochair, trí aitheantas a chuairte. Is ceist phointe é seo freisin, ní dhéanann siad é sin i ClickHouse. De ghnáth bíonn scananna móra ag ClickHouse, ach ní mór dúinn roinnt taifead a fháil anseo. Chomh maith leis sin antipattern.
  • Ina theannta sin, bhí an t-idirbheart i json, ach ní raibh siad ag iarraidh é a athscríobh, agus mar sin bhí siad ag iarraidh json a stóráil ar bhealach neamhstruchtúrtha, agus más gá, rud éigin a bhaint as. Agus is antipattern é seo freisin.

Is é sin, sraith frithphátrúin.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Ach mar sin féin d’éirigh sé as córas a dhéanamh a d’oibrigh go han-mhaith.

Cad a rinneadh? Chonacthas ClickHouse, inar caitheadh ​​logaí, roinnte ina dtaifid. Bhí an chuma ar sheirbhís leithdháilte a fuair logaí ó ClickHouse. Ina dhiaidh sin, le haghaidh gach iontráil, trí aitheantas cuairte, fuair mé idirbhearta a d’fhéadfadh nach mbeadh próiseáilte fós agus chomh maith le pictiúir, i.e. idirbhearta atá nasctha cheana féin, is é sin toradh na hoibre roimhe seo. Rinne mé loighic astu cheana féin, roghnaigh mé an t-idirbheart ceart, cheangail mé imeachtaí nua. Logáilte arís. Chuaigh an logáil ar ais go ClickHouse, i.e. is córas timthriallach de shíor é. Agus ina theannta sin, chuaigh mé go DWH chun anailís a dhéanamh air ansin.

Bhí sé san fhoirm seo nár oibrigh sé go han-mhaith. Agus chun é a dhéanamh níos éasca do ClickHouse, nuair a bhí iarratas trí aitheantas cuairte ann, ghrúpáil siad na hiarratais seo i mbloic de 1-000 aitheantas cuairte agus tharraing siad amach gach idirbheart do 2-000 duine. Agus ansin d'oibrigh sé ar fad.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Má fhéachann tú taobh istigh de ClickHouse, níl ach 3 phríomhthábla a fhreastalaíonn ar seo go léir.

An chéad tábla ina ndéantar na logaí a uaslódáil, agus na logaí a uaslódáil beagnach gan próiseáil.

An dara tábla. Tríd an dearcadh ábhartha, baineadh imeachtaí nach bhfuil curtha i leith go fóill, i.e. cinn neamhghaolmhara, as na logaí seo. Agus tríd an dearcadh iarbhír, tarraingíodh idirbhearta as na logaí seo chun pictiúr a thógáil. Is é sin le rá gur tógadh léargas ar leith ar an ábhar, is é sin staid charntha dheireanach an idirbhirt.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Seo é an téacs scríofa i SQL. Ba mhaith liom trácht a dhéanamh ar chúpla rud tábhachtach ann.

Is é an chéad rud tábhachtach an cumas colúin agus réimsí a tharraingt amach ó json i ClickHouse. Is é sin, tá roinnt modhanna ag ClickHouse chun oibriú le json. Tá siad an-, an-primitive.

Ceadaíonn visitParamExtractInt duit tréithe a bhaint as json, i.e. na chéad oibreacha buailte. Agus ar an mbealach seo is féidir leat aitheantas idirbhirt a tharraingt amach nó cuairt a thabhairt ar id. An am seo.

Ar an dara dul síos, úsáidtear réimse ábharach fánach anseo. Céard is brí leis? Ciallaíonn sé seo nach féidir leat é a chur isteach sa tábla, i.e. ní chuirtear isteach é, déantar é a ríomh agus a stóráil nuair a chuirtear isteach é. Nuair a dhéantar é a ghreamú, déanann ClickHouse an obair duit. Agus tá an méid a bheidh uait níos déanaí tarraingthe amach as json cheana féin.

Sa chás seo, is éard atá i gceist le radharc ábhartha ná sraitheanna amh. Agus tá an chéad tábla le logs go praiticiúil amh ach a úsáid. Agus cad a dhéanann sé? Ar an gcéad dul síos, athraíonn sé an sórtáil, i.e. téann an sórtáil anois trí aitheantas cuairte, mar ní mór dúinn a idirbheart a tharraingt amach go tapa do dhuine ar leith.

Is é an dara rud tábhachtach index_granularity. Má tá MergeTree feicthe agat, is gnách é 8 de réir réamhshocraithe index_granularity. An rud atá ann? Is é seo an paraiméadar innéacs ganntanas. I ClickHouse tá an t-innéacs gann, ní dhéanann sé innéacsú ar gach iontráil. Déanann sé é seo gach 192. Agus tá sé seo go maith nuair is gá go leor sonraí a ríomh, ach go dona nuair a bhíonn beagán, toisc go bhfuil forchostas mór. Agus má laghdaítear an gráinneacht innéacs, ansin laghdóimid an forchostas. Ní féidir é a laghdú go dtí ceann amháin, mar b'fhéidir nach bhfuil go leor cuimhne ann. Stóráiltear an t-innéacs i gcuimhne i gcónaí.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Úsáideann Snapshot roinnt gnéithe eile suimiúla ClickHouse freisin.

Gcéad dul síos, tá sé AggregatingMergeTree. Agus stórálann AggregatingMergeTree argMax, i.e. is é seo staid an idirbhirt a fhreagraíonn don stampa ama deiridh. Gintear idirbhearta an t-am ar fad do chuairteoir ar leith. Agus sa staid dheireanach den idirbheart seo, chuireamar imeacht leis agus tá stát nua againn. Bhuail sé ClickHouse arís. Agus trí argMax sa dearcadh ábhartha seo, is féidir linn an staid reatha a fháil i gcónaí.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Tá an ceangal "díchúpláilte" ón Runtime.
  • Stóráiltear agus próiseáiltear suas le 3 billiún idirbheart in aghaidh na míosa. Is ord méide é seo ná mar a bhí i gCassandra, i.e. i ngnáthchóras idirbheartaíochta.
  • Braisle de fhreastalaithe ClickHouse 2x5. 5 fhreastalaí agus tá macasamhail ag gach freastalaí. Tá sé seo fiú níos lú ná mar a bhí sé i Cassandra chun sannadh cliceáil-bhunaithe a dhéanamh, agus anseo tá tuiscint bunaithe againn. Is é sin, in ionad líon na bhfreastalaithe a mhéadú faoi 30 uair, d'éirigh leo iad a laghdú.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus is é an sampla deireanach airgeadais cuideachta Y, a rinne anailís ar na comhghaolta na n-athruithe i bpraghsanna stoc.

Agus bhí an tasc:

  • Tá thart ar 5 scaireanna ann.
  • Sleachta gach 100 milleasoicind ar eolas.
  • Tá na sonraí carntha thar 10 mbliana. Réir dealraimh, do roinnt cuideachtaí níos mó, do roinnt níos lú.
  • Tá thart ar 100 billiún sraitheanna san iomlán.

Agus bhí sé riachtanach comhghaol na n-athruithe a ríomh.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Seo dhá stoc agus a gcuid Sleachta. Má ardaíonn duine amháin agus má théann an ceann eile suas, is comhghaol dearfach é seo, i.e. téann duine suas agus téann an ceann eile suas. Má théann ceann amháin suas, mar atá ag deireadh an ghraif, agus má théann an ceann eile síos, is comhghaol diúltach é seo, i.e. nuair a ardaíonn duine, titeann an ceann eile.

Agus anailís á déanamh ar na hathruithe frithpháirteacha seo, is féidir tuar a dhéanamh ar an margadh airgeadais.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Ach tá an tasc deacair. Cad atá á dhéanamh chuige seo? Tá 100 billiún taifead againn a bhfuil: am, stoc, agus praghas. Ní mór dúinn an chéad 100 billiún uair an difríocht reatha ón algartam praghais a ríomh. Is feidhm é RunningDifference i ClickHouse a ríomhann go seicheamhach an difríocht idir dhá theaghrán.

Agus ina dhiaidh sin, ní mór duit an comhghaol a ríomh, agus ní mór an comhghaol a ríomh do gach péire. I gcás 5 scaireanna, tá péirí 000 milliún. Agus tá sé seo go leor, i.e. 12,5 uair is gá feidhm chomhghaolmhaireachta den sórt sin a ríomh.

Agus má rinne duine dearmad, is seiceálaí é ͞x agus ͞y. ionchas samplála. Is é sin, tá sé riachtanach ní hamháin na fréamhacha agus na suimeanna a ríomh, ach freisin suim amháin eile taobh istigh de na suimeanna seo. Is gá bunch ríomhaireachtaí a dhéanamh 12,5 milliún uair, agus fiú iad a ghrúpáil de réir uaireanta. Bíonn go leor uaireanta againn freisin. Agus caithfidh tú é a dhéanamh i 60 soicind. Is magadh é.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Bhí sé riachtanach am a bheith agat ar bhealach éigin ar a laghad, mar d'oibrigh sé seo go léir go han-mhall sular tháinig ClickHouse.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Rinne siad iarracht é a ríomh ar Hadoop, ar Spark, ar Greenplum. Agus bhí sé seo go léir an-mhall nó costasach. Is é sin, bhí sé indéanta a ríomh ar bhealach, ach ansin bhí sé costasach.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus ansin tháinig ClickHouse agus d'éirigh rudaí i bhfad níos fearr.

Meabhraím duit go bhfuil fadhb againn le ceantar sonraí, mar ní féidir comhghaolta a logánú. Ní féidir linn cuid de na sonraí a chur ar fhreastalaí amháin, roinnt ar fhreastalaí eile agus a ríomh, ní mór dúinn na sonraí go léir a bheith againn i ngach áit.

Cad a rinne siad? Ar dtús, tá na sonraí logánta. Stórálann gach freastalaí sonraí maidir le praghsáil sraith áirithe scaireanna. Agus ní fhorluíonn siad. Mar sin, is féidir logReturn a ríomh go comhthreomhar agus go neamhspleách, tarlaíonn sé seo go léir go dtí seo go comhthreomhar agus a dháileadh.

Ansin shocraigh muid na sonraí seo a laghdú, cé nach gcaillfí sainiúlacht. Laghdaigh ag baint úsáide as eagair, i.e. do gach tréimhse ama, déan sraith stoic agus raon praghsanna. Dá bhrí sin, tógann sé suas i bhfad níos lú spáis sonraí. Agus tá siad beagán níos éasca oibriú leo. Is oibríochtaí comhthreomhara beagnach iad seo, i.e. léimimid go páirteach go comhthreomhar agus ansin scríobhaimid chuig an bhfreastalaí.

Tar éis sin, is féidir é a mhacasamhlú. Ciallaíonn an litir "r" go ndearnamar na sonraí seo a mhacasamhlú. Is é sin, tá na sonraí céanna againn ar na trí fhreastalaí - is iad seo na eagair.

Agus ansin le script speisialta ón sraith seo de 12,5 milliún comhghaol a chaithfear a ríomh, is féidir leat pacáistí a dhéanamh. Is é sin, 2 tasc le 500 péire comhghaol. Agus tá an tasc seo le ríomh ar fhreastalaí ClickHouse ar leith. Tá na sonraí go léir aige, toisc go bhfuil na sonraí mar an gcéanna agus is féidir leis iad a ríomh go seicheamhach.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Arís eile, is é seo an chuma atá air. Ar dtús, tá na sonraí go léir againn sa struchtúr seo: am, scaireanna, praghas. Ansin rinneamar logReturn a ríomh, i.e. sonraí den struchtúr céanna, ach in ionad an phraghais tá logReturn againn cheana féin. Ansin athdhéanadh iad, ie fuaireamar an t-am agus an grúpaArray le haghaidh stoic agus praghsanna. Macasamhail. Agus ina dhiaidh sin, ghineamar a lán tascanna agus chothaigh muid iad chuig ClickHouse ionas go n-áireofaí iad. Agus oibríonn sé.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Ar chruthúnas ar choincheap, bhí an tasc ina fhothasc, i.e., tógadh níos lú sonraí. Agus gan ach trí freastalaithe.

Thóg an chéad dá chéim seo thart ar uair an chloig chun Log_return a ríomh agus timfhilleadh in eagair.

Agus tá thart ar 50 uair an chloig ar ríomh an chomhghaolmhaireachta. Ach ní leor 50 uair an chloig, toisc go raibh siad ag obair ar feadh seachtainí. D’éirigh go hiontach leis. Agus má chomhaireamh tú, ansin 70 uair sa soicind bhí gach rud a chomhaireamh ar an bhraisle.

Ach is é an rud is tábhachtaí ná go bhfuil an córas seo beagnach gan bacainní, i.e., scálaí sé beagnach líneach. Agus sheiceáil siad amach é. D'éirigh leis an scála a bhaint amach.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

  • Tá leath an ratha ar an scéim cheart. Agus is é an scéim cheart úsáid a bhaint as na teicneolaíochtaí ClickHouse go léir is gá.
  • Is teicneolaíochtaí iad Summing/ComhiomlánúMergeTrees a ligeann duit pictiúr stáit a chomhiomlánú nó a mheas mar chás speisialta. Agus déanann sé a lán rudaí a shimpliú go mór.
  • Ligeann Radhairc Ábhartha duit an teorainn innéacs amháin a sheachbhóthar. B'fhéidir nár dúirt mé go soiléir é, ach nuair a rinneamar na logaí a luchtú, bhí na logaí amh sa tábla le hinnéacs amháin, agus bhí na logaí tréithe sa tábla, i.e. na sonraí céanna, scagtha amháin, ach bhí an t-innéacs go hiomlán daoine eile. Dealraíonn sé a bheith ar na sonraí céanna, ach sórtáil difriúil. Agus ligeann Radhairc Ábhartha duit, más gá duit é, teorainn ClickHouse den sórt sin a sheachaint.
  • Laghdaigh gráinneacht innéacs le haghaidh fiosruithe pointe.
  • Agus na sonraí a dháileadh go cliste, déan iarracht na sonraí a logánú laistigh den fhreastalaí oiread agus is féidir. Agus déan iarracht a chinntiú go mbaineann iarratais úsáid as logánú chomh maith agus is féidir nuair is féidir.

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

Agus an óráid ghairid seo á hachoimriú againn, is féidir linn a rá go bhfuil ClickHouse i bhfeidhm go daingean anois ar chríoch bunachair shonraí tráchtála agus bunachair shonraí foinse oscailte, ie, go sonrach le haghaidh anailísíochta. Luíonn sé go foirfe leis an tírdhreach seo. Agus cad atá níos mó, tosaíonn sé go mall ag sluaisteáil daoine eile, mar nuair a bhíonn ClickHouse agat, ní gá duit InfiniDB. Seans nach mbeidh gá le Vertika go luath má dhéanann siad gnáth-thacaíocht SQL. Bain taitneamh as!

Teoiric agus cleachtas ClickHouse a úsáid i bhfeidhmchláir fhíora. Alexander Zaitsev (2018)

-Go raibh maith agat as an tuairisc! An-súimiúil! An raibh aon chomparáidí ann le Apache Phoenix?

Ní hea, níor chuala mé aon duine i gcomparáid. Déanaimid iarracht agus Yandex súil a choinneáil ar gach comparáid ClickHouse le bunachair shonraí éagsúla. Mar má tharlaíonn sé go tobann go bhfuil rud éigin níos tapúla ná ClickHouse, ní féidir le Lesha Milovidov codladh na hoíche agus tosaíonn sé ag luasghéarú go tapa. Níor chuala mé trácht ar a leithéid de chomparáid.

  • (Aleksey Milovidov) Is inneall SQL é Apache Phoenix atá faoi thiomáint ag Hbase. Baineann Hbase go príomha le cásanna oibre bunluacha. Is féidir, i ngach líne, go mbeadh líon treallach colún le hainmneacha treallach. Is féidir é seo a rá faoi chórais mar Hbase, Cassandra. Agus is ceisteanna anailíse troma go beacht iad nach n-oibreoidh siad de ghnáth. Nó b'fhéidir go gceapfá go n-oibríonn siad go maith mura bhfuil aon taithí agat le ClickHouse.

  • Go raibh maith agat

    • Tráthnóna maith Tá suim mhór agam san ábhar seo cheana féin, toisc go bhfuil fochóras anailíse agam. Ach nuair a fhéachaim ar ClickHouse, mothaím go bhfuil ClickHouse an-oiriúnach le haghaidh anailíse imeachtaí, mutable. Agus más gá dom go leor sonraí gnó a anailísiú le bunch táblaí móra, ansin níl ClickHouse, chomh fada agus a thuigim, an-oiriúnach domsa? Go háirithe má athraíonn siad. An bhfuil sé seo ceart nó an bhfuil samplaí ann a d'fhéadfadh é seo a bhréagnú?

    • Tá sé seo ceart. Agus tá sé seo fíor i gcás an chuid is mó bunachair shonraí anailíse speisialaithe. Tá siad in oiriúint don fhíric go bhfuil tábla mór amháin nó níos mó ann atá mutable, agus go leor táblaí beaga a athraíonn go mall. Is é sin, níl ClickHouse cosúil le Oracle, áit ar féidir leat gach rud a chur agus roinnt ceisteanna an-chasta a thógáil. D'fhonn ClickHouse a úsáid go héifeachtach, ní mór duit scéim a thógáil ar bhealach a oibríonn go maith i ClickHouse. Is é sin, seachain an iomarca normalú, bain úsáid as foclóirí, déan iarracht níos lú naisc fhada a dhéanamh. Agus má thógtar an scéim ar an mbealach seo, is féidir tascanna gnó den chineál céanna a réiteach ar ClickHouse i bhfad níos éifeachtaí ná ar bhunachar sonraí coibhneasta traidisiúnta.

Go raibh maith agat as an tuairisc! Tá ceist agam faoin gcás airgeadais is déanaí. Bhí anailísíocht acu. Bhí sé riachtanach comparáid a dhéanamh idir conas a théann siad suas agus síos. Agus tuigim gur thóg tú an córas go sonrach don anailísíocht seo? Más amárach, mar shampla, go dteastaíonn tuairisc éigin eile uathu ar na sonraí seo, an gá dóibh an scéim a ath-thógáil agus na sonraí a uaslódáil? Is é sin, réamhphróiseáil de chineál éigin a dhéanamh chun an t-iarratas a fháil?

Ar ndóigh, is é seo úsáid ClickHouse le haghaidh tasc an-sonrach. D’fhéadfaí é a réiteach go traidisiúnta laistigh de Hadoop. Do Hadoop, is tasc iontach é seo. Ach ar Hadoop tá sé an-mhall. Agus is é an sprioc atá agam ná a léiriú gur féidir le ClickHouse tascanna a réiteach a réitítear de ghnáth ar bhealaí go hiomlán difriúil, ach é a dhéanamh i bhfad níos éifeachtaí ag an am céanna. Tá sé seo in oiriúint do thasc ar leith. Tá sé soiléir má tá fadhb le rud éigin den chineál céanna, ansin is féidir é a réiteach ar bhealach comhchosúil.

Tá sé soiléir. Dúirt tú go ndearnadh 50 uair a phróiseáil. An é ón tús, cathain a rinne tú na sonraí a luchtú nó na torthaí a fháil?

Sea Sea.

OK go raibh maith agat go mór.

Tá sé seo ar bhraisle 3 fhreastalaí.

Beannachtaí! Go raibh maith agat as an tuairisc! Tá gach rud an-suimiúil. Ní iarrfaidh mé beagán faoin fheidhmiúlacht, ach faoi úsáid ClickHouse i dtéarmaí cobhsaíochta. Is é sin, an raibh aon cheann agat, an raibh ort a chur ar ais? Conas a iompar ClickHouse sa chás seo? Agus ar tharla sé go raibh macasamhail agat freisin? Mar shampla, thángamar ar fhadhb le ClickHouse nuair a éiríonn sé fós as a theorainn agus nuair a thiteann sé.

Ar ndóigh, níl aon chórais idéalach ann. Agus tá a chuid fadhbanna féin ag ClickHouse freisin. Ach ar chuala tú faoi Yandex.Metrica nach bhfuil ag obair le fada? Is dócha nach bhfuil. Tá sé ag obair go hiontaofa ó 2012-2013 ar ClickHouse. Is féidir liom an rud céanna a rá faoi mo thaithí. Ní raibh teipeanna iomlána againn riamh. D’fhéadfadh roinnt rudaí páirteacha tarlú, ach ní raibh siad ríthábhachtach go leor chun dul i bhfeidhm go mór ar an ngnó. Níor tharla sé riamh. Tá ClickHouse iontaofa go leor agus ní timpiste randamach. Ní gá duit a bheith buartha faoi. Ní rud amh é. Tá sé seo cruthaithe ag go leor cuideachtaí.

Dia dhuit! Dúirt tú go gcaithfidh tú smaoineamh ar an scéimre sonraí láithreach. Cad a tharlaíonn má tharla sé? Tá mo chuid sonraí ag stealladh agus ag stealladh. Sé mhí anuas, agus tuigim go bhfuil sé dodhéanta maireachtáil mar seo, is gá dom na sonraí a ath-uaslódáil agus rud éigin a dhéanamh leo.

Braitheann sé seo ar ndóigh ar do chóras. Tá roinnt bealaí chun é seo a dhéanamh gan stad beagnach. Mar shampla, is féidir leat Amharc Ábhartha a chruthú ina bhféadfar struchtúr sonraí difriúil a dhéanamh más féidir é a mhapáil go haonarach. Is é sin, má cheadaíonn sé mapáil ag baint úsáide as ClickHouse, i.e. roinnt rudaí a bhaint astu, an eochair phríomha a athrú, an deighilt a athrú, ansin is féidir leat Amharc Ábhartha a dhéanamh. Scríobh do sheanshonraí ansin, scríobhfar cinn nua go huathoibríoch. Agus ansin aistrigh go dtí úsáid a bhaint as an Amharc Ábhartha, ansin aistrigh an taifead agus maraigh an sean tábla. Is modh gan stad é seo go ginearálta.

Go raibh maith agat.

Foinse: will.com

Add a comment