🥇Zëvendësimi i EAV me JSONB në PostgreSQL

TL; DR: JSONB mund të thjeshtojë ndjeshëm zhvillimin e skemës së DB pa e sakrifikuar performancën në pyetje.

Hyrje

Le të kontribuojmë një shembull klasik, ndoshta një nga përdorimet më të vjetra në botën e DB-ve relacional (database): kemi një entitet dhe duhet të ruajmë disa veti (atribute) të këtij entiteti. Por jo të gjitha instancat mund të kenë të njëjtin set vetish, dhe gjithashtu në të ardhmen, mund të ketë shtim të vetive të tjera.

Mënyra më e thjeshtë për të zgjidhur këtë problem është të krijoni një kolonë në tabelën e DB-së për çdo vlerë të vetisë, dhe thjesht të plotësoni ato që nevojiten për një instancë të caktuar të entitetit. Super! Problemi është zgjidhur… deri në momentin kur tabela juaj përmban miliona regjistrime dhe ju nevojitet të shtoni një regjistrim të ri.

Le të shqyrtojmë modelin EAV (Entity-Attribute-Value), ai takon shpesh. Një tavolinë përmban entitete (shënime), një tavolinë tjetër përmban emrat e vetive (atributeve), dhe tavolina e tretë lidh entitetet me atributet e tyre dhe mban vlerën e këtyre atributeve për entitetin aktual. Kjo ju ofron mundësinë për të pasur grupe të ndryshme vetish për objekte të ndryshme, si dhe për të shtuar vetitë “në flakë”, pa ndryshuar strukturat e DB-së.

Megjithatë, nuk do të shkruaja këtë shënim nëse nuk do të ishin disa mangësi në qasjen që përdor EVA. Për shembull, për të marrë një ose më shumë entitete që kanë nga 1 atribut kërkohen 2 bashkime në kërkesë: e para – bashkimi me tavolinën e atributeve, e dyta – bashkimi me tavolinën e vlerave. Nëse entitetet kanë 2 atribute, atëherë nevojiten tashmë 4 bashkime! Për më tepër, të gjitha atributet zakonisht ruhen si vargje, çka rezulton në konvertimin e tipeve për si për rezultatin ashtu edhe për kushtin WHERE. Nëse shkruani shumë kërkesa, kjo është mjaft Shpenzuese, sa i përket përdorimit të burimeve.

Megjithatë, pavarësisht këtyre mangësive të dukshme, EAV ka qenë prej kohësh në përdorim për zgjidhjen e këtij lloji problemi. Këto ishin mangësi të pashmangshme, dhe nuk kishte një alternativë më të mirë.
Por pastaj në PostgreSQL u shfaq një 'teknologji' e re…

Që nga PostgreSQL 9.4, u shtua një tip të dhënash JSONB për të ruajtur të dhënat njëshe në formatin JSON. Ndërsa ruajtja e JSON në këtë format zakonisht kërkon pak më shumë hapësirë dhe kohë se sa JSON-i i thjeshtë tekstor, operacionet me të ndodhin shumë më shpejt. Po ashtu, JSONB mbështet indeksimin, gjë që i bën kërkesat ndaj tij edhe më të shpejta.

Tipi i të dhënave JSONB na lejon të zëvendësojmë modelin e rëndë EAV duke shtuar vetëm një kolonë JSONB në tabelën tonë të entiteteve, çka e thjeshton ndjeshëm projektimin e bazës së të dhënave. Por shumë njerëz pretendojnë se kjo duhet të shoqërohet me një rënie të performancës… Për këtë arsye shkruhet ky artikull.

Konfigurimi i bazës së të dhënave për testim

Për këtë krahasim, kam krijuar një bazë të dhënash në një instalim të ri të PostgreSQL 9.5 në një konfigurim prej 80 dollarësh. DigitalOcean Ubuntu 14.04. Pasi kam vendosur disa parametra në postgresql.conf, kam nisur këtë skripti me psql. Për të paraqitur të dhënat në formatin EAV, u krijuan tabelat e mëposhtme:

KRIJO TABELË enti (
  id           SERIAL KRYESORE, 
  emri         TEKST, 
  përshkrimi   TEKST
);
KRIJO TABELË entity_attribute (
  id          SERIAL KRYESORE, 
  emri        TEKST
);
KRIJO TABELË entity_attribute_value (
  id                  SERIAL KRYESORE, 
  entity_id           INT    REFERENCAT entity(id), 
  entity_attribute_id INT    REFERENCAT entity_attribute(id), 
  vlera               TEKST
);

Më poshtë është tabela ku do të ruhen të njëjtat të dhëna, por me atribute në kolonën e tipit JSONB – propertietet.

KRIJO TABELË entity_jsonb (
  id          SERIAL KRYESORE, 
  emri        TEKST, 
  përshkrimi TEKST,
  propertietet  JSONB
);

Duket shumë më e thjeshtë, apo jo? Më pas u shtuan në tabelat e entiteteve (enti & entity_jsonb) 10 milijon regjistrime, dhe si përfundim, u plotësuan të dhënat e njëjta tabelave që përdorin modelin EAV dhe qasjen me kolonën JSONB – entity_jsonb.propertietet. Kështu, morëm disa lloje të ndryshme të të dhënave në tërë grupin e pronave. Shembuj të dhënash:

{
  id:          1
  emri:        "Entity1"
  përshkrimi: "Entitet testi nr. 1"
  propertietet:  {
    ngjyra:        "e kuqe"
    gjatësia:       120
    gjerësi:        3.1882420
    kaçkavall: true
    vendi:      "Belgjika"
  } 
}

Pra, tani kemi të dhëna të njëjta për dy variante. Le të fillojmë të krahasojmë realizimet në punë!

Thjeshtimi i dizajnit

Kemi thënë më parë se dizajni i DB është simplifikuar ndjeshëm: një tabelë, përmes përdorimit të kolonës JSONB për vetitë, në vend të përdorimit të tre tabelave për EAV. Por si reflektohet kjo në pyetje?

-- EAV
UPDATE entity_attribute_value 
SET value = 'blue' 
WHERE entity_attribute_id = 1 
  AND entity_id = 120;

-- JSONB
UPDATE entity_jsonb 
SET properties = jsonb_set(properties, '{"color"}', '"blue"') 
WHERE id = 120;

Siç e shohim, kërkesa e fundit nuk duket më e thjeshtë. Që të përditësojmë vlerën e një vetie në objektin JSONB, ne duhet të përdorim funksionin jsonb_set(), dhe duhet të kalojmë vlerën tonë të re si një objekt JSONB. Megjithatë, nuk na nevojitet të dimë ndonjë identifikues paraprakisht. Duke parë shembullin me EAV, na nevojitet të dimë si entity_id, ashtu edhe entity_attribute_id për të kryer përditësimin. Nëse dëshiron të përditësosh një vetie në kolonën JSONB bazuar në emrin e objektit, – kjo bëhet me një rresht të thjeshtë.

Tani le të zgjedhim atë entitet që sapo e përditësuam, sipas kushtit të ngjyrës së tij të re:

-- EAV
SELECT e.name 
FROM entity e 
  INNER JOIN entity_attribute_value eav ON e.id = eav.entity_id
  INNER JOIN entity_attribute ea ON eav.entity_attribute_id = ea.id
WHERE ea.name = 'color' AND eav.value = 'blue';

-- JSONB
SELECT name 
FROM entity_jsonb 
WHERE properties ->> 'color' = 'blue';

Mendoj se se mund të pajtohemi që e dyta është më e shkurtër (pa join!), dhe për rrjedhojë më e lexueshme. Këtu fiton JSONB! Ne e përdorim operatorin JSON ->>, për të marrë ngjyrën si vlerë tekstuale nga objekti JSONB. Ekziston gjithashtu një mënyrë tjetër për të arritur të njëjtin rezultat në modelin JSONB duke përdorur operatorin @>:

-- JSONB 
SELECT name 
FROM entity_jsonb 
WHERE properties @> '{"color": "blue"}';

Kjo është pak më e komplikuar: ne kontrollojmë nëse objekti JSON në kolonën e pronave përmban objektin që ndodhet në të djathtë të operatorit @>. Më pak e lexueshme, më e prodhueshme (shih më poshtë).

Le të thjeshtojmë përdorimin e JSONB edhe më shumë, kur ju nevojitet të zgjidhni disa prona në të njëjtën kohë. Këtu është ku i përshtatet vërtet qasja JSONB: ne thjesht zgjedhim pronat si kolona shtesë në grupin tonë të rezultateve pa nevojën për bashkime:

-- JSONB 
SELECT name
  , properties ->> 'color'
  , properties ->> 'country'
FROM entity_jsonb 
WHERE id = 120;

Me EAV nevojiten 2 bashkime për çdo pronë që dëshironi të kërkoni. Sipas mendimit tim, kërkesat e lartpërmendura tregojnë një thjeshtim të madh në dizajnin e bazës së të dhënave. Shihni më shumë shembuj se si të shkruani kërkesa për JSONB, gjithashtu në këtë post.
Tani është koha për të folur rreth performancës.

Performanca

Për të krahasuar performancën, përdora EXPLAIN ANALYZE në kërkesat, për të llogaritur kohën e ekzekutimit. Çdo kërkesë u ekzekutua të paktën tre herë, sepse hera e parë planifikuesit e kërkesave kërkon më shumë kohë. E fillova duke ekzekutuar kërkesat pa ndonjë indeks. Pa dyshim, kjo i shërbente JSONB, pasi bashkimet e nevojshme për EAV nuk mund të përdorin indekset (fushat e çelësit të jashtëm nuk ishin indeksuar). Pas kësaj, krijova një indeks për 2 kolonat e çelësave të jashtëm në tabelën EAV si dhe një indeks GIN për kolonën JSONB.

Rritjet e të dhënave treguan rezultatet e mëposhtme në kohë (në ms). Kushtojini vëmendje se shkalla është logarithmike:

Zëvendësimi i EAV me JSONB në PostgreSQL

Shohim se se JSONB është shumë më i shpejtë (> 50000-x) se EAV, nëse nuk përdoren indekset, për arsye të përmendura më sipër. Kur indeksojmë kolonat me çelësa primarë, diferenca pothuajse zhduket, por JSONB është akoma 1,3 herë më i shpejtë se EAV. Vini re se indeksi në kolonën JSONB këtu nuk ka asnjë ndikim, pasi nuk e përdorim kolonën e pronave në kriteret e vlerësimit.

Për të zgjedhur të dhënat mbi bazën e një vlere të pronës, kemi rezultatet e mëposhtme (shkallë normale):

Zëvendësimi i EAV me JSONB në PostgreSQL

Vërehet se JSONB përsëri funksionon më shpejt se EAV pa indekse, por kur EAV ka indekse – akoma funksionon më shpejt se JSONB. Por më pas pashë se koha për kërkesat JSONB ishte e njëjtë, kjo më shtyu në faktin se indekset GIN nuk punonin. Duket se kur përdorni indeksin GIN për një kolonë me pronat e mbushura, ai vepron vetëm kur përdoret operatori i përfshirjes @>. E përdora këtë në një test të ri, i cili kishte një ndikim të madh në kohën: vetëm 0,153 ms! Kjo është 15000 herë më e shpejtë se EAV, dhe 25000 herë më e shpejtë se operatori ->>.

Mendoj se ishte mjaft shpejt!

Madhësia e tabelave të BD

Le të krahasojmë përmasat e tabelave në të dy qasjet. Në psql mund të tregojmë madhësinë e të gjitha tabelave dhe indekseve përmes komandës dti+

Zëvendësimi i EAV me JSONB në PostgreSQL

Për qasjen EAV, përmasat e tabelave arrijnë rreth 3068 MB, ndërsa indekset deri në 3427 MB, duke dhënë gjithsej 6,43 GB. Duke përdorur qasjen me JSONB, përdoren 1817 MB për tabelën dhe 318 MB për indekset, duke bërë gjithsej 2,08 GB. Kjo është tri herë më pak! Ky fakt më befasoi pak, sepse ne ruajmë emrat e pronave në çdo objekt JSONB.

Por numrat flasin vetë: në EAV ne ruajmë 2 çelësa të jashtëm të plotë mbi vlerën e atributit, duke rezultuar në 8 byte të dhëna shtesë. Për më tepër, në EAV të gjitha vlerat e pronave ruhen si tekst, ndërsa JSONB do të përdorë vlera numerike dhe logjike brenda, ku është e mundur, duke rezultuar në një volum më të vogël.

Përfundimet

Në përgjithësi, mendoj se ruajtja e vetive të entiteteve në formatin JSONB mund të thjeshtojë ndjeshëm dizenjimin dhe mirëmbajtjen e bazës suaj të të dhënave. Nëse bëni shumë kërkesa, atëherë gjithçka që ruhet në një tabelë me entitetin do të funksionojë vërtet më efektivisht. Dhe fakti që kjo e thjeshton ndërveprimin midis të dhënave është një përfitim, por gjithashtu baza e të dhënave rezultuese është 3 herë më e vogël në volum.

Gjithashtu, sipas testeve të kryera, mund të përfundosh se humbjet e performancës janë shumë të pakta. Në disa raste, JSONB madje funksionon më shpejt se EAV, gjë që e bën atë edhe më të mirë. Megjithatë, ky test standard natyrisht nuk kap të gjitha aspektet (për shembull, entitete me një numër shumë të madh vetish, rritje të konsiderueshme të numrit të vetive të të dhënave ekzistuese,...), ndaj, nëse keni ndonjë sugjerim se si t'i përmirësoni ato, ju lutemi mos ngurroni të lini komentet tuaja!

Burimi: habr.com