🥇Kasutame PostgreSQL indekste maksimaalselt

Postgreses on indeksid äärmiselt olulised andmebaasi salvestamise (tuntud ka kui 'heap') efektiivsel navigeerimisel. Postgres ei toeta sellele klasterdamist ning MVCC arhitektuur toob kaasa selle, et teil koguneb sama tupikute versioone. Seetõttu on väga oluline osata luua ja hallata efektiivseid indexeid rakenduste toetamiseks.

Esitan teile mõned näpunäited indeksite optimeerimiseks ja tõhusamaks kasutamiseks.

Märkus: allpool toodud päringud töötavad muutmata pagila andmebaasi näidisel.

Katvuse indeksite kasutamine (Covering Indexes)

Vaadakem päringut, et saada kätte mitteaktiivsete kasutajate e-posti aadressid. Tabelis customer on veerg active, ja päring on lihtne:

pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
                        QUERY PLAN
-----------------------------------------------------------
 Seq Scan on customer  (cost=0.00..16.49 rows=15 width=32)
   Filter: (active = 0)
(2 rows)

Päring nõuab tabeli täielikku järjestikust skaneerimist customer. Loome indeksi veeru jaoks active:

pagila=# CREATE INDEX idx_cust1 ON customer(active);
CREATE INDEX
pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
                                 QUERY PLAN
-----------------------------------------------------------------------------
 Index Scan using idx_cust1 on customer  (cost=0.28..12.29 rows=15 width=32)
   Index Cond: (active = 0)
(2 rows)

Aitas, edasine skaneerimine muutus «indeksi skaneerimiseks«. See tähendab, et Postgres skaneerib indeksi «idx_cust1«, ja seejärel jätkab tabeli hunnikus otsimist, et lugeda teiste veergude väärtusi (antud juhul veeru email), mis on päringuks vajalik.

PostgreSQL 11-s lisandus katvad indeksid. Need võimaldavad indeksi enda sisse lisada ühe või mitu täiendavat veergu — nende väärtused salvestatakse indeksi andmete hoidlas.

Kui me kasutaksime seda võimalust ja lisaksime indeksi sisse e-posti väärtuse, siis Postgresel ei oleks vaja otsida tabeli hunnikust väärtust email. Vaatame, kas see töötab:

pagila=# CREATE INDEX idx_cust2 ON customer(active) INCLUDE (email);
CREATE INDEX
pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
                                    QUERY PLAN
----------------------------------------------------------------------------------
 Index Only Scan using idx_cust2 on customer  (cost=0.28..12.29 rows=15 width=32)
   Index Cond: (active = 0)
(2 rows)

«Index Only Scan» ütleb meile, et päringu jaoks on nüüd piisav vaid üks indeks, mis aitab vältida kõiki ketta sisend-väljund operatsioone tabeli rikka lugemiseks.

Täna on katvad indeksid saadaval ainult B-puude jaoks. Kuid sel juhul on hoolduskohustused suuremad.

Osaliste indeksite kasutamine

Osalised indeksid indekseerivad vaid tabeli rida alamhulga. See aitab indeksite suurust säästa ja skaneerimist kiiremini teostada.

Oletame, et peame saama nimekirja meie Kaliforniast pärit klientide e-posti aadressidest. Päring oleks järgmine:

SELECT c.email FROM customer c
JOIN address a ON c.address_id = a.address_id
WHERE a.district = 'California';
mis sisaldab päringukava, mis hõlmab mõlema ühendatud tabeli skaneerimist:
pagila=# EXPLAIN SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
                              QUERY PLAN
----------------------------------------------------------------------
 Hash Join  (cost=15.65..32.22 rows=9 width=32)
   Hash Cond: (c.address_id = a.address_id)
   ->  Seq Scan on customer c  (cost=0.00..14.99 rows=599 width=34)
   ->  Hash  (cost=15.54..15.54 rows=9 width=4)
         ->  Seq Scan on address a  (cost=0.00..15.54 rows=9 width=4)
               Filter: (district = 'California'::text)
(6 rows)

Mida pakuvad meile tavain eksid:

pagila=# LOOMI INDIREKT idx_address1 ON address(district);
LOOMI INDIREKT
pagila=# EXPLAIN SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
                                      KÜSIMUSE PLANEERIMINE
---------------------------------------------------------------------------------------
 Hash Joint  (kulus=12.98..29.55 read=9 laiuse=32)
   Hash Cond: (c.address_id = a.address_id)
   ->  Seq Scan on customer c  (kulus=0.00..14.99 read=599 laiuse=34)
   ->  Hash  (kulus=12.87..12.87 read=9 laiuse=4)
         ->  Bitmap Heap Scan on address a  (kulus=4.34..12.87 read=9 laiuse=4)
               Uuesti Kontrolli Tingimus: (district = 'California'::text)
               ->  Bitmap Indeksi Skaneerimine on idx_address1  (kulus=0.00..4.34 read=9 laiuse=0)
                     Indeksi Tingimus: (district = 'California'::text)
(8 read)

Skaneerimine address oli asendatud indeksi skaneerimisega idx_address1, ja seejärel skaneeriti hunnik address.

Kuna see on sagedane päring ja seda tuleb optimeerida, saame kasutada osalist indeksit, mis indekseerib vaid need read aadresside kohta, kus piirkond ‘California’:

pagila=# LOOME INDEX idx_address2 ON address(address_id) WHERE district='California';
LOOME INDEX
pagila=# SELGITA SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
                                           KÜSIMUSE PLANEERIMINE
------------------------------------------------------------------------------------------------
 Hash Join  (maksumus=12.38..28.96 read=9 laius=32)
   Hash Cond: (c.address_id = a.address_id)
   ->  Seq Scan on customer c  (maksumus=0.00..14.99 read=599 laius=34)
   ->  Hash  (maksumus=12.27..12.27 read=9 laius=4)
         ->  Index Only Scan using idx_address2 on address a  (maksumus=0.14..12.27 read=9 laius=4)
(5 read)

Nüüd küsib päring ainult idx_address2 ja ei puutu tabelisse address.

Mitme väärtuse indeksite kasutamine (Multi-Value Indexes)

Mõned veerud, mida tuleb indekseerida, ei pruugi sisaldada skalaarset andmetüüpi. Tüübid nagu jsonb, massivid ja tsvector võivad sisaldada komposiit- või mitme väärtusega. Kui peate selliseid veerge indekseerima, tuleb tavaliselt otsida kõigi individuaalsete väärtuste kaudu nendes veergudes.

Proovime leida kõigi filmide pealkirju, mis sisaldavad ebaõnnestunud dubleerimisse lõike. Tabelis film on tekstiline veerg, mida nimetatakse special_features. Kui filmil on see "eriline omadus", siis veerus on elementi teksti massiivi kujul Behind The Scenes. Kõikide nende filmide leidmiseks peame valima kõik read, kus on «Behind The Scenes» igaühega massivi värdja special_features:

SELECT title FROM film WHERE special_features @> '{"Behind The Scenes"}';

Süntaks Operator @> kontrollib, kas parempoolne külg on vasakpoolse külje alamkogum.

Küsimuste plaan:

pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
                           QUERY PLAN
-----------------------------------------------------------------
 Seq Scan on film  (cost=0.00..67.50 rows=5 width=15)
   Filter: (special_features @> '{"Behind The Scenes"}'::text[])
(2 rows)

Mis kutsub täielikku partii skaneerimist, mille maksumus on 67.

Vaadake, kas tavapärane B-puu indeks aitab meid:

pagila=# CREATE INDEX idx_film1 ON film(special_features);
CREATE INDEX
pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
                           QUERY PLAN
-----------------------------------------------------------------
 Seq Scan on film  (cost=0.00..67.50 rows=5 width=15)
   Filter: (special_features @> '{"Behind The Scenes"}'::text[])
(2 rows)

Indeksit ei arvestatud. B-puu indeks ei tea, et indeksit sisaldavad väärtused sisaldavad loetletud elemente.

Me vajame GIN-indeksi.

pagila=# CREATE INDEX idx_film2 ON film USING GIN(special_features);
CREATE INDEX
pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
                                QUERY PLAN
---------------------------------------------------------------------------
 Bitmap Heap Scan on film  (cost=8.04..23.58 rows=5 width=15)
   Recheck Cond: (special_features @> '{"Behind The Scenes"}'::text[])
   ->  Bitmap Index Scan on idx_film2  (cost=0.00..8.04 rows=5 width=0)
         Index Cond: (special_features @> '{"Behind The Scenes"}'::text[])
(4 rows)

GIN-indeks toetab eriväärtuste võrdlemist indekseeritud komposiitväärtustega, mis vähendab päringu plaani maksumust rohkem kui poole võrra.

Vabaneme indeksite dubleerimisest

Indeksid kogunevad aja jooksul ja mõnikord võib uus indeks sisaldada sama määratlust kui üks varasematest. Inimesele arusaadavate SQL-i indeksimääratluste saamiseks saab kasutada kataloogivaadet pg_indexes. Samuti leiate kergesti sama määratluse:

 VALIGE array_agg(indexname) AS indeksid, asenda(indexdef, indexname, '') AS defn
    FROM pg_indexes
GROUP BY defn
  HAVING count(*) > 1;
Ja siin on tulemus, kui käitada stock pagila andmebaasis:
pagila=#   VALIGE array_agg(indexname) AS indeksid, asenda(indexdef, indexname, '') AS defn
pagila-#     FROM pg_indexes
pagila-# GROUP BY defn
pagila-#   HAVING count(*) > 1;
                                indeksid                                 |                                defn
------------------------------------------------------------------------+------------------------------------------------------------------
 {payment_p2017_01_customer_id_idx,idx_fk_payment_p2017_01_customer_id} | LOO INDEX  PUBLIC.payment_p2017_01 KASUTADES btree (customer_id
 {payment_p2017_02_customer_id_idx,idx_fk_payment_p2017_02_customer_id} | LOO INDEX  PUBLIC.payment_p2017_02 KASUTADES btree (customer_id
 {payment_p2017_03_customer_id_idx,idx_fk_payment_p2017_03_customer_id} | LOO INDEX  PUBLIC.payment_p2017_03 KASUTADES btree (customer_id
 {idx_fk_payment_p2017_04_customer_id,payment_p2017_04_customer_id_idx} | LOO INDEX  PUBLIC.payment_p2017_04 KASUTADES btree (customer_id
 {payment_p2017_05_customer_id_idx,idx_fk_payment_p2017_05_customer_id} | LOO INDEX  PUBLIC.payment_p2017_05 KASUTADES btree (customer_id
 {idx_fk_payment_p2017_06_customer_id,payment_p2017_06_customer_id_idx} | LOO INDEX  PUBLIC.payment_p2017_06 KASUTADES btree (customer_id
(6 rida)

Üleminekuindeksid (Superset Indexes)

Võib juhtuda, et teil on palju indekse, millest üks indekseerib veergude ülemkogumi, mis indekseerivad teisi indekseid. See võib olla soovitav või mitte – ülemkogum võib viia indekseid kasutades skaneerimiseni, mis on hea, kuid samas võib see võtta liiga palju ruumi, või päringud, mille optimeerimiseks see ülemkogum mõeldud oli, ei pruugi olla enam kasutusel.

Kui peate automateerima selliste indekste määramise, siis võite alustada pg_index tabelist pg_catalog.

Kasutamata indeksid

Kuna rakendused, mis kasutavad andmebaase, arenevad, arenevad ka nende päringud. Varem lisatud indeksid võivad enam mitte ühtegi päringut puudutada. Iga indeksi skaneerimise ajal märgib statistikahaldaja selle ning süsteemikatalooge pg_stat_user_indexes võib vaadata väärtust idx_scan, mis on kumulatiivne loendur. Selle väärtuse jälgimine mingi ajavahemiku jooksul (ütleme kuu) annab hea ülevaate, millised indeksid ei ole kasutuses ja võivad eemaldada.

Siin on päring, et saada kõigi skeemi indeksite skaneerimise praeguseid loendureid 'public':

SELECT relname, indexrelname, idx_scan
FROM   pg_catalog.pg_stat_user_indexes
WHERE  schemaname = 'public';
väljastatud niimoodi:
pagila=# SELECT relname, indexrelname, idx_scan
pagila-# FROM   pg_catalog.pg_stat_user_indexes
pagila-# WHERE  schemaname = 'public'
pagila-# LIMIT  10;
    relname    |    indexrelname    | idx_scan
---------------+--------------------+----------
 customer      | customer_pkey      |    32093
 actor         | actor_pkey         |     5462
 address       | address_pkey       |      660
 category      | category_pkey      |     1000
 city          | city_pkey          |      609
 country       | country_pkey       |      604
 film_actor    | film_actor_pkey    |        0
 film_category | film_category_pkey |        0
 film          | film_pkey          |    11043
 inventory     | inventory_pkey     |    16048
(10 rida)

Indeksite uuesti loomine väiksema lukustuste arvuga

Tihti tuleb indekseid uuesti luua, näiteks siis, kui need suurenevad ja uuesti loomine võib kiirendada skaneerimist. Samuti võivad indeksid kahjustuda. Indeksi parameetrite muutmine võib samuti nõuda selle uuesti loomist.

Lülitame sisse indeksite paralleelse loomise

PostgreSQL 11-s saab B-Tree indeksi loomine toimuda konkurentsivõimeliselt. Protsessi kiirendamiseks võib kasutada mitmeid samaaegselt töötavaid töötlusi. Siiski veenduge, et need konfiguratsiooniparametrid on õigesti seadistatud:

SET max_parallel_workers = 32;
SET max_parallel_maintenance_workers = 16;

Vaikimisi väärtused on liiga madalad. Ideaalis tuleks neid arvu kärpimisega suurendada koos protsessorite arvu kasvuga. Lisainfot leiate dokumentatsioonis.

Taustal indekseerimise loomine

Saate luua indeksi taustal, kasutades parameetrit CONCURRENTLY käsklused CREATE INDEX:

pagila=# CREATE INDEX CONCURRENTLY idx_address1 ON address(district);
CREATE INDEX

See indeksi loomise protseduur erineb tavalisest, kuna see ei nõua tabeli lukustamist, mis tähendab, et see ei blokeeri kirjutamisoperatsioone. Teisest küljest kestab see kauem ja tarbib rohkem ressursse.

Postgres pakub palju paindlikke võimalusi indeksite loomiseks ja konkreetsete juhtumite lahendamiseks ning samuti viise andmebaasi haldamiseks juhul, kui teie rakenduse kasv on järsk. Loodame, et need näpunäited aitavad teil suurendada päringute kiirus ja muuta andmebaasi skaleerimise valmidus.

Allikas: habr.com