Mara kwa mara, kazi ya kutafuta data inayohusiana kwa kutumia seti ya funguo hutokea. hadi tupate jumla ya rekodi zinazohitajika.
Mfano wa "maisha halisi" zaidi ni kuonyesha Matatizo 20 ya zamani zaidi, waliotajwa kwenye orodha ya wafanyakazi (kwa mfano, ndani ya mgawanyiko mmoja). Kwa "dashibodi" mbali mbali za usimamizi zilizo na muhtasari mfupi wa maeneo ya kazi, mada kama hiyo inahitajika mara nyingi.
Katika nakala hii tutaangalia utekelezaji katika PostgreSQL wa suluhisho la "kutojua" kwa shida kama hiyo, algorithm "ya busara" na ngumu sana. "kitanzi" katika SQL na hali ya kutoka kutoka kwa data iliyopatikana, ambayo inaweza kuwa na manufaa kwa maendeleo ya jumla na kwa matumizi katika kesi nyingine zinazofanana.
Wacha tuchukue seti ya data ya jaribio kutoka
CREATE INDEX ON task(owner_id, task_date, id);
-- Π° ΡΡΠ°ΡΡΠΉ - ΡΠ΄Π°Π»ΠΈΠΌ
DROP INDEX task_owner_id_task_date_idx;
Kama inavyosikika, ndivyo ilivyoandikwa
Kwanza, hebu tuchore toleo rahisi zaidi la ombi, kupitisha vitambulisho vya watendaji
SELECT
*
FROM
task
WHERE
owner_id = ANY('{1,2,4,8,16,32,64,128,256,512}'::integer[])
ORDER BY
task_date, id
LIMIT 20;
Inasikitisha kidogo - tuliagiza rekodi 20 pekee, lakini Index Scan iliturudishia Mistari 960, ambayo basi pia ilipaswa kupangwa ... Hebu tujaribu kusoma kidogo.
unnest + ARRAY
Jambo la kwanza ambalo litatusaidia ni ikiwa tunahitaji 20 tu zilizopangwa rekodi, basi soma tu si zaidi ya 20 zilizopangwa kwa mpangilio sawa kwa kila moja ufunguo. Nzuri, index inayofaa (kitambulisho_cha_mmiliki, tarehe_ya_kazi, kitambulisho) tunayo.
Wacha tutumie utaratibu huo huo wa kutoa na "kueneza kwenye safu wima" rekodi muhimu ya jedwali, kama katika ARRAY()
:
WITH T AS (
SELECT
unnest(ARRAY(
SELECT
t
FROM
task t
WHERE
owner_id = unnest
ORDER BY
task_date, id
LIMIT 20 -- ΠΎΠ³ΡΠ°Π½ΠΈΡΠΈΠ²Π°Π΅ΠΌ ΡΡΡ...
)) r
FROM
unnest('{1,2,4,8,16,32,64,128,256,512}'::integer[])
)
SELECT
(r).*
FROM
T
ORDER BY
(r).task_date, (r).id
LIMIT 20; -- ... ΠΈ ΡΡΡ - ΡΠΎΠΆΠ΅
Oh, bora zaidi tayari! 40% kasi na 4.5 mara chini ya data Ilibidi niisome.
Uboreshaji wa rekodi za jedwali kupitia CTEHebu nitoe mawazo yako kwa ukweli kwamba katika baadhi ya kesi Jaribio la kufanya kazi mara moja na nyanja za rekodi baada ya kuitafuta katika subquery, bila "kuifunga" kwenye CTE, inaweza kusababisha "zidisha" InitPlan sawia na idadi ya nyanja hizi:
SELECT
((
SELECT
t
FROM
task t
WHERE
owner_id = 1
ORDER BY
task_date, id
LIMIT 1
).*);
Result (cost=4.77..4.78 rows=1 width=16) (actual time=0.063..0.063 rows=1 loops=1)
Buffers: shared hit=16
InitPlan 1 (returns $0)
-> Limit (cost=0.42..1.19 rows=1 width=48) (actual time=0.031..0.032 rows=1 loops=1)
Buffers: shared hit=4
-> Index Scan using task_owner_id_task_date_id_idx on task t (cost=0.42..387.57 rows=500 width=48) (actual time=0.030..0.030 rows=1 loops=1)
Index Cond: (owner_id = 1)
Buffers: shared hit=4
InitPlan 2 (returns $1)
-> Limit (cost=0.42..1.19 rows=1 width=48) (actual time=0.008..0.009 rows=1 loops=1)
Buffers: shared hit=4
-> Index Scan using task_owner_id_task_date_id_idx on task t_1 (cost=0.42..387.57 rows=500 width=48) (actual time=0.008..0.008 rows=1 loops=1)
Index Cond: (owner_id = 1)
Buffers: shared hit=4
InitPlan 3 (returns $2)
-> Limit (cost=0.42..1.19 rows=1 width=48) (actual time=0.008..0.008 rows=1 loops=1)
Buffers: shared hit=4
-> Index Scan using task_owner_id_task_date_id_idx on task t_2 (cost=0.42..387.57 rows=500 width=48) (actual time=0.008..0.008 rows=1 loops=1)
Index Cond: (owner_id = 1)
Buffers: shared hit=4"
InitPlan 4 (returns $3)
-> Limit (cost=0.42..1.19 rows=1 width=48) (actual time=0.009..0.009 rows=1 loops=1)
Buffers: shared hit=4
-> Index Scan using task_owner_id_task_date_id_idx on task t_3 (cost=0.42..387.57 rows=500 width=48) (actual time=0.009..0.009 rows=1 loops=1)
Index Cond: (owner_id = 1)
Buffers: shared hit=4
Rekodi sawa "iliangaliwa" mara 4 ... Hadi PostgreSQL 11, tabia hii hutokea mara kwa mara, na suluhisho ni "kuifunga" katika CTE, ambayo ni kikomo kabisa cha optimizer katika matoleo haya.
Kikusanyaji cha kujirudia
Katika toleo la awali, kwa jumla tunasoma Mistari 200 kwa ajili ya 20 zinazohitajika. Sio 960, lakini hata kidogo - inawezekana?
Hebu tujaribu kutumia ujuzi tunaohitaji jumla ya 20 kumbukumbu. Hiyo ni, tutarudia usomaji wa data tu hadi tufikie kiwango tunachohitaji.
Hatua ya 1: Orodha ya Kuanzia
Bila shaka, orodha yetu ya "lengo" ya rekodi 20 inapaswa kuanza na rekodi za "kwanza" za mojawapo ya vitufe vyetu vya owner_id. Kwa hivyo, kwanza tutapata vile "kwanza kabisa" kwa kila funguo na uiongeze kwenye orodha, ukiipanga kwa utaratibu tunaotaka - (task_date, id).
Hatua ya 2: Tafuta maingizo "yajayo".
Sasa ikiwa tutachukua ingizo la kwanza kutoka kwenye orodha yetu na kuanza "hatua" zaidi kwenye kielezo kuhifadhi ufunguo wa mmiliki_id, basi rekodi zote zilizopatikana ndizo zinazofuata katika uteuzi unaotokana. Bila shaka, tu mpaka tunavuka ufunguo wa kitako ingizo la pili kwenye orodha.
Ikiwa inageuka kuwa "tulivuka" rekodi ya pili, basi ingizo la mwisho lililosomwa linapaswa kuongezwa kwenye orodha badala ya la kwanza (pamoja na kitambulisho sawa cha mmiliki), baada ya hapo tunapanga upya orodha tena.
Hiyo ni, kila wakati tunapata kuwa orodha haina zaidi ya kiingilio kimoja kwa kila funguo (ikiwa maingizo yataisha na hatu "kuvuka", basi ingizo la kwanza kutoka kwenye orodha litatoweka tu na hakuna kitakachoongezwa. ), na wao daima zimepangwa kwa mpangilio wa kupanda wa ufunguo wa programu (task_tarehe, kitambulisho).
Hatua ya 3: chujio na "kupanua" rekodi
Katika baadhi ya safu mlalo za uteuzi wetu unaorudiwa, baadhi ya rekodi rv
zimerudiwa - kwanza tunapata kama vile "kuvuka mpaka wa ingizo la 2 la orodha", na kisha uibadilishe kama ya 1 kutoka kwenye orodha. Kwa hivyo tukio la kwanza linahitaji kuchujwa.
Swali la mwisho la kutisha
WITH RECURSIVE T AS (
-- #1 : Π·Π°Π½ΠΎΡΠΈΠΌ Π² ΡΠΏΠΈΡΠΎΠΊ "ΠΏΠ΅ΡΠ²ΡΠ΅" Π·Π°ΠΏΠΈΡΠΈ ΠΏΠΎ ΠΊΠ°ΠΆΠ΄ΠΎΠΌΡ ΠΈΠ· ΠΊΠ»ΡΡΠ΅ΠΉ Π½Π°Π±ΠΎΡΠ°
WITH wrap AS ( -- "ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»ΠΈΠ·ΡΠ΅ΠΌ" record'Ρ, ΡΡΠΎΠ±Ρ ΠΎΠ±ΡΠ°ΡΠ΅Π½ΠΈΠ΅ ΠΊ ΠΏΠΎΠ»ΡΠΌ Π½Π΅ Π²ΡΠ·ΡΠ²Π°Π»ΠΎ ΡΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΡ InitPlan/SubPlan
WITH T AS (
SELECT
(
SELECT
r
FROM
task r
WHERE
owner_id = unnest
ORDER BY
task_date, id
LIMIT 1
) r
FROM
unnest('{1,2,4,8,16,32,64,128,256,512}'::integer[])
)
SELECT
array_agg(r ORDER BY (r).task_date, (r).id) list -- ΡΠΎΡΡΠΈΡΡΠ΅ΠΌ ΡΠΏΠΈΡΠΎΠΊ Π² Π½ΡΠΆΠ½ΠΎΠΌ ΠΏΠΎΡΡΠ΄ΠΊΠ΅
FROM
T
)
SELECT
list
, list[1] rv
, FALSE not_cross
, 0 size
FROM
wrap
UNION ALL
-- #2 : Π²ΡΡΠΈΡΡΠ²Π°Π΅ΠΌ Π·Π°ΠΏΠΈΡΠΈ 1-Π³ΠΎ ΠΏΠΎ ΠΏΠΎΡΡΠ΄ΠΊΡ ΠΊΠ»ΡΡΠ°, ΠΏΠΎΠΊΠ° Π½Π΅ ΠΏΠ΅ΡΠ΅ΡΠ°Π³Π½Π΅ΠΌ ΡΠ΅ΡΠ΅Π· Π·Π°ΠΏΠΈΡΡ 2-Π³ΠΎ
SELECT
CASE
-- Π΅ΡΠ»ΠΈ Π½ΠΈΡΠ΅Π³ΠΎ Π½Π΅ Π½Π°ΠΉΠ΄Π΅Π½ΠΎ Π΄Π»Ρ ΠΊΠ»ΡΡΠ° 1-ΠΉ Π·Π°ΠΏΠΈΡΠΈ
WHEN X._r IS NOT DISTINCT FROM NULL THEN
T.list[2:] -- ΡΠ±ΠΈΡΠ°Π΅ΠΌ Π΅Π΅ ΠΈΠ· ΡΠΏΠΈΡΠΊΠ°
-- Π΅ΡΠ»ΠΈ ΠΌΡ ΠΠ ΠΏΠ΅ΡΠ΅ΡΠ΅ΠΊΠ»ΠΈ ΠΏΡΠΈΠΊΠ»Π°Π΄Π½ΠΎΠΉ ΠΊΠ»ΡΡ 2-ΠΉ Π·Π°ΠΏΠΈΡΠΈ
WHEN X.not_cross THEN
T.list -- ΠΏΡΠΎΡΡΠΎ ΠΏΡΠΎΡΡΠ³ΠΈΠ²Π°Π΅ΠΌ ΡΠΎΡ ΠΆΠ΅ ΡΠΏΠΈΡΠΎΠΊ Π±Π΅Π· ΠΌΠΎΠ΄ΠΈΡΠΈΠΊΠ°ΡΠΈΠΉ
-- Π΅ΡΠ»ΠΈ Π² ΡΠΏΠΈΡΠΊΠ΅ ΡΠΆΠ΅ Π½Π΅Ρ 2-ΠΉ Π·Π°ΠΏΠΈΡΠΈ
WHEN T.list[2] IS NULL THEN
-- ΠΏΡΠΎΡΡΠΎ Π²ΠΎΠ·Π²ΡΠ°ΡΠ°Π΅ΠΌ ΠΏΡΡΡΠΎΠΉ ΡΠΏΠΈΡΠΎΠΊ
'{}'
-- ΠΏΠ΅ΡΠ΅ΡΠΎΡΡΠΈΡΠΎΠ²ΡΠ²Π°Π΅ΠΌ ΡΠ»ΠΎΠ²Π°ΡΡ, ΡΠ±ΠΈΡΠ°Ρ 1-Ρ Π·Π°ΠΏΠΈΡΡ ΠΈ Π΄ΠΎΠ±Π°Π²Π»ΡΡ ΠΏΠΎΡΠ»Π΅Π΄Π½ΡΡ ΠΈΠ· Π½Π°ΠΉΠ΄Π΅Π½Π½ΡΡ
ELSE (
SELECT
coalesce(T.list[2] || array_agg(r ORDER BY (r).task_date, (r).id), '{}')
FROM
unnest(T.list[3:] || X._r) r
)
END
, X._r
, X.not_cross
, T.size + X.not_cross::integer
FROM
T
, LATERAL(
WITH wrap AS ( -- "ΠΌΠ°ΡΠ΅ΡΠΈΠ°Π»ΠΈΠ·ΡΠ΅ΠΌ" record
SELECT
CASE
-- Π΅ΡΠ»ΠΈ Π²ΡΠ΅-ΡΠ°ΠΊΠΈ "ΠΏΠ΅ΡΠ΅ΡΠ°Π³Π½ΡΠ»ΠΈ" ΡΠ΅ΡΠ΅Π· 2-Ρ Π·Π°ΠΏΠΈΡΡ
WHEN NOT T.not_cross
-- ΡΠΎ Π½ΡΠΆΠ½Π°Ρ Π·Π°ΠΏΠΈΡΡ - ΠΏΠ΅ΡΠ²Π°Ρ ΠΈΠ· ΡΠΏΠΏΠΈΡΠΊΠ°
THEN T.list[1]
ELSE ( -- Π΅ΡΠ»ΠΈ Π½Π΅ ΠΏΠ΅ΡΠ΅ΡΠ΅ΠΊΠ»ΠΈ, ΡΠΎ ΠΊΠ»ΡΡ ΠΎΡΡΠ°Π»ΡΡ ΠΊΠ°ΠΊ Π² ΠΏΡΠ΅Π΄ΡΠ΄ΡΡΠ΅ΠΉ Π·Π°ΠΏΠΈΡΠΈ - ΠΎΡΡΠ°Π»ΠΊΠΈΠ²Π°Π΅ΠΌΡΡ ΠΎΡ Π½Π΅Π΅
SELECT
_r
FROM
task _r
WHERE
owner_id = (rv).owner_id AND
(task_date, id) > ((rv).task_date, (rv).id)
ORDER BY
task_date, id
LIMIT 1
)
END _r
)
SELECT
_r
, CASE
-- Π΅ΡΠ»ΠΈ 2-ΠΉ Π·Π°ΠΏΠΈΡΠΈ ΡΠΆΠ΅ Π½Π΅Ρ Π² ΡΠΏΠΈΡΠΊΠ΅, Π½ΠΎ ΠΌΡ Ρ
ΠΎΡΡ ΡΡΠΎ-ΡΠΎ Π½Π°ΡΠ»ΠΈ
WHEN list[2] IS NULL AND _r IS DISTINCT FROM NULL THEN
TRUE
ELSE -- Π½ΠΈΡΠ΅Π³ΠΎ Π½Π΅ Π½Π°ΡΠ»ΠΈ ΠΈΠ»ΠΈ "ΠΏΠ΅ΡΠ΅ΡΠ°Π³Π½ΡΠ»ΠΈ"
coalesce(((_r).task_date, (_r).id) < ((list[2]).task_date, (list[2]).id), FALSE)
END not_cross
FROM
wrap
) X
WHERE
T.size < 20 AND -- ΠΎΠ³ΡΠ°Π½ΠΈΡΠΈΠ²Π°Π΅ΠΌ ΡΡΡ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²ΠΎ
T.list IS DISTINCT FROM '{}' -- ΠΈΠ»ΠΈ ΠΏΠΎΠΊΠ° ΡΠΏΠΈΡΠΎΠΊ Π½Π΅ ΠΊΠΎΠ½ΡΠΈΠ»ΡΡ
)
-- #3 : "ΡΠ°Π·Π²ΠΎΡΠ°ΡΠΈΠ²Π°Π΅ΠΌ" Π·Π°ΠΏΠΈΡΠΈ - ΠΏΠΎΡΡΠ΄ΠΎΠΊ Π³Π°ΡΠ°Π½ΡΠΈΡΠΎΠ²Π°Π½ ΠΏΠΎ ΠΏΠΎΡΡΡΠΎΠ΅Π½ΠΈΡ
SELECT
(rv).*
FROM
T
WHERE
not_cross; -- Π±Π΅ΡΠ΅ΠΌ ΡΠΎΠ»ΡΠΊΠΎ "Π½Π΅ΠΏΠ΅ΡΠ΅ΡΠ΅ΠΊΠ°ΡΡΠΈΠ΅" Π·Π°ΠΏΠΈΡΠΈ
Hivyo, sisi iliuza 50% ya data iliyosomwa kwa 20% ya muda wa utekelezaji. Hiyo ni, ikiwa una sababu za kuamini kuwa kusoma kunaweza kuchukua muda mrefu (kwa mfano, data mara nyingi haipo kwenye cache, na unapaswa kwenda kwenye diski kwa hiyo), basi kwa njia hii unaweza kutegemea kidogo kusoma. .
Kwa hali yoyote, wakati wa utekelezaji uligeuka kuwa bora kuliko chaguo la kwanza la "naive". Lakini ni chaguo gani kati ya hizi 3 za kutumia ni juu yako.
Chanzo: mapenzi.com