PostgreSQL எதிர்ப்பு வடிவங்கள்: CTE x CTE

எனது பணியின் காரணமாக, ஒரு டெவலப்பர் ஒரு கோரிக்கையை எழுதி, நினைக்கும் சூழ்நிலைகளை நான் சமாளிக்க வேண்டியுள்ளது "அடிப்படை புத்திசாலி, அது எல்லாவற்றையும் தானே கையாள முடியும்!«

சில சந்தர்ப்பங்களில் (தரவுத்தளத்தின் திறன்களின் அறியாமையிலிருந்து, ஓரளவு முன்கூட்டிய மேம்படுத்தல்களிலிருந்து), இந்த அணுகுமுறை "ஃபிராங்கண்ஸ்டைன்" தோற்றத்திற்கு வழிவகுக்கிறது.

முதலில், அத்தகைய கோரிக்கைக்கு ஒரு உதாரணம் தருகிறேன்:

-- для каждой ключевой пары находим ассоциированные значения полей
WITH RECURSIVE cte_bind AS (
  SELECT DISTINCT ON (key_a, key_b)
    key_a a
  , key_b b
  , fld1 bind_fld1
  , fld2 bind_fld2
  FROM
    tbl
)
-- находим min/max значений для каждого первого ключа
, cte_max AS (
  SELECT
    a
  , max(bind_fld1) bind_fld1
  , min(bind_fld2) bind_fld2
  FROM
    cte_bind
  GROUP BY
    a
)
-- связываем по первому ключу ключевые пары и min/max-значения
, cte_a_bind AS (
  SELECT
    cte_bind.a
  , cte_bind.b
  , cte_max.bind_fld1
  , cte_max.bind_fld2
  FROM
    cte_bind
  INNER JOIN
    cte_max
      ON cte_max.a = cte_bind.a
)
SELECT * FROM cte_a_bind;

கோரிக்கையின் தரத்தை கணிசமாக மதிப்பிட, சில தன்னிச்சையான தரவுத் தொகுப்பை உருவாக்குவோம்:

CREATE TABLE tbl AS
SELECT
  (random() * 1000)::integer key_a
, (random() * 1000)::integer key_b
, (random() * 10000)::integer fld1
, (random() * 10000)::integer fld2
FROM
  generate_series(1, 10000);
CREATE INDEX ON tbl(key_a, key_b);

அது மாறிவிடும் என்று தரவைப் படிக்க கால் பகுதிக்கும் குறைவாகவே ஆகும் வினவல் நிறைவேற்றம்:

PostgreSQL எதிர்ப்பு வடிவங்கள்: CTE x CTE[explain.tensor.ru ஐப் பார்க்கவும்]

அதை துண்டு துண்டாக பிரித்து எடுப்பது

கோரிக்கையை கூர்ந்து கவனிப்போம் மற்றும் குழப்பமடைவோம்:

  1. சுழல்நிலை CTEகள் இல்லை என்றால் ஏன் இங்கு சுழல்நிலை உள்ளது?
  2. எப்படியும் அசல் மாதிரியுடன் இணைக்கப்பட்டிருந்தால், ஒரு தனி CTE இல் நிமிடம்/அதிகபட்ச மதிப்புகளை ஏன் குழுவாக்க வேண்டும்?
    + 25% நேரம்
  3. முந்தைய CTE ஐ மீண்டும் செய்ய, முடிவில் நிபந்தனையற்ற 'SELECT * FROM' ஐ ஏன் பயன்படுத்த வேண்டும்?
    + 14% நேரம்

இந்த நிலையில், ஹாஷ் ஜாயின் இணைப்புக்காக தேர்ந்தெடுக்கப்பட்டதில் நாங்கள் மிகவும் அதிர்ஷ்டசாலிகள், நெஸ்டட் லூப் அல்ல, ஏனெனில் அப்போது ஒரு CTE ஸ்கேன் பாஸ் மட்டும் அல்ல, 10K பெற்றிருப்போம்!

CTE ஸ்கேன் பற்றி கொஞ்சம்என்பதை இங்கு நாம் நினைவில் கொள்ள வேண்டும் CTE ஸ்கேன் என்பது Seq ஸ்கேன் போன்றது - அதாவது, அட்டவணைப்படுத்தல் இல்லை, ஆனால் முழுமையான தேடல் மட்டுமே தேவைப்படும் 10K x 0.3ms = 3000ms cte_max மூலம் சுழற்சிகளுக்கு அல்லது 1K x 1.5ms = 1500ms cte_bind மூலம் லூப் செய்யும் போது!
உண்மையில், இதன் விளைவாக நீங்கள் எதைப் பெற விரும்பினீர்கள்? ஆமாம், பொதுவாக இது "மூன்று-அடுக்கு" வினவல்களை பகுப்பாய்வு செய்யும் 5 வது நிமிடத்தில் எங்காவது எழும் கேள்வி.

ஒவ்வொரு தனிப்பட்ட விசை ஜோடியையும் வெளியிட விரும்புகிறோம் கீ_a மூலம் குழுவிலிருந்து நிமிடம்/அதிகபட்சம்.
எனவே இதைப் பயன்படுத்துவோம் சாளர செயல்பாடுகள்:

SELECT DISTINCT ON(key_a, key_b)
	key_a a
,	key_b b
,	max(fld1) OVER(w) bind_fld1
,	min(fld2) OVER(w) bind_fld2
FROM
	tbl
WINDOW
	w AS (PARTITION BY key_a);

PostgreSQL எதிர்ப்பு வடிவங்கள்: CTE x CTE
[explain.tensor.ru ஐப் பார்க்கவும்]

இரண்டு விருப்பங்களிலும் தரவைப் படிக்க ஏறக்குறைய 4-5 மி.எஸ் எடுக்கும் என்பதால், நமது நேரம் முழுவதும் கிடைக்கும் -32% - இது அதன் தூய்மையான வடிவத்தில் உள்ளது அடிப்படை CPU இலிருந்து சுமை அகற்றப்பட்டது, அத்தகைய கோரிக்கை அடிக்கடி நிறைவேற்றப்பட்டால் போதும்.

பொதுவாக, நீங்கள் அடித்தளத்தை "சுற்று ஒன்றை எடுத்துச் செல்லுங்கள், சதுரத்தை உருட்டவும்" என்று கட்டாயப்படுத்தக்கூடாது.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்