Postgres உலகில், தரவுத்தள சேமிப்பகத்தின் திறமையான வழிசெலுத்தலுக்கு குறியீடுகள் அவசியம் ("குவியல்" என்று அழைக்கப்படுகிறது). Postgres அதற்கான க்ளஸ்டரிங்கை ஆதரிக்கவில்லை, மேலும் MVCC கட்டமைப்பானது ஒரே டூப்பிளின் பல பதிப்புகளுடன் முடிவடையும். எனவே, பயன்பாடுகளை ஆதரிக்க திறமையான குறியீடுகளை உருவாக்குவதும் பராமரிப்பதும் மிகவும் முக்கியம்.
குறியீடுகளின் பயன்பாட்டை மேம்படுத்துவதற்கும் மேம்படுத்துவதற்கும் சில குறிப்புகள் இங்கே உள்ளன.
குறிப்பு: கீழே காட்டப்பட்டுள்ள வினவல்கள் மாற்றப்படாதவற்றில் வேலை செய்கின்றன
கவரிங் இன்டெக்ஸ்களைப் பயன்படுத்துதல்
செயலற்ற பயனர்களுக்கான மின்னஞ்சல் முகவரிகளைப் பிரித்தெடுப்பதற்கான கோரிக்கையைப் பார்ப்போம். மேசை customer
ஒரு நெடுவரிசை உள்ளது active
, மற்றும் வினவல் எளிது:
pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
QUERY PLAN
-----------------------------------------------------------
Seq Scan on customer (cost=0.00..16.49 rows=15 width=32)
Filter: (active = 0)
(2 rows)
வினவல் முழு டேபிள் ஸ்கேன் வரிசையைத் தூண்டுகிறது customer
. ஒரு நெடுவரிசையில் ஒரு குறியீட்டை உருவாக்குவோம் active
:
pagila=# CREATE INDEX idx_cust1 ON customer(active);
CREATE INDEX
pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
QUERY PLAN
-----------------------------------------------------------------------------
Index Scan using idx_cust1 on customer (cost=0.28..12.29 rows=15 width=32)
Index Cond: (active = 0)
(2 rows)
இது உதவியது, அடுத்த ஸ்கேன் ஆனது "index scan
". இதன் பொருள் Postgres குறியீட்டை ஸ்கேன் செய்யும் "idx_cust1
", பின்னர் மற்ற நெடுவரிசைகளின் மதிப்புகளைப் படிக்க அட்டவணைக் குவியலைத் தேடுவதைத் தொடரவும் (இந்த வழக்கில், நெடுவரிசை email
) வினவலுக்குத் தேவை.
கவரிங் இன்டெக்ஸ்கள் PostgreSQL 11 இல் அறிமுகப்படுத்தப்பட்டுள்ளன. குறியீட்டில் ஒன்று அல்லது அதற்கு மேற்பட்ட கூடுதல் நெடுவரிசைகளைச் சேர்க்க அவை உங்களை அனுமதிக்கின்றன - அவற்றின் மதிப்புகள் குறியீட்டு தரவுக் கடையில் சேமிக்கப்படும்.
இந்த அம்சத்தைப் பயன்படுத்தி, குறியீட்டிற்குள் மின்னஞ்சல் மதிப்பைச் சேர்த்தால், போஸ்ட்கிரெஸ் மதிப்புக்காக அட்டவணைக் குவியலைத் தேட வேண்டியதில்லை. email
. இது வேலை செய்யுமா என்று பார்ப்போம்:
pagila=# CREATE INDEX idx_cust2 ON customer(active) INCLUDE (email);
CREATE INDEX
pagila=# EXPLAIN SELECT email FROM customer WHERE active=0;
QUERY PLAN
----------------------------------------------------------------------------------
Index Only Scan using idx_cust2 on customer (cost=0.28..12.29 rows=15 width=32)
Index Cond: (active = 0)
(2 rows)
«Index Only Scan
' வினவலுக்கு இப்போது ஒரு குறியீட்டு மட்டுமே தேவை என்று எங்களிடம் கூறுகிறது, இது அட்டவணைக் குவியலைப் படிக்க அனைத்து வட்டு I/O ஐத் தவிர்க்க உதவுகிறது.
கவரிங் இன்டெக்ஸ்கள் தற்போது பி-ட்ரீகளுக்கு மட்டுமே கிடைக்கும். இருப்பினும், இந்த விஷயத்தில், பராமரிப்பு முயற்சி அதிகமாக இருக்கும்.
பகுதி குறியீடுகளைப் பயன்படுத்துதல்
பகுதி குறியீடுகள் அட்டவணையில் உள்ள வரிசைகளின் துணைக்குழு மட்டுமே. இது குறியீடுகளின் அளவைச் சேமிக்கிறது மற்றும் ஸ்கேன்களை வேகமாகச் செய்கிறது.
கலிஃபோர்னியாவில் உள்ள எங்கள் வாடிக்கையாளர்களின் மின்னஞ்சல் முகவரிகளின் பட்டியலைப் பெற விரும்புகிறோம் என்று வைத்துக்கொள்வோம். கோரிக்கை இப்படி இருக்கும்:
SELECT c.email FROM customer c
JOIN address a ON c.address_id = a.address_id
WHERE a.district = 'California';
which has a query plan that involves scanning both the tables that are joined:
pagila=# EXPLAIN SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
QUERY PLAN
----------------------------------------------------------------------
Hash Join (cost=15.65..32.22 rows=9 width=32)
Hash Cond: (c.address_id = a.address_id)
-> Seq Scan on customer c (cost=0.00..14.99 rows=599 width=34)
-> Hash (cost=15.54..15.54 rows=9 width=4)
-> Seq Scan on address a (cost=0.00..15.54 rows=9 width=4)
Filter: (district = 'California'::text)
(6 rows)
என்ன சாதாரண குறியீடுகள் நமக்குத் தரும்:
pagila=# CREATE INDEX idx_address1 ON address(district);
CREATE INDEX
pagila=# EXPLAIN SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
QUERY PLAN
---------------------------------------------------------------------------------------
Hash Join (cost=12.98..29.55 rows=9 width=32)
Hash Cond: (c.address_id = a.address_id)
-> Seq Scan on customer c (cost=0.00..14.99 rows=599 width=34)
-> Hash (cost=12.87..12.87 rows=9 width=4)
-> Bitmap Heap Scan on address a (cost=4.34..12.87 rows=9 width=4)
Recheck Cond: (district = 'California'::text)
-> Bitmap Index Scan on idx_address1 (cost=0.00..4.34 rows=9 width=0)
Index Cond: (district = 'California'::text)
(8 rows)
ஸ்கேன் address
குறியீட்டு ஸ்கேன் மூலம் மாற்றப்பட்டது idx_address1
பின்னர் குவியல் ஸ்கேன் செய்தார் address
.
இது அடிக்கடி கேட்கப்படும் வினவல் மற்றும் மேம்படுத்தப்பட வேண்டும் என்பதால், பகுதி குறியீட்டைப் பயன்படுத்தலாம், இது மாவட்டத்தின் முகவரிகளைக் கொண்ட வரிசைகளை மட்டுமே குறியிடும். ‘California’
:
pagila=# CREATE INDEX idx_address2 ON address(address_id) WHERE district='California';
CREATE INDEX
pagila=# EXPLAIN SELECT c.email FROM customer c
pagila-# JOIN address a ON c.address_id = a.address_id
pagila-# WHERE a.district = 'California';
QUERY PLAN
------------------------------------------------------------------------------------------------
Hash Join (cost=12.38..28.96 rows=9 width=32)
Hash Cond: (c.address_id = a.address_id)
-> Seq Scan on customer c (cost=0.00..14.99 rows=599 width=34)
-> Hash (cost=12.27..12.27 rows=9 width=4)
-> Index Only Scan using idx_address2 on address a (cost=0.14..12.27 rows=9 width=4)
(5 rows)
இப்போது வினவல் மட்டுமே படிக்கிறது idx_address2
மற்றும் மேசையைத் தொடுவதில்லை address
.
பல மதிப்பு குறியீடுகளைப் பயன்படுத்துதல்
அட்டவணைப்படுத்தப்பட வேண்டிய சில நெடுவரிசைகளில் ஸ்கேலர் தரவு வகை இல்லாமல் இருக்கலாம். போன்ற நெடுவரிசை வகைகள் jsonb
, arrays
и tsvector
கூட்டு அல்லது பல மதிப்புகளைக் கொண்டுள்ளது. அத்தகைய நெடுவரிசைகளை நீங்கள் அட்டவணைப்படுத்த வேண்டும் என்றால், நீங்கள் வழக்கமாக அந்த நெடுவரிசைகளில் உள்ள அனைத்து தனிப்பட்ட மதிப்புகளையும் தேட வேண்டும்.
தோல்வியுற்ற படங்களின் வெட்டுக்களைக் கொண்ட அனைத்து படங்களின் தலைப்புகளையும் கண்டுபிடிக்க முயற்சிப்போம். மேசை film
என்ற உரை நெடுவரிசை உள்ளது special_features
. திரைப்படத்தில் இந்த "சிறப்புப் பண்பு" இருந்தால், நெடுவரிசையில் உரை வரிசையாக உறுப்பு இருக்கும் Behind The Scenes
. இது போன்ற எல்லாப் படங்களையும் தேட, "பின்னால் தி திரைகள்" என்ற எல்லா வரிசைகளையும் தேர்ந்தெடுக்க வேண்டும் எந்த வரிசை மதிப்புகள் special_features
:
SELECT title FROM film WHERE special_features @> '{"Behind The Scenes"}';
கூடு கட்டும் ஆபரேட்டர் @>
வலது பக்கம் இடது பக்கத்தின் துணைக்குழுவா என்பதைச் சரிபார்க்கிறது.
கோரிக்கை திட்டம்:
pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
QUERY PLAN
-----------------------------------------------------------------
Seq Scan on film (cost=0.00..67.50 rows=5 width=15)
Filter: (special_features @> '{"Behind The Scenes"}'::text[])
(2 rows)
இது 67 செலவில் முழு ஹீப் ஸ்கேன் கோருகிறது.
வழக்கமான பி-ட்ரீ இன்டெக்ஸ் நமக்கு உதவுகிறதா என்று பார்ப்போம்:
pagila=# CREATE INDEX idx_film1 ON film(special_features);
CREATE INDEX
pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
QUERY PLAN
-----------------------------------------------------------------
Seq Scan on film (cost=0.00..67.50 rows=5 width=15)
Filter: (special_features @> '{"Behind The Scenes"}'::text[])
(2 rows)
குறியீடானது கூட கருதப்படவில்லை. குறியீட்டு மதிப்புகளில் தனிப்பட்ட கூறுகள் இருப்பதை B-tree இன்டெக்ஸ் அறிந்திருக்கவில்லை.
எங்களுக்கு ஜிஐஎன் இன்டெக்ஸ் தேவை.
pagila=# CREATE INDEX idx_film2 ON film USING GIN(special_features);
CREATE INDEX
pagila=# EXPLAIN SELECT title FROM film
pagila-# WHERE special_features @> '{"Behind The Scenes"}';
QUERY PLAN
---------------------------------------------------------------------------
Bitmap Heap Scan on film (cost=8.04..23.58 rows=5 width=15)
Recheck Cond: (special_features @> '{"Behind The Scenes"}'::text[])
-> Bitmap Index Scan on idx_film2 (cost=0.00..8.04 rows=5 width=0)
Index Cond: (special_features @> '{"Behind The Scenes"}'::text[])
(4 rows)
ஜிஐஎன் இன்டெக்ஸ் ஒற்றை மதிப்புகளை அட்டவணைப்படுத்தப்பட்ட கூட்டு மதிப்புகளுக்கு மேப்பிங் செய்வதை ஆதரிக்கிறது, இதன் விளைவாக வினவல் திட்ட செலவு பாதியாகக் குறைக்கப்படுகிறது.
நகல் குறியீடுகளை அகற்றுதல்
குறியீடுகள் காலப்போக்கில் குவிகின்றன, சில சமயங்களில் புதிய குறியீட்டில் முந்தையவற்றில் ஒன்றின் அதே வரையறை இருக்கலாம். குறியீடுகளின் மனிதனால் படிக்கக்கூடிய SQL வரையறைகளைப் பெற, அட்டவணைக் காட்சியைப் பயன்படுத்தலாம். pg_indexes
. நீங்கள் ஒரே மாதிரியான வரையறைகளை எளிதாகக் காணலாம்:
SELECT array_agg(indexname) AS indexes, replace(indexdef, indexname, '') AS defn
FROM pg_indexes
GROUP BY defn
HAVING count(*) > 1;
And here’s the result when run on the stock pagila database:
pagila=# SELECT array_agg(indexname) AS indexes, replace(indexdef, indexname, '') AS defn
pagila-# FROM pg_indexes
pagila-# GROUP BY defn
pagila-# HAVING count(*) > 1;
indexes | defn
------------------------------------------------------------------------+------------------------------------------------------------------
{payment_p2017_01_customer_id_idx,idx_fk_payment_p2017_01_customer_id} | CREATE INDEX ON public.payment_p2017_01 USING btree (customer_id
{payment_p2017_02_customer_id_idx,idx_fk_payment_p2017_02_customer_id} | CREATE INDEX ON public.payment_p2017_02 USING btree (customer_id
{payment_p2017_03_customer_id_idx,idx_fk_payment_p2017_03_customer_id} | CREATE INDEX ON public.payment_p2017_03 USING btree (customer_id
{idx_fk_payment_p2017_04_customer_id,payment_p2017_04_customer_id_idx} | CREATE INDEX ON public.payment_p2017_04 USING btree (customer_id
{payment_p2017_05_customer_id_idx,idx_fk_payment_p2017_05_customer_id} | CREATE INDEX ON public.payment_p2017_05 USING btree (customer_id
{idx_fk_payment_p2017_06_customer_id,payment_p2017_06_customer_id_idx} | CREATE INDEX ON public.payment_p2017_06 USING btree (customer_id
(6 rows)
சூப்பர்செட் குறியீடுகள்
நீங்கள் பல குறியீடுகளுடன் முடிவடைவது நிகழலாம், அவற்றில் ஒன்று மற்ற குறியீடுகளைக் குறிக்கும் நெடுவரிசைகளின் சூப்பர்செட்டைக் குறிக்கிறது. இது விரும்பத்தக்கதாக இருக்கலாம் அல்லது விரும்பப்படாமல் இருக்கலாம் - சூப்பர்செட் குறியீட்டு-மட்டும் ஸ்கேன்களில் விளையலாம், இது நல்லது, ஆனால் அது அதிக இடத்தை எடுத்துக்கொள்ளலாம் அல்லது சூப்பர்செட் மேம்படுத்தும் நோக்கம் கொண்ட வினவல் இனி பயன்படுத்தப்படாது.
அத்தகைய குறியீடுகளின் வரையறையை நீங்கள் தானியக்கமாக்க வேண்டும் என்றால், நீங்கள் தொடங்கலாம் pg_catalog
.
பயன்படுத்தப்படாத குறியீடுகள்
தரவுத்தளங்களைப் பயன்படுத்தும் பயன்பாடுகள் உருவாகும்போது, அவை பயன்படுத்தும் வினவல்களும் உருவாகின்றன. முன்னர் சேர்க்கப்பட்ட குறியீடுகள் இனி எந்த வினவலாலும் பயன்படுத்தப்படாது. ஒவ்வொரு முறையும் ஒரு குறியீட்டை ஸ்கேன் செய்யும் போது, அது புள்ளியியல் மேலாளரால் குறிக்கப்படும், மேலும் கணினி அட்டவணை பார்வையில் pg_stat_user_indexes
நீங்கள் மதிப்பைக் காணலாம் idx_scan
, இது ஒரு ஒட்டுமொத்த கவுண்டர். இந்த மதிப்பை ஒரு குறிப்பிட்ட காலத்திற்கு (ஒரு மாதம் என்று சொல்லுங்கள்) கண்காணிப்பது எந்த குறியீடுகள் பயன்படுத்தப்படவில்லை மற்றும் கைவிடப்படலாம் என்பது பற்றிய நல்ல யோசனையைத் தரும்.
ஸ்கீமாவில் உள்ள அனைத்து குறியீடுகளின் தற்போதைய ஸ்கேன் எண்ணிக்கையைப் பெறுவதற்கான வினவல் இங்கே உள்ளது ‘public’
:
SELECT relname, indexrelname, idx_scan
FROM pg_catalog.pg_stat_user_indexes
WHERE schemaname = 'public';
with output like this:
pagila=# SELECT relname, indexrelname, idx_scan
pagila-# FROM pg_catalog.pg_stat_user_indexes
pagila-# WHERE schemaname = 'public'
pagila-# LIMIT 10;
relname | indexrelname | idx_scan
---------------+--------------------+----------
customer | customer_pkey | 32093
actor | actor_pkey | 5462
address | address_pkey | 660
category | category_pkey | 1000
city | city_pkey | 609
country | country_pkey | 604
film_actor | film_actor_pkey | 0
film_category | film_category_pkey | 0
film | film_pkey | 11043
inventory | inventory_pkey | 16048
(10 rows)
குறைவான பூட்டுகளுடன் குறியீடுகளை மீண்டும் உருவாக்குதல்
குறியீடுகள் அடிக்கடி மீண்டும் கட்டமைக்கப்பட வேண்டும், உதாரணமாக அவை வீங்கியிருக்கும் போது, மீண்டும் கட்டமைப்பது ஸ்கேன் வேகத்தை அதிகரிக்கும். மேலும் குறியீடுகள் சிதைந்து போகலாம். குறியீட்டு அளவுருக்களை மாற்றுவதன் மூலம் அதை மீண்டும் உருவாக்க வேண்டியிருக்கலாம்.
இணையான குறியீட்டு உருவாக்கத்தை இயக்கு
PostgreSQL 11 இல், B-Tree குறியீட்டை உருவாக்குவது ஒரே நேரத்தில் உள்ளது. உருவாக்கும் செயல்முறையை விரைவுபடுத்த, பல இணையான பணியாளர்களைப் பயன்படுத்தலாம். இருப்பினும், இந்த உள்ளமைவு விருப்பங்கள் சரியாக அமைக்கப்பட்டுள்ளதா என்பதை உறுதிப்படுத்தவும்:
SET max_parallel_workers = 32;
SET max_parallel_maintenance_workers = 16;
இயல்புநிலை மதிப்புகள் மிகவும் சிறியவை. வெறுமனே, இந்த எண்கள் செயலி கோர்களின் எண்ணிக்கையுடன் அதிகரிக்க வேண்டும். மேலும் படிக்கவும்
பின்னணி குறியீட்டு உருவாக்கம்
விருப்பத்தைப் பயன்படுத்தி பின்னணியில் ஒரு குறியீட்டை உருவாக்கலாம் CONCURRENTLY
கட்டளைகளை CREATE INDEX
:
pagila=# CREATE INDEX CONCURRENTLY idx_address1 ON address(district);
CREATE INDEX
இந்த குறியீட்டு உருவாக்கும் செயல்முறை வழக்கமான ஒன்றிலிருந்து வேறுபடுகிறது, இது அட்டவணையில் பூட்டு தேவையில்லை, எனவே எழுதும் செயல்பாடுகளைத் தடுக்காது. மறுபுறம், இது அதிக நேரம் எடுக்கும் மற்றும் அதிக வளங்களை பயன்படுத்துகிறது.
Postgres ஆனது குறியீட்டு எண்களை உருவாக்குவதற்கும், ஏதேனும் சிறப்பு நிகழ்வுகளைத் தீர்ப்பதற்கான வழிகள் மற்றும் உங்கள் பயன்பாடு வெடித்துச் சிதறும் பட்சத்தில் தரவுத்தளத்தை நிர்வகிப்பதற்கான வழிகளையும் வழங்குகிறது. இந்த உதவிக்குறிப்புகள் உங்கள் வினவல்களை விரைவாகப் பெறவும், உங்கள் தரவுத்தளத்தை அளவிடத் தயாராகவும் உதவும் என்று நம்புகிறோம்.
ஆதாரம்: www.habr.com