Կամ մի քիչ կիրառական տետրիսոլոգիա։
Ամեն նորը լավ մոռացված հին է:
Էպիգրաֆներ.
Խնդրի ձևակերպում
Անհրաժեշտ է պարբերաբար ներբեռնել ընթացիկ PostgreSQL log ֆայլը AWS ամպից տեղական Linux հոսթ: Ոչ իրական ժամանակում, բայց, ասենք, մի փոքր ուշացումով։
Մատյան ֆայլի թարմացման ներբեռնման ժամկետը 5 րոպե է:
Մատյան ֆայլը, AWS-ում, պտտվում է ամեն ժամ:
Օգտագործված գործիքներ
Մատյան ֆայլը հոսթին վերբեռնելու համար օգտագործվում է bash սցենար, որը կանչում է AWS API «
Պարամետրեր.
- --db-instance-identifier. Օրինակի անունը AWS-ում;
- --log-file-name. ներկայումս ստեղծված գրանցամատյանի ֆայլի անվանումը
- --max-item. հրամանի ելքում վերադարձված տարրերի ընդհանուր թիվը:Ներբեռնված ֆայլի չափը:
- -- starting-token. Մեկնարկային նշան
Այո, և պարզապես՝ աշխատանքային ժամերին մարզվելու և բազմազանության համար հետաքրքիր առաջադրանք:
Ենթադրում եմ, որ խնդիրն արդեն լուծվել է առօրյայի ուժով։ Բայց արագ Google-ը լուծումներ չառաջարկեց, և առանձնապես ցանկություն չկար ավելի խորը որոնել։ Ամեն դեպքում, դա լավ մարզում է:
Առաջադրանքի պաշտոնականացում
Վերջնական գրանցամատյանի ֆայլը փոփոխական երկարությամբ տողերի մի շարք է: Գրաֆիկորեն, գրանցամատյանի ֆայլը կարող է ներկայացվել այսպես.
Արդյո՞ք դա արդեն ձեզ ինչ-որ բան է հիշեցնում: Ի՞նչ է «տետրիսը»: Եվ ահա թե ինչ.
Եթե մենք ներկայացնում ենք հնարավոր տարբերակները, որոնք առաջանում են հաջորդ ֆայլը գրաֆիկորեն բեռնելիս (պարզության համար, այս դեպքում, թող տողերը ունենան նույն երկարությունը), կստանանք. ստանդարտ թետրիս թվեր.
1) Ֆայլը ներբեռնվում է ամբողջությամբ և վերջնական է: Հատվածի չափը ավելի մեծ է, քան ֆայլի վերջնական չափը.
2) Ֆայլն ունի շարունակություն։ Հատվածի չափը փոքր է, քան ֆայլի վերջնական չափը.
3) Ֆայլը նախորդ ֆայլի շարունակությունն է և ունի շարունակություն։ Հատվածի չափը փոքր է, քան մնացած վերջնական ֆայլի չափը.
4) Ֆայլը նախորդ ֆայլի շարունակությունն է և վերջնական է: Հատվածի չափն ավելի մեծ է, քան մնացած վերջնական ֆայլի չափը.
Խնդիրը ուղղանկյուն հավաքելն է կամ նոր մակարդակի վրա Tetris խաղալը:
Խնդիրներ, որոնք առաջանում են խնդրի լուծման ընթացքում
1) Կպչեք 2 մասից բաղկացած շարանը
Ընդհանուր առմամբ առանձնակի խնդիրներ չեն եղել։ Ստանդարտ առաջադրանք ծրագրավորման սկզբնական դասընթացից։
Օպտիմալ սպասարկման չափ
Բայց սա մի քիչ ավելի հետաքրքիր է։
Ցավոք, մեկնարկային մասի պիտակից հետո օֆսեթ օգտագործելու միջոց չկա.
Ինչպես արդեն գիտեք, տարբերակը --starting-token օգտագործվում է նշելու համար, թե որտեղից սկսել էջավորումը: Այս տարբերակը վերցնում է String արժեքներ, ինչը կնշանակի, որ եթե դուք փորձեք ավելացնել օֆսեթ արժեք Next Token տողի դիմաց, տարբերակը չի դիտարկվի որպես օֆսեթ:
Եվ այսպես, դուք պետք է կարդաք կտոր-կտորներով։
Եթե կարդում եք մեծ չափաբաժիններով, ապա ընթերցումների քանակը կլինի նվազագույն, բայց ծավալը կլինի առավելագույնը:
Եթե դուք կարդում եք փոքր մասերում, ապա ընդհակառակը, ընթերցումների քանակը կլինի առավելագույնը, բայց ծավալը կլինի նվազագույն:
Հետևաբար, երթևեկությունը նվազեցնելու և լուծման ընդհանուր գեղեցկության համար ես ստիպված էի ինչ-որ լուծում գտնել, որը, ցավոք, մի փոքր նման է հենակին:
Պատկերացնելու համար եկեք դիտարկենք գրանցամատյանի ֆայլը 2 շատ պարզեցված տարբերակներով ներբեռնելու գործընթացը: Երկու դեպքում էլ ընթերցումների քանակը կախված է չափաբաժնի չափից:
1) Բեռնել փոքր մասերում.
2) Բեռնել մեծ չափաբաժիններով.
Ինչպես միշտ, օպտիմալ լուծումը մեջտեղում է.
Մասի չափը նվազագույն է, սակայն ընթերցման գործընթացում չափը կարելի է մեծացնել՝ ընթերցումների քանակը նվազեցնելու համար:
Պետք է նշել որ ընթերցված հատվածի օպտիմալ չափի ընտրության խնդիրը դեռ ամբողջությամբ լուծված չէ և պահանջում է ավելի խորը ուսումնասիրություն և վերլուծություն։ Գուցե մի փոքր ուշ:
Իրականացման ընդհանուր նկարագրությունը
Օգտագործված սպասարկման սեղաններ
CREATE TABLE endpoint
(
id SERIAL ,
host text
);
TABLE database
(
id SERIAL ,
…
last_aws_log_time text ,
last_aws_nexttoken text ,
aws_max_item_size integer
);
last_aws_log_time — временная метка последнего загруженного лог-файла в формате YYYY-MM-DD-HH24.
last_aws_nexttoken — текстовая метка последней загруженной порции.
aws_max_item_size- эмпирическим путем, подобранный начальный размер порции.
Սցենարի ամբողջական տեքստը
download_aws_piece.sh
#!/bin/bash
#########################################################
# download_aws_piece.sh
# downloan piece of log from AWS
# version HABR
let min_item_size=1024
let max_item_size=1048576
let growth_factor=3
let growth_counter=1
let growth_counter_max=3
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:''STARTED'
AWS_LOG_TIME=$1
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:AWS_LOG_TIME='$AWS_LOG_TIME
database_id=$2
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:database_id='$database_id
RESULT_FILE=$3
endpoint=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE_DATABASE -A -t -c "select e.host from endpoint e join database d on e.id = d.endpoint_id where d.id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:endpoint='$endpoint
db_instance=`echo $endpoint | awk -F"." '{print toupper($1)}'`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:db_instance='$db_instance
LOG_FILE=$RESULT_FILE'.tmp_log'
TMP_FILE=$LOG_FILE'.tmp'
TMP_MIDDLE=$LOG_FILE'.tmp_mid'
TMP_MIDDLE2=$LOG_FILE'.tmp_mid2'
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:current_aws_log_time='$current_aws_log_time
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:is_new_log='$is_new_log
let last_aws_max_item_size=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select aws_max_item_size from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: last_aws_max_item_size='$last_aws_max_item_size
let count=1
if [[ $is_new_log == '1' ]];
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF NEW AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 2
fi
else
next_token=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "select last_aws_nexttoken from database where id = $database_id "`
if [[ $next_token == '' ]];
then
next_token='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: CONTINUE DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 3
fi
line_count=`cat $LOG_FILE | wc -l`
let lines=$line_count-1
tail -$lines $LOG_FILE > $TMP_MIDDLE
mv -f $TMP_MIDDLE $LOG_FILE
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
if [[ $next_token == '' ]];
then
cp $TMP_FILE $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
else
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
fi
first_str=`tail -1 $TMP_FILE`
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
head -$lines $TMP_FILE > $RESULT_FILE
###############################################
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
#
#################################################################
exit 0
Սցենարի հատվածներ որոշ բացատրություններով.
Սցենարի մուտքագրման պարամետրեր.
- Մատյան ֆայլի անվան ժամկետային դրոշմ՝ YYYY-MM-DD-HH24 ձևաչափով՝ AWS_LOG_TIME=$1
- Տվյալների բազայի ID՝ database_id=$2
- Հավաքված մատյան ֆայլի անունը՝ RESULT_FILE=$3
Ստացեք վերջին վերբեռնված մատյան ֆայլի ժամանակի դրոշմը.
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
Եթե վերջին բեռնված մատյան ֆայլի ժամանակի դրոշմը չի համընկնում մուտքագրման պարամետրի հետ, ապա բեռնվում է նոր մատյան ֆայլ՝
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo '***download_aws_piece.sh -FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
Մենք բեռնված ֆայլից ստանում ենք nexttoken պիտակի արժեքը.
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
Ներբեռնման ավարտի նշանը nexttoken-ի դատարկ արժեքն է:
Մի օղակում մենք հաշվում ենք ֆայլի մասերը, ճանապարհին, միացնելով տողերը և մեծացնելով մասի չափը.
Հիմնական հանգույց
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
Ի՞նչ է հաջորդը:
Այսպիսով, առաջին միջանկյալ խնդիրը՝ «ներբեռնեք լոգ ֆայլը ամպից» լուծված է։ Ի՞նչ անել ներբեռնված տեղեկամատյանի հետ:
Նախ անհրաժեշտ է վերլուծել գրանցամատյանի ֆայլը և դրանից հանել իրական հարցումները:
Առաջադրանքն այնքան էլ բարդ չէ. Ամենապարզ bash-script-ը լավ է ստացվում:
upload_log_query.sh
#!/bin/bash
#########################################################
# upload_log_query.sh
# Upload table table from dowloaded aws file
# version HABR
###########################################################
echo 'TIMESTAMP:'$(date +%c)' Upload log_query table '
source_file=$1
echo 'source_file='$source_file
database_id=$2
echo 'database_id='$database_id
beginer=' '
first_line='1'
let "line_count=0"
sql_line=' '
sql_flag=' '
space=' '
cat $source_file | while read line
do
line="$space$line"
if [[ $first_line == "1" ]]; then
beginer=`echo $line | awk -F" " '{ print $1}' `
first_line='0'
fi
current_beginer=`echo $line | awk -F" " '{ print $1}' `
if [[ $current_beginer == $beginer ]]; then
if [[ $sql_flag == '1' ]]; then
sql_flag='0'
log_date=`echo $sql_line | awk -F" " '{ print $1}' `
log_time=`echo $sql_line | awk -F" " '{ print $2}' `
duration=`echo $sql_line | awk -F" " '{ print $5}' `
#replace ' to ''
sql_modline=`echo "$sql_line" | sed 's/'''/''''''/g'`
sql_line=' '
################
#PROCESSING OF THE SQL-SELECT IS HERE
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d DATABASE -v ON_ERROR_STOP=1 -A -t -c "select log_query('$ip_port',$database_id , '$log_date' , '$log_time' , '$duration' , '$sql_modline' )"
then
echo 'FATAL_ERROR - log_query '
exit 1
fi
################
fi #if [[ $sql_flag == '1' ]]; then
let "line_count=line_count+1"
check=`echo $line | awk -F" " '{ print $8}' `
check_sql=${check^^}
#echo 'check_sql='$check_sql
if [[ $check_sql == 'SELECT' ]]; then
sql_flag='1'
sql_line="$sql_line$line"
ip_port=`echo $sql_line | awk -F":" '{ print $4}' `
fi
else
if [[ $sql_flag == '1' ]]; then
sql_line="$sql_line$line"
fi
fi #if [[ $current_beginer == $beginer ]]; then
done
Այժմ դուք կարող եք աշխատել մատյան ֆայլից արդյունահանված հարցման հետ:
Եվ կան մի քանի օգտակար հնարավորություններ.
Վերլուծված հարցումները պետք է ինչ-որ տեղ պահվեն: Դրա համար օգտագործվում է սպասարկման սեղան: log_query
CREATE TABLE log_query
(
id SERIAL ,
queryid bigint ,
query_md5hash text not null ,
database_id integer not null ,
timepoint timestamp without time zone not null,
duration double precision not null ,
query text not null ,
explained_plan text[],
plan_md5hash text ,
explained_plan_wo_costs text[],
plan_hash_value text ,
baseline_id integer ,
ip text ,
port text
);
ALTER TABLE log_query ADD PRIMARY KEY (id);
ALTER TABLE log_query ADD CONSTRAINT queryid_timepoint_unique_key UNIQUE (queryid, timepoint );
ALTER TABLE log_query ADD CONSTRAINT query_md5hash_timepoint_unique_key UNIQUE (query_md5hash, timepoint );
CREATE INDEX log_query_timepoint_idx ON log_query (timepoint);
CREATE INDEX log_query_queryid_idx ON log_query (queryid);
ALTER TABLE log_query ADD CONSTRAINT database_id_fk FOREIGN KEY (database_id) REFERENCES database (id) ON DELETE CASCADE ;
Վերլուծված հարցումը մշակվում է plpgsql գործառույթներ»log_query.
log_query.sql
--log_query.sql
--verison HABR
CREATE OR REPLACE FUNCTION log_query( ip_port text ,log_database_id integer , log_date text , log_time text , duration text , sql_line text ) RETURNS boolean AS $$
DECLARE
result boolean ;
log_timepoint timestamp without time zone ;
log_duration double precision ;
pos integer ;
log_query text ;
activity_string text ;
log_md5hash text ;
log_explain_plan text[] ;
log_planhash text ;
log_plan_wo_costs text[] ;
database_rec record ;
pg_stat_query text ;
test_log_query text ;
log_query_rec record;
found_flag boolean;
pg_stat_history_rec record ;
port_start integer ;
port_end integer ;
client_ip text ;
client_port text ;
log_queryid bigint ;
log_query_text text ;
pg_stat_query_text text ;
BEGIN
result = TRUE ;
RAISE NOTICE '***log_query';
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = duration:: double precision;
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
activity_string = 'New query has logged '||
' database_id = '|| log_database_id ||
' query_md5hash='||log_md5hash||
' , timepoint = '||to_char(log_timepoint,'YYYYMMDD HH24:MI:SS');
RAISE NOTICE '%',activity_string;
PERFORM pg_log( log_database_id , 'log_query' , activity_string);
EXCEPTION
WHEN unique_violation THEN
RAISE NOTICE '*** unique_violation *** query already has logged';
END;
SELECT queryid
INTO log_queryid
FROM log_query
WHERE query_md5hash = log_md5hash AND
timepoint = log_timepoint;
IF log_queryid IS NOT NULL
THEN
RAISE NOTICE 'log_query with query_md5hash = % and timepoint = % has already has a QUERYID = %',log_md5hash,log_timepoint , log_queryid ;
RETURN result;
END IF;
------------------------------------------------
RAISE NOTICE 'Update queryid';
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
RETURN result ;
END
$$ LANGUAGE plpgsql;
Մշակելիս օգտագործվում է սպասարկման աղյուսակը pg_stat_db_queriesA, որը պարունակում է աղյուսակի ընթացիկ հարցումների պատկերը pg_stat_history (Աղյուսակի օգտագործումը նկարագրված է այստեղ −
TABLE pg_stat_db_queries
(
database_id integer,
queryid bigint ,
query text ,
max_time double precision
);
TABLE pg_stat_history
(
…
database_id integer ,
…
queryid bigint ,
…
max_time double precision ,
…
);
Ֆունկցիան թույլ է տալիս իրականացնել մի շարք օգտակար գործառույթներ log ֆայլից հարցումները մշակելու համար: Այսինքն:
Հնարավորություն #1 - Հարցումների կատարման պատմություն
Շատ օգտակար է կատարման միջադեպ սկսելու համար: Նախ, ծանոթացեք պատմությանը, և ե՞րբ է սկսվել դանդաղումը:
Այնուհետեւ, ըստ դասականների, փնտրեք արտաքին պատճառներ: Պարզապես կարող է լինել, որ տվյալների բազայի բեռնվածությունը կտրուկ ավելացել է, և կոնկրետ հարցումը դրա հետ կապ չունի:
Ավելացնել նոր մուտք log_query աղյուսակում
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = to_number(duration,'99999999999999999999D9999999999');
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
RAISE NOTICE 'log_query=%',log_query ;
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
Առանձնահատկություն # 2 - Պահպանեք հարցումների կատարման պլանները
Այս պահին կարող է առաջանալ առարկություն-պարզաբանում-մեկնաբանություն.Բայց արդեն կա autoexplain«. Այո, այդպես է, բայց ի՞նչ իմաստ ունի, եթե կատարման պլանը պահվում է նույն log ֆայլում և այն հետագա վերլուծության համար պահպանելու համար պետք է վերլուծել log ֆայլը:
Այնուամենայնիվ, ինձ անհրաժեշտ էր.
նախ. կատարման պլանը պահել մոնիտորինգի տվյալների բազայի սպասարկման աղյուսակում.
երկրորդ. կարողանալ համեմատել կատարման պլանները միմյանց հետ, որպեսզի անմիջապես տեսնեն, որ հարցումների կատարման պլանը փոխվել է:
Հասանելի է կոնկրետ կատարման պարամետրերով հարցում: EXPLAIN-ի միջոցով դրա կատարման պլանի ձեռքբերումն ու պահպանումը տարրական խնդիր է:
Ավելին, օգտագործելով EXPLAIN (COSTS FALSE) արտահայտությունը, դուք կարող եք ստանալ պլանի շրջանակը, որը կօգտագործվի պլանի հեշ արժեքը ստանալու համար, որը կօգնի հետագա կատարման պլանի փոփոխությունների պատմության վերլուծությանը:
Ստացեք կատարման պլանի ձևանմուշ
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
Հնարավորություն #3 - Օգտագործելով հարցումների մատյանը մոնիտորինգի համար
Քանի որ կատարողականի չափումները կազմաձևված են ոչ թե հարցման տեքստի, այլ դրա ID-ի համար, դուք պետք է կապակցեք մատյան ֆայլի հարցումները այն հարցումների հետ, որոնց համար կազմաձևված են կատարողականի չափումները:
Դե, գոնե ներկայացման միջադեպի տեղի ունենալու ճշգրիտ ժամանակը ունենալու համար։
Այսպիսով, երբ կատարման միջադեպ է տեղի ունենում հարցման ID-ի համար, կլինի հղում դեպի կոնկրետ հարցում՝ հատուկ պարամետրի արժեքներով և կատարման ճշգրիտ ժամանակով և խնդրանքի տևողությամբ: Ստացեք տրված տեղեկատվությունը միայն տեսարանից pg_stat_statements - արգելված է։
Գտեք հարցման հարցումը և թարմացրեք գրառումը log_query աղյուսակում
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
Հետո
Արդյունքում նկարագրված մեթոդը գտել է իր կիրառությունը
Թեև, իհարկե, իմ անձնական կարծիքով, դեռ անհրաժեշտ կլինի աշխատել ներբեռնված մասի ընտրության և չափը փոխելու ալգորիթմի վրա։ Ընդհանուր դեպքում խնդիրը դեռ լուծված չէ։ Հավանաբար հետաքրքիր կլինի։
Բայց դա բոլորովին այլ պատմություն է...
Source: www.habr.com