یا یو څه پلي شوي ټیټریسولوژي.
هر څه نوي او زاړه هېر شوي دي.
Epigraphs.
د ستونزې تشکیل
دا اړینه ده چې په دوره توګه د AWS کلاوډ څخه د ځایی لینکس کوربه ته د اوسني PostgreSQL لاګ فایل ډاونلوډ کړئ. په ریښتیني وخت کې نه، مګر، موږ به ووایو، د لږ ځنډ سره.
د لاګ فایل تازه ډاونلوډ موده 5 دقیقې ده.
د لاګ فایل، په AWS کې، په هر ساعت کې څرخیږي.
کارول شوي وسایل
کوربه ته د لاګ فایل اپلوډ کولو لپاره ، د بش سکریپټ کارول کیږي چې AWS API ته زنګ وهي "
پیرامیټرې:
- --db-instance-identifier: په AWS کې د مثال نوم؛
- --log-file-name: د اوس مهال پیدا شوي لاګ فایل نوم
- --max-item: د کمانډ په محصول کې د بیرته راستنیدو ټولټال شمیر.د ډاونلوډ شوي فایل اندازه.
- --starting-token: د پیل نښه نښه
هو، او په ساده ډول - د کاري ساعتونو په جریان کې د روزنې او ډولونو لپاره په زړه پورې دنده.
زه ګومان کوم چې ستونزه لا دمخه د معمول له مخې حل شوې ده. مګر یو چټک ګوګل د حل وړاندیز نه دی کړی، او د ډیرو ژورو لټون کولو لپاره کومه ځانګړې هیله نه وه. په هرصورت، دا یو ښه تمرین دی.
د دندې رسمي کول
وروستی لاګ فایل د متغیر اوږدوالی د لینونو سیټ دی. په ګرافیک ډول، د لاګ فایل په دې ډول ښودل کیدی شي:
ایا دا دمخه تاسو ته د یو څه یادونه کوي؟ د "tetris" سره څه شی دی؟ او دلته څه دي.
که موږ د احتمالي اختیارونو استازیتوب وکړو چې د راتلونکي فایل په ګرافیک ډول پورته کولو پرمهال رامینځته کیږي (د سادګۍ لپاره ، پدې حالت کې ، کرښې ورته اوږدوالی ولري) ، موږ ترلاسه کوو. د معیاري تیتریس ارقام:
1) فایل په بشپړ ډول ډاونلوډ شوی او وروستی دی. د ټوټې اندازه د وروستي فایل اندازې څخه لویه ده:
2) فایل دوام لري. د ټوټې اندازه د وروستي فایل اندازې څخه کوچنۍ ده:
3) فایل د پخوانیو فایلونو تسلسل دی او دوام لري. د ټوټې اندازه د پاتې وروستي فایل اندازې څخه کمه ده:
4) دوتنې د پخوانۍ فایل دوام دی او وروستی دی. د ټوټې اندازه د پاتې وروستي فایل د اندازې څخه لویه ده:
دنده دا ده چې مستطیل راټول کړئ یا په نوې کچه ټیټریس پلی کړئ.
هغه ستونزې چې د حل په جریان کې رامینځته کیږي
1) د 2 برخو تار چپک کړئ
په عمومي توګه، کومه ځانګړې ستونزه نه وه. د لومړني پروګرام کولو کورس څخه یو معیاري دنده.
د خدمت کولو غوره اندازه
مګر دا یو څه ډیر په زړه پوری دی.
له بده مرغه، د پیل چنک لیبل وروسته د آفسټ کارولو لپاره کومه لاره نشته:
لکه څنګه چې تاسو دمخه پیژنئ اختیار --starting-token د دې لپاره کارول کیږي چې مشخص کړي چیرې چې پاڼه پیل کړئ. دا اختیار د سټینګ ارزښتونه اخلي چې پدې معنی به وي چې که تاسو د راتلونکي ټوکن سټرینګ مخې ته د آفیسټ ارزښت اضافه کولو هڅه وکړئ ، نو اختیار به د آفیسټ په توګه په پام کې ونه نیول شي.
او له همدې امله، تاسو باید په ټوټو - برخو کې ولولئ.
که تاسو په لویو برخو کې ولولئ، نو د لوستلو شمیر به لږترلږه وي، مګر حجم به ډیر وي.
که تاسو په کوچنیو برخو کې ولولئ، نو برعکس، د لوستلو شمیر به ډیر وي، مګر حجم به لږ وي.
له همدې امله ، د ترافیک کمولو او د حل عمومي ښکلا لپاره ، زه باید یو ډول حل راوړم ، کوم چې له بده مرغه یو څه د کرچ په څیر ښکاري.
د روښانه کولو لپاره ، راځئ چې په 2 خورا ساده نسخو کې د لاګ فایل ډاونلوډ کولو پروسې ته پام وکړو. په دواړو حالتونو کې د لوستلو شمیر د برخې اندازې پورې اړه لري.
1) په کوچنیو برخو کې بار کړئ:
2) په لویو برخو کې بار کړئ:
د معمول په څیر، غوره حل په منځ کې دی.
د برخې اندازه لږه ده، مګر د لوستلو په بهیر کې، اندازه کیدای شي د لوستلو شمیر کمولو لپاره زیات شي.
دا باید په پام کې ونیول شي دا چې د لوستې برخې د غوره اندازې د ټاکلو ستونزه لا تر اوسه په بشپړه توګه نه ده حل شوې او ژورې مطالعې او تحلیل ته اړتیا لري. شاید لږ وروسته.
د پلي کولو عمومي توضیحات
کارول شوي خدمت میزونه
CREATE TABLE endpoint
(
id SERIAL ,
host text
);
TABLE database
(
id SERIAL ,
…
last_aws_log_time text ,
last_aws_nexttoken text ,
aws_max_item_size integer
);
last_aws_log_time — временная метка последнего загруженного лог-файла в формате YYYY-MM-DD-HH24.
last_aws_nexttoken — текстовая метка последней загруженной порции.
aws_max_item_size- эмпирическим путем, подобранный начальный размер порции.
د سکریپټ بشپړ متن
دانلود_aws_piece.sh
#!/bin/bash
#########################################################
# download_aws_piece.sh
# downloan piece of log from AWS
# version HABR
let min_item_size=1024
let max_item_size=1048576
let growth_factor=3
let growth_counter=1
let growth_counter_max=3
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:''STARTED'
AWS_LOG_TIME=$1
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:AWS_LOG_TIME='$AWS_LOG_TIME
database_id=$2
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:database_id='$database_id
RESULT_FILE=$3
endpoint=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE_DATABASE -A -t -c "select e.host from endpoint e join database d on e.id = d.endpoint_id where d.id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:endpoint='$endpoint
db_instance=`echo $endpoint | awk -F"." '{print toupper($1)}'`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:db_instance='$db_instance
LOG_FILE=$RESULT_FILE'.tmp_log'
TMP_FILE=$LOG_FILE'.tmp'
TMP_MIDDLE=$LOG_FILE'.tmp_mid'
TMP_MIDDLE2=$LOG_FILE'.tmp_mid2'
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:current_aws_log_time='$current_aws_log_time
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:is_new_log='$is_new_log
let last_aws_max_item_size=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select aws_max_item_size from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: last_aws_max_item_size='$last_aws_max_item_size
let count=1
if [[ $is_new_log == '1' ]];
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF NEW AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 2
fi
else
next_token=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "select last_aws_nexttoken from database where id = $database_id "`
if [[ $next_token == '' ]];
then
next_token='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: CONTINUE DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 3
fi
line_count=`cat $LOG_FILE | wc -l`
let lines=$line_count-1
tail -$lines $LOG_FILE > $TMP_MIDDLE
mv -f $TMP_MIDDLE $LOG_FILE
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
if [[ $next_token == '' ]];
then
cp $TMP_FILE $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
else
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
fi
first_str=`tail -1 $TMP_FILE`
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
head -$lines $TMP_FILE > $RESULT_FILE
###############################################
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
#
#################################################################
exit 0
د سکریپټ ټوټې د ځینې توضیحاتو سره:
د سکریپټ داخلولو پیرامیټونه:
- د YYYY-MM-DD-HH24 بڼه کې د لاګ فایل نوم مهال ویش: AWS_LOG_TIME=$1
- د ډیټابیس ID: database_id=$2
- د راټول شوي دوتنې نوم: RESULT_FILE=$3
د وروستي اپلوډ شوي لاګ فایل مهال ویش ترلاسه کړئ:
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
که چیرې د وروستي بار شوي لاګ فایل ټایم سټمپ د ان پټ پیرامیټر سره سمون ونلري ، نو نوې لاګ فایل پورته کیږي:
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo '***download_aws_piece.sh -FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
موږ د بار شوي فایل څخه د راتلونکي ټوکن لیبل ارزښت ترلاسه کوو:
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
د ډاونلوډ پای نښه د راتلونکي ټوکن خالي ارزښت دی.
په لوپ کې، موږ د فایل برخې شمیرو، د لارې په اوږدو کې، د لینونو سره نښلول او د برخې اندازه زیاتول:
اصلي لوپ
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
ورپسی څه دي؟
نو، لومړی منځنی دنده - "له بادل څخه د لاګ فایل ډاونلوډ کړئ" حل شوی. د ډاونلوډ شوي لاګ سره څه وکړي؟
لومړی تاسو اړتیا لرئ د لاګ فایل پارس کړئ او له هغې څخه اصلي غوښتنې راوباسئ.
کار ډېر ستونزمن نه دی. ساده باش سکریپټ یوازې ښه کوي.
upload_log_query.sh
#!/bin/bash
#########################################################
# upload_log_query.sh
# Upload table table from dowloaded aws file
# version HABR
###########################################################
echo 'TIMESTAMP:'$(date +%c)' Upload log_query table '
source_file=$1
echo 'source_file='$source_file
database_id=$2
echo 'database_id='$database_id
beginer=' '
first_line='1'
let "line_count=0"
sql_line=' '
sql_flag=' '
space=' '
cat $source_file | while read line
do
line="$space$line"
if [[ $first_line == "1" ]]; then
beginer=`echo $line | awk -F" " '{ print $1}' `
first_line='0'
fi
current_beginer=`echo $line | awk -F" " '{ print $1}' `
if [[ $current_beginer == $beginer ]]; then
if [[ $sql_flag == '1' ]]; then
sql_flag='0'
log_date=`echo $sql_line | awk -F" " '{ print $1}' `
log_time=`echo $sql_line | awk -F" " '{ print $2}' `
duration=`echo $sql_line | awk -F" " '{ print $5}' `
#replace ' to ''
sql_modline=`echo "$sql_line" | sed 's/'''/''''''/g'`
sql_line=' '
################
#PROCESSING OF THE SQL-SELECT IS HERE
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d DATABASE -v ON_ERROR_STOP=1 -A -t -c "select log_query('$ip_port',$database_id , '$log_date' , '$log_time' , '$duration' , '$sql_modline' )"
then
echo 'FATAL_ERROR - log_query '
exit 1
fi
################
fi #if [[ $sql_flag == '1' ]]; then
let "line_count=line_count+1"
check=`echo $line | awk -F" " '{ print $8}' `
check_sql=${check^^}
#echo 'check_sql='$check_sql
if [[ $check_sql == 'SELECT' ]]; then
sql_flag='1'
sql_line="$sql_line$line"
ip_port=`echo $sql_line | awk -F":" '{ print $4}' `
fi
else
if [[ $sql_flag == '1' ]]; then
sql_line="$sql_line$line"
fi
fi #if [[ $current_beginer == $beginer ]]; then
done
اوس تاسو کولی شئ د لاګ فایل څخه استخراج شوي پوښتنې سره کار وکړئ.
او یو شمیر ګټور امکانات شتون لري.
تجزیه شوي پوښتنې باید په کوم ځای کې زیرمه شي. د دې لپاره، د خدماتو میز کارول کیږي. log_query
CREATE TABLE log_query
(
id SERIAL ,
queryid bigint ,
query_md5hash text not null ,
database_id integer not null ,
timepoint timestamp without time zone not null,
duration double precision not null ,
query text not null ,
explained_plan text[],
plan_md5hash text ,
explained_plan_wo_costs text[],
plan_hash_value text ,
baseline_id integer ,
ip text ,
port text
);
ALTER TABLE log_query ADD PRIMARY KEY (id);
ALTER TABLE log_query ADD CONSTRAINT queryid_timepoint_unique_key UNIQUE (queryid, timepoint );
ALTER TABLE log_query ADD CONSTRAINT query_md5hash_timepoint_unique_key UNIQUE (query_md5hash, timepoint );
CREATE INDEX log_query_timepoint_idx ON log_query (timepoint);
CREATE INDEX log_query_queryid_idx ON log_query (queryid);
ALTER TABLE log_query ADD CONSTRAINT database_id_fk FOREIGN KEY (database_id) REFERENCES database (id) ON DELETE CASCADE ;
تجزیه شوې غوښتنه په کې پروسس کیږي plpgsql دندې"log_query".
log_query.sql
--log_query.sql
--verison HABR
CREATE OR REPLACE FUNCTION log_query( ip_port text ,log_database_id integer , log_date text , log_time text , duration text , sql_line text ) RETURNS boolean AS $$
DECLARE
result boolean ;
log_timepoint timestamp without time zone ;
log_duration double precision ;
pos integer ;
log_query text ;
activity_string text ;
log_md5hash text ;
log_explain_plan text[] ;
log_planhash text ;
log_plan_wo_costs text[] ;
database_rec record ;
pg_stat_query text ;
test_log_query text ;
log_query_rec record;
found_flag boolean;
pg_stat_history_rec record ;
port_start integer ;
port_end integer ;
client_ip text ;
client_port text ;
log_queryid bigint ;
log_query_text text ;
pg_stat_query_text text ;
BEGIN
result = TRUE ;
RAISE NOTICE '***log_query';
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = duration:: double precision;
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
activity_string = 'New query has logged '||
' database_id = '|| log_database_id ||
' query_md5hash='||log_md5hash||
' , timepoint = '||to_char(log_timepoint,'YYYYMMDD HH24:MI:SS');
RAISE NOTICE '%',activity_string;
PERFORM pg_log( log_database_id , 'log_query' , activity_string);
EXCEPTION
WHEN unique_violation THEN
RAISE NOTICE '*** unique_violation *** query already has logged';
END;
SELECT queryid
INTO log_queryid
FROM log_query
WHERE query_md5hash = log_md5hash AND
timepoint = log_timepoint;
IF log_queryid IS NOT NULL
THEN
RAISE NOTICE 'log_query with query_md5hash = % and timepoint = % has already has a QUERYID = %',log_md5hash,log_timepoint , log_queryid ;
RETURN result;
END IF;
------------------------------------------------
RAISE NOTICE 'Update queryid';
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
RETURN result ;
END
$$ LANGUAGE plpgsql;
کله چې پروسس کیږي، د خدماتو میز کارول کیږي pg_stat_db_queriesA چې د میز څخه د اوسنیو پوښتنو سنیپ شاټ لري pg_stat_history (د جدول کارول دلته تشریح شوي -
TABLE pg_stat_db_queries
(
database_id integer,
queryid bigint ,
query text ,
max_time double precision
);
TABLE pg_stat_history
(
…
database_id integer ,
…
queryid bigint ,
…
max_time double precision ,
…
);
فنکشن تاسو ته اجازه درکوي د لاګ فایل څخه د غوښتنو پروسس کولو لپاره یو شمیر ګټورې ب featuresې پلي کړئ. یعنې:
فرصت #1 - د پوښتنې د اجرا تاریخ
د فعالیت پیښې پیل کولو لپاره خورا ګټور. لومړی، د تاریخ سره آشنا شئ - او ورو ورو کله پیل شو؟
بیا، د کلاسیکونو له مخې، د بهرنیو لاملونو لپاره وګورئ. دا ممکن وي چې د ډیټابیس بار په ډراماتیک ډول لوړ شوی وي او ځانګړې غوښتنه د دې سره هیڅ تړاو نلري.
د log_query جدول ته نوې ننوتل اضافه کړئ
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = to_number(duration,'99999999999999999999D9999999999');
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
RAISE NOTICE 'log_query=%',log_query ;
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
فیچر #2 - د پوښتنو اجرا کولو پلانونه خوندي کړئ
په دې وخت کې، یو اعتراض - وضاحت - تبصره راپورته کیدی شي: "مګر لا دمخه پخپله تشریح شتون لري". هو، دا دی، مګر څه شی دی که چیرې د اجرا کولو پلان په ورته لاګ فایل کې زیرمه شوی وي او د نورو تحلیلونو لپاره یې خوندي کولو لپاره ، تاسو باید د لاګ فایل پارس کړئ؟
په هرصورت، ما اړتیا درلوده:
لومړی: د څارنې ډیټابیس د خدماتو جدول کې د اجرا کولو پلان ذخیره کړئ؛
دوهم: د دې وړتیا ولرئ چې د پلي کولو پلانونه له یو بل سره پرتله کړئ ترڅو سمدلاسه وګورئ چې د پوښتنې اجرا کولو پلان بدل شوی.
د ځانګړي اجرا کولو پیرامیټونو سره غوښتنه شتون لري. د EXPLAIN په کارولو سره د دې اجرا کولو پلان ترلاسه کول او ذخیره کول یو ابتدايي دنده ده.
سربیره پردې ، د توضیحاتو (لګښت غلط) بیان په کارولو سره ، تاسو کولی شئ د پلان چوکاټ ترلاسه کړئ ، کوم چې به د پلان د هش ارزښت ترلاسه کولو لپاره وکارول شي ، کوم چې به د پلي کولو پلان د بدلون تاریخ راتلونکي تحلیل کې مرسته وکړي.
د اجرا کولو پلان ټیمپلیټ ترلاسه کړئ
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
فرصت #3 - د څارنې لپاره د پوښتنې لاګ کارول
څرنګه چې د فعالیت میټریکونه د غوښتنې متن لپاره نه، بلکې د دې ID لپاره ترتیب شوي، تاسو اړتیا لرئ چې د لاګ فایل څخه غوښتنې د هغو غوښتنو سره شریک کړئ چې د فعالیت میټریکونه ترتیب شوي.
ښه، لږترلږه د دې لپاره چې د فعالیت پیښې واقع کیدو دقیق وخت ولري.
په دې توګه، کله چې د غوښتنې ID لپاره د فعالیت پیښه واقع شي، نو د ځانګړي پیرامیټر ارزښتونو او د غوښتنې دقیق اجرا کولو وخت او موده سره به یوې ځانګړې غوښتنې ته مراجعه وشي. یوازې د لید په کارولو سره ورکړل شوي معلومات ترلاسه کړئ pg_stat_statements - دا حرام دی.
د پوښتنلیک ایډیټ ومومئ او د log_query جدول کې ننوتل تازه کړئ
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
وروسته
د پایلې په توګه، تشریح شوي میتود خپل غوښتنلیک موندلی دی
که څه هم، البته، زما په شخصي نظر کې، دا به لاهم اړین وي چې د ډاونلوډ شوي برخې اندازه غوره کولو او بدلولو لپاره په الګوریتم کې کار وکړو. په عمومي صورت کې تر اوسه ستونزه نه ده حل شوې. دا به شاید په زړه پورې وي.
مګر دا یو بشپړ مختلف کیسه ده ...
سرچینه: www.habr.com