يا ٿورڙي لاڳو ٿيل tetrisology.
هر نئين شيءِ پراڻي کي وساري ويٺي آهي.
Epigraphs.
مسئلو جي ترتيب
توهان کي وقتي طور تي موجوده PostgreSQL لاگ فائل ڊائون لوڊ ڪرڻ جي ضرورت آهي AWS ڪلائوڊ کان توهان جي مقامي لينڪس ميزبان ڏانهن. حقيقي وقت ۾ نه، پر، اچو ته چوندا آهن، ٿوري دير سان.
لاگ فائل اپڊيٽ ڊائون لوڊ جي مدت 5 منٽ آهي.
AWS ۾ لاگ فائل هر ڪلاڪ گھميل آهي.
استعمال ٿيل اوزار
لاگ فائل کي ميزبان کي ڊائون لوڊ ڪرڻ لاء، هڪ بش اسڪرپٽ استعمال ڪيو ويندو آهي جيڪو AWS API کي سڏيندو آهي "
تقسيم:
- -db-instance-identifier: AWS مثال جو نالو؛
- --log-file-name: هن وقت ٺاهيل لاگ فائل جو نالو
- --max-item: ڪمانڊ آئوٽ پٽ ۾ موٽايل شيون جو ڪل تعداد.ڊائون لوڊ ڪيل فائل جو حصو سائيز.
- شروعاتي ٽوڪن: شروعاتي ٽوڪن
۽ اهو سادو آهي - ڪم ڪندڙ ڪلاڪن دوران تربيت ۽ مختلف قسمن لاء هڪ دلچسپ ڪم.
مان سمجهان ٿو ته اهو مسئلو اڳ ۾ ئي حل ٿي چڪو آهي روزمره جي زندگي جي ڪري. پر هڪ تڪڙو گوگل ڪو به حل تجويز نه ڪيو، ۽ مون کي وڌيڪ کوٽائي ۾ ڳولڻ جي گهڻي خواهش نه هئي. ڪنهن به صورت ۾، اهو هڪ سٺو ورزش آهي.
ڪم جي رسم الخط
فائنل لاگ فائل متغير ڊگھائي جي ڪيترن ئي لائينن تي مشتمل آھي. گرافڪ طور تي، لاگ فائل کي ڪجهه هن طرح نمائندگي ڪري سگهجي ٿو:
ڇا اهو اڳ ۾ ئي توهان کي ڪجهه ياد ڏياريندو آهي؟ Tetris جو ان سان ڇا تعلق آهي؟ ۽ هتي اهو آهي ته ان سان ڇا ڪرڻو آهي.
جيڪڏهن اسان ممڪن اختيارن جو تصور ڪريون ٿا جيڪي پيدا ٿين ٿيون جڏهن ايندڙ فائل کي گرافڪ طور تي لوڊ ڪندي (سادگي لاء، هن صورت ۾، لائينون ساڳيا ڊگھائي هجن)، اسان حاصل ڪندا آهيون. معياري Tetris ٽڪر:
1) فائل مڪمل طور تي ڊائون لوڊ ڪئي وئي آهي ۽ حتمي آهي. حصو سائيز فائنل فائل جي سائيز کان وڏو آهي:
2) فائل جاري آهي. chunk سائيز فائنل فائل جي سائيز کان ننڍو آهي:
3) فائل پوئين فائل جو تسلسل آهي ۽ هڪ تسلسل آهي. ٿلهو سائيز فائنل فائل جي باقي سائيز کان ننڍو آهي:
4) فائل پوئين فائل جو تسلسل آهي ۽ آخري آهي. ٿلهو سائيز فائنل فائل جي باقي سائيز کان وڏو آهي:
ڪم هڪ مستطيل گڏ ڪرڻ يا نئين سطح تي Tetris کيڏڻ آهي.
مسئلا حل ڪرڻ دوران پيدا ٿيندڙ مسئلا
1) 2 ٽڪرن جي تار کي گلو ڪريو
عام طور تي، ڪو خاص مسئلا نه هئا. شروعاتي پروگرامنگ ڪورس کان هڪ معياري مسئلو.
بهترين خدمت جي ماپ
پر اهو ٿورو وڌيڪ دلچسپ آهي.
بدقسمتي سان، شروعاتي حصي جي ليبل کان پوء آفٽ استعمال ڪرڻ جو ڪو طريقو ناهي:
جيئن ته توھان اڳ ۾ ئي ڄاڻو ٿا اختيار - starting-token استعمال ڪيو ويندو آھي بيان ڪرڻ لاءِ ته ڪٿي صفحي لڳائڻ شروع ڪجي. هي آپشن اسٽرنگ ويلز وٺي ٿو جنهن جو مطلب اهو ٿيندو ته جيڪڏهن توهان اڳيان ٽوڪن اسٽرنگ جي سامهون هڪ آفسٽ ويليو شامل ڪرڻ جي ڪوشش ڪندا ته ان آپشن کي آفسٽ طور تي غور نه ڪيو ويندو.
۽ تنهن ڪري، توهان کي ان کي حصن ۾ پڙهڻ گهرجي.
جيڪڏهن توهان وڏن حصن ۾ پڙهو ٿا، پڙهڻ جو تعداد گهٽ ۾ گهٽ ٿيندو، پر حجم وڌ ۾ وڌ ٿيندو.
جيڪڏهن توهان ننڍن حصن ۾ پڙهو، ته ان جي ابتڙ، پڙهڻ جو تعداد وڌ ۾ وڌ ٿيندو، پر حجم گهٽ ۾ گهٽ ٿيندو.
تنهن ڪري، ٽرئفڪ کي گهٽائڻ ۽ حل جي مجموعي خوبصورتي لاء، مون کي ڪجهه قسم جي حل سان گڏ اچڻو پيو، جيڪو بدقسمتي سان ٿورڙي ڪرچ وانگر نظر اچي ٿو.
مثال لاءِ، اچو ته غور ڪريون لاگ فائل ڊائون لوڊ ڪرڻ جي عمل کي 2 وڏين آسان ورزن ۾. ٻنهي صورتن ۾ پڙهڻ جو تعداد حصو جي سائيز تي منحصر آهي.
1) ننڍن حصن ۾ لوڊ ڪريو:
2) وڏن حصن ۾ لوڊ ڪريو:
هميشه وانگر، بهترين حل وچ ۾ آهي.
خدمت ڪرڻ واري سائيز گھٽ ۾ گھٽ آھي، پر پڙھڻ جي عمل دوران، پڙھڻ جو تعداد گھٽائڻ لاءِ ماپ وڌائي سگھجي ٿو.
اهو نوٽ ڪرڻ گهرجي ته پڙهڻ جي قابل حصي جي بهترين سائيز جي چونڊ جو مسئلو اڃا تائين حل نه ڪيو ويو آهي ۽ وڌيڪ گهري مطالعي ۽ تجزيو جي ضرورت آهي. شايد ٿوري دير کان پوء.
عمل جي عام وضاحت
استعمال ٿيل خدمت ٽيبل
CREATE TABLE endpoint
(
id SERIAL ,
host text
);
TABLE database
(
id SERIAL ,
…
last_aws_log_time text ,
last_aws_nexttoken text ,
aws_max_item_size integer
);
last_aws_log_time — временная метка последнего загруженного лог-файла в формате YYYY-MM-DD-HH24.
last_aws_nexttoken — текстовая метка последней загруженной порции.
aws_max_item_size- эмпирическим путем, подобранный начальный размер порции.
مڪمل اسڪرپٽ متن
ڊائون لوڊ_aws_piece.sh
#!/bin/bash
#########################################################
# download_aws_piece.sh
# downloan piece of log from AWS
# version HABR
let min_item_size=1024
let max_item_size=1048576
let growth_factor=3
let growth_counter=1
let growth_counter_max=3
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:''STARTED'
AWS_LOG_TIME=$1
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:AWS_LOG_TIME='$AWS_LOG_TIME
database_id=$2
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:database_id='$database_id
RESULT_FILE=$3
endpoint=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE_DATABASE -A -t -c "select e.host from endpoint e join database d on e.id = d.endpoint_id where d.id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:endpoint='$endpoint
db_instance=`echo $endpoint | awk -F"." '{print toupper($1)}'`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:db_instance='$db_instance
LOG_FILE=$RESULT_FILE'.tmp_log'
TMP_FILE=$LOG_FILE'.tmp'
TMP_MIDDLE=$LOG_FILE'.tmp_mid'
TMP_MIDDLE2=$LOG_FILE'.tmp_mid2'
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:current_aws_log_time='$current_aws_log_time
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh:is_new_log='$is_new_log
let last_aws_max_item_size=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select aws_max_item_size from database where id = $database_id "`
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: last_aws_max_item_size='$last_aws_max_item_size
let count=1
if [[ $is_new_log == '1' ]];
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF NEW AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 2
fi
else
next_token=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "select last_aws_nexttoken from database where id = $database_id "`
if [[ $next_token == '' ]];
then
next_token='0'
fi
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: CONTINUE DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 3
fi
line_count=`cat $LOG_FILE | wc -l`
let lines=$line_count-1
tail -$lines $LOG_FILE > $TMP_MIDDLE
mv -f $TMP_MIDDLE $LOG_FILE
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
if [[ $next_token == '' ]];
then
cp $TMP_FILE $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
else
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
fi
first_str=`tail -1 $TMP_FILE`
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
head -$lines $TMP_FILE > $RESULT_FILE
###############################################
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
#
#################################################################
exit 0
لکت جا ٽڪرا ڪجھ وضاحتن سان:
اسڪرپٽ ان پٽ پيٽرولر:
- لاگ فائل جي نالي جو ٽائم اسٽيمپ فارميٽ ۾ YYYY-MM-DD-HH24: AWS_LOG_TIME=$1
- ڊيٽابيس جي سڃاڻپ: database_id=$2
- گڏ ڪيل لاگ فائل جو نالو: RESULT_FILE=$3
آخري لوڊ ٿيل لاگ فائل جو ٽائم اسٽيمپ حاصل ڪريو:
current_aws_log_time=`psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -c "select last_aws_log_time from database where id = $database_id "`
جيڪڏهن آخري لوڊ ٿيل لاگ فائل جو ٽائم اسٽيمپ ان پٽ پيٽرول سان نه ٿو ملي، هڪ نئين لاگ فائل لوڊ ڪئي وئي آهي:
if [[ $current_aws_log_time != $AWS_LOG_TIME ]];
then
is_new_log='1'
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -v ON_ERROR_STOP=1 -A -t -c "update database set last_aws_log_time = '$AWS_LOG_TIME' where id = $database_id "
then
echo '***download_aws_piece.sh -FATAL_ERROR - update database set last_aws_log_time .'
exit 1
fi
else
is_new_log='0'
fi
اسان ڊائون لوڊ ڪيل فائل مان ايندڙ ٽوڪن ليبل جي قيمت حاصل ڪندا آهيون:
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
هڪ خالي ايندڙ ٽوڪن قدر ڊائون لوڊ جي آخر جي نشاني طور ڪم ڪري ٿو.
هڪ لوپ ۾، اسان فائل جي حصن کي ڳڻيو، رستي ۾ لائينون ڳنڍيندي ۽ حصي جي سائيز کي وڌايو:
مکيه لوپ
# MAIN CIRCLE
let count=2
while [[ $next_token != '' ]];
do
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: count='$count
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: START DOWNLOADING OF AWS LOG'
if ! aws rds download-db-log-file-portion
--max-items $last_aws_max_item_size
--starting-token $next_token
--region REGION
--db-instance-identifier $db_instance
--log-file-name error/postgresql.log.$AWS_LOG_TIME > $LOG_FILE
then
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: FATAL_ERROR - Could not get log from AWS .'
exit 4
fi
next_token_str=`cat $LOG_FILE | grep NEXTTOKEN`
next_token=`echo $next_token_str | awk -F" " '{ print $2}' `
TMP_FILE=$LOG_FILE'.tmp'
grep -v NEXTTOKEN $LOG_FILE > $TMP_FILE
last_str=`head -1 $TMP_FILE`
if [[ $next_token == '' ]];
then
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_FILE >> $RESULT_FILE
echo $(date +%Y%m%d%H%M)': download_aws_piece.sh: NEXTTOKEN NOT FOUND - FINISH '
rm $LOG_FILE
rm $TMP_FILE
rm $TMP_MIDDLE
rm $TMP_MIDDLE2
exit 0
fi
if [[ $next_token != '' ]];
then
let growth_counter=$growth_counter+1
if [[ $growth_counter -gt $growth_counter_max ]];
then
let last_aws_max_item_size=$last_aws_max_item_size*$growth_factor
let growth_counter=1
fi
if [[ $last_aws_max_item_size -gt $max_item_size ]];
then
let last_aws_max_item_size=$max_item_size
fi
psql -h MONITOR_ENDPOINT.rds.amazonaws.com -U USER -d MONITOR_DATABASE -A -t -q -c "update database set last_aws_nexttoken = '$next_token' where id = $database_id "
concat_str=$first_str$last_str
echo $concat_str >> $RESULT_FILE
line_count=`cat $TMP_FILE | wc -l`
let lines=$line_count-1
#############################
#Get middle of file
head -$lines $TMP_FILE > $TMP_MIDDLE
line_count=`cat $TMP_MIDDLE | wc -l`
let lines=$line_count-1
tail -$lines $TMP_MIDDLE > $TMP_MIDDLE2
cat $TMP_MIDDLE2 >> $RESULT_FILE
first_str=`tail -1 $TMP_FILE`
fi
let count=$count+1
done
اڳتي ڇا آهي؟
تنهن ڪري، پهريون وچولي ڪم - "ڪڪر تان لاگ فائل ڊائون لوڊ ڪريو" حل ڪيو ويو آهي. ڊائون لوڊ ٿيل لاگ سان ڇا ڪجي؟
پهرين، توهان کي لاگ فائل کي پارس ڪرڻ جي ضرورت آهي ۽ ان مان حقيقي درخواستن کي ڪڍو.
ڪم تمام ڏکيو نه آهي. آسان ترين بش اسڪرپٽ تمام سٺو ڪم ڪري ٿو.
upload_log_query.sh
#!/bin/bash
#########################################################
# upload_log_query.sh
# Upload table table from dowloaded aws file
# version HABR
###########################################################
echo 'TIMESTAMP:'$(date +%c)' Upload log_query table '
source_file=$1
echo 'source_file='$source_file
database_id=$2
echo 'database_id='$database_id
beginer=' '
first_line='1'
let "line_count=0"
sql_line=' '
sql_flag=' '
space=' '
cat $source_file | while read line
do
line="$space$line"
if [[ $first_line == "1" ]]; then
beginer=`echo $line | awk -F" " '{ print $1}' `
first_line='0'
fi
current_beginer=`echo $line | awk -F" " '{ print $1}' `
if [[ $current_beginer == $beginer ]]; then
if [[ $sql_flag == '1' ]]; then
sql_flag='0'
log_date=`echo $sql_line | awk -F" " '{ print $1}' `
log_time=`echo $sql_line | awk -F" " '{ print $2}' `
duration=`echo $sql_line | awk -F" " '{ print $5}' `
#replace ' to ''
sql_modline=`echo "$sql_line" | sed 's/'''/''''''/g'`
sql_line=' '
################
#PROCESSING OF THE SQL-SELECT IS HERE
if ! psql -h ENDPOINT.rds.amazonaws.com -U USER -d DATABASE -v ON_ERROR_STOP=1 -A -t -c "select log_query('$ip_port',$database_id , '$log_date' , '$log_time' , '$duration' , '$sql_modline' )"
then
echo 'FATAL_ERROR - log_query '
exit 1
fi
################
fi #if [[ $sql_flag == '1' ]]; then
let "line_count=line_count+1"
check=`echo $line | awk -F" " '{ print $8}' `
check_sql=${check^^}
#echo 'check_sql='$check_sql
if [[ $check_sql == 'SELECT' ]]; then
sql_flag='1'
sql_line="$sql_line$line"
ip_port=`echo $sql_line | awk -F":" '{ print $4}' `
fi
else
if [[ $sql_flag == '1' ]]; then
sql_line="$sql_line$line"
fi
fi #if [[ $current_beginer == $beginer ]]; then
done
هاڻي توهان لاگ فائل مان چونڊيل درخواست سان ڪم ڪري سگهو ٿا.
۽ ڪيترائي مفيد موقعا کليل آھن.
تجزيي ڪيل سوالن کي ڪٿي رکڻو پوندو. هن لاء هڪ خدمت ٽيبل استعمال ڪيو ويندو آهي log_query
CREATE TABLE log_query
(
id SERIAL ,
queryid bigint ,
query_md5hash text not null ,
database_id integer not null ,
timepoint timestamp without time zone not null,
duration double precision not null ,
query text not null ,
explained_plan text[],
plan_md5hash text ,
explained_plan_wo_costs text[],
plan_hash_value text ,
baseline_id integer ,
ip text ,
port text
);
ALTER TABLE log_query ADD PRIMARY KEY (id);
ALTER TABLE log_query ADD CONSTRAINT queryid_timepoint_unique_key UNIQUE (queryid, timepoint );
ALTER TABLE log_query ADD CONSTRAINT query_md5hash_timepoint_unique_key UNIQUE (query_md5hash, timepoint );
CREATE INDEX log_query_timepoint_idx ON log_query (timepoint);
CREATE INDEX log_query_queryid_idx ON log_query (queryid);
ALTER TABLE log_query ADD CONSTRAINT database_id_fk FOREIGN KEY (database_id) REFERENCES database (id) ON DELETE CASCADE ;
پارس ٿيل درخواست تي عمل ڪيو ويو آهي plpgsql افعال "log_query».
log_query.sql
--log_query.sql
--verison HABR
CREATE OR REPLACE FUNCTION log_query( ip_port text ,log_database_id integer , log_date text , log_time text , duration text , sql_line text ) RETURNS boolean AS $$
DECLARE
result boolean ;
log_timepoint timestamp without time zone ;
log_duration double precision ;
pos integer ;
log_query text ;
activity_string text ;
log_md5hash text ;
log_explain_plan text[] ;
log_planhash text ;
log_plan_wo_costs text[] ;
database_rec record ;
pg_stat_query text ;
test_log_query text ;
log_query_rec record;
found_flag boolean;
pg_stat_history_rec record ;
port_start integer ;
port_end integer ;
client_ip text ;
client_port text ;
log_queryid bigint ;
log_query_text text ;
pg_stat_query_text text ;
BEGIN
result = TRUE ;
RAISE NOTICE '***log_query';
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = duration:: double precision;
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
activity_string = 'New query has logged '||
' database_id = '|| log_database_id ||
' query_md5hash='||log_md5hash||
' , timepoint = '||to_char(log_timepoint,'YYYYMMDD HH24:MI:SS');
RAISE NOTICE '%',activity_string;
PERFORM pg_log( log_database_id , 'log_query' , activity_string);
EXCEPTION
WHEN unique_violation THEN
RAISE NOTICE '*** unique_violation *** query already has logged';
END;
SELECT queryid
INTO log_queryid
FROM log_query
WHERE query_md5hash = log_md5hash AND
timepoint = log_timepoint;
IF log_queryid IS NOT NULL
THEN
RAISE NOTICE 'log_query with query_md5hash = % and timepoint = % has already has a QUERYID = %',log_md5hash,log_timepoint , log_queryid ;
RETURN result;
END IF;
------------------------------------------------
RAISE NOTICE 'Update queryid';
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
RETURN result ;
END
$$ LANGUAGE plpgsql;
هڪ خدمت ٽيبل پروسيسنگ دوران استعمال ڪيو ويندو آهي pg_stat_db_queries, جنهن ۾ ٽيبل مان موجوده سوالن جو هڪ سنيپ شاٽ pg_stat_history (ٽيبل جو استعمال هتي بيان ڪيو ويو آهي -
TABLE pg_stat_db_queries
(
database_id integer,
queryid bigint ,
query text ,
max_time double precision
);
TABLE pg_stat_history
(
…
database_id integer ,
…
queryid bigint ,
…
max_time double precision ,
…
);
فنڪشن توهان کي لاگ فائل مان پروسيسنگ درخواستن لاءِ ڪيترن ئي مفيد صلاحيتن کي لاڳو ڪرڻ جي اجازت ڏئي ٿو. يعني:
موقعو #1 - پڇا ڳاڇا جي تاريخ
ڪارڪردگي واقعي کي حل ڪرڻ شروع ڪرڻ لاء تمام مفيد. پهرين، تاريخ کان واقف ٿيو - سستي ڪڏهن شروع ٿي؟
پوء، ڪلاس جي مطابق، ٻاهرين سببن لاء ڏسو. ٿي سگهي ٿو ڊيٽابيس جو لوڊ تيزيءَ سان وڌي ويو آهي ۽ مخصوص درخواست جو ان سان ڪو به واسطو ناهي.
log_query ٽيبل تي نئين داخلا شامل ڪريو
port_start = position('(' in ip_port);
port_end = position(')' in ip_port);
client_ip = substring( ip_port from 1 for port_start-1 );
client_port = substring( ip_port from port_start+1 for port_end-port_start-1 );
SELECT e.host , d.name , d.owner_pwd
INTO database_rec
FROM database d JOIN endpoint e ON e.id = d.endpoint_id
WHERE d.id = log_database_id ;
log_timepoint = to_timestamp(log_date||' '||log_time,'YYYY-MM-DD HH24-MI-SS');
log_duration = to_number(duration,'99999999999999999999D9999999999');
pos = position ('SELECT' in UPPER(sql_line) );
log_query = substring( sql_line from pos for LENGTH(sql_line));
log_query = regexp_replace(log_query,' +',' ','g');
log_query = regexp_replace(log_query,';+','','g');
log_query = trim(trailing ' ' from log_query);
RAISE NOTICE 'log_query=%',log_query ;
log_md5hash = md5( log_query::text );
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
--------------------------
BEGIN
INSERT INTO log_query
(
query_md5hash ,
database_id ,
timepoint ,
duration ,
query ,
explained_plan ,
plan_md5hash ,
explained_plan_wo_costs ,
plan_hash_value ,
ip ,
port
)
VALUES
(
log_md5hash ,
log_database_id ,
log_timepoint ,
log_duration ,
log_query ,
log_explain_plan ,
md5(log_explain_plan::text) ,
log_plan_wo_costs ,
md5(log_plan_wo_costs::text),
client_ip ,
client_port
);
امڪان #2 - محفوظ ڪريو پڇا ڳاڇا جي عملدرآمد منصوبن
هن نقطي تي هڪ اعتراض-وضاحت-تبصرو پيدا ٿي سگهي ٿو:پر اتي اڳ ۾ ئي autoexplain آهي" ها، اهو موجود آهي، پر ڇا نقطو آهي جيڪڏهن عملدرآمد پلان ساڳئي لاگ فائل ۾ ذخيرو ٿيل آهي ۽ ان کي وڌيڪ تجزيي لاء محفوظ ڪرڻ لاء، توهان کي لاگ فائل کي پارس ڪرڻو پوندو؟
مون کي ڪهڙي ضرورت هئي:
پهريون: نگراني ڊيٽابيس جي سروس ٽيبل ۾ عملدرآمد پلان کي ذخيرو ڪريو؛
ٻيو: هڪ ٻئي سان عملدرآمد منصوبن جو مقابلو ڪرڻ جي قابل ٿيڻ لاء فوري طور تي ڏسڻ لاء ته سوال جي عمل جي منصوبي کي تبديل ڪيو ويو آهي.
مخصوص عمل پيراگراف سان گڏ هڪ درخواست آهي. EXPLAIN استعمال ڪندي ان جي عملدرآمد منصوبي کي حاصل ڪرڻ ۽ محفوظ ڪرڻ هڪ ابتدائي ڪم آهي.
ان کان علاوه، EXPLAIN (COSTS FALSE) ايڪسپريس استعمال ڪندي، توھان حاصل ڪري سگھوٿا منصوبي جو ھڪڙو کنڊر، جيڪو استعمال ڪيو ويندو منصوبي جي ھش ويليو حاصل ڪرڻ لاءِ، جيڪو عمل جي منصوبي ۾ تبديلين جي تاريخ جي ايندڙ تجزيي ۾ مدد ڪندو.
حاصل ڪريو عملدرآمد پلان ٽيمپليٽ
--Explain execution plan--
EXECUTE 'SELECT dblink_connect(''LINK1'',''host='||database_rec.host||' dbname='||database_rec.name||' user=DATABASE password='||database_rec.owner_pwd||' '')';
log_explain_plan = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN '||log_query ) AS t (plan text) );
log_plan_wo_costs = ARRAY ( SELECT * FROM dblink('LINK1', 'EXPLAIN ( COSTS FALSE ) '||log_query ) AS t (plan text) );
PERFORM dblink_disconnect('LINK1');
امڪان #3 - نگراني لاءِ سوال لاگ استعمال ڪندي
جيئن ته ڪارڪردگي ميٽرڪ ترتيب ڏنل آهن درخواست جي متن تي نه، پر ان جي ID تي، توهان کي لاگ فائل مان درخواستن سان لاڳاپيل ڪرڻ جي ضرورت آهي درخواستن سان جن لاءِ ڪارڪردگي ميٽرڪ ترتيب ڏنل آهن.
خير، گهٽ ۾ گهٽ هڪ ڪارڪردگي واقعي جي واقعن جو صحيح وقت حاصل ڪرڻ لاء.
هن طريقي سان، جڏهن هڪ درخواست جي ID لاء ڪارڪردگي جو واقعو ٿئي ٿو، اتي هڪ مخصوص درخواست لاء هڪ لنڪ هوندو جيڪو مخصوص پيٽرولر جي قيمتن سان گڏ هوندو ۽ درخواست جي صحيح عمل جي وقت ۽ مدت سان. صرف ڏيک استعمال ڪندي هي معلومات حاصل ڪريو pg_stat_statements - اهو حرام آهي.
درخواست جي queryid ڳولھيو ۽ log_query ٽيبل ۾ داخل ٿيڻ کي اپڊيٽ ڪريو
SELECT *
INTO log_query_rec
FROM log_query
WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
log_query_rec.query=regexp_replace(log_query_rec.query,';+','','g');
FOR pg_stat_history_rec IN
SELECT
queryid ,
query
FROM
pg_stat_db_queries
WHERE
database_id = log_database_id AND
queryid is not null
LOOP
pg_stat_query = pg_stat_history_rec.query ;
pg_stat_query=regexp_replace(pg_stat_query,'n+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'t+',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,' +',' ','g');
pg_stat_query=regexp_replace(pg_stat_query,'$.','%','g');
log_query_text = trim(trailing ' ' from log_query_rec.query);
pg_stat_query_text = pg_stat_query;
--SELECT log_query_rec.query like pg_stat_query INTO found_flag ;
IF (log_query_text LIKE pg_stat_query_text) THEN
found_flag = TRUE ;
ELSE
found_flag = FALSE ;
END IF;
IF found_flag THEN
UPDATE log_query SET queryid = pg_stat_history_rec.queryid WHERE query_md5hash = log_md5hash AND timepoint = log_timepoint ;
activity_string = ' updated queryid = '||pg_stat_history_rec.queryid||
' for log_query with id = '||log_query_rec.id
;
RAISE NOTICE '%',activity_string;
EXIT ;
END IF ;
END LOOP ;
پوء
بيان ڪيل ٽيڪنڪ آخرڪار ايپليڪيشن ۾ مليو
جيتوڻيڪ، يقينا، منهنجي ذاتي راء ۾، اهو ضروري آهي ته ڊائون لوڊ ٿيل حصي جي سائيز کي چونڊڻ ۽ تبديل ڪرڻ لاء الگورتھم تي وڌيڪ ڪم ڪرڻ ضروري آهي. مسئلو اڃا تائين عام ڪيس ۾ حل نه ڪيو ويو آهي. اهو شايد دلچسپ ٿيندو.
پر اها هڪ مڪمل طور تي مختلف ڪهاڻي آهي ...
جو ذريعو: www.habr.com