Сайт статистикасы және өзіңіздің шағын жадыңыз

Көптеген жылдар бойы Webalizer және Google Analytics веб-сайттарда не болып жатқанын түсінуге көмектесті. Енді мен олардың өте аз пайдалы ақпарат беретінін түсіндім. Access.log файлына қатынасу арқылы статистиканы түсіну өте қарапайым және тек SQLite, HTML, SQL және кез келген сценарий тілі сияқты негізгі құралдарды қажет етеді.

Webalizer бағдарламасының деректер көзі access.log файлы болып табылады. серверОның бағандары мен сандары осылай көрінеді, олардан тек жалпы трафик көлемі ғана анық көрінеді:

Сайт статистикасы және өзіңіздің шағын жадыңыз
Сайт статистикасы және өзіңіздің шағын жадыңыз
Google Analytics сияқты құралдар жүктелген беттен деректерді автоматты түрде жинайды. Олар бізге бірнеше диаграммалар мен сызықтарды көрсетеді, олардан жиі мағыналы қорытынды жасау қиын. Мүмкін көп күш жұмсау керек болды ма? Мен білмеймін.

Сонымен, мен сайтқа кіру статистикасында не көргім келді?

Пайдаланушы және бот трафигі

Веб-сайт трафигі жиі шектеледі және қаншалықты пайдалы трафик пайдаланылып жатқанын көру маңызды. Мысалы:

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

График тұрақты бот белсенділігін көрсетеді. Ең белсенді өкілдерді егжей-тегжейлі зерттеу қызықты болар еді.

Тітіркендіргіш боттар

Біз боттарды пайдаланушы агентінің ақпараты негізінде жіктейміз. Күнделікті трафик туралы қосымша статистика және сәтті және сәтсіз сұраулар саны бот белсенділігін жақсы түсінуге мүмкіндік береді.

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Бұл жағдайда талдау нәтижесі robots.txt файлына қосу арқылы сайтқа кіруді шектеу туралы шешім болды.

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Алғашқы екі бот үстелден жоғалып кетті, ал MS роботтары бірінші жолдардан төмен қарай жылжыды.

Ең үлкен белсенділіктің күні мен уақыты

Қозғалыс төбелері көрінеді. Оларды егжей-тегжейлі қарастыру үшін олардың пайда болған уақытын бөлектеу қажет, бірақ уақытты өлшеудің әрбір сағаты мен күнін көрсету міндетті емес. Бұл егжей-тегжейлі талдау қажет болса, журнал файлында жеке сұрауларды табуды жеңілдетеді.

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Біз диаграммада ең белсенді сағаттарды көреміз: бірінші күні 11, 14 және 20. Бірақ келесі күні сағат 13:00-де боттар белсенді болды.

Апта бойынша орташа күнделікті пайдаланушы белсенділігі

Біз белсенділік пен трафикті біраз ретке келтірдік. Келесі сұрақ пайдаланушы әрекетінің өзі болды. Мұндай статистика үшін апта сияқты ұзағырақ жинақтау кезеңдері қажет.

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Апталық статистика орташа есеппен бір қолданушы күніне 1,6 бет ашатынын көрсетеді. Бұл жағдайда бір пайдаланушыға сұралатын файлдардың саны сайтқа жаңа файлдардың қосылуына байланысты.

Барлық сұраулар және олардың күйлері

Webalizer әрқашан нақты бет кодтарын көрсетті, мен әрқашан сәтті сұраулар мен қателердің санын көргім келді.

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Есеп шертулерді (соққыларды) емес, сұрауларды көрсетеді. LINE_CNT айырмашылығы, REQUEST_CNT көрсеткіші COUNT(DISTINCT STG.REQUEST_NK) ретінде есептеледі. Мақсат - тиімді оқиғаларды көрсету. Мысалы, MS боттары robots.txt файлын күніне жүздеген рет сұрайды және бұл жағдайда мұндай сұраулар тек бір рет есептеледі. Бұл графиктегі кез келген төбелерді тегістеуге көмектеседі.

График көптеген қателерді көрсетеді — бұл жоқ беттер. Талдау нәтижесінде жойылған беттерден қайта бағыттаулар қосылды.

Дұрыс емес сұраулар

Сұраныстарды егжей-тегжейлі тексеру үшін егжей-тегжейлі статистиканы көрсетуге болады.

Сайт статистикасы және өзіңіздің шағын жадыңыз

SQL есеп сұрауы

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Бұл тізімде барлық қоңыраулар, мысалы, /wp-login.php мекенжайына сұрау болады. Сұранысты қайта жазу ережелерін реттеу арқылы сервер Сіз сервердің мұндай сұраныстарға жауабын реттеп, оларды бастапқы бетке жібере аласыз.

Сонымен, сервер журналының файлына негізделген бірнеше қарапайым есептер сайтта не болып жатқаны туралы толық суретті береді.

Ақпаратты қалай алуға болады?

SQLite дерекқоры жеткілікті. ETL процестерін тіркеу үшін көмекші кестелерді құрайық.

Сайт статистикасы және өзіңіздің шағын жадыңыз

PHP арқылы журнал файлдарын жазатын кезең кестелері. Екі жиынтық кесте. Біз пайдаланушы агенті және сұрау күйі бойынша статистикасы бар күнделікті кестені жасаймыз. Сұраныс, күй топтары және агенттер бойынша статистикасы бар сағаттық кесте. Сәйкес өлшемдері бар төрт кесте.

Нәтижесінде реляциялық модель келесідей болды:

Деректер моделіСайт статистикасы және өзіңіздің шағын жадыңыз

Sqlite дерекқорында нысан жасау үшін сценарий:

DDL нысанын жасау

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Сахна

Access.log файлы жағдайында барлық сұрауларды оқу, талдау және дерекқорға жазу қажет. Мұны тікелей сценарий тілін немесе SQLite көмегімен жасауға болады.

Журнал файл пішімі:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Кілттерді тарату

Шикі деректер дерекқорда болғаннан кейін, онда жоқ өлшем кестелеріне кілттерді қосу керек. Бұл өлшемдерге сілтемелер құруға мүмкіндік береді. Мысалы, DIM_REFERRER кестесінде кілт үш өрістің тіркесімі болып табылады.

Кілттерді таратуға арналған SQL сұрауы

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Пайдаланушы агентінің кестесіне тарату бот логикасын қамтуы мүмкін, мысалы, SQL фрагменті:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Бірліктер кестелері

Соңында біз жиынтық кестелерді жүктейміз; мысалы, күнделікті кестені келесідей жүктеуге болады:

Агрегатты жүктеуге арналған SQL сұрауы

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

SQLite дерекқоры күрделі сұрауларды жазуға мүмкіндік береді. WITH деректер мен негізгі дайындықты қамтиды. Негізгі сұрау барлық өлшем сілтемелерін жинайды.

Шарт тарихты қайта жүктеуге мүмкіндік бермейді: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, мұнда параметр сұраудың нәтижесі болып табылады
'FCT_ACCESS_USER_AGENT_DD СОҢҒЫ_ОҚИҒАН_ДӘУІР РЕТІНДЕ КОАЛЕССИЯ(MAX(EVENT_DT), '3600') ТАҢДАУ'

Шарт тек толық күнді жүктейді: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('қазір', 'күннің басы'))

Беттерді немесе файлдарды санау қарапайым жолмен, нүктені іздеу арқылы жүзеге асырылады.

Есептер

Күрделі визуализация жүйелері дерекқор нысандарына негізделген мета-модель жасау және сүзгілер мен біріктіру ережелерін динамикалық басқару мүмкіндігін ұсынады. Сайып келгенде, барлық беделді құралдар SQL сұрауын жасайды.

Бұл мысалда біз дайын SQL сұраныстарын жасаймыз және оларды дерекқорда көріністер ретінде сақтаймыз - бұл есептер.

Көрнекілік

Блафф: визуализация құралы ретінде JavaScript тіліндегі әдемі графиктер пайдаланылды.

Ол үшін біз барлық есептер арқылы жұмыс істеу және кестелері бар HTML файлын жасау үшін PHP пайдалануымыз керек болды.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Құрал нәтиже кестелерін жай ғана визуализациялайды.

қорытынды

Мысал ретінде веб-талдауды пайдалана отырып, мақала деректер қоймаларын құруға қажетті механизмдерді сипаттайды. Нәтижелер көрсеткендей, деректерді терең талдау және визуализациялау үшін ең қарапайым құралдардың өзі жеткілікті.

Болашақта осы жадты мысал ретінде пайдалана отырып, біз баяу өзгеретін өлшемдер, метадеректер, жинақтау деңгейлері және әртүрлі көздерден алынған деректерді біріктіру сияқты құрылымдарды енгізуге тырысамыз.

Сондай-ақ, біз бір кестеге негізделген ETL процестерін басқарудың ең қарапайым құралын егжей-тегжейлі қарастырамыз.

Деректердің сапасын өлшеу және бұл процесті автоматтандыру тақырыбына оралайық.

Біз техникалық ортаны және деректер қоймаларына қызмет көрсетуді ең аз ресурстары бар сақтау серверін енгізу арқылы зерттейміз, мысалы, Raspberry Pi негізінде.

Ақпарат көзі: www.habr.com

DDoS қорғауы бар сайттар үшін сенімді хостинг, VPS VDS серверлерін сатып алыңыз 🔥 DDoS қорғанысы, VPS VDS серверлері бар сенімді веб-сайт хостингін сатып алыңыз | ProHoster