Vietnes statistika un jūsu neliela krātuve

Webalizer un Google Analytics ir palīdzējuši man gūt ieskatu par to, kas notiek vietnēs jau daudzus gadus. Tagad es saprotu, ka tie sniedz ļoti maz noderīgas informācijas. Piekļūstot failam access.log, ir ļoti viegli saprast statistiku un ieviest diezgan vienkāršus rīkus, piemēram, sqlite, html, sql valodu un jebkuru skriptu programmēšanas valodu.

Webalizer datu avots ir servera fails access.log. Šādi izskatās tā joslas un skaitļi, no kuriem ir skaidrs tikai kopējais satiksmes apjoms:

Vietnes statistika un jūsu neliela krātuve
Vietnes statistika un jūsu neliela krātuve
Tādi rīki kā Google Analytics apkopo datus no ielādētās lapas. Viņi parāda mums pāris diagrammas un līnijas, pēc kurām bieži ir grūti izdarīt pareizus secinājumus. Varbūt vajadzēja pielikt vairāk pūļu? Nezinu.

Tātad, ko es gribēju redzēt vietnes apmeklētāju statistikā?

Lietotāju un robotu trafika

Bieži vietnes trafika ir ierobežota, un ir jāredz, cik daudz noderīgas trafika tiek izmantota. Piemēram, šādi:

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Grafikā ir redzama robotu pastāvīga darbība. Būtu interesanti detalizēti izpētīt aktīvākos pārstāvjus.

Kaitinošas robotprogrammatūras

Mēs klasificējam robotprogrammatūras, pamatojoties uz lietotāja aģenta informāciju. Papildu statistika par ikdienas trafiku, veiksmīgo un neveiksmīgo pieprasījumu skaitu sniedz labu priekšstatu par botu darbību.

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Šajā gadījumā analīzes rezultāts bija lēmums ierobežot piekļuvi vietnei, pievienojot to failam robots.txt

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Pirmie divi roboti pazuda no galda, un MS roboti pārvietojās uz leju no pirmajām rindām.

Lielākās aktivitātes diena un laiks

Satiksmē redzami uzplūdi. Lai tos detalizēti izpētītu, ir nepieciešams izcelt to rašanās laiku, un nav nepieciešams attēlot visas laika mērīšanas stundas un dienas. Tas atvieglos atsevišķu pieprasījumu atrašanu žurnālfailā, ja būs nepieciešama detalizēta analīze.

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Diagrammā novērojam pirmās dienas aktīvākās stundas 11, 14 un 20. Bet nākamajā dienā 13:XNUMX boti bija aktīvi.

Vidējā ikdienas lietotāju aktivitāte pa nedēļām

Mēs mazliet sakārtojām lietas ar aktivitāti un satiksmi. Nākamais jautājums bija par pašu lietotāju aktivitāti. Šādai statistikai ir vēlami gari apkopošanas periodi, piemēram, nedēļa.

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Iknedēļas statistika liecina, ka vidēji viens lietotājs dienā atver 1,6 lapas. Pieprasīto failu skaits vienam lietotājam šajā gadījumā ir atkarīgs no jaunu failu pievienošanas vietnei.

Visi pieprasījumi un to statusi

Webalizer vienmēr rādīja konkrētus lapu kodus, un es vienmēr gribēju redzēt tikai veiksmīgo pieprasījumu un kļūdu skaitu.

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Pārskatā tiek rādīti pieprasījumi, nevis klikšķi (trāpījumi), atšķirībā no LINE_CNT, REQUEST_CNT metrika tiek aprēķināta kā COUNT (DISTINCT STG.REQUEST_NK). Mērķis ir parādīt efektīvus notikumus, piemēram, MS roboti aptauj robots.txt failu simtiem reižu dienā, un šajā gadījumā šādas aptaujas tiks skaitītas vienu reizi. Tas ļauj izlīdzināt lēcienus grafikā.

No diagrammas var redzēt daudzas kļūdas - tās ir neesošas lapas. Analīzes rezultāts bija novirzīšanas pievienošana no attālām lapām.

Slikti pieprasījumi

Lai detalizēti izskatītu pieprasījumus, varat parādīt detalizētu statistiku.

Vietnes statistika un jūsu neliela krātuve

SQL atskaites vaicājums

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Šajā sarakstā būs arī visi izsaukumi, piemēram, pieprasījums uz /wp-login.php Pielāgojot servera pieprasījumu pārrakstīšanas noteikumus, jūs varat pielāgot servera reakciju uz šādiem pieprasījumiem un nosūtīt tos uz sākuma lapu.

Tātad daži vienkārši ziņojumi, kuru pamatā ir servera žurnālfails, sniedz diezgan pilnīgu priekšstatu par vietnē notiekošo.

Kā iegūt informāciju?

Pietiek ar sqlite datu bāzi. Izveidosim tabulas: palīgierīce ETL procesu reģistrēšanai.

Vietnes statistika un jūsu neliela krātuve

Tabulas posms, kurā mēs rakstīsim žurnālfailus, izmantojot PHP. Divas apkopotas tabulas. Izveidosim ikdienas tabulu ar statistiku par lietotāju aģentiem un pieprasījumu statusiem. Reizi stundā ar statistiku par pieprasījumiem, statusa grupām un aģentiem. Četras attiecīgo mērījumu tabulas.

Rezultāts ir šāds relāciju modelis:

Datu modelisVietnes statistika un jūsu neliela krātuve

Skripts objekta izveidei sqlite datu bāzē:

DDL objektu izveide

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Skatuves

Faila access.log gadījumā ir nepieciešams nolasīt, parsēt un ierakstīt visus pieprasījumus datu bāzē. To var izdarīt vai nu tieši, izmantojot skriptu valodu, vai izmantojot sqlite rīkus.

Žurnāla faila formāts:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Atslēgu izplatīšana

Kad neapstrādātie dati atrodas datu bāzē, mērījumu tabulās jāieraksta atslēgas, kuru tur nav. Tad varēs veidot atsauci uz mērījumiem. Piemēram, tabulā DIM_REFERRER atslēga ir trīs lauku kombinācija.

SQL atslēgas izplatīšanas vaicājums

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Pavairošana uz lietotāja aģenta tabulu var saturēt robotprogrammatūras loģiku, piemēram, sql fragmentu:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Agregātu tabulas

Visbeidzot, mēs ielādēsim apkopotās tabulas, piemēram, dienas tabulu var ielādēt šādi:

SQL vaicājums apkopojuma ielādei

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Sqlite datu bāze ļauj rakstīt sarežģītus vaicājumus. WITH satur datu un atslēgu sagatavošanu. Galvenais vaicājums apkopo visas atsauces uz izmēriem.

Nosacījums neļaus atkārtoti ielādēt vēsturi: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, kur parametrs ir pieprasījuma rezultāts
'SELECT COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD'

Nosacījums tiks ielādēts tikai visu dienu: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('tagad', 'dienas sākums'))

Lapu vai failu skaitīšana tiek veikta primitīvā veidā, meklējot punktu.

pārskati

Sarežģītās vizualizācijas sistēmās ir iespējams izveidot uz datu bāzes objektiem balstītu metamodeli, dinamiski pārvaldīt filtrus un apkopošanas noteikumus. Galu galā visi piemērotie rīki ģenerē SQL vaicājumu.

Šajā piemērā mēs izveidosim gatavus SQL vaicājumus un saglabāsim tos kā skatus datu bāzē - tās ir atskaites.

Vizualizācija

Blefs: skaisti grafiki JavaScript tika izmantoti kā vizualizācijas rīks

Lai to izdarītu, bija jāiziet visas atskaites, izmantojot PHP, un jāģenerē html fails ar tabulām.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Šis rīks vienkārši vizualizē rezultātu tabulas.

secinājums

Izmantojot tīmekļa analīzi kā piemēru, rakstā ir aprakstīti mehānismi, kas nepieciešami datu noliktavu veidošanai. Kā redzams no rezultātiem, padziļinātai datu analīzei un vizualizācijai pietiek ar vienkāršākajiem rīkiem.

Nākotnē, izmantojot šo repozitoriju kā piemēru, mēģināsim ieviest tādas struktūras kā lēnām mainīgas dimensijas, metadati, apkopošanas līmeņi un dažādu avotu datu integrācija.

Apskatīsim arī vienkāršāko rīku ETL procesu pārvaldībai, pamatojoties uz vienu tabulu.

Atgriezīsimies pie tēmas par datu kvalitātes mērīšanu un šī procesa automatizāciju.

Izpētīsim datu krātuvju tehniskās vides un uzturēšanas problēmas, kurām ar minimāliem resursiem ieviesīsim krātuves serveri, piemēram, uz Raspberry Pi bāzes.

Avots: www.habr.com

Pievieno komentāru