Statistika stranice i vlastita mala pohrana

Webalizer i Google Analytics već dugi niz godina pomažu mi steći uvid u ono što se događa na web stranicama. Sada razumijem da pružaju vrlo malo korisnih informacija. Imajući pristup vašoj access.log datoteci, vrlo je lako razumjeti statistiku i implementirati prilično osnovne alate, kao što su sqlite, html, sql jezik i bilo koji skriptni programski jezik.

Izvor podataka za Webalizer je datoteka access.log poslužitelja. Ovako izgledaju njegove crte i brojke iz kojih je samo jasan ukupni promet:

Statistika stranice i vlastita mala pohrana
Statistika stranice i vlastita mala pohrana
Alati kao što je Google Analytics sami prikupljaju podatke s učitane stranice. Pokažu nam nekoliko dijagrama i linija na temelju kojih je često teško donijeti točne zaključke. Možda je trebalo uložiti više truda? ne znam

Dakle, što sam želio vidjeti u statistici posjetitelja web stranice?

Promet korisnika i robota

Često je promet stranice ograničen i potrebno je vidjeti koliko se korisnog prometa koristi. Na primjer, ovako:

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Grafikon prikazuje konstantnu aktivnost botova. Bilo bi zanimljivo detaljno proučiti najaktivnije predstavnike.

Dosadni botovi

Botove klasificiramo na temelju informacija korisničkog agenta. Dodatne statistike o dnevnom prometu, broju uspješnih i neuspješnih zahtjeva daju dobru ideju o aktivnostima bota.

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

U ovom slučaju, rezultat analize bila je odluka da se ograniči pristup stranici dodavanjem u datoteku robots.txt

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Prva dva bota su nestala sa stola, a MS roboti su se spustili s prvih redova.

Dan i vrijeme najveće aktivnosti

Vidljivi su uzleti u prometu. Za njihovo detaljno proučavanje potrebno je istaknuti vrijeme nastanka, a nije potrebno prikazati sve sate i dane mjerenja vremena. To će olakšati pronalaženje pojedinačnih zahtjeva u log datoteci ako je potrebna detaljna analiza.

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Promatramo najaktivnije sate 11, 14 i 20 prvog dana na grafikonu. Ali sljedeći dan u 13:XNUMX botovi su bili aktivni.

Prosječna dnevna aktivnost korisnika po tjednu

Malo smo sredili stvari s aktivnostima i prometom. Sljedeće pitanje bila je aktivnost samih korisnika. Za takve statistike poželjna su duga razdoblja zbrajanja, poput tjedan dana.

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Tjedne statistike pokazuju da u prosjeku jedan korisnik dnevno otvori 1,6 stranica. Broj traženih datoteka po korisniku u ovom slučaju ovisi o dodavanju novih datoteka na stranicu.

Svi zahtjevi i njihovi statusi

Webalizer je uvijek pokazivao specifične kodove stranica i uvijek sam želio vidjeti samo broj uspješnih zahtjeva i pogrešaka.

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Izvješće prikazuje zahtjeve, a ne klikove (pogotke), za razliku od LINE_CNT, metrika REQUEST_CNT izračunava se kao COUNT(DISTINCT STG.REQUEST_NK). Cilj je prikazati učinkovite događaje, na primjer, MS roboti anketiraju datoteku robots.txt stotine puta dnevno i, u ovom slučaju, takve ankete će se brojati jednom. To vam omogućuje izglađivanje skokova na grafikonu.

Iz grafikona možete vidjeti mnogo grešaka - to su nepostojeće stranice. Rezultat analize bilo je dodavanje preusmjeravanja s udaljenih stranica.

Loši zahtjevi

Kako biste detaljno pregledali zahtjeve, možete prikazati detaljnu statistiku.

Statistika stranice i vlastita mala pohrana

Upit SQL izvješća

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Ovaj popis će također sadržavati sve pozive, na primjer, zahtjev za /wp-login.php Prilagođavanjem pravila za prepisivanje zahtjeva od strane poslužitelja, možete prilagoditi reakciju poslužitelja na takve zahtjeve i poslati ih na početnu stranicu.

Dakle, nekoliko jednostavnih izvješća temeljenih na log datoteci poslužitelja daju prilično cjelovitu sliku onoga što se događa na stranici.

Kako doći do informacija?

Dovoljna je sqlite baza podataka. Kreirajmo tablice: pomoćne za logovanje ETL procesa.

Statistika stranice i vlastita mala pohrana

Faza tablice gdje ćemo pisati log datoteke koristeći PHP. Dvije zbirne tablice. Kreirajmo dnevnu tablicu sa statistikom korisničkih agenata i statusa zahtjeva. Svaki sat sa statistikom o zahtjevima, statusnim grupama i agentima. Četiri tablice relevantnih mjera.

Rezultat je sljedeći relacijski model:

Model podatakaStatistika stranice i vlastita mala pohrana

Skripta za stvaranje objekta u sqlite bazi podataka:

Stvaranje DDL objekta

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Pozornica

U slučaju access.log datoteke, potrebno je pročitati, analizirati i napisati sve zahtjeve u bazu podataka. To se može učiniti izravno pomoću skriptnog jezika ili pomoću sqlite alata.

Format datoteke dnevnika:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Širenje ključa

Kada su neobrađeni podaci u bazi podataka, trebate upisati ključeve kojih nema u mjerne tablice. Tada će biti moguće izgraditi referencu na mjerenja. Na primjer, u tablici DIM_REFERRER, ključ je kombinacija tri polja.

Upit za širenje SQL ključa

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Propagacija u tablicu korisničkog agenta može sadržavati bot logiku, na primjer sql isječak:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Zbirne tablice

Na kraju ćemo učitati zbirne tablice; na primjer, dnevna tablica se može učitati na sljedeći način:

SQL upit za učitavanje agregata

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Sqlite baza podataka omogućuje pisanje složenih upita. WITH sadrži pripremu podataka i ključeva. Glavni upit prikuplja sve reference na dimenzije.

Uvjet neće dopustiti ponovno učitavanje povijesti: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, gdje je parametar rezultat zahtjeva
'SELECT COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD'

Uvjet će učitati samo cijeli dan: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))

Brojanje stranica ili datoteka provodi se na primitivan način, traženjem točke.

Izvješća

U složenim sustavima vizualizacije moguće je izraditi meta-model temeljen na objektima baze podataka, dinamički upravljati filtrima i pravilima agregacije. U konačnici, svi pristojni alati generiraju SQL upit.

U ovom primjeru izradit ćemo gotove SQL upite i spremiti ih kao poglede u bazu podataka – to su izvješća.

Vizualizacija

Blef: Prekrasni grafikoni u JavaScriptu korišteni su kao alat za vizualizaciju

Za to je bilo potrebno proći kroz sve izvještaje pomoću PHP-a i generirati html datoteku s tablicama.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Alat jednostavno vizualizira tablice rezultata.

Izlaz

Koristeći web analizu kao primjer, članak opisuje mehanizme potrebne za izgradnju skladišta podataka. Kao što je vidljivo iz rezultata, za dubinsku analizu i vizualizaciju podataka dovoljni su najjednostavniji alati.

U budućnosti ćemo, koristeći ovaj repozitorij kao primjer, pokušati implementirati takve strukture kao što su dimenzije koje se polako mijenjaju, metapodaci, razine agregacije i integracija podataka iz različitih izvora.

Također, pogledajmo pobliže najjednostavniji alat za upravljanje ETL procesima na temelju jedne tablice.

Vratimo se na temu mjerenja kvalitete podataka i automatizacije ovog procesa.

Proučavat ćemo problematiku tehničkog okruženja i održavanja pohrana podataka, za što ćemo implementirati poslužitelj za pohranu s minimalnim resursima, na primjer, temeljen na Raspberry Pi.

Izvor: www.habr.com

Dodajte komentar