Webalizer i Google Analytics su mi pomogli da steknem uvid u ono što se dešava na web stranicama dugi niz godina. Sada shvaćam da oni pružaju vrlo malo korisnih informacija. Imajući pristup vašoj datoteci access.log, vrlo je lako razumjeti statistiku i implementirati sasvim osnovne alate, kao što su sqlite, html, sql jezik i bilo koji programski jezik za skriptiranje.
Izvor podataka za Webalizer je serverov access.log fajl. Ovako izgledaju njegove crtice i brojevi iz kojih se vidi samo ukupan obim saobraćaja:
Alati kao što je Google Analytics sami prikupljaju podatke sa učitane stranice. Pokazuju nam nekoliko dijagrama i linija na osnovu kojih je često teško izvući ispravne zaključke. Možda je trebalo uložiti više truda? Ne znam.
Dakle, šta sam želio vidjeti u statistici posjetitelja web stranice?
Promet korisnika i botova
Često je promet stranice ograničen i potrebno je vidjeti koliko se korisnog prometa koristi. Na primjer, ovako:
SQL upit izvješća
SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Grafikon prikazuje stalnu aktivnost botova. Bilo bi zanimljivo detaljno proučiti najaktivnije predstavnike.
Dosadni botovi
Mi klasifikujemo botove na osnovu informacija o korisničkom agentu. Dodatne statistike o dnevnom prometu, broju uspješnih i neuspješnih zahtjeva daju dobru predstavu o aktivnosti bota.
SQL upit izvješća
SELECT
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG,
DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
AND USG.AGENT_BOT != 'n.a.'
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10
U ovom slučaju, rezultat analize bila je odluka da se pristup stranici ograniči dodavanjem u datoteku robots.txt
User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5
Prva dva bota su nestala sa tabele, a MS roboti su se spustili sa prvih redova.
Dan i vrijeme najveće aktivnosti
U saobraćaju su vidljivi usponi. Da bismo ih detaljno proučili, potrebno je istaknuti vrijeme njihovog nastanka, a nije potrebno prikazati sve sate i dane mjerenja vremena. Ovo će olakšati pronalaženje pojedinačnih zahtjeva u log datoteci ako je potrebna detaljna analiza.
SQL upit izvješća
SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
SELECT
EVENT_DT,
SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
FROM FCT_ACCESS_REQUEST_REF_HH
WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY EVENT_DT
ORDER BY SUM(LINE_CNT) DESC
LIMIT 10
) ORDER BY EVENT_DT
Na grafikonu posmatramo najaktivnije sate 11, 14 i 20 prvog dana. Ali sutradan u 13:XNUMX botovi su bili aktivni.
Prosječna dnevna aktivnost korisnika po sedmici
Malo smo sredili stvari s aktivnostima i prometom. Sljedeće pitanje je bila aktivnost samih korisnika. Za takve statistike poželjni su dugi periodi agregacije, kao što je sedmica.
SQL upit izvješća
SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG,
DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
AND USG.AGENT_BOT='n.a.' /* users only */
AND HST.STATUS_GROUP IN ('Successful') /* good pages */
AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Sedmične statistike pokazuju da u prosjeku jedan korisnik dnevno otvori 1,6 stranica. Broj traženih datoteka po korisniku u ovom slučaju ovisi o dodavanju novih datoteka na stranicu.
Svi zahtjevi i njihovi statusi
Webalizer je uvijek pokazivao određene kodove stranica i uvijek sam želio vidjeti samo broj uspješnih zahtjeva i grešaka.
SQL upit izvješća
SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Izvještaj prikazuje zahtjeve, a ne klikove (pogotke), za razliku od LINE_CNT, REQUEST_CNT metrika se izračunava kao COUNT(DISTINCT STG.REQUEST_NK). Cilj je prikazati efektivne događaje, na primjer, MS botovi anketiraju robots.txt datoteku stotine puta dnevno i, u ovom slučaju, takve ankete će se brojati jednom. Ovo vam omogućava da izgladite skokove na grafikonu.
Iz grafikona možete vidjeti mnoge greške - ovo su nepostojeće stranice. Rezultat analize je dodavanje preusmeravanja sa udaljenih stranica.
Loši zahtjevi
Da biste detaljno ispitali zahtjeve, možete prikazati detaljnu statistiku.
SQL upit izvješća
SELECT
1 AS 'Table: Top Error Requests',
REQ.REQUEST_NK AS 'Request',
'Error' AS 'Request Status',
ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
FCT_ACCESS_REQUEST_REF_HH FCT,
DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20
Ova lista će takođe sadržavati sve pozive, na primjer, zahtjev za /wp-login.php Prilagođavanjem pravila za ponovno pisanje zahtjeva od strane servera, možete prilagoditi reakciju servera na takve zahtjeve i poslati ih na početnu stranicu.
Dakle, nekoliko jednostavnih izvještaja zasnovanih na log fajlu servera daju prilično potpunu sliku onoga što se dešava na stranici.
Kako doći do informacija?
Dovoljna je sqlite baza podataka. Kreirajmo tabele: pomoćne za evidentiranje ETL procesa.
Faza tabele u kojoj ćemo pisati log fajlove koristeći PHP. Dvije zbirne tabele. Kreirajmo dnevnu tabelu sa statistikom o korisničkim agentima i statusima zahtjeva. Po satu sa statistikom o zahtjevima, statusnim grupama i agentima. Četiri tabele relevantnih merenja.
Rezultat je sljedeći relacijski model:
Model podataka
Skripta za kreiranje objekta u sqlite bazi podataka:
Kreiranje DDL objekta
DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
USER_AGENT_NK TEXT NOT NULL DEFAULT 'n.a.',
AGENT_OS TEXT NOT NULL DEFAULT 'n.a.',
AGENT_ENGINE TEXT NOT NULL DEFAULT 'n.a.',
AGENT_DEVICE TEXT NOT NULL DEFAULT 'n.a.',
AGENT_BOT TEXT NOT NULL DEFAULT 'n.a.',
UPDATE_DT INTEGER NOT NULL DEFAULT 0,
UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);
Stage
U slučaju datoteke access.log, potrebno je pročitati, raščlaniti i upisati sve zahtjeve u bazu podataka. Ovo se može uraditi direktno koristeći skript jezik ili koristeći sqlite alate.
Format datoteke dnevnika:
//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';
Širenje ključa
Kada su neobrađeni podaci u bazi podataka, potrebno je da u mjerne tablice upišete ključeve kojih nema. Tada će biti moguće izgraditi referencu na mjerenja. Na primjer, u tabeli DIM_REFERRER, ključ je kombinacija tri polja.
Upit za širenje SQL ključa
/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
CLS.HOST_NK,
CLS.PATH_NK,
CLS.QUERY_NK,
STRFTIME('%s','now') AS UPDATE_DT
FROM (
SELECT DISTINCT
REFERRER_HOST AS HOST_NK,
REFERRER_PATH AS PATH_NK,
CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
ELSE REFERRER_QUERY END AS QUERY_NK
FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL
Propagacija na tablicu korisničkog agenta može sadržavati logiku bota, na primjer sql isječak:
CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
OR INSTR(LOWER(CLS.BROWSER),'wget')>0
THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT
Zbirne tabele
Na kraju, učitat ćemo zbirne tablice; na primjer, dnevna tabela se može učitati na sljedeći način:
SQL upit za učitavanje agregata
/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
CASE SUBSTR(TIME_NK,5,3)
WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
BROWSER AS USER_AGENT_NK,
REQUEST_NK,
IP_NR,
STATUS,
LINE_NK,
BYTES
FROM STG_ACCESS_LOG
)
SELECT
CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
USG.DIM_USER_AGENT_ID,
HST.DIM_HTTP_STATUS_ID,
COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
SUM(BYTES) AS BYTES
FROM STG,
DIM_HTTP_STATUS HST,
DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID
Sqlite baza podataka vam omogućava da pišete složene upite. WITH sadrži pripremu podataka i ključeva. Glavni upit prikuplja sve reference na dimenzije.
Uslov neće dozvoliti ponovno učitavanje historije: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, gdje je parametar rezultat zahtjeva
'ODABIR COALESCE(MAX(EVENT_DT), '3600') KAO LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD'
Uslov će se učitati samo cijeli dan: CAST(STG.EVENT_DT KAO INTEGER) < strftime('%s', date('sada', 'početak dana'))
Brojanje stranica ili fajlova se vrši na primitivan način, traženjem tačke.
Izvještaji
U složenim sistemima vizualizacije moguće je kreirati meta-model baziran na objektima baze podataka, dinamički upravljati filterima i pravilima agregacije. Na kraju krajeva, svi pristojni alati generišu SQL upit.
U ovom primjeru ćemo kreirati gotove SQL upite i spremiti ih kao prikaze u bazi podataka - to su izvještaji.
Vizualizacija
Bluff: Prekrasni grafovi u JavaScriptu korišteni su kao alat za vizualizaciju
Da biste to uradili, bilo je potrebno proći kroz sve izveštaje koristeći PHP i generisati html fajl sa tabelama.
$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);
Alat jednostavno vizualizira tabele rezultata.
zaključak
Koristeći web analizu kao primjer, članak opisuje mehanizme potrebne za izgradnju skladišta podataka. Kao što se može vidjeti iz rezultata, najjednostavniji alati su dovoljni za dubinsku analizu i vizualizaciju podataka.
U budućnosti, koristeći ovo spremište kao primjer, pokušat ćemo implementirati takve strukture kao što su polako mijenjanje dimenzija, metapodataka, nivoa agregacije i integracije podataka iz različitih izvora.
Također, pogledajmo pobliže najjednostavniji alat za upravljanje ETL procesima na osnovu jedne tabele.
Vratimo se na temu mjerenja kvaliteta podataka i automatizacije ovog procesa.
Proučavaćemo probleme tehničkog okruženja i održavanja skladišta podataka, za šta ćemo implementirati server za skladištenje sa minimalnim resursima, na primer, zasnovan na Raspberry Pi-u.
izvor: www.habr.com