Werfstatistieke en jou eie klein berging

Webalizer en Google Analytics het my vir baie jare gehelp om insig te kry in wat op webwerwe gebeur. Nou verstaan ​​ek dat hulle baie min nuttige inligting verskaf. Met toegang tot jou access.log-lΓͺer, is dit baie maklik om die statistieke te verstaan ​​en om redelik basiese gereedskap te implementeer, soos sqlite, html, die sql-taal en enige script-programmeertaal.

Die databron vir Webalizer is die bediener se access.log-lΓͺer. Dit is hoe sy stawe en getalle lyk, waaruit slegs die totale volume verkeer duidelik is:

Werfstatistieke en jou eie klein berging
Werfstatistieke en jou eie klein berging
Gereedskap soos Google Analytics versamel self data vanaf die gelaaide bladsy. Hulle wys vir ons 'n paar diagramme en lyne, op grond waarvan dit dikwels moeilik is om korrekte gevolgtrekkings te maak. Miskien moes meer moeite gedoen gewees het? Weet nie.

So, wat wou ek in die webwerfbesoekerstatistieke sien?

Gebruikers- en botverkeer

Dikwels is werfverkeer beperk en dit is nodig om te sien hoeveel nuttige verkeer gebruik word. Byvoorbeeld, soos volg:

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Die grafiek toon die konstante aktiwiteit van bots. Dit sal interessant wees om die mees aktiewe verteenwoordigers in detail te bestudeer.

Irriterende bots

Ons klassifiseer bots op grond van gebruikersagentinligting. Bykomende statistieke oor daaglikse verkeer, aantal suksesvolle en onsuksesvolle versoeke gee 'n goeie idee van botaktiwiteit.

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

In hierdie geval was die resultaat van die ontleding die besluit om toegang tot die webwerf te beperk deur dit by die robots.txt-lΓͺer te voeg

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Die eerste twee bots het van die tafel verdwyn, en die MS-robotte het van die eerste reΓ«ls af beweeg.

Dag en tyd van die grootste aktiwiteit

Opswaaie is sigbaar in die verkeer. Om hulle in detail te bestudeer, is dit nodig om die tyd van hul voorkoms uit te lig, en dit is nie nodig om al die ure en dae van tydmeting te vertoon nie. Dit sal dit makliker maak om individuele versoeke in die loglΓͺer te vind indien gedetailleerde ontleding nodig is.

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Ons neem die mees aktiewe ure 11, 14 en 20 van die eerste dag op die grafiek waar. Maar die volgende dag om 13:XNUMX was die bots aktief.

Gemiddelde daaglikse gebruikeraktiwiteit per week

Ons het dinge bietjie uitgesorteer met aktiwiteit en verkeer. Die volgende vraag was die aktiwiteit van die gebruikers self. Vir sulke statistieke is lang samevoegingsperiodes, soos 'n week, wenslik.

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Weeklikse statistieke toon dat een gebruiker gemiddeld 1,6 bladsye per dag oopmaak. Die aantal versoekte lΓͺers per gebruiker hang in hierdie geval af van die toevoeging van nuwe lΓͺers tot die webwerf.

Alle versoeke en hul statusse

Webalizer het altyd spesifieke bladsykodes gewys en ek wou altyd net die aantal suksesvolle versoeke en foute sien.

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Die verslag vertoon versoeke, nie klikke (treffers), anders as LINE_CNT, word die REQUEST_CNT-maatstaf as COUNT(DISTINCT STG.REQUEST_NK) bereken. Die doel is om effektiewe gebeurtenisse te wys, byvoorbeeld MS-bots poll die robots.txt-lΓͺer honderde kere per dag en in hierdie geval sal sulke meningspeilings een keer getel word. Dit laat jou toe om spronge in die grafiek glad te maak.

Uit die grafiek kan jy baie foute sien - dit is nie-bestaande bladsye. Die resultaat van die ontleding was die byvoeging van herleidings vanaf afgeleΓ« bladsye.

Slegte versoeke

Om versoeke in detail te ondersoek, kan jy gedetailleerde statistieke vertoon.

Werfstatistieke en jou eie klein berging

SQL-verslag navraag

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Hierdie lys sal ook alle oproepe bevat, byvoorbeeld 'n versoek na /wp-login.php Deur die reΓ«ls vir die herskryf van versoeke deur die bediener aan te pas, kan jy die bediener se reaksie op sulke versoeke aanpas en dit na die beginbladsy stuur.

Dus, 'n paar eenvoudige verslae gebaseer op die bedienerloglΓͺer gee 'n redelik volledige prentjie van wat op die webwerf gebeur.

Hoe om inligting te kry?

'n SQLite-databasis is voldoende. Kom ons skep tabelle: hulp om ETL-prosesse aan te teken.

Werfstatistieke en jou eie klein berging

Tabelstadium waar ons loglΓͺers met PHP sal skryf. Twee saamgestelde tabelle. Kom ons skep 'n daaglikse tabel met statistieke oor gebruikersagente en versoekstatusse. Uurliks ​​met statistieke oor versoeke, statusgroepe en agente. Vier tabelle van relevante metings.

Die resultaat is die volgende relasionele model:

Data modelWerfstatistieke en jou eie klein berging

Skrip om 'n voorwerp in 'n sqlite-databasis te skep:

DDL voorwerp skepping

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Verhoog

In die geval van die access.log-lΓͺer is dit nodig om alle versoeke na die databasis te lees, te ontleed en te skryf. Dit kan Γ³f direk gedoen word met behulp van 'n skriftaal Γ³f met gebruik van sqlite-nutsgoed.

LoglΓͺerformaat:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Sleutel voortplanting

Wanneer die rou data in die databasis is, moet jy sleutels wat nie daar is nie in die metingstabelle skryf. Dan sal dit moontlik wees om 'n verwysing na die mates te bou. Byvoorbeeld, in die DIM_REFERRER-tabel is die sleutel 'n kombinasie van drie velde.

SQL-sleutelvoortplantingsnavraag

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* ΠΎΡ‚Ρ€Π΅Π·Π°Π΅ΠΌ sid - спСцифика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Voortplanting na die gebruikersagenttabel kan botlogika bevat, byvoorbeeld die sql-brokkie:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Saamgestelde tabelle

Laastens sal ons die totale tabelle laai; byvoorbeeld, die daaglikse tabel kan soos volg gelaai word:

SQL-navraag vir die laai van totaal

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Die SQLite-databasis laat jou toe om komplekse navrae te skryf. WITH bevat die voorbereiding van data en sleutels. Die hoofnavraag versamel alle verwysings na dimensies.

Die toestand sal nie toelaat dat die geskiedenis weer gelaai word nie: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, waar die parameter die resultaat van die versoek is
'KIES COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH VANAF FCT_ACCESS_USER_AGENT_DD'

Die toestand sal slegs die volle dag laai: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'begin of day'))

Die tel van bladsye of lΓͺers word op 'n primitiewe manier uitgevoer deur na 'n punt te soek.

Verslae

In komplekse visualiseringstelsels is dit moontlik om 'n metamodel te skep wat gebaseer is op databasisvoorwerpe, filters en samevoegingsreΓ«ls dinamies te bestuur. Uiteindelik genereer alle ordentlike gereedskap 'n SQL-navraag.

In hierdie voorbeeld sal ons klaargemaakte SQL-navrae skep en dit as aansigte in die databasis stoor - dit is verslae.

Visualisering

Bluff: Pragtige grafieke in JavaScript is as 'n visualiseringsinstrument gebruik

Om dit te doen, was dit nodig om deur al die verslae met PHP te gaan en 'n html-lΓͺer met tabelle te genereer.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Die instrument visualiseer eenvoudig tabelle van resultate.

Output

Deur webanalise as voorbeeld te gebruik, beskryf die artikel die meganismes wat nodig is om datapakhuise te bou. Soos uit die resultate gesien kan word, is die eenvoudigste gereedskap voldoende vir diepgaande ontleding en visualisering van data.

In die toekoms, met behulp van hierdie bewaarplek as 'n voorbeeld, sal ons probeer om strukture soos stadig veranderende dimensies, metadata, samevoegingsvlakke en integrasie van data uit verskillende bronne te implementeer.

Kom ons kyk ook van naderby na die eenvoudigste hulpmiddel vir die bestuur van ETL-prosesse gebaseer op 'n enkele tabel.

Kom ons keer terug na die onderwerp van die meet van datakwaliteit en die outomatisering van hierdie proses.

Ons sal die probleme van die tegniese omgewing en instandhouding van databergings bestudeer, waarvoor ons 'n stoorbediener met minimale hulpbronne sal implementeer, byvoorbeeld gebaseer op 'n Raspberry Pi.

Bron: will.com

Voeg 'n opmerking