Nettstedstatistikk og din egen lille lagringsplass

Webalizer og Google Analytics har hjulpet meg med å få innsikt i hva som skjer på nettsider i mange år. Nå forstår jeg at de gir svært lite nyttig informasjon. Når du har tilgang til filen access.log, er det veldig enkelt å forstå statistikken og implementere ganske grunnleggende verktøy, slik som sqlite, html, sql-språket og et hvilket som helst skriptspråk.

Datakilden for Webalizer er serverens access.log-fil. Slik ser stolpene og tallene ut, hvorfra bare det totale trafikkvolumet er klart:

Nettstedstatistikk og din egen lille lagringsplass
Nettstedstatistikk og din egen lille lagringsplass
Verktøy som Google Analytics samler selv inn data fra den innlastede siden. De viser oss et par diagrammer og linjer, som det ofte er vanskelig å trekke riktige konklusjoner på grunnlag av. Kanskje det burde vært gjort mer innsats? Vet ikke.

Så hva ville jeg se i besøksstatistikken på nettstedet?

Bruker- og bottrafikk

Ofte er trafikken på nettstedet begrenset, og det er nødvendig å se hvor mye nyttig trafikk som brukes. For eksempel slik:

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Grafen viser den konstante aktiviteten til roboter. Det ville være interessant å studere de mest aktive representantene i detalj.

Irriterende roboter

Vi klassifiserer roboter basert på brukeragentinformasjon. Ytterligere statistikk om daglig trafikk, antall vellykkede og mislykkede forespørsler gir en god ide om botaktivitet.

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

I dette tilfellet var resultatet av analysen beslutningen om å begrense tilgangen til nettstedet ved å legge det til robots.txt-filen

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

De to første robotene forsvant fra bordet, og MS-robotene rykket ned fra de første linjene.

Dag og tidspunkt for størst aktivitet

Oppganger er synlige i trafikken. For å studere dem i detalj, er det nødvendig å markere tidspunktet for deres forekomst, og det er ikke nødvendig å vise alle timene og dagene med tidsmåling. Dette vil gjøre det lettere å finne individuelle forespørsler i loggfilen dersom det er behov for detaljert analyse.

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Vi observerer de mest aktive timene 11, 14 og 20 den første dagen på diagrammet. Men neste dag klokken 13:XNUMX var robotene aktive.

Gjennomsnittlig daglig brukeraktivitet per uke

Vi ordnet litt opp med aktivitet og trafikk. Det neste spørsmålet var aktiviteten til brukerne selv. For slik statistikk er lange aggregeringsperioder, for eksempel en uke, ønskelig.

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Ukentlig statistikk viser at en bruker i gjennomsnitt åpner 1,6 sider per dag. Antall forespurte filer per bruker i dette tilfellet avhenger av tilføyelsen av nye filer til nettstedet.

Alle forespørsler og deres statuser

Webalizer viste alltid spesifikke sidekoder, og jeg har alltid ønsket å se bare antall vellykkede forespørsler og feil.

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Rapporten viser forespørsler, ikke klikk (treff), i motsetning til LINE_CNT, beregnes REQUEST_CNT-beregningen som COUNT(DISTINCT STG.REQUEST_NK). Målet er å vise effektive hendelser, for eksempel MS-roboter poller robots.txt-filen hundrevis av ganger om dagen, og i dette tilfellet vil slike meningsmålinger telles én gang. Dette lar deg jevne ut hopp i grafen.

Fra grafen kan du se mange feil - dette er ikke-eksisterende sider. Resultatet av analysen var tillegg av omdirigeringer fra eksterne sider.

Dårlige forespørsler

For å undersøke forespørsler i detalj, kan du vise detaljert statistikk.

Nettstedstatistikk og din egen lille lagringsplass

SQL-rapportspørring

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Denne listen vil også inneholde alle anrop, for eksempel en forespørsel til /wp-login.php Ved å justere reglene for omskriving av forespørsler fra serveren, kan du justere serverens reaksjon på slike forespørsler og sende dem til startsiden.

Så, noen få enkle rapporter basert på serverloggfilen gir et ganske fullstendig bilde av hva som skjer på nettstedet.

Hvordan få informasjon?

En sqlite-database er tilstrekkelig. La oss lage tabeller: hjelpemiddel for logging av ETL-prosesser.

Nettstedstatistikk og din egen lille lagringsplass

Tabellstadiet hvor vi skal skrive loggfiler ved hjelp av PHP. To samlede tabeller. La oss lage en daglig tabell med statistikk over brukeragenter og forespørselsstatuser. Hver time med statistikk over forespørsler, statusgrupper og agenter. Fire tabeller med relevante målinger.

Resultatet er følgende relasjonsmodell:

DatamodellNettstedstatistikk og din egen lille lagringsplass

Skript for å lage et objekt i en SQLite-database:

DDL-objektoppretting

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Scene

Når det gjelder filen access.log, er det nødvendig å lese, analysere og skrive alle forespørsler til databasen. Dette kan gjøres enten direkte ved å bruke et skriptspråk eller ved å bruke sqlite-verktøy.

Loggfilformat:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Nøkkelutbredelse

Når rådata er i databasen, må du skrive nøkler som ikke er der inn i måletabellene. Da vil det være mulig å bygge en referanse til målingene. For eksempel, i DIM_REFERRER-tabellen, er nøkkelen en kombinasjon av tre felt.

SQL-nøkkelutbredelsesspørring

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Utbredelse til brukeragenttabellen kan inneholde botlogikk, for eksempel sql-kodebiten:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Samlede tabeller

Til slutt vil vi laste de samlede tabellene; for eksempel kan den daglige tabellen lastes inn som følger:

SQL-spørring for lasting av aggregat

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

SQLite-databasen lar deg skrive komplekse spørringer. WITH inneholder utarbeidelse av data og nøkler. Hovedspørringen samler alle referanser til dimensjoner.

Betingelsen vil ikke tillate lasting av historien igjen: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, der parameteren er resultatet av forespørselen
‘VELG COALESCE(MAX(EVENT_DT), ‘3600’) AS LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD’

Betingelsen vil bare laste inn hele dagen: CAST(STG.EVENT_DT AS INTEGER) < strftime(‘%s’, date(‘now’, ‘start of day’))

Å telle sider eller filer utføres på en primitiv måte, ved å søke etter et punkt.

Rapporter

I komplekse visualiseringssystemer er det mulig å lage en metamodell basert på databaseobjekter, dynamisk administrere filtre og aggregeringsregler. Til syvende og sist genererer alle anstendige verktøy en SQL-spørring.

I dette eksemplet vil vi lage ferdige SQL-spørringer og lagre dem som visninger i databasen - dette er rapporter.

Visualisering

Bluff: Vakre grafer i JavaScript ble brukt som et visualiseringsverktøy

For å gjøre dette var det nødvendig å gå gjennom alle rapportene ved hjelp av PHP og generere en html-fil med tabeller.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Verktøyet visualiserer ganske enkelt resultattabeller.

Utgang

Ved å bruke nettanalyse som eksempel, beskriver artikkelen mekanismene som er nødvendige for å bygge datavarehus. Som det fremgår av resultatene, er de enkleste verktøyene tilstrekkelige for dyp analyse og visualisering av data.

I fremtiden, ved å bruke dette depotet som eksempel, vil vi prøve å implementere slike strukturer som sakte skiftende dimensjoner, metadata, aggregeringsnivåer og integrasjon av data fra forskjellige kilder.

La oss også se nærmere på det enkleste verktøyet for å administrere ETL-prosesser basert på en enkelt tabell.

La oss gå tilbake til temaet måling av datakvalitet og automatisering av denne prosessen.

Vi vil studere problemene med det tekniske miljøet og vedlikehold av datalagringer, som vi vil implementere en lagringsserver for med minimale ressurser, for eksempel basert på en Raspberry Pi.

Kilde: www.habr.com

Legg til en kommentar