Sitestatistik og dit eget lille lager

Webalizer og Google Analytics har hjulpet mig med at få indsigt i, hvad der sker på hjemmesider i mange år. Nu forstår jeg, at de giver meget lidt brugbar information. Når du har adgang til din access.log-fil, er det meget nemt at forstå statistikkerne og implementere helt basale værktøjer, såsom sqlite, html, sql-sproget og ethvert script-programmeringssprog.

Datakilden til Webalizer er serverens access.log-fil. Sådan ser dens søjler og tal ud, hvorfra kun den samlede trafikmængde er tydelig:

Sitestatistik og dit eget lille lager
Sitestatistik og dit eget lille lager
Værktøjer såsom Google Analytics indsamler selv data fra den indlæste side. De viser os et par diagrammer og linjer, ud fra hvilke det ofte er svært at drage korrekte konklusioner. Måske skulle der have været gjort en større indsats? Ved ikke.

Så hvad ville jeg se i besøgsstatistikken på webstedet?

Bruger- og bottrafik

Ofte er webstedstrafikken begrænset, og det er nødvendigt at se, hvor meget nyttig trafik, der bliver brugt. For eksempel sådan her:

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Grafen viser den konstante aktivitet af bots. Det ville være interessant at studere de mest aktive repræsentanter i detaljer.

Irriterende bots

Vi klassificerer bots baseret på brugeragentoplysninger. Yderligere statistik over daglig trafik, antal vellykkede og mislykkede anmodninger giver en god idé om botaktivitet.

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

I dette tilfælde var resultatet af analysen beslutningen om at begrænse adgangen til webstedet ved at føje det til robots.txt-filen

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

De første to bots forsvandt fra bordet, og MS-robotterne rykkede ned fra de første linjer.

Dag og tidspunkt for største aktivitet

Opsving er synlige i trafikken. For at studere dem i detaljer er det nødvendigt at fremhæve tidspunktet for deres forekomst, og det er ikke nødvendigt at vise alle timer og dage med tidsmåling. Dette vil gøre det lettere at finde individuelle anmodninger i logfilen, hvis der er behov for detaljeret analyse.

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Vi observerer de mest aktive timer 11, 14 og 20 den første dag på diagrammet. Men dagen efter klokken 13:XNUMX var bots aktive.

Gennemsnitlig daglig brugeraktivitet pr. uge

Vi fik ordnet lidt med aktivitet og trafik. Det næste spørgsmål var brugernes egen aktivitet. For sådanne statistikker er lange aggregeringsperioder, såsom en uge, ønskelige.

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Ugentlig statistik viser, at en bruger i gennemsnit åbner 1,6 sider om dagen. Antallet af anmodede filer pr. bruger afhænger i dette tilfælde af tilføjelsen af ​​nye filer til webstedet.

Alle anmodninger og deres status

Webalizer viste altid specifikke sidekoder, og jeg har altid ønsket at se kun antallet af vellykkede anmodninger og fejl.

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Rapporten viser anmodninger, ikke klik (hits), i modsætning til LINE_CNT, beregnes REQUEST_CNT-metrikken som COUNT(DISTINCT STG.REQUEST_NK). Målet er at vise effektive begivenheder, f.eks. poller MS-bots robots.txt-filen hundredvis af gange om dagen, og i dette tilfælde vil sådanne afstemninger blive talt én gang. Dette giver dig mulighed for at udjævne spring i grafen.

Fra grafen kan du se mange fejl - det er ikke-eksisterende sider. Resultatet af analysen var tilføjelsen af ​​omdirigeringer fra fjernsider.

Dårlige anmodninger

For at undersøge anmodninger i detaljer, kan du vise detaljerede statistikker.

Sitestatistik og dit eget lille lager

SQL rapport forespørgsel

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Denne liste vil også indeholde alle opkald, for eksempel en anmodning til /wp-login.php Ved at justere reglerne for omskrivning af anmodninger fra serveren, kan du justere serverens reaktion på sådanne anmodninger og sende dem til startsiden.

Så et par simple rapporter baseret på serverlogfilen giver et ret komplet billede af, hvad der sker på siden.

Hvordan får man information?

En sqlite-database er tilstrækkelig. Lad os oprette tabeller: hjælpeværktøj til logning af ETL-processer.

Sitestatistik og dit eget lille lager

Tabelstadie, hvor vi vil skrive logfiler ved hjælp af PHP. To samlede tabeller. Lad os oprette en daglig tabel med statistik over brugeragenter og anmodningsstatusser. Hver time med statistik over forespørgsler, statusgrupper og agenter. Fire tabeller med relevante målinger.

Resultatet er følgende relationsmodel:

DatamodelSitestatistik og dit eget lille lager

Script til at oprette et objekt i en sqlite-database:

Oprettelse af DDL-objekt

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Scene

I tilfælde af access.log filen er det nødvendigt at læse, parse og skrive alle anmodninger til databasen. Dette kan gøres enten direkte ved hjælp af et scriptsprog eller ved hjælp af sqlite-værktøjer.

Logfilformat:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Nøgleudbredelse

Når rådata er i databasen, skal du skrive nøgler, der ikke er der, ind i måletabellerne. Så vil det være muligt at bygge en reference til målingerne. For eksempel i tabellen DIM_REFERRER er nøglen en kombination af tre felter.

SQL-nøgleudbredelsesforespørgsel

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Udbredelse til brugeragenttabellen kan indeholde botlogik, for eksempel sql-kodestykket:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Samlede tabeller

Til sidst vil vi indlæse de samlede tabeller; for eksempel kan den daglige tabel indlæses som følger:

SQL-forespørgsel til indlæsning af aggregat

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

SQLite-databasen giver dig mulighed for at skrive komplekse forespørgsler. WITH indeholder udarbejdelse af data og nøgler. Hovedforespørgslen samler alle referencer til dimensioner.

Betingelsen tillader ikke indlæsning af historikken igen: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, hvor parameteren er resultatet af anmodningen
'VÆLG COALESCE(MAX(EVENT_DT), '3600') SOM LAST_EVENT_EPOCH FRA FCT_ACCESS_USER_AGENT_DD'

Betingelsen vil kun indlæse hele dagen: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))

Optælling af sider eller filer udføres på en primitiv måde, ved at søge efter et punkt.

Rapporter

I komplekse visualiseringssystemer er det muligt at skabe en metamodel baseret på databaseobjekter, dynamisk styre filtre og aggregeringsregler. I sidste ende genererer alle anstændige værktøjer en SQL-forespørgsel.

I dette eksempel vil vi oprette færdige SQL-forespørgsler og gemme dem som visninger i databasen - det er rapporter.

Visualisering

Bluff: Smukke grafer i JavaScript blev brugt som et visualiseringsværktøj

For at gøre dette var det nødvendigt at gennemgå alle rapporterne ved hjælp af PHP og generere en html-fil med tabeller.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Værktøjet visualiserer simpelthen tabeller med resultater.

Output

Ved at bruge webanalyse som eksempel beskriver artiklen de mekanismer, der er nødvendige for at bygge datavarehuse. Som det fremgår af resultaterne, er de enkleste værktøjer tilstrækkelige til dyb analyse og visualisering af data.

I fremtiden, ved at bruge dette lager som eksempel, vil vi forsøge at implementere sådanne strukturer som langsomt skiftende dimensioner, metadata, aggregeringsniveauer og integration af data fra forskellige kilder.

Lad os også se nærmere på det enkleste værktøj til styring af ETL-processer baseret på en enkelt tabel.

Lad os vende tilbage til emnet måling af datakvalitet og automatisering af denne proces.

Vi vil studere problemerne med det tekniske miljø og vedligeholdelse af datalagre, hvortil vi vil implementere en lagerserver med minimale ressourcer, for eksempel baseret på en Raspberry Pi.

Kilde: www.habr.com

Tilføj en kommentar