Webalizer en Google Analytics het my vir baie jare gehelp om insig te kry in wat op webwerwe gebeur. Nou verstaan ββek dat hulle baie min nuttige inligting verskaf. Met toegang tot jou access.log-lΓͺer, is dit baie maklik om die statistieke te verstaan ββen om redelik basiese gereedskap te implementeer, soos sqlite, html, die sql-taal en enige script-programmeertaal.
Die databron vir Webalizer is die bediener se access.log-lΓͺer. Dit is hoe sy stawe en getalle lyk, waaruit slegs die totale volume verkeer duidelik is:
Gereedskap soos Google Analytics versamel self data vanaf die gelaaide bladsy. Hulle wys vir ons 'n paar diagramme en lyne, op grond waarvan dit dikwels moeilik is om korrekte gevolgtrekkings te maak. Miskien moes meer moeite gedoen gewees het? Weet nie.
So, wat wou ek in die webwerfbesoekerstatistieke sien?
Gebruikers- en botverkeer
Dikwels is werfverkeer beperk en dit is nodig om te sien hoeveel nuttige verkeer gebruik word. Byvoorbeeld, soos volg:
SQL-verslag navraag
SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Die grafiek toon die konstante aktiwiteit van bots. Dit sal interessant wees om die mees aktiewe verteenwoordigers in detail te bestudeer.
Irriterende bots
Ons klassifiseer bots op grond van gebruikersagentinligting. Bykomende statistieke oor daaglikse verkeer, aantal suksesvolle en onsuksesvolle versoeke gee 'n goeie idee van botaktiwiteit.
SQL-verslag navraag
SELECT
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG,
DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
AND USG.AGENT_BOT != 'n.a.'
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10
In hierdie geval was die resultaat van die ontleding die besluit om toegang tot die webwerf te beperk deur dit by die robots.txt-lΓͺer te voeg
User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5
Die eerste twee bots het van die tafel verdwyn, en die MS-robotte het van die eerste reΓ«ls af beweeg.
Dag en tyd van die grootste aktiwiteit
Opswaaie is sigbaar in die verkeer. Om hulle in detail te bestudeer, is dit nodig om die tyd van hul voorkoms uit te lig, en dit is nie nodig om al die ure en dae van tydmeting te vertoon nie. Dit sal dit makliker maak om individuele versoeke in die loglΓͺer te vind indien gedetailleerde ontleding nodig is.
SQL-verslag navraag
SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
SELECT
EVENT_DT,
SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
FROM FCT_ACCESS_REQUEST_REF_HH
WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY EVENT_DT
ORDER BY SUM(LINE_CNT) DESC
LIMIT 10
) ORDER BY EVENT_DT
Ons neem die mees aktiewe ure 11, 14 en 20 van die eerste dag op die grafiek waar. Maar die volgende dag om 13:XNUMX was die bots aktief.
Gemiddelde daaglikse gebruikeraktiwiteit per week
Ons het dinge bietjie uitgesorteer met aktiwiteit en verkeer. Die volgende vraag was die aktiwiteit van die gebruikers self. Vir sulke statistieke is lang samevoegingsperiodes, soos 'n week, wenslik.
SQL-verslag navraag
SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_USER_AGENT USG,
DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
AND USG.AGENT_BOT='n.a.' /* users only */
AND HST.STATUS_GROUP IN ('Successful') /* good pages */
AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Weeklikse statistieke toon dat een gebruiker gemiddeld 1,6 bladsye per dag oopmaak. Die aantal versoekte lΓͺers per gebruiker hang in hierdie geval af van die toevoeging van nuwe lΓͺers tot die webwerf.
Alle versoeke en hul statusse
Webalizer het altyd spesifieke bladsykodes gewys en ek wou altyd net die aantal suksesvolle versoeke en foute sien.
SQL-verslag navraag
SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
FCT_ACCESS_USER_AGENT_DD FCT,
DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT
Die verslag vertoon versoeke, nie klikke (treffers), anders as LINE_CNT, word die REQUEST_CNT-maatstaf as COUNT(DISTINCT STG.REQUEST_NK) bereken. Die doel is om effektiewe gebeurtenisse te wys, byvoorbeeld MS-bots poll die robots.txt-lΓͺer honderde kere per dag en in hierdie geval sal sulke meningspeilings een keer getel word. Dit laat jou toe om spronge in die grafiek glad te maak.
Uit die grafiek kan jy baie foute sien - dit is nie-bestaande bladsye. Die resultaat van die ontleding was die byvoeging van herleidings vanaf afgeleΓ« bladsye.
Slegte versoeke
Om versoeke in detail te ondersoek, kan jy gedetailleerde statistieke vertoon.
SQL-verslag navraag
SELECT
1 AS 'Table: Top Error Requests',
REQ.REQUEST_NK AS 'Request',
'Error' AS 'Request Status',
ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
FCT_ACCESS_REQUEST_REF_HH FCT,
DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20
Hierdie lys sal ook alle oproepe bevat, byvoorbeeld 'n versoek na /wp-login.php Deur die reΓ«ls vir die herskryf van versoeke deur die bediener aan te pas, kan jy die bediener se reaksie op sulke versoeke aanpas en dit na die beginbladsy stuur.
Dus, 'n paar eenvoudige verslae gebaseer op die bedienerloglΓͺer gee 'n redelik volledige prentjie van wat op die webwerf gebeur.
Hoe om inligting te kry?
'n SQLite-databasis is voldoende. Kom ons skep tabelle: hulp om ETL-prosesse aan te teken.
Tabelstadium waar ons loglΓͺers met PHP sal skryf. Twee saamgestelde tabelle. Kom ons skep 'n daaglikse tabel met statistieke oor gebruikersagente en versoekstatusse. Uurliks ββmet statistieke oor versoeke, statusgroepe en agente. Vier tabelle van relevante metings.
Die resultaat is die volgende relasionele model:
Data model
Skrip om 'n voorwerp in 'n sqlite-databasis te skep:
DDL voorwerp skepping
DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
USER_AGENT_NK TEXT NOT NULL DEFAULT 'n.a.',
AGENT_OS TEXT NOT NULL DEFAULT 'n.a.',
AGENT_ENGINE TEXT NOT NULL DEFAULT 'n.a.',
AGENT_DEVICE TEXT NOT NULL DEFAULT 'n.a.',
AGENT_BOT TEXT NOT NULL DEFAULT 'n.a.',
UPDATE_DT INTEGER NOT NULL DEFAULT 0,
UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);
Verhoog
In die geval van die access.log-lΓͺer is dit nodig om alle versoeke na die databasis te lees, te ontleed en te skryf. Dit kan Γ³f direk gedoen word met behulp van 'n skriftaal Γ³f met gebruik van sqlite-nutsgoed.
LoglΓͺerformaat:
//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';
Sleutel voortplanting
Wanneer die rou data in die databasis is, moet jy sleutels wat nie daar is nie in die metingstabelle skryf. Dan sal dit moontlik wees om 'n verwysing na die mates te bou. Byvoorbeeld, in die DIM_REFERRER-tabel is die sleutel 'n kombinasie van drie velde.
SQL-sleutelvoortplantingsnavraag
/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
CLS.HOST_NK,
CLS.PATH_NK,
CLS.QUERY_NK,
STRFTIME('%s','now') AS UPDATE_DT
FROM (
SELECT DISTINCT
REFERRER_HOST AS HOST_NK,
REFERRER_PATH AS PATH_NK,
CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* ΠΎΡΡΠ΅Π·Π°Π΅ΠΌ sid - ΡΠΏΠ΅ΡΠΈΡΠΈΠΊΠ° ΡΠΌΡ */
ELSE REFERRER_QUERY END AS QUERY_NK
FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL
Voortplanting na die gebruikersagenttabel kan botlogika bevat, byvoorbeeld die sql-brokkie:
CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
OR INSTR(LOWER(CLS.BROWSER),'wget')>0
THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT
Saamgestelde tabelle
Laastens sal ons die totale tabelle laai; byvoorbeeld, die daaglikse tabel kan soos volg gelaai word:
SQL-navraag vir die laai van totaal
/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
CASE SUBSTR(TIME_NK,5,3)
WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
BROWSER AS USER_AGENT_NK,
REQUEST_NK,
IP_NR,
STATUS,
LINE_NK,
BYTES
FROM STG_ACCESS_LOG
)
SELECT
CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
USG.DIM_USER_AGENT_ID,
HST.DIM_HTTP_STATUS_ID,
COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
SUM(BYTES) AS BYTES
FROM STG,
DIM_HTTP_STATUS HST,
DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID
Die SQLite-databasis laat jou toe om komplekse navrae te skryf. WITH bevat die voorbereiding van data en sleutels. Die hoofnavraag versamel alle verwysings na dimensies.
Die toestand sal nie toelaat dat die geskiedenis weer gelaai word nie: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, waar die parameter die resultaat van die versoek is
'KIES COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH VANAF FCT_ACCESS_USER_AGENT_DD'
Die toestand sal slegs die volle dag laai: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'begin of day'))
Die tel van bladsye of lΓͺers word op 'n primitiewe manier uitgevoer deur na 'n punt te soek.
Verslae
In komplekse visualiseringstelsels is dit moontlik om 'n metamodel te skep wat gebaseer is op databasisvoorwerpe, filters en samevoegingsreΓ«ls dinamies te bestuur. Uiteindelik genereer alle ordentlike gereedskap 'n SQL-navraag.
In hierdie voorbeeld sal ons klaargemaakte SQL-navrae skep en dit as aansigte in die databasis stoor - dit is verslae.
Visualisering
Bluff: Pragtige grafieke in JavaScript is as 'n visualiseringsinstrument gebruik
Om dit te doen, was dit nodig om deur al die verslae met PHP te gaan en 'n html-lΓͺer met tabelle te genereer.
$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);
Die instrument visualiseer eenvoudig tabelle van resultate.
Output
Deur webanalise as voorbeeld te gebruik, beskryf die artikel die meganismes wat nodig is om datapakhuise te bou. Soos uit die resultate gesien kan word, is die eenvoudigste gereedskap voldoende vir diepgaande ontleding en visualisering van data.
In die toekoms, met behulp van hierdie bewaarplek as 'n voorbeeld, sal ons probeer om strukture soos stadig veranderende dimensies, metadata, samevoegingsvlakke en integrasie van data uit verskillende bronne te implementeer.
Kom ons kyk ook van naderby na die eenvoudigste hulpmiddel vir die bestuur van ETL-prosesse gebaseer op 'n enkele tabel.
Kom ons keer terug na die onderwerp van die meet van datakwaliteit en die outomatisering van hierdie proses.
Ons sal die probleme van die tegniese omgewing en instandhouding van databergings bestudeer, waarvoor ons 'n stoorbediener met minimale hulpbronne sal implementeer, byvoorbeeld gebaseer op 'n Raspberry Pi.
Bron: will.com