Retejaj statistikoj kaj via propra malgranda stokado

Webalizer kaj Google Analytics helpis min akiri enrigardon pri kio okazas en retejoj dum multaj jaroj. Nun mi komprenas, ke ili donas tre malmulte da utilaj informoj. Havante aliron al via access.log-dosiero, estas tre facile kompreni la statistikon kaj efektivigi sufiĉe bazajn ilojn, kiel sqlite, html, la sql-lingvo kaj ajna skripta programlingvo.

La datumfonto por Webalizer estas la access.log dosiero de la servilo. Jen kiel aspektas ĝiaj stangoj kaj ciferoj, el kiuj nur la totala trafiko estas klara:

Retejaj statistikoj kaj via propra malgranda stokado
Retejaj statistikoj kaj via propra malgranda stokado
Iloj kiel Google Analytics kolektas datumojn de la ŝarĝita paĝo mem. Ili montras al ni kelkajn diagramojn kaj liniojn, surbaze de kiuj estas ofte malfacile eltiri ĝustajn konkludojn. Eble pli da peno devus esti farita? Ne scias.

Do, kion mi volis vidi en la retejo-vizitstatistiko?

Trafiko de uzantoj kaj bot

Ofte reteja trafiko estas limigita kaj necesas vidi kiom utila trafiko estas uzata. Ekzemple, tiel:

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

La grafikaĵo montras la konstantan aktivecon de robotoj. Estus interese detale studi la plej aktivajn reprezentantojn.

Tedaj robotoj

Ni klasifikas robotojn surbaze de informoj pri uzanta agento. Pliaj statistikoj pri ĉiutaga trafiko, nombro da sukcesaj kaj malsukcesaj petoj donas bonan ideon pri bot-agado.

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

En ĉi tiu kazo, la rezulto de la analizo estis la decido limigi aliron al la retejo aldonante ĝin al la robots.txt dosiero.

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

La unuaj du robotoj malaperis de la tablo, kaj la MS-robotoj moviĝis malsupren de la unuaj linioj.

Tago kaj tempo de plej granda agado

Upswings estas videblaj en la trafiko. Por studi ilin detale, necesas reliefigi la tempon de ilia okazo, kaj ne necesas montri ĉiujn horojn kaj tagojn de tempomezurado. Ĉi tio faciligos trovi individuajn petojn en la protokolo-dosiero se necesas detala analizo.

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Ni observas la plej aktivajn horojn 11, 14 kaj 20 de la unua tago sur la diagramo. Sed la sekvan tagon je 13:XNUMX la robotoj estis aktivaj.

Meza ĉiutaga uzant-agado semajne

Ni iom ordigis aferojn kun agado kaj trafiko. La sekva demando estis la agado de la uzantoj mem. Por tiaj statistikoj, longaj agregaj periodoj, kiel semajno, estas dezirindaj.

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Semajnaj statistikoj montras, ke averaĝe unu uzanto malfermas 1,6 paĝojn tage. La nombro da petitaj dosieroj por uzanto en ĉi tiu kazo dependas de la aldono de novaj dosieroj al la retejo.

Ĉiuj petoj kaj iliaj statusoj

Webalizer ĉiam montris specifajn paĝajn kodojn kaj mi ĉiam volis vidi nur la nombron da sukcesaj petoj kaj eraroj.

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

La raporto montras petojn, ne klakojn (trafoj), male al LINE_CNT, la REQUEST_CNT-metriko estas kalkulita kiel COUNT(DISTINCT STG.REQUEST_NK). La celo estas montri efikajn eventojn, ekzemple, MS-botoj sondas la robots.txt-dosieron centojn da fojoj tage kaj, en ĉi tiu kazo, tiaj balotoj estos kalkulitaj unufoje. Ĉi tio ebligas al vi glatigi saltojn en la grafikaĵo.

El la grafikaĵo vi povas vidi multajn erarojn - ĉi tiuj estas neekzistantaj paĝoj. La rezulto de la analizo estis la aldono de alidirektiloj de foraj paĝoj.

Malbonaj petoj

Por ekzameni petojn detale, vi povas montri detalajn statistikojn.

Retejaj statistikoj kaj via propra malgranda stokado

Demando pri SQL-raporto

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Ĉi tiu listo ankaŭ enhavos ĉiujn alvokojn, ekzemple, peton al /wp-login.php Ĝustigante la regulojn por reverkado de petoj de la servilo, vi povas ĝustigi la reagon de la servilo al tiaj petoj kaj sendi ilin al la komenca paĝo.

Do, kelkaj simplaj raportoj bazitaj sur la servila protokolo-dosiero donas sufiĉe kompletan bildon pri tio, kio okazas en la retejo.

Kiel ricevi informojn?

Sqlite datumbazo sufiĉas. Ni kreu tabelojn: helpan por registri ETL-procezojn.

Retejaj statistikoj kaj via propra malgranda stokado

Tabla etapo kie ni skribos protokolojn uzante PHP. Du entutaj tabloj. Ni kreu ĉiutagan tabelon kun statistikoj pri uzantaj agentoj kaj petaj statusoj. Ĉiuhore kun statistikoj pri petoj, statusaj grupoj kaj agentoj. Kvar tabeloj de koncernaj mezuradoj.

La rezulto estas la sekva interrilata modelo:

Datuma modeloRetejaj statistikoj kaj via propra malgranda stokado

Skripto por krei objekton en sqlite datumbazo:

DDL-objektokreado

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Scenejo

En la kazo de la access.log dosiero, necesas legi, analizi kaj skribi ĉiujn petojn al la datumbazo. Ĉi tio povas esti farita aŭ rekte uzante skriptlingvon aŭ uzante sqlite-iloj.

Formato de protokolo:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Ŝlosila disvastigo

Kiam la krudaj datumoj estas en la datumbazo, vi devas skribi ŝlosilojn, kiuj ne estas tie, en la mezurtablojn. Tiam eblos konstrui referencon al la mezuradoj. Ekzemple, en la tabelo DIM_REFERRER, la ŝlosilo estas kombinaĵo de tri kampoj.

Demando pri disvastigo de SQL-ŝlosilo

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Disvastigo al la uzantagenta tablo povas enhavi robotlogikon, ekzemple la sql-fragmenton:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Agregaj tabeloj

Finfine, ni ŝarĝos la entutajn tabelojn; ekzemple, la ĉiutaga tabelo povas esti ŝarĝita jene:

SQL-demando por ŝarĝo de agregaĵo

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

La datumbazo sqlite permesas skribi kompleksajn demandojn. KUN enhavas la preparadon de datumoj kaj ŝlosiloj. La ĉefa demando kolektas ĉiujn referencojn al dimensioj.

La kondiĉo ne permesos ŝarĝi la historion denove: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, kie la parametro estas la rezulto de la peto
'SELECT COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD'

La kondiĉo ŝargos nur la tutan tagon: CAST(STG.EVENT_DT AS ENTJERO) < strftime(‘%s’, dato(‘nun’, ‘komenco de tago’))

Kalkulado de paĝoj aŭ dosieroj estas farata en primitiva maniero, per serĉado de punkto.

Raportoj

En kompleksaj bildigaj sistemoj, eblas krei meta-modelon bazitan sur datumbazaj objektoj, dinamike administri filtrilojn kaj agregajn regulojn. Finfine, ĉiuj decaj iloj generas SQL-demandon.

En ĉi tiu ekzemplo, ni kreos pretajn SQL-demandojn kaj konservos ilin kiel vidojn en la datumbazo - ĉi tiuj estas raportoj.

Bildigo

Blufo: Belaj grafikaĵoj en JavaScript estis uzataj kiel bildilo

Por fari tion, necesis trarigardi ĉiujn raportojn uzante PHP kaj generi html-dosieron kun tabeloj.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

La ilo simple bildigas tabelojn de rezultoj.

konkludo

Uzante retan analizon kiel ekzemplon, la artikolo priskribas la mekanismojn necesajn por konstrui datumstokejojn. Kiel videblas el la rezultoj, la plej simplaj iloj sufiĉas por profunda analizo kaj bildigo de datumoj.

En la estonteco, uzante ĉi tiun deponejon kiel ekzemplon, ni provos efektivigi tiajn strukturojn kiel malrapide ŝanĝiĝantaj dimensioj, metadatenoj, agregaj niveloj kaj integriĝo de datumoj de malsamaj fontoj.

Ankaŭ, ni rigardu pli detale la plej simplan ilon por administri ETL-procezojn bazitajn sur ununura tablo.

Ni revenu al la temo pri mezurado de datuma kvalito kaj aŭtomatigo de ĉi tiu procezo.

Ni studos la problemojn de la teknika medio kaj prizorgado de datumstokado, por kiu ni efektivigos stokan servilon kun minimumaj rimedoj, ekzemple, bazita sur Raspberry Pi.

fonto: www.habr.com

Aldoni komenton