Статистика сајта и сопствено мало складиште

Вебализер и Гоогле Аналитицс су ми помогли да стекнем увид у оно што се дешава на веб локацијама већ дуги низ година. Сада схватам да они пружају врло мало корисних информација. Имајући приступ вашој аццесс.лог датотеци, врло је лако разумети статистику и имплементирати сасвим основне алате, као што су склите, хтмл, скл језик и било који програмски језик за скриптовање.

Извор података за Вебализер је серверов аццесс.лог фајл. Овако изгледају његове траке и бројеви из којих се види само укупан обим саобраћаја:

Статистика сајта и сопствено мало складиште
Статистика сајта и сопствено мало складиште
Алати као што је Гоогле аналитика сами прикупљају податке са учитане странице. Показују нам пар дијаграма и линија, на основу којих је често тешко извући тачне закључке. Можда је требало уложити више труда? Не знам.

Дакле, шта сам желео да видим у статистици посетилаца веб странице?

Саобраћај корисника и ботова

Често је саобраћај на сајту ограничен и потребно је видети колико се корисног саобраћаја користи. На пример, овако:

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Графикон приказује сталну активност ботова. Било би занимљиво детаљно проучити најактивније представнике.

Досадни ботови

Ми класификујемо ботове на основу информација о корисничком агенту. Додатне статистике о дневном саобраћају, броју успешних и неуспешних захтева дају добру представу о активности бота.

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

У овом случају, резултат анализе била је одлука да се ограничи приступ сајту додавањем у датотеку роботс.ткт

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Прва два бота су нестала са табеле, а МС роботи су се померили са првих редова.

Дан и време највеће активности

У саобраћају су видљиви успони. Да бисмо их детаљно проучили, потребно је истаћи време њиховог настанка, а није потребно приказати све сате и дане мерења времена. Ово ће олакшати проналажење појединачних захтева у датотеци евиденције ако је потребна детаљна анализа.

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

На графикону посматрамо најактивније сате 11, 14 и 20 првог дана. Али следећег дана у 13:XNUMX ботови су били активни.

Просечна дневна активност корисника по седмици

Мало смо средили ствари са активношћу и саобраћајем. Следеће питање је била активност самих корисника. За такву статистику, пожељни су дуги периоди агрегације, као што је недеља.

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Недељна статистика показује да у просеку један корисник дневно отвори 1,6 страница. Број захтеваних датотека по кориснику у овом случају зависи од додавања нових датотека на сајт.

Сви захтеви и њихови статуси

Вебализер је увек показивао одређене кодове страница и увек сам желео да видим само број успешних захтева и грешака.

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Извештај приказује захтеве, а не кликове (поготке), за разлику од ЛИНЕ_ЦНТ, метрика РЕКУЕСТ_ЦНТ се израчунава као ЦОУНТ(ДИСТИНЦТ СТГ.РЕКУЕСТ_НК). Циљ је да се прикажу ефективни догађаји, на пример, МС ботови анкетирају датотеку роботс.ткт стотине пута дневно и, у овом случају, такве анкете ће се бројати једном. Ово вам омогућава да изгладите скокове на графикону.

Из графикона можете видети многе грешке - ово су непостојеће странице. Резултат анализе био је додавање преусмеравања са удаљених страница.

Лоши захтеви

Да бисте детаљно испитали захтеве, можете приказати детаљну статистику.

Статистика сајта и сопствено мало складиште

СКЛ упит за извештај

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Ова листа ће такође садржати све позиве, на пример, захтев за /вп-логин.пхп Подешавањем правила за преписивање захтева од стране сервера, можете прилагодити реакцију сервера на такве захтеве и послати их на почетну страницу.

Дакле, неколико једноставних извештаја заснованих на фајлу евиденције сервера дају прилично потпуну слику о томе шта се дешава на сајту.

Како доћи до информација?

Склите база података је довољна. Направимо табеле: помоћне за евидентирање ЕТЛ процеса.

Статистика сајта и сопствено мало складиште

Фаза табеле у којој ћемо писати лог фајлове користећи ПХП. Две збирне табеле. Хајде да направимо дневну табелу са статистиком о корисничким агентима и статусима захтева. По сату са статистиком о захтевима, статусним групама и агентима. Четири табеле релевантних мерења.

Резултат је следећи релациони модел:

Модел податакаСтатистика сајта и сопствено мало складиште

Скрипта за креирање објекта у склите бази података:

Креирање ДДЛ објеката

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Фаза

У случају датотеке аццесс.лог, потребно је прочитати, рашчланити и уписати све захтеве у базу података. Ово се може урадити или директно користећи скрипт језик или помоћу склите алата.

Формат датотеке дневника:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Ширење кључа

Када су необрађени подаци у бази података, потребно је да у мерне табеле упишете кључеве којих нема. Тада ће бити могуће изградити референцу на мерења. На пример, у табели ДИМ_РЕФЕРРЕР, кључ је комбинација три поља.

Упит за ширење СКЛ кључа

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Ширење до табеле корисничког агента може да садржи логику бота, на пример скл исечак:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Збирне табеле

На крају, учитаћемо збирне табеле; на пример, дневна табела се може учитати на следећи начин:

СКЛ упит за учитавање агрегата

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Склите база података вам омогућава да пишете сложене упите. ВИТХ садржи припрему података и кључева. Главни упит прикупља све референце на димензије.

Услов неће дозволити поновно учитавање историје: ЦАСТ(СТГ.ЕВЕНТ_ДТ АС ИНТЕГЕР) > $парам_епоцх_фром, где је параметар резултат захтева
'ИЗАБИР ЦОАЛЕСЦЕ(МАКС(ЕВЕНТ_ДТ), '3600') КАО ЛАСТ_ЕВЕНТ_ЕПОЦХ ФРОМ ФЦТ_АЦЦЕСС_УСЕР_АГЕНТ_ДД'

Услов ће се учитати само цео дан: ЦАСТ(СТГ.ЕВЕНТ_ДТ КАО ИНТЕГЕР) < стрфтиме('%с', дате('сада', 'почетак дана'))

Бројање страница или датотека се врши на примитиван начин, тражењем тачке.

Извештаји

У сложеним системима визуелизације могуће је креирати мета-модел заснован на објектима базе података, динамички управљати филтерима и правилима агрегације. На крају крајева, сви пристојни алати генеришу СКЛ упит.

У овом примеру ћемо креирати готове СКЛ упите и сачувати их као приказе у бази података - ово су извештаји.

Визуализација

Блуф: Прелепи графикони у ЈаваСцрипт-у су коришћени као алат за визуелизацију

Да бисте то урадили, било је потребно проћи кроз све извештаје користећи ПХП и генерисати хтмл фајл са табелама.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Алат једноставно визуализује табеле резултата.

Излаз

Користећи веб анализу као пример, чланак описује механизме неопходне за изградњу складишта података. Као што се види из резултата, најједноставнији алати су довољни за дубинску анализу и визуелизацију података.

У будућности, користећи ово спремиште као пример, покушаћемо да имплементирамо такве структуре као што су споро мењајуће димензије, метаподаци, нивои агрегације и интеграција података из различитих извора.

Такође, хајде да ближе погледамо најједноставнији алат за управљање ЕТЛ процесима на основу једне табеле.

Вратимо се на тему мерења квалитета података и аутоматизације овог процеса.

Проучаваћемо проблеме техничког окружења и одржавања складишта података, за шта ћемо имплементирати сервер за складиштење са минималним ресурсима, на пример, заснован на Распберри Пи-у.

Извор: ввв.хабр.цом

Додај коментар