Takwimu za tovuti na hifadhi yako ndogo

Webalizer na Google Analytics zimenisaidia kupata maarifa kuhusu kile kinachotokea kwenye tovuti kwa miaka mingi. Sasa ninaelewa kuwa wanatoa habari ndogo sana muhimu. Kuwa na ufikiaji wa faili yako ya access.log, ni rahisi sana kuelewa takwimu na kutekeleza zana za kimsingi kabisa, kama vile sqlite, html, lugha ya sql na lugha yoyote ya kuandika programu.

Chanzo cha data cha Webalizer ni faili ya access.log ya seva. Hivi ndivyo baa na nambari zake zinavyoonekana, ambayo jumla ya trafiki ni wazi:

Takwimu za tovuti na hifadhi yako ndogo
Takwimu za tovuti na hifadhi yako ndogo
Zana kama vile Google Analytics hukusanya data kutoka kwa ukurasa uliopakiwa zenyewe. Wanatuonyesha michoro na mistari kadhaa, kulingana na ambayo mara nyingi ni ngumu kupata hitimisho sahihi. Labda juhudi zaidi zilipaswa kufanywa? Sijui.

Kwa hivyo, nilitaka kuona nini katika takwimu za wageni wa tovuti?

Trafiki ya mtumiaji na roboti

Mara nyingi trafiki ya tovuti ni ndogo na ni muhimu kuona ni kiasi gani cha trafiki muhimu kinatumika. Kwa mfano, kama hii:

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Grafu inaonyesha shughuli za mara kwa mara za roboti. Itakuwa ya kuvutia kujifunza kwa undani wawakilishi wa kazi zaidi.

roboti za kuudhi

Tunaainisha roboti kulingana na maelezo ya wakala wa mtumiaji. Takwimu za ziada za trafiki ya kila siku, idadi ya maombi yaliyofaulu na ambayo hayajafanikiwa hutoa wazo nzuri la shughuli ya roboti.

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Katika kesi hii, matokeo ya uchanganuzi yalikuwa uamuzi wa kuzuia ufikiaji wa tovuti kwa kuiongeza kwenye faili ya robots.txt.

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Boti mbili za kwanza zilitoweka kwenye meza, na roboti za MS zilihamia chini kutoka kwa mistari ya kwanza.

Siku na wakati wa shughuli kubwa zaidi

Mabadiliko yanaonekana kwenye trafiki. Ili kujifunza kwa undani, ni muhimu kuonyesha wakati wa matukio yao, na si lazima kuonyesha saa zote na siku za kipimo cha muda. Hii itarahisisha kupata maombi ya mtu binafsi katika faili ya kumbukumbu ikiwa uchambuzi wa kina unahitajika.

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Tunazingatia saa za kazi zaidi 11, 14 na 20 za siku ya kwanza kwenye chati. Lakini siku iliyofuata saa 13:XNUMX roboti zilikuwa zikifanya kazi.

Wastani wa shughuli za kila siku za mtumiaji kwa wiki

Tulipanga mambo kidogo kwa shughuli na trafiki. Swali lililofuata lilikuwa shughuli ya watumiaji wenyewe. Kwa takwimu kama hizi, vipindi virefu vya kujumlisha, kama vile wiki, vinafaa.

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Takwimu za kila wiki zinaonyesha kuwa kwa wastani mtumiaji mmoja hufungua kurasa 1,6 kwa siku. Idadi ya faili zilizoombwa kwa kila mtumiaji katika kesi hii inategemea kuongeza faili mpya kwenye tovuti.

Maombi yote na hali zao

Webalizer daima ilionyesha misimbo mahususi ya ukurasa na kila mara nilitaka kuona idadi ya maombi na makosa yaliyofaulu.

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Ripoti inaonyesha maombi, si mibofyo (mibofyo), tofauti na LINE_CNT, kipimo cha REQUEST_CNT kinakokotolewa kama COUNT(DISTINCT STG.REQUEST_NK). Lengo ni kuonyesha matukio ya ufanisi, kwa mfano, MS bots huchagua faili ya robots.txt mamia ya mara kwa siku na, katika kesi hii, kura kama hizo zitahesabiwa mara moja. Hii hukuruhusu kulainisha miruko kwenye grafu.

Kutoka kwenye grafu unaweza kuona makosa mengi - haya ni kurasa ambazo hazipo. Matokeo ya uchanganuzi yalikuwa nyongeza ya uelekezaji upya kutoka kwa kurasa za mbali.

Maombi mabaya

Ili kuchunguza maombi kwa undani, unaweza kuonyesha takwimu za kina.

Takwimu za tovuti na hifadhi yako ndogo

Swali la ripoti ya SQL

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Orodha hii pia itakuwa na simu zote, kwa mfano, ombi kwa /wp-login.php Kwa kurekebisha sheria za kuandika upya maombi na seva, unaweza kurekebisha majibu ya seva kwa maombi hayo na kuwatuma kwenye ukurasa wa mwanzo.

Kwa hivyo, ripoti chache rahisi kulingana na faili ya logi ya seva hutoa picha kamili ya kile kinachotokea kwenye wavuti.

Jinsi ya kupata habari?

Database ya sqlite inatosha. Wacha tuunda meza: msaidizi kwa michakato ya ETL ya ukataji miti.

Takwimu za tovuti na hifadhi yako ndogo

Hatua ya jedwali ambapo tutaandika faili za kumbukumbu kwa kutumia PHP. Jedwali mbili za jumla. Hebu tuunde jedwali la kila siku lenye takwimu za mawakala wa watumiaji na hali za kuomba. Kila saa na takwimu za maombi, vikundi vya hali na mawakala. Jedwali nne za vipimo husika.

Matokeo yake ni mfano ufuatao wa uhusiano:

Mfano wa dataTakwimu za tovuti na hifadhi yako ndogo

Hati ya kuunda kitu kwenye hifadhidata ya sqlite:

Uundaji wa kitu cha DDL

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Jukwaa

Katika kesi ya faili ya access.log, ni muhimu kusoma, kuchanganua na kuandika maombi yote kwenye hifadhidata. Hii inaweza kufanywa moja kwa moja kwa kutumia lugha ya uandishi au kutumia zana za sqlite.

Fomati ya faili ya logi:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Uenezi muhimu

Wakati data mbichi iko kwenye hifadhidata, unahitaji kuandika funguo ambazo hazipo kwenye majedwali ya vipimo. Kisha itawezekana kujenga kumbukumbu kwa vipimo. Kwa mfano, katika jedwali la DIM_REFERRER, ufunguo ni mchanganyiko wa nyanja tatu.

Hoja ya uenezi wa ufunguo wa SQL

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* ΠΎΡ‚Ρ€Π΅Π·Π°Π΅ΠΌ sid - спСцифика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Kueneza kwa jedwali la wakala wa mtumiaji kunaweza kuwa na mantiki ya kijibu, kwa mfano snippet ya sql:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Jedwali la jumla

Mwishowe, tutapakia meza za jumla; kwa mfano, jedwali la kila siku linaweza kupakiwa kama ifuatavyo:

Hoja ya SQL ya upakiaji wa jumla

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Hifadhidata ya sqlite hukuruhusu kuandika maswali magumu. NA ina utayarishaji wa data na funguo. Hoja kuu hukusanya marejeleo yote ya vipimo.

Hali haitaruhusu upakiaji wa historia tena: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, ambapo kigezo ni matokeo ya ombi.
β€˜CHAGUA COALESCE(MAX(EVENT_DT), β€˜3600’) AS LAST_EVENT_EPOCH KUTOKA FCT_ACCESS_USER_AGENT_DD’

Hali itapakia siku nzima pekee: CAST(STG.EVENT_DT AS INTEGER) < strftime(β€˜%s’, tarehe(β€˜sasa’, β€˜mwanzo wa siku’))

Kuhesabu kurasa au faili hufanywa kwa njia ya zamani, kwa kutafuta uhakika.

Ripoti

Katika mifumo tata ya taswira, inawezekana kuunda meta-mfano kulingana na vitu vya hifadhidata, kudhibiti vichungi kwa nguvu na sheria za ujumuishaji. Hatimaye, zana zote nzuri hutoa swali la SQL.

Katika mfano huu, tutaunda maswali ya SQL yaliyotengenezwa tayari na kuyahifadhi kama maoni kwenye hifadhidata - hizi ni ripoti.

Visualization

Bluff: Grafu nzuri katika JavaScript ilitumika kama zana ya taswira

Ili kufanya hivyo, ilikuwa ni lazima kupitia ripoti zote kwa kutumia PHP na kuzalisha faili ya html na meza.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Chombo kinaonyesha tu jedwali la matokeo.

Pato

Kwa kutumia uchanganuzi wa wavuti kama mfano, kifungu kinaelezea njia zinazohitajika kujenga ghala za data. Kama inavyoonekana kutoka kwa matokeo, zana rahisi zaidi zinatosha kwa uchambuzi wa kina na taswira ya data.

Katika siku zijazo, kwa kutumia hazina hii kama mfano, tutajaribu kutekeleza miundo kama vile vipimo vinavyobadilika polepole, metadata, viwango vya kujumlisha na ujumuishaji wa data kutoka vyanzo tofauti.

Pia, hebu tuangalie kwa karibu zana rahisi zaidi ya kusimamia michakato ya ETL kulingana na jedwali moja.

Hebu turudi kwenye mada ya kupima ubora wa data na kufanya mchakato huu otomatiki.

Tutajifunza matatizo ya mazingira ya kiufundi na matengenezo ya hifadhi ya data, ambayo tutatekeleza seva ya kuhifadhi na rasilimali ndogo, kwa mfano, kulingana na Raspberry Pi.

Chanzo: mapenzi.com

Kuongeza maoni