Sivuston tilastot ja oma pieni tallennustila

Webalizer ja Google Analytics ovat auttaneet minua saamaan käsityksen siitä, mitä verkkosivustoilla tapahtuu useiden vuosien ajan. Nyt ymmärrän, että ne tarjoavat hyvin vähän hyödyllistä tietoa. Access.log-tiedostoon pääsyn ansiosta on erittäin helppo ymmärtää tilastoja ja ottaa käyttöön melko perustyökaluja, kuten sqlite, html, sql-kieli ja mikä tahansa ohjelmointikieli.

Webalizerin tietolähde on palvelimen access.log-tiedosto. Tältä näyttävät sen palkit ja numerot, joista näkyy vain liikenteen kokonaismäärä:

Sivuston tilastot ja oma pieni tallennustila
Sivuston tilastot ja oma pieni tallennustila
Työkalut, kuten Google Analytics, keräävät tietoja ladatulta sivulta itse. He näyttävät meille pari kaaviota ja viivaa, joiden perusteella on usein vaikea tehdä oikeita johtopäätöksiä. Ehkä olisi pitänyt ponnistella enemmän? En tiedä.

Joten mitä halusin nähdä verkkosivuston kävijätilastoissa?

Käyttäjä- ja bottiliikenne

Usein sivuston liikenne on rajoitettua ja on tarpeen nähdä, kuinka paljon hyödyllistä liikennettä käytetään. Esimerkiksi näin:

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Kaavio näyttää robottien jatkuvan toiminnan. Olisi mielenkiintoista tutkia yksityiskohtaisesti aktiivisimpia edustajia.

Ärsyttäviä robotteja

Luokittelemme botit käyttäjäagenttitietojen perusteella. Lisätilastot päivittäisestä liikenteestä, onnistuneiden ja epäonnistuneiden pyyntöjen määrästä antavat hyvän käsityksen botin toiminnasta.

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Tässä tapauksessa analyysin tuloksena päätettiin rajoittaa pääsyä sivustoon lisäämällä se robots.txt-tiedostoon

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Kaksi ensimmäistä bottia katosivat pöydältä ja MS-robotit siirtyivät alas ensimmäisiltä riveiltä.

Suurimman toiminnan päivä ja aika

Liikenteessä on havaittavissa nousua. Niiden yksityiskohtaiseen tutkimiseen on tarpeen korostaa niiden esiintymisaikaa, eikä kaikkia ajanmittaustunteja ja -päiviä tarvitse näyttää. Tämä helpottaa yksittäisten pyyntöjen löytämistä lokitiedostosta, jos tarvitaan yksityiskohtaista analyysiä.

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Tarkastelemme kaaviossa ensimmäisen päivän aktiivisimmat tunnit 11, 14 ja 20. Mutta seuraavana päivänä kello 13:XNUMX botit olivat aktiivisia.

Keskimääräinen päivittäinen käyttäjäaktiivisuus viikoittain

Selvitimme asioita hieman toiminnan ja liikenteen avulla. Seuraava kysymys oli käyttäjien itsensä aktiivisuus. Tällaisten tilastojen osalta pitkät aggregointijaksot, kuten viikko, ovat toivottavia.

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Viikkotilastot osoittavat, että keskimäärin yksi käyttäjä avaa 1,6 sivua päivässä. Pyydettyjen tiedostojen määrä käyttäjää kohden riippuu tässä tapauksessa uusien tiedostojen lisäämisestä sivustolle.

Kaikki pyynnöt ja niiden tilat

Webalizer näytti aina tietyt sivukoodit ja halusin aina nähdä vain onnistuneiden pyyntöjen ja virheiden määrän.

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Raportti näyttää pyynnöt, ei napsautukset (osumat). Toisin kuin LINE_CNT, REQUEST_CNT-tieto lasketaan muodossa COUNT(DISTINCT STG.REQUEST_NK). Tavoitteena on näyttää tehokkaita tapahtumia, esimerkiksi MS-botit pollaavat robots.txt-tiedostoa satoja kertoja päivässä ja tässä tapauksessa tällaiset kyselyt lasketaan kerran. Tämän avulla voit tasoittaa kaavion hyppyjä.

Kaaviosta näet monia virheitä - nämä ovat olemattomia sivuja. Analyysin tuloksena lisättiin uudelleenohjauksia etäsivuilta.

Huonot pyynnöt

Voit tarkastella pyyntöjä yksityiskohtaisesti näyttämällä yksityiskohtaisia ​​tilastoja.

Sivuston tilastot ja oma pieni tallennustila

SQL-raporttikysely

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Tämä luettelo sisältää myös kaikki kutsut, esimerkiksi pyynnön /wp-login.php:lle Säätämällä palvelimen pyyntöjen uudelleenkirjoitussääntöjä, voit säätää palvelimen reaktiota tällaisiin pyyntöihin ja lähettää ne aloitussivulle.

Joten muutama yksinkertainen palvelinlokitiedostoon perustuva raportti antaa melko täydellisen kuvan siitä, mitä sivustolla tapahtuu.

Miten saada tietoa?

Sqlite-tietokanta riittää. Luodaan taulukoita: apuväline ETL-prosessien kirjaamiseen.

Sivuston tilastot ja oma pieni tallennustila

Taulukkovaihe, jossa kirjoitamme lokitiedostoja PHP:llä. Kaksi koostetaulukkoa. Luodaan päivittäinen taulukko käyttäjäagenttien ja pyyntöjen tilojen tilastoista. Tuntiittain tilastot pyynnöistä, tilaryhmistä ja agenteista. Neljä taulukkoa asiaankuuluvista mitoista.

Tuloksena on seuraava relaatiomalli:

TietomalliSivuston tilastot ja oma pieni tallennustila

Komentosarja objektin luomiseksi sqlite-tietokantaan:

DDL-objektien luominen

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Vaihe

Access.log-tiedoston tapauksessa on tarpeen lukea, jäsentää ja kirjoittaa kaikki pyynnöt tietokantaan. Tämä voidaan tehdä joko suoraan käyttämällä komentosarjakieltä tai käyttämällä sqlite-työkaluja.

Lokitiedostomuoto:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Avaimen leviäminen

Kun raakadata on tietokannassa, sinun on kirjoitettava mittaustaulukoihin avaimet, joita siellä ei ole. Sitten on mahdollista rakentaa referenssi mittauksiin. Esimerkiksi DIM_REFERRER-taulukossa avain on kolmen kentän yhdistelmä.

SQL-avaimen leviämiskysely

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Eteneminen käyttäjäagenttitaulukkoon voi sisältää bot-logiikkaa, esimerkiksi sql-koodinpätkän:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Aggregaattitaulukot

Lopuksi lataamme koostetaulukot, esimerkiksi päivittäinen taulukko voidaan ladata seuraavasti:

SQL-kysely aggregaatin lataamiseksi

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Sqlite-tietokanta mahdollistaa monimutkaisten kyselyjen kirjoittamisen. WITH sisältää tietojen ja avainten valmistelun. Pääkysely kerää kaikki viittaukset ulottuvuuksiin.

Ehto ei salli historian lataamista uudelleen: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, jossa parametri on pyynnön tulos
'SELECT COALESCE(MAX(EVENT_DT),'3600') AS LAST_EVENT_EPOCH FROM_ACCESS_USER_AGENT_DD'

Ehto latautuu vain koko päivän: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('nyt', 'päivän alku'))

Sivujen tai tiedostojen laskeminen tapahtuu primitiivisellä tavalla pistettä etsimällä.

Raportit

Monimutkaisissa visualisointijärjestelmissä on mahdollista luoda tietokantaobjekteihin perustuva metamalli, hallita dynaamisesti suodattimia ja aggregointisääntöjä. Lopulta kaikki kunnolliset työkalut luovat SQL-kyselyn.

Tässä esimerkissä luomme valmiita SQL-kyselyitä ja tallennamme ne näkyminä tietokantaan - nämä ovat raportteja.

Visualisointi

Bluff: Visualisointityökaluna käytettiin kauniita JavaScriptin kaavioita

Tätä varten piti käydä läpi kaikki raportit PHP:llä ja luoda html-tiedosto taulukoineen.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Työkalu yksinkertaisesti visualisoi tulostaulukot.

johtopäätös

Esimerkkinä web-analyysin avulla artikkelissa kuvataan tietovarastojen rakentamiseen tarvittavat mekanismit. Kuten tuloksista voidaan nähdä, yksinkertaisimmat työkalut riittävät tiedon syvälliseen analysointiin ja visualisointiin.

Tulevaisuudessa tätä arkistoa esimerkkinä käyttäen yritämme toteuttaa sellaisia ​​rakenteita kuin hitaasti muuttuvat dimensiot, metatiedot, aggregointitasot ja eri lähteistä peräisin olevan tiedon integrointi.

Katsotaanpa myös tarkemmin yksinkertaisinta työkalua ETL-prosessien hallintaan yhden taulukon perusteella.

Palataan aiheeseen tietojen laadun mittaamisesta ja tämän prosessin automatisoinnista.

Tutkimme tietovarastojen teknisen ympäristön ja ylläpidon ongelmia, joihin toteutamme minimaalisilla resursseilla esimerkiksi Raspberry Pi -pohjaisen tallennuspalvelimen.

Lähde: will.com

Lisää kommentti