අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

Webalizer සහ Google Analytics වසර ගණනාවක් තිස්සේ වෙබ් අඩවිවල සිදුවන දේ පිළිබඳ අවබෝධයක් ලබා ගැනීමට මට උදවු කර ඇත. දැන් මට තේරෙනවා ඔවුන් සපයන්නේ ඉතා සුළු ප්‍රයෝජනවත් තොරතුරු බව. ඔබගේ access.log ගොනුව වෙත ප්‍රවේශය තිබීම, සංඛ්‍යාලේඛන තේරුම් ගැනීම සහ sqlite, html, sql භාෂාව සහ ඕනෑම ස්ක්‍රිප්ටිං ක්‍රමලේඛන භාෂාවක් වැනි මූලික මෙවලම් ක්‍රියාත්මක කිරීම ඉතා පහසු වේ.

Webalizer සඳහා දත්ත මූලාශ්‍රය සේවාදායකයේ access.log ගොනුවයි. එහි තීරු සහ අංක පෙනෙන්නේ මෙයයි, එයින් පැහැදිලි වන්නේ ගමනාගමනයේ සම්පූර්ණ පරිමාව පමණි:

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව
අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව
Google Analytics වැනි මෙවලම් පූරණය වූ පිටුවෙන් දත්ත රැස් කරයි. ඔවුන් අපට රූප සටහන් සහ රේඛා කිහිපයක් පෙන්වයි, ඒවා මත පදනම්ව නිවැරදි නිගමන උකහා ගැනීම බොහෝ විට අපහසු වේ. සමහර විට වැඩි උත්සාහයක් දැරීමට සිදු විය හැකිද? දන්නේ නැහැ.

ඉතින්, වෙබ් අඩවි නරඹන්නන්ගේ සංඛ්‍යාලේඛනවල මට දැකීමට අවශ්‍ය වූයේ කුමක්ද?

පරිශීලක සහ බොට් ගමනාගමනය

බොහෝ විට අඩවි ගමනාගමනය සීමිත වන අතර එය කොතරම් ප්‍රයෝජනවත් ගමනාගමනය භාවිතා කරන්නේ දැයි බැලීමට අවශ්‍ය වේ. උදාහරණයක් ලෙස, මේ වගේ:

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

ප්‍රස්ථාරයෙන් දැක්වෙන්නේ බොට් වල නිරන්තර ක්‍රියාකාරිත්වයයි. වඩාත් ක්රියාකාරී නියෝජිතයන් විස්තරාත්මකව අධ්යයනය කිරීම සිත්ගන්නාසුළු වනු ඇත.

කරදරකාරී බොට්ස්

අපි පරිශීලක නියෝජිත තොරතුරු මත පදනම්ව බොට් වර්ගීකරණය කරමු. දෛනික ගමනාගමනය පිළිබඳ අතිරේක සංඛ්‍යාලේඛන, සාර්ථක සහ අසාර්ථක ඉල්ලීම් ගණන බොට් ක්‍රියාකාරකම් පිළිබඳ හොඳ අදහසක් ලබා දෙයි.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

මෙම අවස්ථාවෙහිදී, විශ්ලේෂණයේ ප්රතිඵලය වූයේ robots.txt ගොනුවට එකතු කිරීමෙන් වෙබ් අඩවියට ප්රවේශය සීමා කිරීමට තීරණය කිරීමයි.

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

පළමු බොට් දෙක මේසයෙන් අතුරුදහන් වූ අතර MS රොබෝවරු පළමු පේළි වලින් පහළට ගමන් කළහ.

විශාලතම ක්රියාකාරිත්වයේ දිනය සහ වේලාව

රථවාහන තදබදයේ උච්චාවචනයන් පෙනේ. ඒවා සවිස්තරාත්මකව අධ්‍යයනය කිරීම සඳහා, ඒවායේ සිදුවීමේ කාලය ඉස්මතු කිරීම අවශ්‍ය වන අතර, කාලය මැනීමේ සියලුම පැය සහ දින ප්‍රදර්ශනය කිරීම අවශ්‍ය නොවේ. සවිස්තරාත්මක විශ්ලේෂණයක් අවශ්‍ය නම් ලොග් ගොනුවේ තනි ඉල්ලීම් සොයා ගැනීම මෙය පහසු කරයි.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

අපි ප්‍රස්ථාරයේ පළමු දිනයේ වඩාත්ම ක්‍රියාකාරී පැය 11, 14 සහ 20 නිරීක්ෂණය කරමු. නමුත් ඊළඟ දවසේ 13:XNUMX ට බොට්ස් ක්රියාකාරී විය.

සතියෙන් සාමාන්‍ය දෛනික පරිශීලක ක්‍රියාකාරකම්

අපි ක්‍රියාකාරකම් සහ ගමනාගමනය සමඟ දේවල් ටිකක් නිරාකරණය කළෙමු. ඊළඟ ප්රශ්නය වූයේ පරිශීලකයින්ගේම ක්රියාකාරිත්වයයි. එවැනි සංඛ්‍යාලේඛන සඳහා, සතියක් වැනි දිගු එකතු කිරීමේ කාලසීමාවන් යෝග්‍ය වේ.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

සතිපතා සංඛ්‍යාලේඛන පෙන්නුම් කරන්නේ සාමාන්‍යයෙන් එක් පරිශීලකයෙකු දිනකට පිටු 1,6 ක් විවෘත කරන බවයි. මෙම නඩුවේ එක් පරිශීලකයෙකුට ඉල්ලා සිටින ගොනු ගණන වෙබ් අඩවියට නව ගොනු එකතු කිරීම මත රඳා පවතී.

සියලුම ඉල්ලීම් සහ ඒවායේ තත්ව

Webalizer සෑම විටම නිශ්චිත පිටු කේත පෙන්වූ අතර මට සැමවිටම අවශ්‍ය වූයේ සාර්ථක ඉල්ලීම් සහ දෝෂ ගණන පමණි.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

වාර්තාව LINE_CNT මෙන් නොව ක්ලික් කිරීම් (පහර) නොව ඉල්ලීම් සංදර්ශන කරයි, REQUEST_CNT මෙට්‍රික් COUNT(DISTINCT STG.REQUEST_NK) ලෙස ගණනය කෙරේ. ඉලක්කය වන්නේ ඵලදායී සිදුවීම් පෙන්වීමයි, උදාහරණයක් ලෙස, MS bots robots.txt ගොනුව දිනකට සියගණනක් ඡන්ද විමසන අතර, මෙම අවස්ථාවෙහිදී, එවැනි ඡන්ද විමසීම් එක් වරක් ගණන් කරනු ලැබේ. ප්‍රස්ථාරයේ පැනීම් සුමට කිරීමට මෙය ඔබට ඉඩ සලසයි.

ප්‍රස්ථාරයෙන් ඔබට බොහෝ දෝෂ දැකිය හැකිය - මේවා නොපවතින පිටු වේ. විශ්ලේෂණයේ ප්රතිඵලය වූයේ දුරස්ථ පිටු වලින් යළි-යොමුවීම් එකතු කිරීමයි.

නරක ඉල්ලීම්

ඉල්ලීම් විස්තරාත්මකව පරීක්ෂා කිරීම සඳහා, ඔබට සවිස්තරාත්මක සංඛ්යා ලේඛන පෙන්විය හැක.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

SQL වාර්තා විමසුම

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

මෙම ලැයිස්තුවේ සියලුම ඇමතුම් ද අඩංගු වනු ඇත, උදාහරණයක් ලෙස, /wp-login.php වෙත ඉල්ලීමක් සේවාදායකය විසින් නැවත ලිවීමේ නීති රීති සකස් කිරීමෙන්, ඔබට එවැනි ඉල්ලීම් සඳහා සේවාදායකයේ ප්‍රතිචාරය සකස් කර ඒවා ආරම්භක පිටුවට යැවිය හැකිය.

එබැවින්, සේවාදායක ලොග් ගොනුව මත පදනම් වූ සරල වාර්තා කිහිපයක් වෙබ් අඩවියේ සිදු වන දේ පිළිබඳ තරමක් සම්පූර්ණ චිත්රයක් ලබා දෙයි.

තොරතුරු ලබා ගන්නේ කෙසේද?

sqlite දත්ත සමුදායක් ප්රමාණවත්ය. අපි වගු නිර්මාණය කරමු: ETL ක්‍රියාවලි ලොග් කිරීම සඳහා සහායක.

අඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

අපි PHP භාවිතයෙන් ලොග් ගොනු ලියන වගු අදියර. සමස්ථ වගු දෙකක්. පරිශීලක නියෝජිතයින් සහ ඉල්ලීම් තත්වයන් පිළිබඳ සංඛ්‍යාලේඛන සහිත දෛනික වගුවක් නිර්මාණය කරමු. ඉල්ලීම්, තත්ව කණ්ඩායම් සහ නියෝජිතයින් පිළිබඳ සංඛ්‍යාලේඛන සමඟ පැයකට. අදාළ මිනුම් වගු හතරක්.

එහි ප්‍රතිඵලය වන්නේ පහත සම්බන්ධතා ආකෘතියයි:

දත්ත ආකෘතියඅඩවි සංඛ්‍යාලේඛන සහ ඔබේම කුඩා ගබඩාව

sqlite දත්ත ගබඩාවක වස්තුවක් නිර්මාණය කිරීමට ස්ක්‍රිප්ට්:

DDL වස්තුව නිර්මාණය කිරීම

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

අදියර

Access.log ගොනුව සම්බන්ධයෙන්, දත්ත සමුදාය වෙත සියලු ඉල්ලීම් කියවීම, විග්‍රහ කිරීම සහ ලිවීම අවශ්‍ය වේ. මෙය සෘජුවම ස්ක්‍රිප්ටින් භාෂාවක් භාවිතයෙන් හෝ sqlite මෙවලම් භාවිතයෙන් සිදු කළ හැක.

ලොග් ගොනු ආකෘතිය:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

ප්රධාන ප්රචාරය

අමු දත්ත දත්ත ගබඩාවේ ඇති විට, ඔබ මිනුම් වගු තුළ නොමැති යතුරු ලිවිය යුතුය. එවිට මිනුම් සඳහා යොමුවක් ගොඩනැගීමට හැකි වනු ඇත. උදාහරණයක් ලෙස, DIM_REFERRER වගුවේ, යතුර ක්ෂේත්‍ර තුනක එකතුවකි.

SQL යතුරු ප්‍රචාරණ විමසුම

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

පරිශීලක නියෝජිත වගුව වෙත ප්‍රචාරණය කිරීමේදී බොට් තර්කය අඩංගු විය හැක, උදාහරණයක් ලෙස sql ස්නිපටය:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

සමස්ථ වගු

අවසාන වශයෙන්, අපි සමස්ත වගු පූරණය කරන්නෙමු; උදාහරණයක් ලෙස, දෛනික වගුව පහත පරිදි පූරණය කළ හැකිය:

එකතුව පැටවීම සඳහා SQL විමසුම

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Sqlite දත්ත සමුදාය ඔබට සංකීර්ණ විමසුම් ලිවීමට ඉඩ සලසයි. සමඟ දත්ත සහ යතුරු සකස් කිරීම අඩංගු වේ. ප්‍රධාන විමසුම මානයන් සඳහා සියලු යොමු එකතු කරයි.

ඉතිහාසය නැවත පූරණය කිරීමට කොන්දේසිය ඉඩ නොදේ: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, පරාමිතිය ඉල්ලීමේ ප්‍රතිඵලය වේ
FCT_ACCESS_USER_AGENT_DD වෙතින් අවසාන_EVENT_EPOCH ලෙස ‘COALESCE(MAX(EVENT_DT), ‘3600’) තෝරන්න

කොන්දේසිය පූරණය වන්නේ සම්පූර්ණ දිනය පමණි: CAST(STG.EVENT_DT AS INTEGER) < strftime(‘%s’, දිනය(‘දැන්’, ‘දිනයේ ආරම්භය’))

පිටු හෝ ලිපිගොනු ගණන් කිරීම ප්‍රාථමික ආකාරයකින් සිදු කරනු ලබන්නේ ලක්ෂ්‍යයක් සෙවීමෙනි.

වාර්තා

සංකීර්ණ දෘශ්‍යකරණ පද්ධති තුළ, දත්ත සමුදා වස්තු මත පදනම්ව මෙටා-ආකෘතියක් නිර්මාණය කිරීමට, පෙරහන් සහ එකතු කිරීමේ නීති ගතිකව කළමනාකරණය කිරීමට හැකිය. අවසාන වශයෙන්, සියලුම යහපත් මෙවලම් SQL විමසුමක් ජනනය කරයි.

මෙම උදාහරණයේදී, අපි සූදානම් කළ SQL විමසුම් නිර්මාණය කර ඒවා දත්ත ගබඩාවේ දර්ශන ලෙස සුරකිමු - මේවා වාර්තා වේ.

දෘශ්යකරණය

Bluff: JavaScript හි අලංකාර ප්‍රස්ථාර දෘශ්‍යකරණ මෙවලමක් ලෙස භාවිතා කරන ලදී

මෙය සිදු කිරීම සඳහා, PHP භාවිතයෙන් සියලුම වාර්තා හරහා ගොස් වගු සහිත html ගොනුවක් ජනනය කිරීම අවශ්ය විය.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

මෙවලම ප්‍රතිඵල වගු සරලව දෘෂ්‍යමාන කරයි.

නිගමනය

උදාහරණයක් ලෙස වෙබ් විශ්ලේෂණය භාවිතා කරමින්, දත්ත ගබඩා තැනීමට අවශ්‍ය යාන්ත්‍රණ ලිපිය විස්තර කරයි. ප්රතිඵල වලින් දැකිය හැකි පරිදි, දත්ත ගැඹුරු විශ්ලේෂණය සහ දෘශ්යකරණය සඳහා සරලම මෙවලම් ප්රමාණවත් වේ.

අනාගතයේදී, මෙම ගබඩාව උදාහරණයක් ලෙස භාවිතා කරමින්, සෙමින් වෙනස් වන මානයන්, පාර-දත්ත, එකතු කිරීමේ මට්ටම් සහ විවිධ ප්‍රභවයන්ගෙන් දත්ත ඒකාබද්ධ කිරීම වැනි ව්‍යුහයන් ක්‍රියාත්මක කිරීමට අපි උත්සාහ කරමු.

එසේම, තනි වගුවක් මත පදනම්ව ETL ක්‍රියාවලි කළමනාකරණය කිරීම සඳහා සරලම මෙවලම දෙස සමීපව බලමු.

දත්තවල ගුණාත්මකභාවය මැනීම සහ මෙම ක්‍රියාවලිය ස්වයංක්‍රීය කිරීම යන මාතෘකාවට අපි නැවත යමු.

අපි තාක්ෂණික පරිසරය සහ දත්ත ගබඩා නඩත්තු කිරීමේ ගැටළු අධ්‍යයනය කරන්නෙමු, ඒ සඳහා අපි අවම සම්පත් සහිත ගබඩා සේවාදායකයක් ක්‍රියාත්මක කරන්නෙමු, උදාහරණයක් ලෙස, Raspberry Pi මත පදනම්ව.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න