Сайтын статистик болон өөрийн жижиг хадгалах сан

Webalizer болон Google Analytics нь олон жилийн турш вэбсайтууд дээр юу болж байгааг ойлгоход надад тусалсан. Тэд маш бага хэрэгтэй мэдээлэл өгдөг гэдгийг одоо би ойлгож байна. Access.log файл руугаа нэвтэрснээр статистикийг ойлгоход маш хялбар бөгөөд sqlite, html, sql хэл, скрипт програмчлалын хэл гэх мэт маш энгийн хэрэгслүүдийг хэрэгжүүлэх боломжтой.

Webalizer-ийн мэдээллийн эх сурвалж нь серверийн access.log файл юм. Зөвхөн замын хөдөлгөөний нийт хэмжээ тодорхой харагдаж байгаа түүний баар, тоо нь иймэрхүү харагдаж байна.

Сайтын статистик болон өөрийн жижиг хадгалах сан
Сайтын статистик болон өөрийн жижиг хадгалах сан
Google Analytics зэрэг хэрэгслүүд нь ачаалагдсан хуудаснаас өгөгдөл цуглуулдаг. Тэд бидэнд хэд хэдэн диаграмм, шугамыг харуулдаг бөгөөд үүнд үндэслэн зөв дүгнэлт хийхэд хэцүү байдаг. Магадгүй илүү их хүчин чармайлт гаргах ёстой байсан болов уу? Мэдэхгүй ээ.

Тэгэхээр, би вэбсайтын зочдын статистик мэдээллээс юу харахыг хүссэн бэ?

Хэрэглэгч болон ботын урсгал

Ихэнхдээ сайтын траффик хязгаарлагдмал байдаг бөгөөд хэр их ашиг тустай траффик ашиглаж байгааг харах шаардлагатай байдаг. Жишээлбэл, иймэрхүү:

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

График нь роботуудын байнгын үйл ажиллагааг харуулж байна. Хамгийн идэвхтэй төлөөлөгчдийг нарийвчлан судлах нь сонирхолтой байх болно.

Ядаргаатай роботууд

Бид хэрэглэгчийн агентын мэдээлэлд үндэслэн роботуудыг ангилдаг. Өдөр тутмын хөдөлгөөний талаархи нэмэлт статистик, амжилттай болон амжилтгүй хүсэлтийн тоо нь ботын үйл ажиллагааны талаар сайн санаа өгдөг.

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Энэ тохиолдолд шинжилгээний үр дүн нь robots.txt файлд нэмж сайт руу нэвтрэх эрхийг хязгаарлах шийдвэр байв.

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Эхний хоёр робот ширээн дээрээс алга болж, MS роботууд эхний эгнээнээс доош хөдөлсөн.

Хамгийн их үйл ажиллагааны өдөр, цаг

Замын хөдөлгөөнд өгсөх нь харагдаж байна. Тэдгээрийг нарийвчлан судлахын тулд тэдгээрийн үүссэн цагийг тодруулах шаардлагатай бөгөөд цаг хэмжсэн бүх цаг, өдрүүдийг харуулах шаардлагагүй. Энэ нь нарийвчилсан дүн шинжилгээ хийх шаардлагатай бол бүртгэлийн файлаас бие даасан хүсэлтийг олоход хялбар болгоно.

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Бид график дээрх эхний өдрийн 11, 14, 20 дахь хамгийн идэвхтэй цагуудыг ажиглаж байна. Харин маргааш нь 13:XNUMX цагт ботууд идэвхтэй байсан.

Долоо хоногийн дундаж хэрэглэгчийн үйл ажиллагаа

Бид үйл ажиллагаа, замын хөдөлгөөний талаар бага зэрэг цэгцэлсэн. Дараагийн асуулт бол хэрэглэгчдийн өөрсдийнх нь идэвхжил байв. Ийм статистикийн хувьд долоо хоног гэх мэт урт хугацаанд нэгтгэх нь зүйтэй.

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Долоо хоногийн статистик мэдээллээс харахад нэг хэрэглэгч өдөрт дунджаар 1,6 хуудас нээдэг. Энэ тохиолдолд нэг хэрэглэгчээс хүссэн файлын тоо нь сайтад шинээр нэмж оруулах файлаас хамаарна.

Бүх хүсэлт, тэдгээрийн статус

Webalizer нь үргэлж тодорхой хуудасны кодуудыг харуулдаг байсан бөгөөд би амжилттай хүсэлт, алдааны тоог л харахыг үргэлж хүсдэг байсан.

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Тайлан нь LINE_CNT-ээс ялгаатай нь REQUEST_CNT хэмжигдэхүүнийг COUNT(DISTINCT STG.REQUEST_NK) гэж тооцдог бөгөөд товшилтыг биш хүсэлтийг харуулдаг. Зорилго нь үр дүнтэй үйл явдлуудыг харуулах явдал юм, жишээлбэл, MS роботууд robots.txt файл дээр өдөрт хэдэн зуун удаа санал асуулга явуулдаг бөгөөд энэ тохиолдолд ийм санал асуулга нэг удаа тоологддог. Энэ нь график дахь үсрэлтийг жигд болгох боломжийг танд олгоно.

Графикаас та олон алдааг харж болно - эдгээр нь байхгүй хуудаснууд юм. Шинжилгээний үр дүн нь алсын хуудсуудаас дахин чиглүүлэлт нэмсэн явдал байв.

Буруу хүсэлтүүд

Хүсэлтийг нарийвчлан судлахын тулд та нарийвчилсан статистикийг харуулах боломжтой.

Сайтын статистик болон өөрийн жижиг хадгалах сан

SQL тайлангийн асуулга

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Энэ жагсаалтад мөн бүх дуудлагууд, тухайлбал, /wp-login.php руу хийсэн хүсэлт байх болно, серверийн хүсэлтийг дахин бичих дүрмийг тохируулснаар та серверийн ийм хүсэлтэд үзүүлэх хариу үйлдлийг тохируулж, тэдгээрийг эхлэл хуудас руу илгээх боломжтой.

Тиймээс, серверийн бүртгэлийн файл дээр үндэслэсэн цөөн хэдэн энгийн тайлангууд нь сайт дээр юу болж байгаа талаар нэлээд бүрэн дүр зургийг өгдөг.

Мэдээлэл хэрхэн авах вэ?

Sqlite мэдээллийн сан байхад хангалттай. Хүснэгтүүдийг үүсгэцгээе: ETL процессыг бүртгэх туслах.

Сайтын статистик болон өөрийн жижиг хадгалах сан

Бид PHP ашиглан бүртгэлийн файлуудыг бичих хүснэгтийн үе шат. Хоёр нэгтгэсэн хүснэгт. Хэрэглэгчийн агентууд болон хүсэлтийн статусын статистик бүхий өдөр тутмын хүснэгтийг үүсгэцгээе. Хүсэлт, статусын бүлгүүд болон агентуудын статистикийн хамт цаг тутамд. Холбогдох хэмжилтийн дөрвөн хүснэгт.

Үр дүн нь дараах харилцааны загвар юм.

Өгөгдлийн загварСайтын статистик болон өөрийн жижиг хадгалах сан

Sqlite мэдээллийн санд объект үүсгэх скрипт:

DDL объект үүсгэх

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Үе шат

access.log файлын хувьд өгөгдлийн сангийн бүх хүсэлтийг унших, задлан шинжлэх, бичих шаардлагатай. Үүнийг скрипт хэл эсвэл sqlite хэрэгслийг ашиглан шууд хийж болно.

Бүртгэлийн файлын формат:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Түлхүүр тархалт

Түүхий өгөгдөл мэдээллийн санд байгаа үед хэмжилтийн хүснэгтэд байхгүй түлхүүрүүдийг бичих хэрэгтэй. Дараа нь хэмжилтийн лавлагаа барих боломжтой болно. Жишээлбэл, DIM_REFERRER хүснэгтэд түлхүүр нь гурван талбарын хослол юм.

SQL түлхүүрийн тархалтын асуулга

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Хэрэглэгчийн агентын хүснэгтэд тархах нь ботын логикийг агуулж болно, жишээ нь sql хэсэг:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Хүснэгтүүдийг нэгтгэх

Эцэст нь бид нэгтгэсэн хүснэгтүүдийг ачаалах болно, жишээлбэл, өдөр тутмын хүснэгтийг дараах байдлаар ачаалж болно.

Агрегатыг ачаалах SQL асуулга

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Sqlite мэдээллийн сан нь нарийн төвөгтэй асуултуудыг бичих боломжийг олгодог. WITH нь өгөгдөл, түлхүүрүүдийг бэлтгэхийг агуулдаг. Үндсэн асуулга нь хэмжээсийн бүх лавлагааг цуглуулдаг.

Нөхцөл нь түүхийг дахин ачаалахыг зөвшөөрөхгүй: CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from, параметр нь хүсэлтийн үр дүн юм
'COALESCE(MAX(EVENT_DT), '3600')-г FCT_ACCESS_USER_AGENT_DD-с СҮҮЛИЙН_ҮЙЛ ЯВДАЛ_ЭЦЭЭНИЙГ СОНГОХ''

Нөхцөл нь зөвхөн бүтэн өдөр ачаалагдах болно: CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', огноо('одоо', 'өдрийн эхлэл'))

Хуудас эсвэл файлыг тоолох нь цэг хайх замаар энгийн аргаар хийгддэг.

Тайлангууд

Нарийн төвөгтэй дүрслэлийн системд өгөгдлийн сангийн объект дээр суурилсан мета загвар үүсгэх, шүүлтүүр, нэгтгэх дүрмийг динамикаар удирдах боломжтой. Эцсийн эцэст бүх зохистой хэрэгслүүд SQL асуулга үүсгэдэг.

Энэ жишээнд бид бэлэн SQL асуулга үүсгэж, мэдээллийн санд харагдах байдлаар хадгалах болно - эдгээр нь тайлан юм.

Дүрслэх

Bluff: JavaScript дээрх үзэсгэлэнтэй графикуудыг дүрслэх хэрэгсэл болгон ашигласан

Үүнийг хийхийн тулд PHP ашиглан бүх тайлангуудыг үзэж, хүснэгт бүхий html файл үүсгэх шаардлагатай болсон.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Хэрэгсэл нь үр дүнгийн хүснэгтийг зүгээр л дүрслэн харуулдаг.

дүгнэлт

Вэб анализыг жишээ болгон ашигласнаар энэ нийтлэлд мэдээллийн агуулах барихад шаардлагатай механизмуудыг тайлбарласан болно. Үр дүнгээс харахад хамгийн энгийн хэрэгсэл нь өгөгдлийг гүнзгий дүн шинжилгээ хийх, дүрслэн харуулахад хангалттай юм.

Ирээдүйд энэ агуулахыг жишээ болгон ашигласнаар бид аажмаар өөрчлөгдөж буй хэмжээс, мета өгөгдөл, нэгтгэх түвшин, янз бүрийн эх сурвалжаас авсан өгөгдлийг нэгтгэх зэрэг бүтцийг хэрэгжүүлэхийг хичээх болно.

Мөн нэг хүснэгтэд суурилсан ETL процессыг удирдах хамгийн энгийн хэрэгслийг нарийвчлан авч үзье.

Өгөгдлийн чанарыг хэмжих, энэ үйл явцыг автоматжуулах сэдэв рүү буцаж орцгооё.

Бид мэдээллийн сангийн техникийн орчин, засвар үйлчилгээний асуудлыг судалж, үүнд зориулж хамгийн бага нөөцтэй, жишээлбэл Raspberry Pi дээр суурилсан хадгалах серверийг хэрэгжүүлэх болно.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх