Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Το Webalizer και το Google Analytics με βοήθησαν να αποκτήσω πληροφορίες για το τι συμβαίνει σε ιστότοπους εδώ και πολλά χρόνια. Τώρα καταλαβαίνω ότι παρέχουν πολύ λίγες χρήσιμες πληροφορίες. Έχοντας πρόσβαση στο αρχείο access.log σας, είναι πολύ εύκολο να κατανοήσετε τα στατιστικά στοιχεία και να εφαρμόσετε αρκετά βασικά εργαλεία, όπως sqlite, html, τη γλώσσα sql και οποιαδήποτε γλώσσα προγραμματισμού scripting.

Η πηγή δεδομένων για το Webalizer είναι το αρχείο access.log του διακομιστή. Έτσι μοιάζουν οι μπάρες και οι αριθμοί του, από τους οποίους είναι ξεκάθαρος μόνο ο συνολικός όγκος επισκεψιμότητας:

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος
Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος
Εργαλεία όπως το Google Analytics συλλέγουν τα ίδια δεδομένα από τη φορτωμένη σελίδα. Μας δείχνουν μερικά διαγράμματα και γραμμές, βάσει των οποίων πολλές φορές είναι δύσκολο να βγάλουμε σωστά συμπεράσματα. Ίσως θα έπρεπε να είχε γίνει περισσότερη προσπάθεια; Δεν ξέρω.

Λοιπόν, τι ήθελα να δω στα στατιστικά των επισκεπτών του ιστότοπου;

Επισκεψιμότητα χρηστών και ρομπότ

Συχνά η επισκεψιμότητα του ιστότοπου είναι περιορισμένη και είναι απαραίτητο να δούμε πόση χρήσιμη επισκεψιμότητα χρησιμοποιείται. Για παράδειγμα, όπως αυτό:

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT
1 as 'StackedArea: Traffic generated by Users and Bots',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN USG.AGENT_BOT!='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Bots, KB',
SUM(CASE WHEN USG.AGENT_BOT='n.a.' THEN FCT.BYTES ELSE 0 END)/1000 AS 'Users, KB'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Το γράφημα δείχνει τη συνεχή δραστηριότητα των bots. Θα ήταν ενδιαφέρον να μελετήσουμε λεπτομερώς τους πιο ενεργούς εκπροσώπους.

Ενοχλητικά bots

Ταξινομούμε τα bots με βάση τις πληροφορίες του παράγοντα χρήστη. Πρόσθετα στατιστικά στοιχεία για την καθημερινή επισκεψιμότητα, τον αριθμό των επιτυχημένων και αποτυχημένων αιτημάτων δίνουν μια καλή ιδέα για τη δραστηριότητα του bot.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT 
1 AS 'Table: Annoying Bots',
MAX(USG.AGENT_BOT) AS 'Bot',
ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day',
ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Client Error', 'Server Error') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Error Requests per Day',
ROUND(SUM(CASE WHEN STS.STATUS_GROUP IN ('Successful', 'Redirection') THEN FCT.REQUEST_CNT / 14.0 ELSE 0 END), 1) AS 'Success Requests per Day',
USG.USER_AGENT_NK AS 'Agent'
FROM FCT_ACCESS_USER_AGENT_DD FCT,
     DIM_USER_AGENT USG,
     DIM_HTTP_STATUS STS
WHERE FCT.DIM_USER_AGENT_ID = USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = STS.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT != 'n.a.'
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY USG.USER_AGENT_NK
ORDER BY 3 DESC
LIMIT 10

Σε αυτήν την περίπτωση, το αποτέλεσμα της ανάλυσης ήταν η απόφαση να περιοριστεί η πρόσβαση στον ιστότοπο προσθέτοντάς τον στο αρχείο robots.txt

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: bingbot
Crawl-delay: 5

Τα δύο πρώτα ρομπότ εξαφανίστηκαν από τον πίνακα και τα ρομπότ MS κατέβηκαν από τις πρώτες γραμμές.

Ημέρα και ώρα της μεγαλύτερης δραστηριότητας

Ανοδικά είναι ορατά στην κίνηση. Για τη λεπτομερή μελέτη τους, είναι απαραίτητο να επισημανθεί ο χρόνος εμφάνισής τους και δεν είναι απαραίτητο να εμφανιστούν όλες οι ώρες και ημέρες μέτρησης του χρόνου. Αυτό θα διευκολύνει την εύρεση μεμονωμένων αιτημάτων στο αρχείο καταγραφής εάν χρειάζεται λεπτομερής ανάλυση.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT
1 AS 'Line: Day and Hour of Hits from Users and Bots',
strftime('%d.%m-%H', datetime(EVENT_DT, 'unixepoch')) AS 'Date Time',
HIB AS 'Bots, Hits',
HIU AS 'Users, Hits'
FROM (
	SELECT
	EVENT_DT,
	SUM(CASE WHEN AGENT_BOT!='n.a.' THEN LINE_CNT ELSE 0 END) AS HIB,
	SUM(CASE WHEN AGENT_BOT='n.a.' THEN LINE_CNT ELSE 0 END) AS HIU
	FROM FCT_ACCESS_REQUEST_REF_HH
	WHERE datetime(EVENT_DT, 'unixepoch') >= date('now', '-14 day')
	GROUP BY EVENT_DT
	ORDER BY SUM(LINE_CNT) DESC
	LIMIT 10
) ORDER BY EVENT_DT

Παρατηρούμε τις πιο ενεργές ώρες 11, 14 και 20 της πρώτης ημέρας στον πίνακα. Όμως την επόμενη μέρα στις 13:XNUMX τα bots ήταν ενεργά.

Μέση ημερήσια δραστηριότητα χρήστη ανά εβδομάδα

Τακτοποιήσαμε τα πράγματα λίγο με τη δραστηριότητα και την κίνηση. Η επόμενη ερώτηση ήταν η δραστηριότητα των ίδιων των χρηστών. Για τέτοια στατιστικά στοιχεία, είναι επιθυμητές μεγάλες περίοδοι συγκέντρωσης, όπως μια εβδομάδα.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT
1 as 'Line: Average Daily User Activity by Week',
strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Week',
ROUND(1.0*SUM(FCT.PAGE_CNT)/SUM(FCT.IP_CNT),1) AS 'Pages per IP per Day',
ROUND(1.0*SUM(FCT.FILE_CNT)/SUM(FCT.IP_CNT),1) AS 'Files per IP per Day'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_USER_AGENT USG,
  DIM_HTTP_STATUS HST
WHERE FCT.DIM_USER_AGENT_ID=USG.DIM_USER_AGENT_ID
  AND FCT.DIM_HTTP_STATUS_ID = HST.DIM_HTTP_STATUS_ID
  AND USG.AGENT_BOT='n.a.' /* users only */
  AND HST.STATUS_GROUP IN ('Successful') /* good pages */
  AND datetime(FCT.EVENT_DT, 'unixepoch') > date('now', '-3 month')
GROUP BY strftime('%W week', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Τα εβδομαδιαία στατιστικά δείχνουν ότι κατά μέσο όρο ένας χρήστης ανοίγει 1,6 σελίδες την ημέρα. Ο αριθμός των αιτούμενων αρχείων ανά χρήστη σε αυτήν την περίπτωση εξαρτάται από την προσθήκη νέων αρχείων στον ιστότοπο.

Όλα τα αιτήματα και η κατάστασή τους

Το Webalizer έδειχνε πάντα συγκεκριμένους κωδικούς σελίδας και πάντα ήθελα να δω μόνο τον αριθμό των επιτυχημένων αιτημάτων και σφαλμάτων.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT
1 as 'Line: All Requests by Status',
strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch')) AS 'Day',
SUM(CASE WHEN STS.STATUS_GROUP='Successful' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Success',
SUM(CASE WHEN STS.STATUS_GROUP='Redirection' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Redirect',
SUM(CASE WHEN STS.STATUS_GROUP='Client Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Customer Error',
SUM(CASE WHEN STS.STATUS_GROUP='Server Error' THEN FCT.REQUEST_CNT ELSE 0 END) AS 'Server Error'
FROM
  FCT_ACCESS_USER_AGENT_DD FCT,
  DIM_HTTP_STATUS STS
WHERE FCT.DIM_HTTP_STATUS_ID=STS.DIM_HTTP_STATUS_ID
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY strftime('%d.%m', datetime(FCT.EVENT_DT, 'unixepoch'))
ORDER BY FCT.EVENT_DT

Η αναφορά εμφανίζει αιτήματα, όχι κλικ (επισκέψεις), σε αντίθεση με το LINE_CNT, η μέτρηση REQUEST_CNT υπολογίζεται ως COUNT(DISTINCT STG.REQUEST_NK). Ο στόχος είναι να εμφανιστούν αποτελεσματικά συμβάντα, για παράδειγμα, τα MS bots δημοσκοπούν το αρχείο robots.txt εκατοντάδες φορές την ημέρα και, σε αυτήν την περίπτωση, τέτοιες δημοσκοπήσεις θα μετρηθούν μία φορά. Αυτό σας επιτρέπει να εξομαλύνετε τα άλματα στο γράφημα.

Από το γράφημα μπορείτε να δείτε πολλά σφάλματα - πρόκειται για ανύπαρκτες σελίδες. Το αποτέλεσμα της ανάλυσης ήταν η προσθήκη ανακατευθύνσεων από απομακρυσμένες σελίδες.

Κακές αιτήσεις

Για να εξετάσετε λεπτομερώς τα αιτήματα, μπορείτε να εμφανίσετε λεπτομερή στατιστικά στοιχεία.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Ερώτημα αναφοράς SQL

SELECT
  1 AS 'Table: Top Error Requests',
  REQ.REQUEST_NK AS 'Request',
  'Error' AS 'Request Status',
  ROUND(SUM(FCT.LINE_CNT) / 14.0, 1) AS 'Hits per Day',
  ROUND(SUM(FCT.IP_CNT) / 14.0, 1) AS 'IPs per Day',
  ROUND(SUM(FCT.BYTES)/1000 / 14.0, 1) AS 'KB per Day'
FROM
  FCT_ACCESS_REQUEST_REF_HH FCT,
  DIM_REQUEST_V_ACT REQ
WHERE FCT.DIM_REQUEST_ID = REQ.DIM_REQUEST_ID
  AND FCT.STATUS_GROUP IN ('Client Error', 'Server Error')
  AND datetime(FCT.EVENT_DT, 'unixepoch') >= date('now', '-14 day')
GROUP BY REQ.REQUEST_NK
ORDER BY 4 DESC
LIMIT 20

Αυτή η λίστα θα περιέχει επίσης όλες τις κλήσεις, για παράδειγμα, ένα αίτημα στο /wp-login.php Προσαρμόζοντας τους κανόνες για την επανεγγραφή αιτημάτων από τον διακομιστή, μπορείτε να προσαρμόσετε την αντίδραση του διακομιστή σε τέτοια αιτήματα και να τα στείλετε στην αρχική σελίδα.

Έτσι, μερικές απλές αναφορές που βασίζονται στο αρχείο καταγραφής διακομιστή δίνουν μια αρκετά πλήρη εικόνα του τι συμβαίνει στον ιστότοπο.

Πώς να λάβετε πληροφορίες;

Μια βάση δεδομένων sqlite είναι αρκετή. Ας δημιουργήσουμε πίνακες: βοηθητικό για την καταγραφή διεργασιών ETL.

Στατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Στάδιο πίνακα όπου θα γράψουμε αρχεία καταγραφής χρησιμοποιώντας PHP. Δύο συγκεντρωτικοί πίνακες. Ας δημιουργήσουμε έναν ημερήσιο πίνακα με στατιστικά στοιχεία για τους πράκτορες χρηστών και τις καταστάσεις αιτημάτων. Ωριαία με στατιστικά για αιτήματα, ομάδες κατάστασης και πράκτορες. Τέσσερις πίνακες σχετικών μετρήσεων.

Το αποτέλεσμα είναι το ακόλουθο σχεσιακό μοντέλο:

Μοντέλο δεδομένωνΣτατιστικά στοιχεία ιστότοπου και ο δικός σας μικρός αποθηκευτικός χώρος

Σενάριο για τη δημιουργία ενός αντικειμένου σε μια βάση δεδομένων sqlite:

Δημιουργία αντικειμένου DDL

DROP TABLE IF EXISTS DIM_USER_AGENT;
CREATE TABLE DIM_USER_AGENT (
  DIM_USER_AGENT_ID INTEGER NOT NULL PRIMARY KEY AUTOINCREMENT,
  USER_AGENT_NK     TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_OS          TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_ENGINE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_DEVICE      TEXT NOT NULL DEFAULT 'n.a.',
  AGENT_BOT         TEXT NOT NULL DEFAULT 'n.a.',
  UPDATE_DT         INTEGER NOT NULL DEFAULT 0,
  UNIQUE (USER_AGENT_NK)
);
INSERT INTO DIM_USER_AGENT (DIM_USER_AGENT_ID) VALUES (-1);

Στάδιο

Στην περίπτωση του αρχείου access.log, είναι απαραίτητο να διαβάσετε, να αναλύσετε και να εγγράψετε όλα τα αιτήματα στη βάση δεδομένων. Αυτό μπορεί να γίνει είτε απευθείας χρησιμοποιώντας μια γλώσσα σεναρίου είτε χρησιμοποιώντας εργαλεία sqlite.

Μορφή αρχείου καταγραφής:

//67.221.59.195 - - [28/Dec/2012:01:47:47 +0100] "GET /files/default.css HTTP/1.1" 200 1512 "https://project.edu/" "Mozilla/4.0"
//host ident auth time method request_nk protocol status bytes ref browser
$log_pattern = '/^([^ ]+) ([^ ]+) ([^ ]+) ([[^]]+]) "(.*) (.*) (.*)" ([0-9-]+) ([0-9-]+) "(.*)" "(.*)"$/';

Διάδοση κλειδιού

Όταν τα ανεπεξέργαστα δεδομένα βρίσκονται στη βάση δεδομένων, πρέπει να γράψετε κλειδιά που δεν υπάρχουν στους πίνακες μέτρησης. Στη συνέχεια θα είναι δυνατή η δημιουργία αναφοράς στις μετρήσεις. Για παράδειγμα, στον πίνακα DIM_REFERRER, το κλειδί είναι ένας συνδυασμός τριών πεδίων.

Ερώτημα διάδοσης κλειδιού SQL

/* Propagate the referrer from access log */
INSERT INTO DIM_REFERRER (HOST_NK, PATH_NK, QUERY_NK, UPDATE_DT)
SELECT
	CLS.HOST_NK,
	CLS.PATH_NK,
	CLS.QUERY_NK,
	STRFTIME('%s','now') AS UPDATE_DT
FROM (
	SELECT DISTINCT
	REFERRER_HOST AS HOST_NK,
	REFERRER_PATH AS PATH_NK,
	CASE WHEN INSTR(REFERRER_QUERY,'&sid')>0 THEN SUBSTR(REFERRER_QUERY, 1, INSTR(REFERRER_QUERY,'&sid')-1) /* отрезаем sid - специфика цмс */
	ELSE REFERRER_QUERY END AS QUERY_NK
	FROM STG_ACCESS_LOG
) CLS
LEFT OUTER JOIN DIM_REFERRER TRG
ON (CLS.HOST_NK = TRG.HOST_NK AND CLS.PATH_NK = TRG.PATH_NK AND CLS.QUERY_NK = TRG.QUERY_NK)
WHERE TRG.DIM_REFERRER_ID IS NULL

Η μετάδοση στον πίνακα παράγοντα χρήστη μπορεί να περιέχει λογική bot, για παράδειγμα το απόσπασμα sql:


CASE
WHEN INSTR(LOWER(CLS.BROWSER),'yandex.com')>0
	THEN 'yandex'
WHEN INSTR(LOWER(CLS.BROWSER),'googlebot')>0
	THEN 'google'
WHEN INSTR(LOWER(CLS.BROWSER),'bingbot')>0
	THEN 'microsoft'
WHEN INSTR(LOWER(CLS.BROWSER),'ahrefsbot')>0
	THEN 'ahrefs'
WHEN INSTR(LOWER(CLS.BROWSER),'mj12bot')>0
	THEN 'majestic-12'
WHEN INSTR(LOWER(CLS.BROWSER),'compatible')>0 OR INSTR(LOWER(CLS.BROWSER),'http')>0
	OR INSTR(LOWER(CLS.BROWSER),'libwww')>0 OR INSTR(LOWER(CLS.BROWSER),'spider')>0
	OR INSTR(LOWER(CLS.BROWSER),'java')>0 OR INSTR(LOWER(CLS.BROWSER),'python')>0
	OR INSTR(LOWER(CLS.BROWSER),'robot')>0 OR INSTR(LOWER(CLS.BROWSER),'curl')>0
	OR INSTR(LOWER(CLS.BROWSER),'wget')>0
	THEN 'other'
ELSE 'n.a.' END AS AGENT_BOT

Συγκεντρωτικοί πίνακες

Τέλος, θα φορτώσουμε τους συγκεντρωτικούς πίνακες, για παράδειγμα, ο ημερήσιος πίνακας μπορεί να φορτωθεί ως εξής:

Ερώτημα SQL για φόρτωση συγκεντρωτικών στοιχείων

/* Load fact from access log */
INSERT INTO FCT_ACCESS_USER_AGENT_DD (EVENT_DT, DIM_USER_AGENT_ID, DIM_HTTP_STATUS_ID, PAGE_CNT, FILE_CNT, REQUEST_CNT, LINE_CNT, IP_CNT, BYTES)
WITH STG AS (
SELECT
	STRFTIME( '%s', SUBSTR(TIME_NK,9,4) || '-' ||
	CASE SUBSTR(TIME_NK,5,3)
	WHEN 'Jan' THEN '01' WHEN 'Feb' THEN '02' WHEN 'Mar' THEN '03' WHEN 'Apr' THEN '04' WHEN 'May' THEN '05' WHEN 'Jun' THEN '06'
	WHEN 'Jul' THEN '07' WHEN 'Aug' THEN '08' WHEN 'Sep' THEN '09' WHEN 'Oct' THEN '10' WHEN 'Nov' THEN '11'
	ELSE '12' END || '-' || SUBSTR(TIME_NK,2,2) || ' 00:00:00' ) AS EVENT_DT,
	BROWSER AS USER_AGENT_NK,
	REQUEST_NK,
	IP_NR,
	STATUS,
	LINE_NK,
	BYTES
FROM STG_ACCESS_LOG
)
SELECT
	CAST(STG.EVENT_DT AS INTEGER) AS EVENT_DT,
	USG.DIM_USER_AGENT_ID,
	HST.DIM_HTTP_STATUS_ID,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')=0 THEN STG.REQUEST_NK END) ) AS PAGE_CNT,
	COUNT(DISTINCT (CASE WHEN INSTR(STG.REQUEST_NK,'.')>0 THEN STG.REQUEST_NK END) ) AS FILE_CNT,
	COUNT(DISTINCT STG.REQUEST_NK) AS REQUEST_CNT,
	COUNT(DISTINCT STG.LINE_NK) AS LINE_CNT,
	COUNT(DISTINCT STG.IP_NR) AS IP_CNT,
	SUM(BYTES) AS BYTES
FROM STG,
	DIM_HTTP_STATUS HST,
	DIM_USER_AGENT USG
WHERE STG.STATUS = HST.STATUS_NK
  AND STG.USER_AGENT_NK = USG.USER_AGENT_NK
  AND CAST(STG.EVENT_DT AS INTEGER) > $param_epoch_from /* load epoch date */
  AND CAST(STG.EVENT_DT AS INTEGER) < strftime('%s', date('now', 'start of day'))
GROUP BY STG.EVENT_DT, HST.DIM_HTTP_STATUS_ID, USG.DIM_USER_AGENT_ID

Η βάση δεδομένων sqlite σάς επιτρέπει να γράφετε πολύπλοκα ερωτήματα. WITH περιέχει την προετοιμασία δεδομένων και κλειδιών. Το κύριο ερώτημα συλλέγει όλες τις αναφορές σε διαστάσεις.

Η συνθήκη δεν θα επιτρέψει τη φόρτωση του ιστορικού ξανά: CAST(STG.EVENT_DT ΩΣ ΑΚΕΡΑΙΟΣ) > $param_epoch_from, όπου η παράμετρος είναι το αποτέλεσμα του αιτήματος
'SELECT COALESCE(MAX(EVENT_DT), '3600') AS LAST_EVENT_EPOCH FROM FCT_ACCESS_USER_AGENT_DD'

Η συνθήκη θα φορτώσει μόνο ολόκληρη την ημέρα: CAST(STG.EVENT_DT ΩΣ ΑΚΕΡΑΙΟΣ) < strftime("%s", ημερομηνία("τώρα", "έναρξη ημέρας"))

Η καταμέτρηση σελίδων ή αρχείων πραγματοποιείται με πρωτόγονο τρόπο, με αναζήτηση ενός σημείου.

Εκθέσεις

Σε πολύπλοκα συστήματα οπτικοποίησης, είναι δυνατή η δημιουργία ενός μετα-μοντέλου που βασίζεται σε αντικείμενα βάσης δεδομένων, η δυναμική διαχείριση φίλτρων και κανόνων συγκέντρωσης. Τελικά, όλα τα αξιοπρεπή εργαλεία δημιουργούν ένα ερώτημα SQL.

Σε αυτό το παράδειγμα, θα δημιουργήσουμε έτοιμα ερωτήματα SQL και θα τα αποθηκεύσουμε ως προβολές στη βάση δεδομένων - πρόκειται για αναφορές.

Οραματισμός

Bluff: Όμορφα γραφήματα σε JavaScript χρησιμοποιήθηκαν ως εργαλείο οπτικοποίησης

Για να γίνει αυτό, ήταν απαραίτητο να περάσετε από όλες τις αναφορές χρησιμοποιώντας PHP και να δημιουργήσετε ένα αρχείο html με πίνακες.

$sqls = array(
'SELECT * FROM RPT_ACCESS_USER_VS_BOT',
'SELECT * FROM RPT_ACCESS_ANNOYING_BOT',
'SELECT * FROM RPT_ACCESS_TOP_HOUR_HIT',
'SELECT * FROM RPT_ACCESS_USER_ACTIVE',
'SELECT * FROM RPT_ACCESS_REQUEST_STATUS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_PAGE',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_REFERRER',
'SELECT * FROM RPT_ACCESS_NEW_REQUEST',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_SUCCESS',
'SELECT * FROM RPT_ACCESS_TOP_REQUEST_ERROR'
);

Το εργαλείο απεικονίζει απλώς πίνακες αποτελεσμάτων.

Παραγωγή

Χρησιμοποιώντας την ανάλυση Ιστού ως παράδειγμα, το άρθρο περιγράφει τους μηχανισμούς που είναι απαραίτητοι για τη δημιουργία αποθηκών δεδομένων. Όπως φαίνεται από τα αποτελέσματα, τα απλούστερα εργαλεία επαρκούν για βαθιά ανάλυση και οπτικοποίηση δεδομένων.

Στο μέλλον, χρησιμοποιώντας αυτό το αποθετήριο ως παράδειγμα, θα προσπαθήσουμε να εφαρμόσουμε δομές όπως οι διαστάσεις που αλλάζουν αργά, τα μεταδεδομένα, τα επίπεδα συγκέντρωσης και η ενοποίηση δεδομένων από διαφορετικές πηγές.

Επίσης, ας ρίξουμε μια πιο προσεκτική ματιά στο απλούστερο εργαλείο για τη διαχείριση διαδικασιών ETL με βάση έναν μόνο πίνακα.

Ας επιστρέψουμε στο θέμα της μέτρησης της ποιότητας των δεδομένων και της αυτοματοποίησης αυτής της διαδικασίας.

Θα μελετήσουμε τα προβλήματα του τεχνικού περιβάλλοντος και της συντήρησης των αποθηκευτικών χώρων, για τα οποία θα υλοποιήσουμε έναν διακομιστή αποθήκευσης με ελάχιστους πόρους, για παράδειγμα, βασισμένο σε ένα Raspberry Pi.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο