Σχετικά με τα περίεργα της habrostatistics

Έχω παρατηρήσει στο παρελθόν περίεργη συμπεριφορά στις βαθμολογίες, αλλά πρόσφατα η περίεργη κατάσταση έγινε πολύ εμφανής. Και αποφάσισα να διερευνήσω το πρόβλημα χρησιμοποιώντας τις επιστημονικές μεθόδους που έχω στη διάθεσή μου, δηλαδή: να αναλύσω τη δυναμική του συν-πλην. Φαντάστηκες ξαφνικά;

Είμαι ακόμα προγραμματιστής, αλλά μπορώ να κάνω πολύ βασικά πράγματα. Έτσι, κωδικοποίησα ένα απλό βοηθητικό πρόγραμμα που συλλέγει στατιστικά στοιχεία από τα πάνελ της ανάρτησης Khabrov: πλεονεκτήματα, μειονεκτήματα, προβολές, σελιδοδείκτες κ.λπ.

Σχετικά με τα περίεργα της habrostatistics

Τα στατιστικά εμφανίζονται σε γραφήματα, μετά από μελέτη των οποίων μπορέσαμε να ανακαλύψουμε μερικές ακόμη εκπλήξεις, μικρότερες. Πρώτα όμως πρώτα.

Παράξενο 1.
Εδώ ξεκίνησε ουσιαστικά η στατιστική μου έρευνα.

Μου φάνηκε περίεργο ότι τις πρώτες ώρες μετά τη δημοσίευση ορισμένων από τις αναρτήσεις μου πήγαν έντονα αρνητικά, μετά πήγαν στο μηδέν και τελικά κέρδισαν το αναμενόμενο συν. Γιατί συνέβη?

Ήμουν έτοιμος να δημοσιεύσω μια άλλη ανάρτηση - σε δύο μέρη. Αποφάσισα να τον υποβάλω σε στατιστική ανάλυση.

Δημοσιεύτηκε το πρώτο μέρος. Ταυτόχρονα, ξεκίνησα το βοηθητικό πρόγραμμα και άρχισα να περιμένω το αποτέλεσμα. Δυστυχώς, το βράδυ - ενώ κοιμόμουν - το πρόγραμμα σταμάτησε να συλλέγει πληροφορίες λόγω σφάλματος. Το επόμενο πρωί διόρθωσα το λάθος, αλλά τα στατιστικά αποδείχτηκαν για λιγότερο από μια μέρα. Ωστόσο, οι τάσεις είναι επίσης εμφανείς για τον χρόνο που εργάστηκε.

Τα δεδομένα παρέχονται για τις πρώτες 14 ώρες από τη στιγμή της δημοσίευσης, το διάστημα μεταξύ των μετρήσεων είναι 10 λεπτά.

Σχετικά με τα περίεργα της habrostatistics

Τα μάτια δεν μας εξαπάτησαν: τα περισσότερα από τα μειονεκτήματα συμβαίνουν την πρώτη ώρα της ύπαρξης της ανάρτησης. Στην αρχή η ανάρτηση μπήκε σε αρνητικό έδαφος, μετά ανέκαμψε. Ακολουθούν οι αριθμοί που χρησιμοποιούνται για τη σχεδίαση του γραφήματος:

Σχετικά με τα περίεργα της habrostatistics

Και αυτό παρά το γεγονός ότι οι προβολές αυξάνονται ομαλά!

Σχετικά με τα περίεργα της habrostatistics

Τα βήματα που ξεκινούν από τις χιλιοστά τιμές εξηγούνται από το γεγονός ότι οι συντομογραφίες ξεκινούν στον πίνακα Khabrov: δεν υπάρχει πουθενά να βρείτε τον ακριβή αριθμό προβολών (πιθανώς θα μπορούσε να είχε ληφθεί από υπηρεσίες τρίτων, αλλά δεν τις χρησιμοποίησα ).

Δεν είμαι ειδικός στα στατιστικά, αλλά μια τέτοια κατανομή των μειονεκτημάτων είναι αφύσικη, από όσο καταλαβαίνω;!

Κοιτάξτε, οι σελιδοδείκτες κατανέμονται λίγο πολύ ομοιόμορφα κατά την περίοδο εγγραφής:

Σχετικά με τα περίεργα της habrostatistics

Τα σχόλια κατανέμονται επίσης ομοιόμορφα:

Σχετικά με τα περίεργα της habrostatistics

Υπάρχουν εκρήξεις δραστηριότητας και παθητικότητας, αλλά κατανέμονται επίσης κατά τη διάρκεια της περιόδου: ο σχολιασμός είτε ξεθωριάζει είτε συνεχίζει.

Το ίδιο και με τους συνδρομητές – υπάρχει μια ομοιόμορφη μικρή αύξηση:

Σχετικά με τα περίεργα της habrostatistics

Το κάρμα δεν άλλαξε κατά την περίοδο αναφοράς - δεν το αναφέρω. Και η βαθμολογία υπολογίζεται από το Habr, δεν έχει νόημα να το παραθέσουμε.

Όλοι οι δείκτες αλλάζουν ανάλογα με τον αριθμό των προβολών και μόνο με τα μειονεκτήματα κάτι δεν πάει καλά: το ξέσπασμα θυμού εμφανίζεται την πρώτη ώρα από την έναρξη της δημοσίευσης. Το ίδιο συνέβη και με τις προηγούμενες αναρτήσεις μου. Αλλά αν νωρίτερα αυτά ήταν, θα λέγαμε, προσωπικές εντυπώσεις, τώρα επιβεβαιώνονται με την εγγραφή.

Κατά την καθαρά noob γνώμη μου, μια τέτοια διανομή σημαίνει: υπάρχουν αρκετοί χρήστες στον ιστότοπο που βλέπουν σκόπιμα τις πιο πρόσφατες δημοσιευμένες δημοσιεύσεις και καταψηφίζουν ορισμένες από τις δημοσιεύσεις - με βάση μια ανάγκη που είναι γνωστή μόνο σε αυτούς. Γράφω "μερικές από τις αναρτήσεις" επειδή παρατήρησα αυτό το αποτέλεσμα όχι μόνο στις δημοσιεύσεις μου. Σε όλες τις περιπτώσεις, το αποτέλεσμα είναι έντονο, διαφορετικά απλά δεν θα το είχα δώσει σημασία.

Έχω τέσσερις εκδοχές για το γιατί συμβαίνει αυτό.

Έκδοση 1. Ψυχική διαστροφή. Οι άρρωστοι άνθρωποι παρακολουθούν σκόπιμα τους συγγραφείς που τους βρίσκουν δυσάρεστους και τους καταψηφίζουν, με στόχο να τους βλάψουν.

Δεν πιστεύω σε αυτή την έκδοση.

Έκδοση 2. Ψυχολογική επίδραση. Ποιο - δεν ξέρω. Λοιπόν, γιατί οι αναγνώστες πρώτα αφαιρούν ομόφωνα την ανάρτηση και μετά την υπερψηφίζουν ομόφωνα; Είναι μείον ως μη θεματικά, αλλά συν οι γνώστες της ομορφιάς βρίσκονται στην πλειοψηφία; Δεν ξέρω.

Αν υπάρχουν ψυχολόγοι ανάμεσα στους αναγνώστες, ας πουν τη γνώμη τους.

Έκδοση 3. Οι υπηρέτες ενεργούν. Γιατί τα αφεντικά τους να σκορπίσουν σήψη στις θέσεις του Χάμπροφ; Ένας Θεός ξέρει. Ωστόσο, υπηρετούντες δεν υπάρχουν μόνο στη χώρα μας. Ποιος θα τους καταλάβει, Ρωσόφοβοι;!

Έκδοση 4. Συνδυασμένες επιδράσεις των παραγόντων που αναφέρθηκαν προηγουμένως.

Αρκετά φανταστικό.

Όπως και να έχει, οι minusers καταφέρνουν να μειώσουν τον αριθμό των προβολών. Δεν είμαι εξοικειωμένος με τους κανόνες για να φέρω τις αναρτήσεις του Khabrov στην κορυφή, δεν ξέρω καν αν αυτοί οι αλγόριθμοι έχουν δημοσιοποιηθεί ή όχι, αλλά είναι προφανές για μένα: το πρόωρο μείον δεν επιτρέπει στις εξοστρακισμένες αναρτήσεις να φτάσουν στην κορυφή - Πιο συγκεκριμένα, καθυστερεί να φτάσει εκεί, γεγονός που με τη σειρά του μειώνει σημαντικά, κατά καιρούς, τον αριθμό των προβολών.

Από όσο καταλαβαίνω, δεν υπάρχουν αποτελεσματικοί τρόποι για την καταπολέμηση αυτού του κακού. Ο μόνος τρόπος είναι η προσωπική ψήφος. Μόνο σε αυτήν την περίπτωση μπορείτε να καθορίσετε ποια προφίλ παρακολουθούνται περιοδικά και μείον τις τελευταίες δημοσιεύσεις. Ωστόσο, δεν υπάρχει προσωπική ψηφοφορία για το Habré (ή μάλλον δεν δημοσιοποιείται).

Αλλά όλα δεν είναι τόσο απλά.

Όπως είπα, το ανατετμημένο υλικό δημοσιεύτηκε τμηματικά. Μετά τη δημοσίευση του δεύτερου μέρους περίμενα παρόμοια εικόνα: με την αρχική έξοδο στο μείον και την επόμενη στο συν. Ωστόσο, το αποτέλεσμα αποδείχθηκε πολύ πιο εξομαλυμένο: η ανάρτηση δεν μετατράπηκε σε μείον.

Μέχρι τη δημοσίευση του δεύτερου μέρους, το σφάλμα είχε επιδιορθωθεί, επομένως τα δεδομένα δίνονται ανά ημέρα:

Σχετικά με τα περίεργα της habrostatistics

Δεν ξέρω από πού προήλθε η εξομάλυνση. Ίσως επειδή δημοσιεύτηκε το Σάββατο (οι αρνητικές ψήφοι δεν λειτουργούν τα Σάββατα;) ή επειδή αυτό είναι το τέλος του προηγουμένως δημοσιευμένου υλικού.

Ωστόσο, η κατανομή των μειονεκτημάτων εξακολουθεί να είναι άνιση: όλα τα μείον εμφανίζονται στο πρώτο μισό της περιόδου εγγραφής και τα μείον τελειώνουν πολύ νωρίτερα από το συν. Ταυτόχρονα, οι προβολές κατανέμονται κατά τη διάρκεια της περιόδου ακριβώς όπως την προηγούμενη φορά - ομοιόμορφα:

Σχετικά με τα περίεργα της habrostatistics

Η αιχμή που σημειώθηκε γύρω στις τρεις το μεσημέρι δεν είναι απόρρητο υλικό. Το ίντερνετ μου μόλις έσβησε για μια ώρα. Το βοηθητικό πρόγραμμα δεν μπόρεσε να συνδεθεί στον ιστότοπο.

Σχετικά με τα περίεργα της habrostatistics

Όλα τα άλλα είναι απολύτως στάνταρ.

Σελιδοδείκτες:

Σχετικά με τα περίεργα της habrostatistics

Σχόλια: όπως και την προηγούμενη φορά, οι περίοδοι δραστηριότητας εναλλάσσονται με περιόδους σιωπής.

Σχετικά με τα περίεργα της habrostatistics

Κάρμα. Καταγράφηκε αύξηση κάποιων μονάδων - φυσικά όχι ταυτόχρονα:

Σχετικά με τα περίεργα της habrostatistics

Και συνδρομητές. Ο συνολικός αριθμός παρέμεινε αμετάβλητος (προφανώς, οι ενδιαφερόμενοι δήλωσαν συμμετοχή όταν δημοσιεύτηκε το πρώτο μέρος). Ακριβώς γύρω στη μία το μεσημέρι υπήρχε μία μόνο διακύμανση: κάποιος απεγγραφόταν -ίσως κατά λάθος- αλλά αμέσως εγγράφηκε ξανά. Εάν επρόκειτο για διαφορετικό άτομο, προέκυψε αποζημίωση: ο συνολικός αριθμός των συνδρομητών δεν άλλαξε.

Σχετικά με τα περίεργα της habrostatistics

Έτσι, οι μετρήσεις ανάρτησης συμπεριφέρονται με σαφή και προβλέψιμο τρόπο. Όλοι οι δείκτες, εκτός από τα μείον. Δεδομένου ότι δεν βλέπω προφανή λόγο για αυτό, θεωρώ ότι η κορυφή μείον είναι τουλάχιστον περίεργη.

Παράξενο 2.
Μερικές φορές ο αριθμός των προβολών μειώνεται (κάτι που, φυσικά, είναι αδύνατο), αλλά σύντομα επιστρέφει στο κανονικό.

Το παρακολούθησα τυχαία, κατά την αποσφαλμάτωση του προγράμματος, όταν δεν είχε ακόμη επισυναφθεί η συνάρτηση εξαγωγής-εισαγωγής, οπότε λείπει το αντίστοιχο ζιγκ-ζαγκ στο γράφημα. Μπορείτε να λάβετε υπόψη μου - αυτό το αποτέλεσμα παρατηρήθηκε δύο φορές. Αρκετές χιλιάδες προβολές, ξαφνικά ο αριθμός των προβολών μειώνεται κατά μερικές εκατοντάδες, μετά από 10-20 λεπτά επαναφέρεται στο προηγούμενο επίπεδο (χωρίς να λαμβάνεται υπόψη η φυσική αύξηση).

Αυτό είναι πολύ απλό: ένα σφάλμα στον ιστότοπο. Και δεν υπάρχει τίποτα να σκεφτείς.

Παράξενο 3.
Αυτό είναι που μου φάνηκε πολύ πιο παράξενο από τα εθελοντικά πρώτα και τεχνικά δεύτερα αποτελέσματα. Τα συν δεν συμβαίνουν μεμονωμένα, με ομοιόμορφη κατανομή κατά τη διάρκεια της περιόδου, αλλά σε μπλοκ. Αλλά η προσθήκη δεν είναι σχόλιο, όταν μια ερώτηση ακολουθείται φυσικά από μια απάντηση, είναι μια ατομική πράξη!

Ρίξτε μια πιο προσεκτική ματιά στα γραφήματα αποτελεσμάτων που δημοσιεύτηκαν παραπάνω: τα μπλοκ είναι αισθητά.

Οι γνώστες μου έγνεψαν καταφατικά για την κατανομή Poisson, αλλά δεν μπορώ να υπολογίσω την πιθανότητα μόνος μου. Εάν μπορείτε, κάντε τα μαθηματικά. Είναι ήδη προφανές για μένα ότι ο αριθμός των διπλών συν υπερβαίνει κατά πολύ τον κανόνα.

Ακολουθούν τα ψηφιακά δεδομένα για τα πλεονεκτήματα του πρώτου μέρους της ανάρτησης. Το γράφημα δείχνει τον αριθμό των θετικών για μονές, διπλές και τριπλές θέσεις στον συνολικό αριθμό των βαθμολογιών που δίνονται. Όπως αναφέρθηκε προηγουμένως, το διάστημα μέτρησης είναι 10 λεπτά.

Σχετικά με τα περίεργα της habrostatistics

Από τα 30 pokes σε 84 κελιά, δύο κελιά τρυπήθηκαν τρεις φορές. Λοιπόν, δεν ξέρω πόσο αυτό αντιστοιχεί στη θεωρία πιθανοτήτων...

Στοιχεία για το δεύτερο μέρος της ανάρτησης (καθώς η περίοδος μέτρησης είναι μεγαλύτερη, τη συντομεύω ανάλογα με τη διάρκεια του πρώτου μέρους, για συγκρισιμότητα):

Σχετικά με τα περίεργα της habrostatistics

Παρεμπιπτόντως, εδώ ένα από τα μεμονωμένα συν γειτνιάζει χρονικά με το τριπλάσιο, δηλαδή σε περίπου 20 λεπτά υπήρξε άνοδος στα συν (το 29% του συνολικού τους αριθμού ήταν συν). Και αυτό δεν συνέβη στα πρώτα λεπτά της δημοσίευσης.

Η σχέση μεταξύ μονών, διπλών και τριπλών θέσεων είναι περίπου η ίδια όπως στο πρώτο μέρος. Και η μείωση του μεριδίου των αξιολογήσεων στις μετρήσεις εξηγείται από το γεγονός ότι οι αξιολογήσεις δίνονταν λιγότερο συχνά. Έγιναν μετρήσεις, αλλά δεν καταγράφηκαν πλεονεκτήματα.

Δεν μπορώ να εξηγήσω αυτό το block plus effect με κανέναν τρόπο, δηλαδή καθόλου. Για τα μειονεκτήματα, μια τέτοια «μπλοκαρισμένη» συμπεριφορά δεν φαίνεται να είναι τυπική.

Οι εκπομποί της καλοσύνης στέλνουν προτάσεις σε παρτίδες, ενεργοποιώντας και απενεργοποιώντας; Χεχεχεχε...

PS
Αν κάποιος θέλει να αναλύσει στατιστικά στοιχεία ανάρτησης χρησιμοποιώντας πιο προηγμένες μεθόδους ή να ελέγξει την αριθμητική, τα αρχεία με τα δεδομένα πηγής είναι εδώ:
yadi.sk/d/iN4SL6tzsGEQxw

Δεν επιμένω στις αμφιβολίες μου - ίσως κάνω λάθος, ειδικά επειδή τα στατιστικά είναι ζοφερά. Ελπίζω ότι τα σχόλια από επαγγελματίες στατιστικολόγους, ψυχολόγους και άλλους ενδιαφερόμενους χρήστες θα ξεκαθαρίσουν τη σύγχυση που έχει προκύψει.

Σας ευχαριστώ για την προσοχή σας.

Πηγή: www.habr.com

Προσθέστε ένα σχόλιο