Về những điều kỳ lạ của thống kê habrostatistic

Trước đây tôi đã nhận thấy hành vi kỳ lạ trong xếp hạng nhưng gần đây sự kỳ lạ đó đã trở nên quá rõ ràng. Và tôi quyết định nghiên cứu vấn đề bằng cách sử dụng các phương pháp khoa học sẵn có, cụ thể là: phân tích động lực học của cộng-trừ. Bạn có đột nhiên tưởng tượng?

Tôi vẫn là một lập trình viên nhưng tôi có thể làm được những việc rất cơ bản. Vì vậy, tôi đã mã hóa một tiện ích đơn giản thu thập số liệu thống kê từ các bảng của bài đăng Khabrov: ưu, nhược điểm, lượt xem, dấu trang, v.v.

Về những điều kỳ lạ của thống kê habrostatistic

Số liệu thống kê được hiển thị dưới dạng biểu đồ, sau khi nghiên cứu, chúng tôi có thể khám phá thêm một số điều bất ngờ, nhỏ hơn. Nhưng điều đầu tiên trước tiên.

Sự kỳ lạ 1.
Đây là nơi nghiên cứu thống kê của tôi thực sự bắt đầu.

Đối với tôi, có vẻ kỳ lạ là trong những giờ đầu tiên sau khi xuất bản một số bài đăng của tôi, chúng trở nên tiêu cực, sau đó về 0 và cuối cùng đạt được mức cộng như mong đợi. Tại sao nó lại xảy ra?

Tôi vừa định xuất bản một bài viết khác - gồm hai phần. Tôi quyết định đưa anh ta vào phân tích thống kê.

Đã xuất bản phần đầu tiên. Đồng thời, tôi khởi chạy tiện ích và bắt đầu chờ đợi kết quả. Thật không may, vào ban đêm - khi tôi đang ngủ - chương trình đã ngừng thu thập thông tin do có lỗi. Sáng hôm sau tôi đã sửa lỗi nhưng số liệu thống kê hóa ra chỉ chưa đầy một ngày. Tuy nhiên, xu hướng cũng rõ ràng đối với thời gian làm việc.

Dữ liệu được cung cấp trong 14 giờ đầu tiên kể từ thời điểm công bố, khoảng cách giữa các lần đo là 10 phút.

Về những điều kỳ lạ của thống kê habrostatistic

Đôi mắt đã không đánh lừa chúng tôi: hầu hết các nhược điểm xảy ra trong giờ đầu tiên bài đăng tồn tại. Lúc đầu, bài đăng rơi vào vùng tiêu cực, sau đó nó phục hồi. Dưới đây là những con số được sử dụng để vẽ biểu đồ:

Về những điều kỳ lạ của thống kê habrostatistic

Và điều này bất chấp thực tế là lượt xem đang tăng lên một cách suôn sẻ!

Về những điều kỳ lạ của thống kê habrostatistic

Các bước bắt đầu từ giá trị thứ nghìn được giải thích bởi thực tế là các chữ viết tắt bắt đầu trong bảng Khabrov: không có nơi nào để có được số lượt xem chính xác (có thể nó được lấy từ các dịch vụ của bên thứ ba, nhưng tôi đã không sử dụng chúng ).

Tôi không phải là chuyên gia về thống kê, nhưng theo tôi hiểu thì việc phân bổ các điểm trừ như vậy là bất thường?!

Hãy nhìn xem, các dấu trang được phân bổ ít nhiều đồng đều trong thời gian đăng ký:

Về những điều kỳ lạ của thống kê habrostatistic

Bình luận cũng được phân bố đồng đều:

Về những điều kỳ lạ của thống kê habrostatistic

Có những hoạt động bùng nổ và sự thụ động, nhưng chúng cũng được phân bổ theo thời gian: bình luận sẽ nhạt dần hoặc tiếp tục.

Tương tự với người đăng ký – có mức tăng nhẹ đồng đều:

Về những điều kỳ lạ của thống kê habrostatistic

Nghiệp không thay đổi trong thời gian báo cáo - tôi không trích dẫn nó. Và đánh giá được tính toán bởi Habr, liệt kê nó chẳng có ý nghĩa gì.

Tất cả các chỉ số đều thay đổi tỷ lệ thuận với số lượt xem và chỉ có điểm trừ là có điều gì đó không ổn: cơn tức giận bộc phát xảy ra trong giờ đầu tiên kể từ khi bắt đầu xuất bản. Điều tương tự cũng xảy ra với các bài viết trước đây của tôi. Nhưng nếu trước đây đây là những ấn tượng cá nhân thì bây giờ chúng đã được xác nhận bằng cách đăng ký.

Theo quan điểm thuần túy của tôi, việc phân phối như vậy có nghĩa là: có một số người dùng trên trang web cố tình xem các bài đăng được xuất bản mới nhất và đánh giá thấp một số bài đăng - dựa trên nhu cầu chỉ họ mới biết. Tôi viết “một số bài đăng” vì tôi nhận thấy hiệu ứng này không chỉ trong các ấn phẩm của mình. Trong mọi trường hợp, hiệu ứng được thể hiện rõ ràng, nếu không thì đơn giản là tôi đã không chú ý đến nó.

Tôi có bốn phiên bản giải thích tại sao điều này lại xảy ra.

Phiên bản 1. Sự đồi trụy về mặt tinh thần. Những người bệnh cố tình theo dõi những tác giả mà họ thấy khó chịu và đánh giá thấp họ với mục đích làm hại họ.

Tôi không tin vào phiên bản này.

Phiên bản 2. Hiệu ứng tâm lý. Cái nào - tôi không biết. Chà, tại sao đầu tiên độc giả lại nhất trí trừ bài đăng, sau đó không kém phần tán thành nó? Họ có phải là điểm trừ vì không theo chủ đề, nhưng cộng với những người sành làm đẹp lại chiếm đa số? Tôi không biết.

Nếu trong số độc giả có các nhà tâm lý học, hãy để họ lên tiếng.

Phiên bản 3. Những người hầu đang hành động. Tại sao các ông chủ của họ lại gieo rắc những điều thối nát trên các bài viết của Khabrov? Tuy nhiên, có những quân nhân không chỉ ở nước ta. Ai sẽ hiểu họ, những người ghét Nga?!

Phiên bản 4. Tác động kết hợp của các yếu tố đã đề cập trước đó.

Khá có thể tưởng tượng được.

Dù vậy, những người trừ có thể giảm số lượt xem. Tôi không rành về quy định đưa bài viết của Khabrov lên top, thậm chí tôi còn không biết những thuật toán này đã được công khai hay chưa, nhưng tôi thấy rõ ràng: điểm trừ sớm không cho phép những bài viết bị tẩy chay lên top - chính xác hơn, nó làm trì hoãn việc đạt được điều đó, điều này đôi khi làm giảm đáng kể số lượt xem.

Theo tôi hiểu thì không có cách nào hữu hiệu để chống lại tệ nạn này. Cách duy nhất là bỏ phiếu cá nhân. Chỉ trong trường hợp này, bạn mới có thể thiết lập hồ sơ nào được theo dõi định kỳ và trừ các bài đăng mới nhất. Tuy nhiên, không có cuộc bỏ phiếu cá nhân nào đối với Habré (hay nói đúng hơn là nó không được công khai).

Nhưng không phải mọi thứ đều đơn giản như vậy.

Như tôi đã nói, tài liệu mổ xẻ đã được xuất bản thành từng phần. Sau khi xuất bản phần thứ hai, tôi mong đợi một bức tranh tương tự: với đầu ra ban đầu là dấu trừ và phần tiếp theo là dấu cộng. Tuy nhiên, hiệu ứng lại mượt mà hơn nhiều: bài đăng không trở thành điểm trừ.

Vào thời điểm phần thứ hai được xuất bản, lỗi đã được sửa nên dữ liệu được cung cấp mỗi ngày:

Về những điều kỳ lạ của thống kê habrostatistic

Tôi không biết sự mịn màng đến từ đâu. Có lẽ vì nó được xuất bản vào thứ Bảy (các phiếu phản đối không hoạt động vào thứ Bảy?) hoặc vì đây là phần cuối của tài liệu đã xuất bản trước đó.

Tuy nhiên, sự phân bổ các điểm trừ vẫn không đồng đều: tất cả các điểm trừ đều xảy ra trong nửa đầu thời gian đăng ký và điểm trừ kết thúc sớm hơn nhiều so với điểm cộng. Đồng thời, lượt xem được phân bổ trong khoảng thời gian chính xác như lần trước - đồng đều:

Về những điều kỳ lạ của thống kê habrostatistic

Sự tăng đột biến xảy ra vào khoảng ba giờ chiều không phải là tài liệu mật. Internet của tôi vừa bị mất trong một giờ. Tiện ích không thể kết nối với trang web.

Về những điều kỳ lạ của thống kê habrostatistic

Mọi thứ khác là hoàn toàn tiêu chuẩn.

Dấu trang:

Về những điều kỳ lạ của thống kê habrostatistic

Bình luận: giống như lần trước, những khoảng thời gian hoạt động xen kẽ với những khoảng thời gian im lặng.

Về những điều kỳ lạ của thống kê habrostatistic

Nghiệp chướng. Sự gia tăng của một vài đơn vị đã được ghi nhận - tất nhiên, không phải đồng thời:

Về những điều kỳ lạ của thống kê habrostatistic

Và người đăng ký. Tổng số không thay đổi (dường như những người quan tâm đã đăng ký khi phần đầu tiên được xuất bản). Chỉ khoảng một giờ chiều có một biến động duy nhất: có người hủy đăng ký - có lẽ do nhầm lẫn - nhưng ngay lập tức đăng ký lại. Nếu là người khác thì xảy ra bồi thường: tổng số thuê bao không thay đổi.

Về những điều kỳ lạ của thống kê habrostatistic

Vì vậy, các số liệu bài đăng hoạt động theo cách rõ ràng và có thể dự đoán được. Tất cả các chỉ số, ngoại trừ các điểm trừ. Vì tôi không thấy lý do rõ ràng nào cho điều này nên tôi thấy đỉnh âm ít nhất là kỳ lạ.

Sự kỳ lạ 2.
Đôi khi số lượt xem giảm (tất nhiên là không thể) nhưng sẽ sớm trở lại bình thường.

Tôi đã vô tình theo dõi nó trong khi gỡ lỗi chương trình, khi chức năng xuất-nhập chưa được đính kèm nên thiếu hình zigzag tương ứng trên biểu đồ. Bạn có thể tin lời tôi - hiệu ứng này đã được quan sát thấy hai lần. Vài nghìn lượt xem, đột nhiên số lượt xem giảm đi vài trăm, sau 10-20 phút lại khôi phục về mức cũ (không tính đến mức tăng tự nhiên).

Điều này khá đơn giản: một lỗi trên trang web. Và không có gì phải suy nghĩ.

Sự kỳ lạ 3.
Đối với tôi, đây là điều có vẻ xa lạ hơn nhiều so với hiệu ứng thứ nhất mang tính tự nguyện và hiệu ứng thứ hai mang tính kỹ thuật. Điểm cộng không xảy ra đơn lẻ, phân bố đồng đều theo từng thời kỳ mà theo khối. Nhưng việc thêm vào không phải là một nhận xét, khi một câu hỏi đi kèm với một câu trả lời một cách tự nhiên thì đó là một hành động cá nhân!

Hãy xem xét kỹ hơn các biểu đồ kết quả được công bố ở trên: các khối rất đáng chú ý.

Những người am hiểu gật đầu với tôi về phân phối Poisson, nhưng tôi không thể tự mình tính toán xác suất. Nếu bạn có thể, hãy làm toán. Đối với tôi, rõ ràng là số lượng điểm cộng gấp đôi vượt xa định mức.

Dưới đây là dữ liệu kỹ thuật số về những ưu điểm của phần đầu tiên của bài viết. Biểu đồ hiển thị số điểm cộng cho các vị trí đơn, đôi và ba trong tổng số xếp hạng được đưa ra. Như đã đề cập trước đó, khoảng thời gian đo là 10 phút.

Về những điều kỳ lạ của thống kê habrostatistic

Trong số 30 ô ở 84 ô, có hai ô được chọc ba lần. Chà, tôi không biết điều này tương ứng với lý thuyết xác suất đến mức nào...

Dữ liệu cho phần thứ hai của bài viết (vì thời gian đo dài hơn nên tôi rút ngắn nó theo thời lượng của phần đầu tiên để so sánh):

Về những điều kỳ lạ của thống kê habrostatistic

Nhân tiện, ở đây, một trong những điểm cộng đơn lẻ liền kề với điểm cộng gấp ba, tức là trong khoảng 20 phút đã có sự gia tăng số điểm cộng (29% tổng số của chúng là điểm cộng). Và điều này đã không xảy ra trong những phút đầu tiên xuất bản.

Mối quan hệ giữa các vị trí đơn, đôi và ba gần giống như ở phần đầu tiên. Và việc giảm tỷ lệ xếp hạng trong các phép đo được giải thích là do xếp hạng được đưa ra ít thường xuyên hơn. Các phép đo đã được thực hiện, nhưng không có lợi thế nào được ghi lại.

Tôi không thể giải thích hiệu ứng khối cộng này theo bất kỳ cách nào, nghĩa là hoàn toàn không. Về nhược điểm, hành vi “khối” như vậy dường như không phải là điển hình.

Những người phát ra điều tốt lành có gửi đề xuất theo đợt, bật và tắt không? Hehehehe...

PS
Nếu bất kỳ ai muốn phân tích số liệu thống kê bài đăng bằng các phương pháp nâng cao hơn hoặc kiểm tra số học, thì các tệp có dữ liệu nguồn có tại đây:
yadi.sk/d/iN4SL6tzsGEQxw

Tôi không nhấn mạnh vào những nghi ngờ của mình - có lẽ tôi đã sai, đặc biệt là khi số liệu thống kê rất ảm đạm. Tôi hy vọng rằng những nhận xét từ các nhà thống kê chuyên nghiệp, nhà tâm lý học và những người dùng quan tâm khác sẽ làm sáng tỏ những nhầm lẫn đã nảy sinh.

Cảm ơn bạn đã quan tâm của bạn.

Nguồn: www.habr.com

Thêm một lời nhận xét