Jeśli liczba komentarzy pod artykułem szybko zbliża się do 1000, to bądźcie pewni, że niezależnie od tematu podjętego przez autora, w środku toczy się sprzeczka: punkty zapalne polityki, w otoczeniu fotelowych ekspertów od wszelkich zagadnień, diagnozy psychiatryczne na odległość za pomocą awatara i przezwisko, otrzymując osobiste, sarkastyczne ataki, których zjadliwość przewyższa krew ksenomorfów, i oczywiście obowiązkowym daniem w takich przypadkach są wzajemne oskarżenia, które twój rozmówca omawia z tobą wyłącznie za wynagrodzeniem lub poza służbą. Co pozornie jest niebezpieczne i trudne, a na pierwszy rzut oka wydaje się niewidoczne, a na drodze nie leży trzydzieści srebrników.
Zabawne w tej sytuacji jest to, że
Weźmy jeden z
Prawdziwy człowiek nie będzie mógł nic przeciwstawić profesjonalnemu komentatorowi w abonamencie...
Użytkownik (taki a taki) spędza nierealistyczną ilość czasu na komentarzach...
Co więcej, jego działanie nie ma schematów charakterystycznych dla zwykłego użytkownika....ps, ale to podsunęło mi pomysł napisania analizatora parsera dla takich komentatorów) Ze wskazaniem aktywności według godziny, ilości czasu dziennie, tygodniowo itp... Dobry temat na artykuł)
OK, przestań. Jakie wzorce są „zwykle nieodłączne dla przeciętnego użytkownika”? Autor tego wyrażenia w tym wątku niestety został już przepisany, więc będziesz musiał iść losowo.
Pytanie, które chcę wam postawić przed oczyma, jest następujące: czy w ogóle możliwe jest, stosując metody statystyczne, przynajmniej wiarygodnie zidentyfikować te same wzorce, aby stworzyć formalny klasyfikator odróżniający komentatorów przypadkowych od zawodowych? Wyobraź sobie – „według Habra-botometru na 76% jesteś Kremlinbotem”. Będzie to znacznie fajniejsze niż wzajemne karmiczne napady.
Niestety moje kompetencje nie są na tyle wystarczające, aby choćby zasugerować w jakim kierunku drążyć, aby rozwiązać taki problem. Jednak wczoraj wieczorem zhakowałem mały, prymitywny parser, który (na szczęście strony z komentarzami są otwarte nawet dla nieupoważnionych gości) na razie robi dwie rzeczy - a) zbiera statystyki z danej nazwy użytkownika wszystkich jego komentarzy (na razie tylko znacznik czasu ) i dodaje go do bazy danych MySQL; b) rysuje diagram czasowy, zaznaczając na nim zdarzenia przesłania komentarza pobrane z tej bazy danych. Nawet bez żadnej wyrafinowanej analizy okazało się to dość zabawne. Tak wygląda mój wykres komentarzy. Poniżej znajdują się wyjaśnienia. Najlepiej obejrzeć go w osobnym oknie w skali 100% lub większej.
Oś pozioma to czas, każdy piksel to jedna minuta, wartość szarych podziałek to jedna godzina, cała pozioma linia to jeden dzień. Dni biegną od dołu do góry wzdłuż osi pionowej, wartość podziału na niej wynosi 365 dni.
Na moim schemacie nie ma nic szczególnie interesującego. Widać, że lubię spać 7-8 godzin, często chodzę spać po północy, a czasami organizuję wielogodzinne maratony komentowania, a aktywność w ciągu ostatniego roku jest większa lub w przybliżeniu równa tej z poprzednich pięciu lat .
Albo oto towarzysz
Diagram aktywności typowego habrakomentatora wygląda mniej więcej tak (tzn
Wyraźna „senna dziupla” po lewej stronie gdzieś w europejskiej nocy i spokojny komentarz w godzinach dziennych, być może z półrocznymi przerwami.
Ale nie wszystkie diagramy są takie nudne! A co powiesz na to, na przykład:
W nieco ponad dwa lata nasz kolega najwyraźniej przeprogramował swoje biorytmy, aby spać z europejskiej nocy gdzieś pod Grzbietem Śródatlantyckim, równomiernie i stopniowo, po czym spędził kolejne dwa lata, aby wrócić do wybrzeży Portugalii. chodziłeś? Pływać? Nie potrafię wymyślić żadnych wiarygodnych wyjaśnień... Przez pierwsze trzy godziny po przebudzeniu komentarze lecą jak z karabinu maszynowego, ale pod koniec dnia jest tak, raz na godzinę zaglądam, żeby zobaczyć, co się dzieje tam i tyle.
Swoją drogą, tak było
A oto kolejna zagadka:
Kolega wytrzymał cztery i pół roku bez ani jednego komentarza – najwyraźniej gdzieś w tajnych klasztorach szkolił się, jak nie zasnąć całymi dniami, sądząc po liczbie komentarzy zamieszczonych w „sennej kotlinie”.
Ale najciekawszą rzeczą jest tutaj anomalia w godzinie 16, która trwa ponad trzy lata i stopniowo zanika w ostatnim roku. Przerwa na papierosa? Spacer z psem? Jogging? Co jeszcze może oderwać mieszkańca Chabrowa od komentarzy w środku dnia roboczego, w którym panuje taka codzienność? Jestem niechlujnym i leniwym człowiekiem, nie wyobrażam sobie takiej samodyscypliny, jaką ma szanowany
Na koniec ostatni diagram do przemyślenia:
Nie ma na nim w ogóle wyraźnie określonej „sennej dziupli”. Tylko ledwo można dostrzec widoczną przewagę komentarzy nadesłanych po południu w stosunku do komentarzy nadesłanych wcześniej.
Z całym rygorem Komsomołu namawiam szanownych
I na koniec podstępne pytanie - czy ktoś mógłby być tym wszystkim na tyle zainteresowany, że chciałby opracować kod parsera lub uzyskać zrzut bazy danych lub uzyskać do niej dostęp i tak dalej? Moja wiedza na temat metod eksploracji danych i wizualizacji danych nie przekracza ogólnej erudycji. Nie przychodzi mi do głowy nic mądrzejszego i ciekawszego niż te proste diagramy. Jeśli ktoś jest zainteresowany proszę pisać do mnie w telegramie (pseudonim w profilu).
Dziękuję za uwagę!
UPD. Opublikował
Źródło: www.habr.com