Byen sovner, innbyggerne i Khabrovsk våkner

Hvis antallet kommentarer under en artikkel raskt nærmer seg 1000, kan du være trygg på at uavhengig av emnet oppgitt av forfatteren, raser det en krangel på innsiden: flammepunkter i politikk, omgitt av lenestoleksperter på alle spørsmål, psykiatriske diagnoser på avstand av avatar og kallenavn, få personlige, sarkastiske angrep, hvis kaustisitet overstiger blodet til xenomorphs, og, selvfølgelig, den obligatoriske retten i slike tilfeller er gjensidige anklager som din motpart diskuterer med deg utelukkende for vederlag eller av plikt. Noe som tilsynelatende er farlig og vanskelig, og ved første øyekast ikke ser ut til å være synlig, og tretti sølvstykker ligger ikke på veien.

Det morsomme med denne situasjonen er atat mennesker som er dypt berørt av syndromet på-internett-noen-tar-feil, bruker ofte mye tid og nerver på helt gratis bevis for en annen like overrasket person at han gjør akkurat det samme for penger eller på bestilling. Leter du etter logikk her? Hun er borte. Det er internett, baby.

La oss ta en av relativt fersk dritt om påstått territoriell diskriminering på Gitlab. 4 dager har gått siden publiseringen av artikkelen og diskusjonen har selvfølgelig for lengst beveget seg langt bort fra det opprinnelig oppgitte temaet. Følgende fraser lyder:

En ekte person vil ikke være i stand til å motsette seg noe til en profesjonell kommentator på et abonnement...

Bruker (så-og-så) bruker urealistisk mye tid på kommentarer...
Dessuten har aktiviteten ikke mønstre som vanligvis er karakteristiske for en vanlig bruker....

ps men dette ga meg ideen om å skrive en parser-analyzer for slike kommentatorer) Med en indikasjon på aktivitet per time, mengde tid per dag, per uke, osv... Et godt emne for en artikkel)

Ok, stopp. Hva slags mønstre er "vanligvis iboende for den gjennomsnittlige brukeren"? Forfatteren av denne setningen i den tråden har dessverre allerede blitt transkribert, så du må gå tilfeldig.

Spørsmålet som jeg vil sette foran dine klare øyne er følgende: er det mulig, ved hjelp av statistiske metoder, i det minste pålitelig å identifisere de samme mønstrene for å lage en formell klassifisering som skiller casual fra profesjonelle kommentatorer? Tenk deg - "ifølge Habra-botometer er det 76 % sannsynlig at du er en Kremlbot." Dette vil være mye kulere enn karmiske angrep på hverandre.
Dessverre er ikke kompetansen min nok til å engang foreslå hvilken retning jeg skal grave i for å løse et slikt problem. Men i går kveld hacket jeg sammen en liten primitiv parser, som (heldigvis sider med kommentarer er åpne selv for uautoriserte besøkende) så langt gjør to ting - a) samler statistikk fra et gitt brukernavn for alle kommentarene hans (foreløpig bare tidsstempel) ) og legger den til MySQL-databasen; b) tegner et tidsdiagram, og markerer hendelsene ved kommentarsending hentet fra denne databasen. Selv uten noen sofistikert analyse ble det ganske morsomt. Slik ser kommentarskjemaet mitt ut. Forklaringer er nedenfor. Den ses best i et eget vindu i en skala på 100 % eller mer.

Byen sovner, innbyggerne i Khabrovsk våkner

Den horisontale aksen er tid, hver piksel er lik ett minutt, verdien av de grå divisjonene er lik en time, hele den horisontale linjen er lik en dag. Dagene går fra bunn til topp langs den vertikale aksen, divisjonsverdien på den er 365 dager.

Det er ikke noe spesielt interessant i diagrammet mitt. Det kan sees at jeg liker å sove 7-8 timer, legger meg ofte etter midnatt, og noen ganger har timerlange kommentarmaraton, og at aktiviteten det siste året er større enn eller omtrent lik aktiviteten de siste fem årene .
Eller her er en kamerat gecube Jeg holdt et taushetsløfte i tre og et halvt år, og så brøt det gjennom...

Byen sovner, innbyggerne i Khabrovsk våkner

Aktivitetsdiagrammet til en typisk habrakommentator ser omtrent slik ut (dette er QtRoS)

Byen sovner, innbyggerne i Khabrovsk våkner

En tydelig «søvnig hule» til venstre et sted i den europeiske natten og rolige kommentarer i dagslys, kanskje med pauser i et halvt år.

Men ikke alle diagrammer er så kjedelige! Hva med dette, for eksempel:

Byen sovner, innbyggerne i Khabrovsk våkner

På litt over to år trente vår kollega tilsynelatende opp biorytmene sine til å sove fra den europeiske natten et sted under Midt-Atlanterhavsryggen, jevnt og gradvis, og brukte deretter ytterligere to år på å vende tilbake til kysten av Portugal. Gikk du? Svømme? Jeg kan ikke komme med plausible forklaringer... De første tre timene av å være våken flyr kommentarer som et maskingevær, men på slutten av dagen er det sånn, en gang i timen ser jeg inn for å se hva som skjer der og det er det.

Det var det forresten 0xd34df00d.

Og her er en annen gåte:

Byen sovner, innbyggerne i Khabrovsk våkner

Kollegaen varte i fire og et halvt år uten en eneste kommentar - tilsynelatende trente han et sted i hemmelige klostre på hvordan han kunne holde seg våken i flere dager, å dømme etter hvor mange kommentarer som ble postet i "søvnig hule."

Men det mest interessante her er anomalien ved 16. time, som varer i mer enn tre år og gradvis forsvinner det siste året. Røykepause? Går tur med hunden? Jogge? Hva annet kan rive en innbygger i Khabrov vekk fra kommentarstrømmen midt i en arbeidsdag med en slik daglig forhåndsbestemmelse? Jeg er en slusk og en lat person, jeg kan ikke forestille meg den typen selvdisiplin som respekterte khim.

Til slutt, et siste diagram å tenke på:

Byen sovner, innbyggerne i Khabrovsk våkner

Det er ingen klart definert "søvnig hule" på den i det hele tatt. Bare man kan knapt skjelne det synlige overskuddet i antall kommentarer sendt etter kl.

Med all Komsomol strenghet oppfordrer jeg de respekterte MTyrz avvæpne deg selv foran festen og ærlig innrømme hvor mange besteforeldre, barnebarn, insekter og mus styrer kontoen din og skriv kommentarer.

Og til slutt, et lumsk spørsmål - kan noen være så interessert i alt dette at de ønsker å utvikle parserkoden eller få en databasedump eller tilgang til den, og så videre? Min egen kunnskap om data mining og datavisualiseringsmetoder overgår neppe generell lærdom. Jeg kan nesten ikke tenke meg noe smartere og mer interessant enn disse enkle diagrammene. Hvis noen er interessert, skriv til meg i telegram (kallenavn i profil).

Takk for din oppmerksomhet!

UPD. Postet den kilder på GitHub.

Kilde: www.habr.com

Legg til en kommentar