Byen falder i søvn, indbyggere i Khabrovsk vågner op

Hvis antallet af kommentarer under en artikel hastigt nærmer sig 1000, kan du være sikker på, at uanset det emne, forfatteren anfører, raser der et skænderi indeni: flammepunkter i politik, omgivet af lænestolseksperter i alle spørgsmål, psykiatriske diagnoser på afstand af avatar og kælenavn, at få personlige, sarkastiske angreb, hvis kausticitet overstiger blodet af xenomorphs, og selvfølgelig er den obligatoriske ret i sådanne tilfælde gensidige beskyldninger, som din modpart diskuterer med dig udelukkende for vederlag eller af tjeneste. Hvilket tilsyneladende er farligt og svært, og ved første øjekast ser ud til ikke at være synligt, og tredive stykker sølv ligger ikke på vejen.

Det sjove ved denne situation er detat mennesker, der er dybt berørt af syndromet på-internettet-er nogen-forkert, bruger ofte fandens meget tid og nerver på helt gratis bevis for en anden lige så forbløffet person, at han gør præcis det samme for penge eller efter ordre. Leder du efter logik her? Hun er gået. Det er internettet, skat.

Lad os tage en af relativt frisk lort om påstået territorial diskrimination på Gitlab. Der er gået 4 dage siden publiceringen af ​​artiklen og diskussionen har naturligvis for længst bevæget sig langt væk fra det oprindeligt anførte emne. Følgende sætninger lyder:

En rigtig person vil ikke være i stand til at modsætte sig noget til en professionel kommentator på et abonnement...

Bruger (så-og-så) bruger en urealistisk mængde tid på kommentarer...
Desuden har dens aktivitet ikke mønstre, der normalt er karakteristiske for en almindelig bruger....

ps men dette gav mig ideen til at skrive en parser-analyzer til sådanne kommentatorer) Med en indikation af aktivitet pr. time, mængde af tid pr. dag, pr. uge osv... Et godt emne for en artikel)

Okay, stop. Hvilken slags mønstre er "normalt iboende for den gennemsnitlige bruger"? Forfatteren af ​​denne sætning i den tråd er desværre allerede blevet transskriberet, så du bliver nødt til at gå tilfældigt.

Spørgsmålet, som jeg vil stille for dine klare øjne, er følgende: er det overhovedet muligt ved hjælp af statistiske metoder i det mindste pålideligt at identificere de samme mønstre for at skabe en formel klassificering, der adskiller casual fra professionelle kommentatorer? Forestil dig - "ifølge Habra-botometer er det 76 % sandsynligt, at du er en Kremlbot." Dette vil være meget sejere end karmiske raids på hinanden.
Desværre er mine kompetencer ikke nok til selv at foreslå, hvilken retning man skal grave i for at løse sådan et problem. Men i går aftes hakkede jeg en lille primitiv parser sammen, som (heldigvis er sider med kommentarer åbne selv for uautoriserede besøgende) indtil videre gør to ting - a) samler statistik fra et givet brugernavn af alle hans kommentarer (for nu kun tidsstempel ) og tilføjer det til MySQL-databasen; b) tegner et tidsdiagram, der markerer begivenhederne ved afsendelse af kommentarer taget fra denne database. Selv uden nogen sofistikeret analyse viste det sig at være ret morsomt. Sådan ser mit kommentarskema ud. Forklaringer er nedenfor. Det er bedst at se det i et separat vindue i en skala på 100 % eller mere.

Byen falder i søvn, indbyggere i Khabrovsk vågner op

Den vandrette akse er tid, hver pixel er lig med et minut, værdien af ​​de grå divisioner er lig med en time, hele den vandrette linje er lig med en dag. Dagene går fra bund til top langs den lodrette akse, divisionsværdien på den er 365 dage.

Der er ikke noget særligt interessant i mit diagram. Det kan ses, at jeg godt kan lide at sove 7-8 timer, ofte går i seng efter midnat og nogle gange har timelange kommentarmaraton, og at aktiviteten det seneste år er større end eller omtrent lig med de foregående fem år .
Eller her er en kammerat gecube Jeg holdt et tavshedsløfte i tre et halvt år, og så brød det igennem...

Byen falder i søvn, indbyggere i Khabrovsk vågner op

Aktivitetsdiagrammet for en typisk habrakommentator ser nogenlunde sådan ud (dette er QtRoS)

Byen falder i søvn, indbyggere i Khabrovsk vågner op

En udpræget "søvnig hulning" til venstre et sted i den europæiske nat og afslappet kommentar i dagtimerne, måske med pauser i et halvt år.

Men ikke alle diagrammer er så kedelige! Hvad med dette, for eksempel:

Byen falder i søvn, indbyggere i Khabrovsk vågner op

På lidt over to år genoptrænede vores kollega tilsyneladende sine biorytmer til at sove fra den europæiske nat et sted under den midtatlantiske højderyg, jævnt og gradvist, og brugte derefter yderligere to år på at vende tilbage til Portugals kyster. Gik du? Svømme? Jeg kan ikke komme med plausible forklaringer... I de første tre timer efter at være vågen flyver kommentarer som et maskingevær, men i slutningen af ​​dagen er det sådan, at jeg en gang i timen kigger ind for at se, hvad der sker der og det er det.

Det var det i øvrigt 0xd34df00d.

Og her er en anden gåde:

Byen falder i søvn, indbyggere i Khabrovsk vågner op

Kollegaen holdt ud i fire og et halvt år uden en eneste kommentar - tilsyneladende trænede han et sted i hemmelige klostre i, hvordan han kunne holde sig vågen i dagevis bagefter, at dømme efter hvor mange kommentarer der blev postet i "søvnig hule."

Men det mest interessante her er anomalien ved 16. time, som varer i mere end tre år og gradvist forsvinder i løbet af det sidste år. Røgpause? gå tur med hunden? Løbe? Hvad ellers kan rive en Khabrov-indbygger væk fra kommentarfeedet midt på en arbejdsdag med en sådan daglig forudbestemmelse? Jeg er en sludder og en doven person, jeg kan ikke forestille mig den slags selvdisciplin, som den respekterede khim.

Til sidst et sidste diagram at tænke over:

Byen falder i søvn, indbyggere i Khabrovsk vågner op

Der er ingen klart defineret "søvnig hul" på den overhovedet. Kun man kan næsten ikke skelne det synlige overskud i antallet af kommentarer sendt efter middag i forhold til dem der er sendt før.

Med al Komsomol rigor opfordrer jeg de respekterede MTyrz afvæbne dig selv foran festen og indrøm ærligt, hvor mange bedsteforældre, børnebørn, insekter og mus styrer din konto og skriv kommentarer.

Og til sidst et snigende spørgsmål - kunne nogen være så interesseret i alt dette, at de ville have lyst til at udvikle parserkoden eller få et databasedump eller adgang til det, og så videre? Min egen viden om data mining og datavisualiseringsmetoder overstiger næppe almen lærdom. Jeg kan næsten ikke komme i tanke om noget smartere og mere interessant end disse simple diagrammer. Hvis nogen er interesseret, så skriv til mig i telegram (kaldenavn i profil).

Tak for din opmærksomhed!

UPD. Postede det kilder på GitHub.

Kilde: www.habr.com

Tilføj en kommentar