Hvis antallet af kommentarer under en artikel hastigt nærmer sig 1000, kan du være sikker på, at uanset det emne, forfatteren anfører, raser der et skænderi indeni: flammepunkter i politik, omgivet af lænestolseksperter i alle spørgsmål, psykiatriske diagnoser på afstand af avatar og kælenavn, at få personlige, sarkastiske angreb, hvis kausticitet overstiger blodet af xenomorphs, og selvfølgelig er den obligatoriske ret i sådanne tilfælde gensidige beskyldninger, som din modpart diskuterer med dig udelukkende for vederlag eller af tjeneste. Hvilket tilsyneladende er farligt og svært, og ved første øjekast ser ud til ikke at være synligt, og tredive stykker sølv ligger ikke på vejen.
Det sjove ved denne situation er det
Lad os tage en af
En rigtig person vil ikke være i stand til at modsætte sig noget til en professionel kommentator på et abonnement...
Bruger (så-og-så) bruger en urealistisk mængde tid på kommentarer...
Desuden har dens aktivitet ikke mønstre, der normalt er karakteristiske for en almindelig bruger....ps men dette gav mig ideen til at skrive en parser-analyzer til sådanne kommentatorer) Med en indikation af aktivitet pr. time, mængde af tid pr. dag, pr. uge osv... Et godt emne for en artikel)
Okay, stop. Hvilken slags mønstre er "normalt iboende for den gennemsnitlige bruger"? Forfatteren af denne sætning i den tråd er desværre allerede blevet transskriberet, så du bliver nødt til at gå tilfældigt.
Spørgsmålet, som jeg vil stille for dine klare øjne, er følgende: er det overhovedet muligt ved hjælp af statistiske metoder i det mindste pålideligt at identificere de samme mønstre for at skabe en formel klassificering, der adskiller casual fra professionelle kommentatorer? Forestil dig - "ifølge Habra-botometer er det 76 % sandsynligt, at du er en Kremlbot." Dette vil være meget sejere end karmiske raids på hinanden.
Desværre er mine kompetencer ikke nok til selv at foreslå, hvilken retning man skal grave i for at løse sådan et problem. Men i går aftes hakkede jeg en lille primitiv parser sammen, som (heldigvis er sider med kommentarer åbne selv for uautoriserede besøgende) indtil videre gør to ting - a) samler statistik fra et givet brugernavn af alle hans kommentarer (for nu kun tidsstempel ) og tilføjer det til MySQL-databasen; b) tegner et tidsdiagram, der markerer begivenhederne ved afsendelse af kommentarer taget fra denne database. Selv uden nogen sofistikeret analyse viste det sig at være ret morsomt. Sådan ser mit kommentarskema ud. Forklaringer er nedenfor. Det er bedst at se det i et separat vindue i en skala på 100 % eller mere.
Den vandrette akse er tid, hver pixel er lig med et minut, værdien af de grå divisioner er lig med en time, hele den vandrette linje er lig med en dag. Dagene går fra bund til top langs den lodrette akse, divisionsværdien på den er 365 dage.
Der er ikke noget særligt interessant i mit diagram. Det kan ses, at jeg godt kan lide at sove 7-8 timer, ofte går i seng efter midnat og nogle gange har timelange kommentarmaraton, og at aktiviteten det seneste år er større end eller omtrent lig med de foregående fem år .
Eller her er en kammerat
Aktivitetsdiagrammet for en typisk habrakommentator ser nogenlunde sådan ud (dette er
En udpræget "søvnig hulning" til venstre et sted i den europæiske nat og afslappet kommentar i dagtimerne, måske med pauser i et halvt år.
Men ikke alle diagrammer er så kedelige! Hvad med dette, for eksempel:
På lidt over to år genoptrænede vores kollega tilsyneladende sine biorytmer til at sove fra den europæiske nat et sted under den midtatlantiske højderyg, jævnt og gradvist, og brugte derefter yderligere to år på at vende tilbage til Portugals kyster. Gik du? Svømme? Jeg kan ikke komme med plausible forklaringer... I de første tre timer efter at være vågen flyver kommentarer som et maskingevær, men i slutningen af dagen er det sådan, at jeg en gang i timen kigger ind for at se, hvad der sker der og det er det.
Det var det i øvrigt
Og her er en anden gåde:
Kollegaen holdt ud i fire og et halvt år uden en eneste kommentar - tilsyneladende trænede han et sted i hemmelige klostre i, hvordan han kunne holde sig vågen i dagevis bagefter, at dømme efter hvor mange kommentarer der blev postet i "søvnig hule."
Men det mest interessante her er anomalien ved 16. time, som varer i mere end tre år og gradvist forsvinder i løbet af det sidste år. Røgpause? gå tur med hunden? Løbe? Hvad ellers kan rive en Khabrov-indbygger væk fra kommentarfeedet midt på en arbejdsdag med en sådan daglig forudbestemmelse? Jeg er en sludder og en doven person, jeg kan ikke forestille mig den slags selvdisciplin, som den respekterede
Til sidst et sidste diagram at tænke over:
Der er ingen klart defineret "søvnig hul" på den overhovedet. Kun man kan næsten ikke skelne det synlige overskud i antallet af kommentarer sendt efter middag i forhold til dem der er sendt før.
Med al Komsomol rigor opfordrer jeg de respekterede
Og til sidst et snigende spørgsmål - kunne nogen være så interesseret i alt dette, at de ville have lyst til at udvikle parserkoden eller få et databasedump eller adgang til det, og så videre? Min egen viden om data mining og datavisualiseringsmetoder overstiger næppe almen lærdom. Jeg kan næsten ikke komme i tanke om noget smartere og mere interessant end disse simple diagrammer. Hvis nogen er interesseret, så skriv til mig i telegram (kaldenavn i profil).
Tak for din opmærksomhed!
UPD. Postede det
Kilde: www.habr.com