De stad valt in slaap, Khabrovites worden wakker

Als het aantal reacties onder een artikel snel de 1000 nadert, kun je er zeker van zijn dat er, ongeacht het door de auteur genoemde onderwerp, binnenin een ruzie woedt: politieke brandpunten, omringd door leunstoelexperts over alle kwesties, psychiatrische diagnoses op afstand door avatar en bijnaam, het krijgen van persoonlijke, sarcastische aanvallen waarvan de bijtende werking groter is dan die van het bloed van xenomorfen, en natuurlijk is het verplichte gerecht in dergelijke gevallen wederzijdse beschuldigingen dat uw tegenpartij uitsluitend met u in gesprek is voor vergoeding of uit plichtsbesef. Wat blijkbaar gevaarlijk en moeilijk is, en op het eerste gezicht niet zichtbaar lijkt, en dertig zilverstukken liggen niet op de weg.

Het grappige aan deze situatie is datdat mensen diep getroffen zijn door het syndroom op-het-internet-is-iemand-fout, besteed er vaak verdomd veel tijd en zenuwen aan helemaal gratis aan een andere, even verbaasde persoon bewijzen dat hij precies hetzelfde doet voor geld of op bestelling. Zoek je hier logica? Ze is weg. Het is internet, schat.

Laten we er een nemen relatief verse shit over vermeende territoriale discriminatie op Gitlab. Er zijn vier dagen verstreken sinds de publicatie van het artikel en de discussie is uiteraard al lang ver verwijderd van het oorspronkelijk genoemde onderwerp. De volgende zinnen klinken:

Een echt persoon zal zich tegen een professionele commentator op een abonnement niet kunnen verzetten...

Gebruiker (zo-en-zo) besteedt een onrealistische hoeveelheid tijd aan opmerkingen...
Bovendien kent zijn activiteit geen patronen die gewoonlijk kenmerkend zijn voor een gewone gebruiker....

p.s. maar dit bracht mij op het idee om een ​​parser-analyzer voor dergelijke commentatoren te schrijven) Met een indicatie van de activiteit per uur, hoeveelheid tijd per dag, per week, enz... Een goed onderwerp voor een artikel)

Oké, stop. En wat voor patronen zijn ‘meestal inherent aan de gemiddelde gebruiker’? De auteur van deze zin in die thread is helaas al getranscribeerd, dus je zult willekeurig moeten gaan.

De vraag die ik jullie heldere ogen wil voorleggen is de volgende: is het zelfs mogelijk om, met behulp van statistische methoden, op zijn minst op betrouwbare wijze dezelfde patronen te identificeren, om zo een formele classificatie te creëren die informele commentatoren onderscheidt van professionele commentatoren? Stel je voor: “volgens de Habra-botometer is de kans voor 76% dat je een Kremlinbot bent.” Dit zal veel cooler zijn dan karmische aanvallen op elkaar.
Helaas zijn mijn competenties niet voldoende om zelfs maar te suggereren in welke richting ik moet graven om een ​​dergelijk probleem op te lossen. Gisteravond heb ik echter een kleine primitieve parser in elkaar gehackt, die (gelukkig zijn pagina's met opmerkingen zelfs open voor ongeautoriseerde bezoekers) tot nu toe twee dingen doet: a) statistieken verzamelt van een bepaalde gebruikersnaam van al zijn opmerkingen (voor nu alleen tijdstempel ) en voegt het toe aan de MySQL-database; b) tekent een tijddiagram en markeert daarop de gebeurtenissen van het verzenden van commentaar uit deze database. Zelfs zonder enige geavanceerde analyse bleek het best grappig te zijn. Zo ziet mijn commentaardiagram eruit. Uitleg vindt u hieronder. Je kunt het het beste in een apart venster bekijken op een schaal van 100% of meer.

De stad valt in slaap, Khabrovites worden wakker

De horizontale as is de tijd, elke pixel is gelijk aan één minuut, de waarde van de grijze delen is gelijk aan één uur, de gehele horizontale lijn is gelijk aan één dag. De dagen gaan van onder naar boven langs de verticale as, de deelwaarde daarop is 365 dagen.

Er is niets bijzonder interessants in mijn diagram. Het is duidelijk dat ik graag 7-8 uur slaap, vaak na middernacht naar bed ga en soms urenlange commentaarmarathons heb, en dat de activiteit het afgelopen jaar groter is dan of ongeveer gelijk is aan die van de afgelopen vijf jaar .
Of hier is een kameraad gekubus Ik heb drie en een half jaar lang een gelofte van stilte gehouden, en toen brak het door...

De stad valt in slaap, Khabrovites worden wakker

Het activiteitendiagram van een typische habracommentator ziet er ongeveer zo uit (dit is QtRoS)

De stad valt in slaap, Khabrovites worden wakker

Een duidelijke ‘slaperige holte’ aan de linkerkant ergens in de Europese nacht en ontspannen commentaar overdag, misschien met pauzes van een half jaar.

Maar niet alle diagrammen zijn zo saai! Hoe zit dit bijvoorbeeld:

De stad valt in slaap, Khabrovites worden wakker

In iets meer dan twee jaar heeft onze collega zijn bioritme kennelijk opnieuw getraind om van de Europese nacht ergens onder de Mid-Atlantische Rug gelijkmatig en geleidelijk te slapen, en bracht vervolgens nog eens twee jaar door om terug te keren naar de kust van Portugal. Liepen jullie? Zwemmen? Ik kan geen plausibele verklaringen bedenken... De eerste drie uur dat ik wakker ben, vliegen de opmerkingen als een machinegeweer, maar aan het eind van de dag is het zo: een keer per uur kijk ik naar binnen om te zien wat er aan de hand is. daar en dat is het.

Trouwens, dat was het ook 0xd34df00d.

En hier is nog een raadsel:

De stad valt in slaap, Khabrovites worden wakker

De collega hield het vier en een half jaar vol zonder ook maar één commentaar te geven – blijkbaar was hij ergens in geheime kloosters aan het trainen hoe hij dagenlang wakker moest blijven, te oordelen naar het aantal commentaren dat in ‘sleepy Hollow’ werd gepost.

Maar het meest interessante hier is de anomalie op het 16e uur, die meer dan drie jaar aanhoudt en het afgelopen jaar geleidelijk verdwijnt. Rook pauze? De hond uitlaten? Joggen? Wat kan een Khabrov-inwoner nog meer midden op een werkdag met zo’n dagelijkse voorbeschikking uit de commentaren halen? Ik ben een slons en een lui persoon, ik kan me het soort zelfdiscipline niet voorstellen dat gerespecteerd wordt khim.

Tenslotte nog een laatste diagram om over na te denken:

De stad valt in slaap, Khabrovites worden wakker

Er zit helemaal geen duidelijk gedefinieerde ‘slaperige holte’ in. Slechts één persoon kan nauwelijks het zichtbare overschot in het aantal reacties dat na de middag wordt verzonden, onderscheiden van het aantal reacties dat daarvoor is verzonden.

Met alle Komsomol-strengheid dring ik er bij de gerespecteerde mensen op aan MTyrz ontwapen jezelf voor het feest en geef eerlijk toe hoeveel grootouders, kleindochters, insecten en muizen je account beheersen en schrijf opmerkingen.

En tot slot een verraderlijke vraag: zou iemand zo geïnteresseerd kunnen zijn in dit alles dat hij de parsercode zou willen ontwikkelen of een databasedump zou willen krijgen of er toegang toe zou willen hebben, enzovoort? Mijn eigen kennis van datamining en datavisualisatiemethoden overtreft nauwelijks de algemene eruditie. Ik kan nauwelijks iets slimmers en interessanters bedenken dan deze eenvoudige diagrammen. Als iemand geïnteresseerd is, schrijf mij dan in een telegram (bijnaam in profiel).

Dank je wel!

UPD. Heb het gepost bronnen op GitHub.

Bron: www.habr.com

Voeg een reactie