Als het aantal reacties onder een artikel snel de 1000 nadert, kun je er zeker van zijn dat er, ongeacht het door de auteur genoemde onderwerp, binnenin een ruzie woedt: politieke brandpunten, omringd door leunstoelexperts over alle kwesties, psychiatrische diagnoses op afstand door avatar en bijnaam, het krijgen van persoonlijke, sarcastische aanvallen waarvan de bijtende werking groter is dan die van het bloed van xenomorfen, en natuurlijk is het verplichte gerecht in dergelijke gevallen wederzijdse beschuldigingen dat uw tegenpartij uitsluitend met u in gesprek is voor vergoeding of uit plichtsbesef. Wat blijkbaar gevaarlijk en moeilijk is, en op het eerste gezicht niet zichtbaar lijkt, en dertig zilverstukken liggen niet op de weg.
Het grappige aan deze situatie is dat
Laten we er een nemen
Een echt persoon zal zich tegen een professionele commentator op een abonnement niet kunnen verzetten...
Gebruiker (zo-en-zo) besteedt een onrealistische hoeveelheid tijd aan opmerkingen...
Bovendien kent zijn activiteit geen patronen die gewoonlijk kenmerkend zijn voor een gewone gebruiker....p.s. maar dit bracht mij op het idee om een parser-analyzer voor dergelijke commentatoren te schrijven) Met een indicatie van de activiteit per uur, hoeveelheid tijd per dag, per week, enz... Een goed onderwerp voor een artikel)
Oké, stop. En wat voor patronen zijn ‘meestal inherent aan de gemiddelde gebruiker’? De auteur van deze zin in die thread is helaas al getranscribeerd, dus je zult willekeurig moeten gaan.
De vraag die ik jullie heldere ogen wil voorleggen is de volgende: is het zelfs mogelijk om, met behulp van statistische methoden, op zijn minst op betrouwbare wijze dezelfde patronen te identificeren, om zo een formele classificatie te creëren die informele commentatoren onderscheidt van professionele commentatoren? Stel je voor: “volgens de Habra-botometer is de kans voor 76% dat je een Kremlinbot bent.” Dit zal veel cooler zijn dan karmische aanvallen op elkaar.
Helaas zijn mijn competenties niet voldoende om zelfs maar te suggereren in welke richting ik moet graven om een dergelijk probleem op te lossen. Gisteravond heb ik echter een kleine primitieve parser in elkaar gehackt, die (gelukkig zijn pagina's met opmerkingen zelfs open voor ongeautoriseerde bezoekers) tot nu toe twee dingen doet: a) statistieken verzamelt van een bepaalde gebruikersnaam van al zijn opmerkingen (voor nu alleen tijdstempel ) en voegt het toe aan de MySQL-database; b) tekent een tijddiagram en markeert daarop de gebeurtenissen van het verzenden van commentaar uit deze database. Zelfs zonder enige geavanceerde analyse bleek het best grappig te zijn. Zo ziet mijn commentaardiagram eruit. Uitleg vindt u hieronder. Je kunt het het beste in een apart venster bekijken op een schaal van 100% of meer.
De horizontale as is de tijd, elke pixel is gelijk aan één minuut, de waarde van de grijze delen is gelijk aan één uur, de gehele horizontale lijn is gelijk aan één dag. De dagen gaan van onder naar boven langs de verticale as, de deelwaarde daarop is 365 dagen.
Er is niets bijzonder interessants in mijn diagram. Het is duidelijk dat ik graag 7-8 uur slaap, vaak na middernacht naar bed ga en soms urenlange commentaarmarathons heb, en dat de activiteit het afgelopen jaar groter is dan of ongeveer gelijk is aan die van de afgelopen vijf jaar .
Of hier is een kameraad
Het activiteitendiagram van een typische habracommentator ziet er ongeveer zo uit (dit is
Een duidelijke ‘slaperige holte’ aan de linkerkant ergens in de Europese nacht en ontspannen commentaar overdag, misschien met pauzes van een half jaar.
Maar niet alle diagrammen zijn zo saai! Hoe zit dit bijvoorbeeld:
In iets meer dan twee jaar heeft onze collega zijn bioritme kennelijk opnieuw getraind om van de Europese nacht ergens onder de Mid-Atlantische Rug gelijkmatig en geleidelijk te slapen, en bracht vervolgens nog eens twee jaar door om terug te keren naar de kust van Portugal. Liepen jullie? Zwemmen? Ik kan geen plausibele verklaringen bedenken... De eerste drie uur dat ik wakker ben, vliegen de opmerkingen als een machinegeweer, maar aan het eind van de dag is het zo: een keer per uur kijk ik naar binnen om te zien wat er aan de hand is. daar en dat is het.
Trouwens, dat was het ook
En hier is nog een raadsel:
De collega hield het vier en een half jaar vol zonder ook maar één commentaar te geven – blijkbaar was hij ergens in geheime kloosters aan het trainen hoe hij dagenlang wakker moest blijven, te oordelen naar het aantal commentaren dat in ‘sleepy Hollow’ werd gepost.
Maar het meest interessante hier is de anomalie op het 16e uur, die meer dan drie jaar aanhoudt en het afgelopen jaar geleidelijk verdwijnt. Rook pauze? De hond uitlaten? Joggen? Wat kan een Khabrov-inwoner nog meer midden op een werkdag met zo’n dagelijkse voorbeschikking uit de commentaren halen? Ik ben een slons en een lui persoon, ik kan me het soort zelfdiscipline niet voorstellen dat gerespecteerd wordt
Tenslotte nog een laatste diagram om over na te denken:
Er zit helemaal geen duidelijk gedefinieerde ‘slaperige holte’ in. Slechts één persoon kan nauwelijks het zichtbare overschot in het aantal reacties dat na de middag wordt verzonden, onderscheiden van het aantal reacties dat daarvoor is verzonden.
Met alle Komsomol-strengheid dring ik er bij de gerespecteerde mensen op aan
En tot slot een verraderlijke vraag: zou iemand zo geïnteresseerd kunnen zijn in dit alles dat hij de parsercode zou willen ontwikkelen of een databasedump zou willen krijgen of er toegang toe zou willen hebben, enzovoort? Mijn eigen kennis van datamining en datavisualisatiemethoden overtreft nauwelijks de algemene eruditie. Ik kan nauwelijks iets slimmers en interessanters bedenken dan deze eenvoudige diagrammen. Als iemand geïnteresseerd is, schrijf mij dan in een telegram (bijnaam in profiel).
Dank je wel!
UPD. Heb het gepost
Bron: www.habr.com