Staden somnar, invånarna i Khabrovsk vaknar

Om antalet kommentarer under en artikel snabbt närmar sig 1000, kan du vara säker på att oavsett ämne som författaren nämner, rasar ett bråk inombords: politiska fläckpunkter, omgivna av fåtöljexperter i alla frågor, psykiatriska diagnoser på avstånd av avatar och smeknamn, att få personliga, sarkastiska attacker, vars kausticitet överstiger blodet hos främlingsmän, och, naturligtvis, den obligatoriska maträtten i sådana fall är ömsesidiga anklagelser som din motpart diskuterar med dig enbart mot ersättning eller av tjänst. Vilket tydligen är farligt och svårt, och vid första anblicken verkar inte synas, och trettio silverbitar ligger inte på vägen.

Det roliga med den här situationen är attatt människor som är djupt påverkade av syndromet på-internet-har-någon-fel, spenderar ofta jävligt mycket tid och nerver på helt gratis bevisa för en annan lika förvånad person att han gör exakt samma sak för pengar eller på beställning. Letar du efter logik här? Hon är borta. Det är internet, älskling.

Låt oss ta en av relativt fräsch skit om påstådd territoriell diskriminering på Gitlab. 4 dagar har gått sedan artikeln publicerades och diskussionen har förstås för länge sedan rört sig långt bort från det ursprungligen angivna ämnet. Följande fraser låter:

En riktig person kommer inte att kunna motsätta sig någonting till en professionell kommentator på ett abonnemang...

Användare (så och så) spenderar orealistisk tid på kommentarer...
Dessutom har dess aktivitet inte mönster som vanligtvis är karakteristiska för en vanlig användare..

ps men detta gav mig idén att skriva en parser-analyzer för sådana kommentatorer) Med en indikation på aktivitet per timme, mängd tid per dag, per vecka, etc... Ett bra ämne för en artikel)

Okej, sluta. Vilken typ av mönster är "vanligtvis inneboende för den genomsnittliga användaren"? Författaren till den här frasen i den tråden har tyvärr redan transkriberats, så du måste gå på måfå.

Frågan som jag vill ställa inför dina klara ögon är följande: är det ens möjligt, med statistiska metoder, att åtminstone på ett tillförlitligt sätt identifiera samma mönster för att skapa en formell klassificerare som skiljer casual från professionella kommentatorer? Föreställ dig - "enligt Habra-botometer är det 76 % sannolikt att du är en Kremlbot." Detta kommer att vara mycket coolare än karmiska räder mot varandra.
Tyvärr räcker inte mina kompetenser till för att ens föreslå vilken riktning man ska gräva i för att lösa ett sådant problem. Men i går kväll hackade jag ihop en liten primitiv parser, som (lyckligtvis är sidor med kommentarer öppna även för obehöriga besökare) hittills gör två saker - a) samlar in statistik från ett givet användarnamn på alla hans kommentarer (för nu bara tidsstämpel) ) och lägger till den i MySQL-databasen; b) ritar ett tidsdiagram, som markerar händelserna för kommentarsändning hämtade från denna databas. Även utan någon sofistikerad analys visade det sig vara ganska roligt. Så här ser mitt kommentarsdiagram ut. Förklaringar finns nedan. Det är bäst att se det i ett separat fönster i en skala på 100 % eller mer.

Staden somnar, invånarna i Khabrovsk vaknar

Den horisontella axeln är tid, varje pixel är lika med en minut, värdet på de grå divisionerna är lika med en timme, hela den horisontella linjen är lika med en dag. Dagarna går från botten till toppen längs den vertikala axeln, delningsvärdet på den är 365 dagar.

Det finns inget speciellt intressant i mitt diagram. Det kan ses att jag gillar att sova 7-8 timmar, ofta går och lägger mig efter midnatt och ibland har timmar långa kommenterande maraton, och att aktiviteten under det senaste året är större än eller ungefär lika med den under de senaste fem åren .
Eller här är en kamrat gecube Jag höll ett tysthetslöfte i tre och ett halvt år, och sedan slog det igenom...

Staden somnar, invånarna i Khabrovsk vaknar

Aktivitetsdiagrammet för en typisk habrakommentator ser ut ungefär så här (det här är QtRoS)

Staden somnar, invånarna i Khabrovsk vaknar

En distinkt ”sömnig håla” till vänster någonstans i den europeiska natten och lugn kommentar under dagsljuset, kanske med uppehåll i ett halvår.

Men alla diagram är inte så tråkiga! Vad sägs om detta, till exempel:

Staden somnar, invånarna i Khabrovsk vaknar

På drygt två år tränade vår kollega tydligen om sina biorytmer för att sova från den europeiska natten någonstans under Midatlantic Ridge, jämnt och gradvis, och sedan tillbringade ytterligare två år för att återvända till Portugals stränder. Gick du? Simma? Jag kan inte komma på rimliga förklaringar... De första tre timmarna av att vara vaken flyger kommentarerna som ett maskingevär, men i slutet av dagen är det så, en gång i timmen tittar jag in för att se vad som händer där och det är det.

Det var det förresten 0xd34df00d.

Och här är en annan gåta:

Staden somnar, invånarna i Khabrovsk vaknar

Kollegan varade i fyra och ett halvt år utan en enda kommentar - uppenbarligen tränade han någonstans i hemliga kloster om hur man håller sig vaken i flera dagar, att döma av hur många kommentarer som postades i "sömnig ihålig".

Men det mest intressanta här är anomalien vid den 16:e timmen, som varar i mer än tre år och gradvis försvinner under det senaste året. Rökpaus? Gå ut med hunden? Joggning? Vad mer kan slita en invånare i Khabrov från kommentarsflödet mitt under en arbetsdag med en sådan daglig förutbestämdhet? Jag är en slarv och en lat person, jag kan inte föreställa mig vilken typ av självdisciplin som den respekterade khim.

Till sist, ett sista diagram att tänka på:

Staden somnar, invånarna i Khabrovsk vaknar

Det finns ingen tydligt definierad "sömnig ihålighet" på den alls. Bara man kan knappt urskilja det synliga överskottet i antalet kommentarer som skickats efter middagstid jämfört med de som skickats innan.

Med all Komsomol rigor uppmanar jag de respekterade MTyrz avväpna dig själv inför festen och erkänn ärligt hur många farföräldrar, barnbarn, buggar och möss som styr ditt konto och skriver kommentarer.

Och till sist, en lömsk fråga - kan någon vara så intresserad av allt detta att de skulle vilja utveckla parserkoden eller få en databasdump eller tillgång till den, och så vidare? Mina egna kunskaper om datautvinning och datavisualiseringsmetoder överstiger knappast den allmänna kunskapen. Jag kan knappast komma på något smartare och mer intressant än dessa enkla diagram. Om någon är intresserad, skriv till mig i telegram (smeknamn i profil).

Tack för din uppmärksamhet!

UPD. Postade den källor på GitHub.

Källa: will.com

Lägg en kommentar