Om antalet kommentarer under en artikel snabbt närmar sig 1000, kan du vara säker på att oavsett ämne som författaren nämner, rasar ett bråk inombords: politiska fläckpunkter, omgivna av fåtöljexperter i alla frågor, psykiatriska diagnoser på avstånd av avatar och smeknamn, att få personliga, sarkastiska attacker, vars kausticitet överstiger blodet hos främlingsmän, och, naturligtvis, den obligatoriska maträtten i sådana fall är ömsesidiga anklagelser som din motpart diskuterar med dig enbart mot ersättning eller av tjänst. Vilket tydligen är farligt och svårt, och vid första anblicken verkar inte synas, och trettio silverbitar ligger inte på vägen.
Det roliga med den här situationen är att
Låt oss ta en av
En riktig person kommer inte att kunna motsätta sig någonting till en professionell kommentator på ett abonnemang...
Användare (så och så) spenderar orealistisk tid på kommentarer...
Dessutom har dess aktivitet inte mönster som vanligtvis är karakteristiska för en vanlig användare..ps men detta gav mig idén att skriva en parser-analyzer för sådana kommentatorer) Med en indikation på aktivitet per timme, mängd tid per dag, per vecka, etc... Ett bra ämne för en artikel)
Okej, sluta. Vilken typ av mönster är "vanligtvis inneboende för den genomsnittliga användaren"? Författaren till den här frasen i den tråden har tyvärr redan transkriberats, så du måste gå på måfå.
Frågan som jag vill ställa inför dina klara ögon är följande: är det ens möjligt, med statistiska metoder, att åtminstone på ett tillförlitligt sätt identifiera samma mönster för att skapa en formell klassificerare som skiljer casual från professionella kommentatorer? Föreställ dig - "enligt Habra-botometer är det 76 % sannolikt att du är en Kremlbot." Detta kommer att vara mycket coolare än karmiska räder mot varandra.
Tyvärr räcker inte mina kompetenser till för att ens föreslå vilken riktning man ska gräva i för att lösa ett sådant problem. Men i går kväll hackade jag ihop en liten primitiv parser, som (lyckligtvis är sidor med kommentarer öppna även för obehöriga besökare) hittills gör två saker - a) samlar in statistik från ett givet användarnamn på alla hans kommentarer (för nu bara tidsstämpel) ) och lägger till den i MySQL-databasen; b) ritar ett tidsdiagram, som markerar händelserna för kommentarsändning hämtade från denna databas. Även utan någon sofistikerad analys visade det sig vara ganska roligt. Så här ser mitt kommentarsdiagram ut. Förklaringar finns nedan. Det är bäst att se det i ett separat fönster i en skala på 100 % eller mer.
Den horisontella axeln är tid, varje pixel är lika med en minut, värdet på de grå divisionerna är lika med en timme, hela den horisontella linjen är lika med en dag. Dagarna går från botten till toppen längs den vertikala axeln, delningsvärdet på den är 365 dagar.
Det finns inget speciellt intressant i mitt diagram. Det kan ses att jag gillar att sova 7-8 timmar, ofta går och lägger mig efter midnatt och ibland har timmar långa kommenterande maraton, och att aktiviteten under det senaste året är större än eller ungefär lika med den under de senaste fem åren .
Eller här är en kamrat
Aktivitetsdiagrammet för en typisk habrakommentator ser ut ungefär så här (det här är
En distinkt ”sömnig håla” till vänster någonstans i den europeiska natten och lugn kommentar under dagsljuset, kanske med uppehåll i ett halvår.
Men alla diagram är inte så tråkiga! Vad sägs om detta, till exempel:
På drygt två år tränade vår kollega tydligen om sina biorytmer för att sova från den europeiska natten någonstans under Midatlantic Ridge, jämnt och gradvis, och sedan tillbringade ytterligare två år för att återvända till Portugals stränder. Gick du? Simma? Jag kan inte komma på rimliga förklaringar... De första tre timmarna av att vara vaken flyger kommentarerna som ett maskingevär, men i slutet av dagen är det så, en gång i timmen tittar jag in för att se vad som händer där och det är det.
Det var det förresten
Och här är en annan gåta:
Kollegan varade i fyra och ett halvt år utan en enda kommentar - uppenbarligen tränade han någonstans i hemliga kloster om hur man håller sig vaken i flera dagar, att döma av hur många kommentarer som postades i "sömnig ihålig".
Men det mest intressanta här är anomalien vid den 16:e timmen, som varar i mer än tre år och gradvis försvinner under det senaste året. Rökpaus? Gå ut med hunden? Joggning? Vad mer kan slita en invånare i Khabrov från kommentarsflödet mitt under en arbetsdag med en sådan daglig förutbestämdhet? Jag är en slarv och en lat person, jag kan inte föreställa mig vilken typ av självdisciplin som den respekterade
Till sist, ett sista diagram att tänka på:
Det finns ingen tydligt definierad "sömnig ihålighet" på den alls. Bara man kan knappt urskilja det synliga överskottet i antalet kommentarer som skickats efter middagstid jämfört med de som skickats innan.
Med all Komsomol rigor uppmanar jag de respekterade
Och till sist, en lömsk fråga - kan någon vara så intresserad av allt detta att de skulle vilja utveckla parserkoden eller få en databasdump eller tillgång till den, och så vidare? Mina egna kunskaper om datautvinning och datavisualiseringsmetoder överstiger knappast den allmänna kunskapen. Jag kan knappast komma på något smartare och mer intressant än dessa enkla diagram. Om någon är intresserad, skriv till mig i telegram (smeknamn i profil).
Tack för din uppmärksamhet!
UPD. Postade den
Källa: will.com