Ako se broj komentara ispod članka ubrzano približava 1000, budite uvjereni da, bez obzira na temu koju je autor naveo, unutra bjesni prepirka: žarišta politike, okruženi stručnjacima iz fotelje za sva pitanja, psihijatrijske dijagnoze na daljinu po avataru i nadimak, dobijanje ličnih, sarkastičnih napada, čija je zajedljivost veća od krvi ksenomorfa, i, naravno, obavezno jelo u takvim slučajevima su međusobne optužbe o kojima vaš kolega razgovara s vama isključivo za naknadu ili iz dužnosti. Što je, po svemu sudeći, opasno i teško, i na prvi pogled se čini da se ne vidi, a tridesetak srebrnjaka ne leži na putu.
Ono što je smiješno u ovoj situaciji je to
Uzmimo jedan od
Prava osoba neće moći ništa suprotstaviti profesionalnom komentatoru na pretplati...
Korisnik (ta-i-takav) troši nerealno mnogo vremena na komentare...
Štaviše, njegova aktivnost nema obrasce koji su obično karakteristični za običnog korisnika....ps ali ovo mi je dalo ideju da napišem parser-analizator za takve komentatore) Sa naznakom aktivnosti po satu, količini vremena dnevno, sedmično, itd... Dobra tema za članak)
Ok, stani. I kakvi su obrasci „obično svojstveni prosječnom korisniku“? Autor ove fraze u toj temi, nažalost, je već transkribovan, tako da ćete morati nasumično.
Pitanje koje želim da vam postavim pred bistre oči je sljedeće: da li je uopće moguće, koristeći statističke metode, barem pouzdano identificirati te iste obrasce kako bi se stvorio formalni klasifikator koji razlikuje povremene od profesionalnih komentatora? Zamislite - "prema Habra-botometru, 76% je vjerovatno da ćete biti Kremljbot." Ovo će biti mnogo hladnije od karmičkih napada jedni na druge.
Nažalost, moje kompetencije nisu dovoljne ni da sugerišem u kom pravcu da kopam da rešim ovakav problem. Međutim, sinoć sam hakovao mali primitivni parser, koji (srećom stranice sa komentarima su otvorene i za neovlašćene posetioce) za sada radi dve stvari - a) prikuplja statistiku od datog korisničkog imena svih njegovih komentara (za sada samo vremenska oznaka ) i dodaje ga u MySQL bazu podataka; b) crta vremenski dijagram, označavajući na njemu događaje slanja komentara preuzetih iz ove baze podataka. Čak i bez ikakve sofisticirane analize ispalo je prilično smiješno. Ovako izgleda moj grafikon komentara. Objašnjenja su u nastavku. Najbolje je da ga vidite u zasebnom prozoru na skali od 100% ili više.
Horizontalna os je vrijeme, svaki piksel je jednak jednoj minuti, vrijednost sivih podjela je jednaka jednom satu, cijela horizontalna linija je jednaka jednom danu. Dani idu odozdo prema gore duž vertikalne ose, vrijednost podjele na njoj je 365 dana.
U mom dijagramu nema ničeg posebno zanimljivog. Vidi se da volim da spavam 7-8 sati, često legnem posle ponoći, a ponekad imam i višesatne komentarske maratone, i da je aktivnost u protekloj godini veća ili približno jednaka onoj u prethodnih pet godina .
Ili evo drugara
Dijagram aktivnosti tipičnog habrakomentatora izgleda otprilike ovako (ovo je
Izrazita “uspavana udubina” lijevo negdje u evropskoj noći i ležerno komentarisanje tokom dana, možda sa pauzama od pola godine.
Ali nisu svi dijagrami tako dosadni! Šta kažete na ovo, na primjer:
Za nešto više od dvije godine, naš kolega je očito ujednačio i postupno svoje bioritme za spavanje iz evropske noći negdje ispod Srednjoatlantskog grebena, a zatim je proveo još dvije godine da se vrati na obale Portugala. Jesi li hodao? Plivati? Ne mogu da smislim uverljiva objasnjenja... Prva tri sata budnosti, komentari lete kao iz mitraljeza, ali na kraju dana je tako, jednom na sat pogledam da vidim sta se desava eto i to je to.
Usput, bilo je
A evo još jedne zagonetke:
Kolega je izdržao četiri i po godine bez ijednog komentara - očito je trenirao negdje u tajnim manastirima kako da danima ostane budan, sudeći po tome koliko je komentara postavljeno u "pospanoj šupljini".
Ali najzanimljivija stvar ovdje je anomalija u 16. satu, koja traje više od tri godine i postepeno nestaje u posljednjih godinu dana. Pauza za dim? Šetati psa? Jogging? Šta još može otrgnuti stanovnika Khabrova od komentara usred radnog dana s takvom dnevnom predodređenošću? Ja sam ljigavac i lenj, ne mogu da zamislim kakvu samodisciplinu ima uvaženi
Na kraju, još jedan dijagram za razmišljanje:
Na njemu uopšte nema jasno definisane „uspavane šupljine“. Jedva se može uočiti vidljivi višak u broju komentara poslatih poslije podne u odnosu na one prije.
Uz svu komsomolsku strogost pozivam poštovane
I na kraju, podmuklo pitanje - da li bi neko mogao biti toliko zainteresovan za sve ovo da bi poželeo da razvije kod za parser ili da dobije dump baze podataka ili pristup njemu, i tako dalje? Moje vlastito poznavanje rudarenja podataka i metoda vizualizacije podataka teško prevazilazi opću erudiciju. Teško da mogu smisliti nešto pametnije i zanimljivije od ovih jednostavnih dijagrama. Ako je neko zainteresovan neka mi piše u telegram (nadimak u profilu).
Spasibo za vnimanie!
UPD. Posted it
izvor: www.habr.com