Město usíná, obyvatelé Chabrovska se probouzejí

Pokud se počet komentářů pod článkem rychle blíží 1000, buďte si jisti, že bez ohledu na autorem uvedené téma uvnitř zuří hádka: záblesky politiky, obklopeni experty na křesla na všechny otázky, psychiatrické diagnózy na dálku podle avatara a přezdívku, dostává osobní, sarkastické útoky, jejichž žíravost převyšuje krev xenomorfů, a samozřejmě obligátním pokrmem v takových případech jsou vzájemné obviňování, o kterých s vámi váš protějšek diskutuje výhradně za odměnu nebo z povinnosti. Což je podle všeho nebezpečné a obtížné a na první pohled to vypadá, že to není vidět a třicet stříbrných se neválí na silnici.

Legrační na této situaci je tože lidé hluboce postižení syndromem na-internetu-někdo-se-mýlí, často tráví zatraceně hodně času a nervů zcela zdarma dokázat jinému stejně ohromenému člověku, že dělá úplně to samé za peníze nebo na objednávku. Hledáte zde logiku? Ona je pryč. To je internet, zlato.

Vezměme si jeden z relativně čerstvé sračky o údajné územní diskriminaci na Gitlabu. Od zveřejnění článku uběhly 4 dny a diskuze se samozřejmě již dávno vzdálila původně uvedenému tématu. Znějí následující fráze:

Skutečný člověk nebude moci profesionálnímu komentátorovi na předplatném nic oponovat...

Uživatel (ten a ten) tráví nereálné množství času komentáři...
Jeho činnost navíc nemá vzory, které jsou obvykle charakteristické pro běžného uživatele....

ps, ale to mě napadlo napsat analyzátor pro takovéto komentátory) S uvedením aktivity podle hodiny, času za den, za týden atd... Dobré téma na článek)

Dobře, přestaň. A jaké vzory jsou „běžnému uživateli obvykle vlastní“? Autor této fráze v tomto vláknu již byl bohužel přepsán, takže budete muset jít náhodně.

Otázka, kterou chci položit před vaše jasné oči, je následující: je vůbec možné pomocí statistických metod alespoň spolehlivě identifikovat tytéž vzorce, abychom vytvořili formální klasifikátor, který odlišuje příležitostné od profesionálních komentátorů? Představte si - "podle Habra-botometru je 76% pravděpodobnost, že jste Kremlinbot." To bude mnohem chladnější než karmické nájezdy na sebe navzájem.
Bohužel moje kompetence nestačí ani na to, abych navrhl, jakým směrem se při řešení takového problému ubírat. Včera večer jsem však hacknul malý primitivní parser, který (naštěstí jsou stránky s komentáři otevřené i neoprávněným návštěvníkům) zatím dělá dvě věci - a) sbírá statistiky od daného uživatelského jména všech jeho komentářů (zatím jen time -stamp ) a přidá jej do databáze MySQL; b) nakreslí časový diagram a vyznačí na něm události odeslání komentáře převzaté z této databáze. I bez sofistikované analýzy to dopadlo docela vtipně. Takto vypadá můj graf komentářů. Vysvětlení jsou níže. Nejlepší je zobrazit jej v samostatném okně v měřítku 100 % nebo více.

Město usíná, obyvatelé Chabrovska se probouzejí

Vodorovná osa je čas, každý pixel je roven jedné minutě, hodnota šedých dílků je rovna jedné hodině, celá vodorovná čára je rovna jednomu dni. Dny jdou zdola nahoru podél svislé osy, hodnota dělení na ní je 365 dní.

V mém diagramu není nic zvlášť zajímavého. Je vidět, že rád spím 7-8 hodin, často chodím spát po půlnoci a někdy mám hodinové komentovací maratony a že aktivita za poslední rok je větší nebo přibližně stejná jako za předchozích pět let. .
Nebo tady je soudruh gecube Tři a půl roku jsem držel slib mlčení a pak to prasklo...

Město usíná, obyvatelé Chabrovska se probouzejí

Diagram aktivity typického habrakomentátora vypadá asi takto (toto je QtRoS)

Město usíná, obyvatelé Chabrovska se probouzejí

Výrazná „ospalá prohlubeň“ vlevo někde v evropské noci a poklidný komentář za denního světla, možná s přestávkami na půl roku.

Ale ne všechny diagramy jsou tak nudné! Co třeba toto:

Město usíná, obyvatelé Chabrovska se probouzejí

Náš kolega zřejmě za něco málo přes dva roky přetrénoval své biorytmy na spaní z evropské noci někde pod Středoatlantickým hřbetem rovnoměrně a postupně a pak se další dva roky vrátil k břehům Portugalska. Chodil jsi? Plavat? Nedokážu přijít na věrohodná vysvětlení... První tři hodiny, co jsem vzhůru, komentáře létají jako samopal, ale na konci dne je to tak, jednou za hodinu se podívám, co se děje tam a je to.

Mimochodem, bylo 0xd34df00d.

A tady je další hádanka:

Město usíná, obyvatelé Chabrovska se probouzejí

Kolega vydržel čtyři a půl roku bez jediného komentáře – zřejmě se někde v tajných klášterech trénoval, jak zůstat celé dny vzhůru, soudě podle toho, kolik komentářů bylo zveřejněno v „sleepy hollow“.

Nejzajímavější je zde ale anomálie na 16. hodině, která trvá více než tři roky a v posledním roce postupně odeznívá. Kuřácká přestávka? Venčení psa? Běhání? Co jiného může odtrhnout obyvatele Khabrova od komentářů uprostřed pracovního dne s takovým denním předurčením? Jsem lajdák a líný člověk, neumím si představit takovou sebekázeň, kterou vážení khim.

Na závěr poslední schéma k zamyšlení:

Město usíná, obyvatelé Chabrovska se probouzejí

Není na něm vůbec žádná jasně definovaná „ospalá prohlubeň“. Jen stěží lze rozeznat viditelný přebytek v počtu komentářů odeslaných po poledni oproti těm dříve odeslaným.

Se vší komsomolskou přísností vyzývám respektované MTyrz odzbrojte se před partou a upřímně přiznejte, kolik prarodičů, vnuček, brouků a myší vládne vašemu účtu a pište komentáře.

A na závěr zákeřná otázka – mohlo by to všechno někoho tak zajímat, že by chtěl vyvinout kód parseru nebo získat výpis databáze či přístup k němu a podobně? Moje vlastní znalosti metod dolování a vizualizace dat jen stěží přesahují obecnou erudici. Sotva mě napadá něco chytřejšího a zajímavějšího než tyto jednoduché diagramy. Pokud by měl někdo zájem, napište mi do telegramu (přezdívka v profilu).

Спасибо за внимание!

UPD. Zveřejnil to zdroje na GitHubu.

Zdroj: www.habr.com

Přidat komentář