Град заспи, становници Хабровска се буде

Ако се број коментара испод чланка убрзано приближава 1000, будите уверени да без обзира на тему коју је аутор навео, унутра букти свађа: жаришта политике, окружени стручњацима из фотеље о свим питањима, психијатријске дијагнозе на даљину по аватару и надимак, добијање личних, саркастичних напада, чија је заједљивост већа од крви ксеноморфа, и, наравно, обавезно јело у таквим случајевима су међусобне оптужбе о којима ваш колега разговара са вама искључиво за накнаду или по дужности. Што је, по свему судећи, опасно и тешко, и на први поглед изгледа да се не види, а тридесет сребрника не лежи на путу.

Оно што је смешно у овој ситуацији је тода људи дубоко погођени синдромом на-интернету-неко-греши, често троши проклето много времена и живаца да потпуно бесплатно доказати другој једнако задивљеној особи да ради потпуно исту ствар за новац или по налогу. Тражите ли логику овде? Она је нестала. То је интернет, душо.

Узмимо један од релативно свеже срање о наводној територијалној дискриминацији на Гитлабу. Прошло је 4 дана од објављивања чланка и, наравно, дискусија се одавно удаљила од првобитно наведене теме. Звуче следеће фразе:

Права особа неће моћи ништа да супротстави професионалном коментатору на претплати...

Корисник (та-и-такав) троши нереално много времена на коментаре...
Штавише, његова активност нема обрасце који су обично карактеристични за обичног корисника....

пс али ово ми је дало идеју да напишем парсер-анализатор за такве коментаторе) Са назнаком активности по сату, количини времена дневно, седмично итд... Добра тема за чланак)

Ок, стани. Какви су обрасци „обично својствени просечном кориснику“? Аутор ове фразе у тој теми, нажалост, је већ транскрибован, тако да ћете морати да идете насумично.

Питање које желим да вам поставим пред бистре очи је следеће: да ли је уопште могуће, користећи статистичке методе, барем поуздано идентификовати те исте обрасце како би се направио формални класификатор који разликује обичне од професионалних коментатора? Замислите – „према Хабра-ботометру, 76% је вероватноћа да сте Кремљбот.” Ово ће бити много хладније од кармичких напада једни на друге.
Нажалост, моје компетенције нису довољне ни да сугеришем у ком правцу да се копам да решим такав проблем. Међутим, синоћ сам хаковао мали примитивни парсер, који (срећом странице са коментарима су отворене и за неовлашћене посетиоце) за сада ради две ствари - а) прикупља статистику од датог корисничког имена свих његових коментара (за сада само временска ознака ) и додаје га у МиСКЛ базу података; б) црта временски дијаграм, означавајући на њему догађаје слања коментара преузетих из ове базе података. Чак и без икакве софистициране анализе испало је прилично смешно. Овако изгледа мој графикон коментара. Објашњења су у наставку. Најбоље је гледати у посебном прозору на скали од 100% или више.

Град заспи, становници Хабровска се буде

Хоризонтална оса је време, сваки пиксел је једнак једном минуту, вредност сивих подела је једнака једном сату, цела хоризонтална линија је једнака једном дану. Дани иду одоздо према горе дуж вертикалне осе, вредност поделе на њој је 365 дана.

У мом дијаграму нема ничег посебно занимљивог. Види се да волим да спавам 7-8 сати, често легнем после поноћи, а понекад имам и вишесатне коментарске маратоне и да је активност у протеклој години већа или приближно једнака оној у претходних пет година. .
Или ево другарица гецубе Чувао сам завет ћутања три и по године, а онда је то пукло...

Град заспи, становници Хабровска се буде

Дијаграм активности типичног хабракоментатора изгледа отприлике овако (ово је КтРоС)

Град заспи, становници Хабровска се буде

Изразита „поспана удубина” лево негде у европској ноћи и лежерно коментарисање током дана, можда са паузама од пола године.

Али нису сви дијаграми тако досадни! Шта кажете на ово, на пример:

Град заспи, становници Хабровска се буде

За нешто више од две године, наш колега је очигледно преобучио своје биоритмове да спава из европске ноћи негде испод Средњоатлантског гребена, равномерно и постепено, а затим провео још две године да се врати на обале Португала. Јеси ли ходао? Свим? Не могу да смислим уверљива објашњења... Прва три сата будности, коментари лете као из митраљеза, али на крају дана је тако, једном на сат погледам да видим шта се дешава ето и то је то.

Успут, било је 0кд34дф00д.

А ево још једне загонетке:

Град заспи, становници Хабровска се буде

Колега је издржао четири и по године без иједног коментара – изгледа да је тренирао негде у тајним манастирима како да данима остане будан, судећи по томе колико је коментара постављено у „поспаној шупљини“.

Али овде је најзанимљивија аномалија у 16. часу, која траје више од три године и постепено нестаје у последњих годину дана. Пауза за дим? Шетати пса? Јоггинг? Шта још може да отргне становника Хаброва од коментара усред радног дана са таквом дневном предодређеношћу? Ја сам љигавац и лењ, не могу да замислим самодисциплину коју уважени кхим.

Коначно, још један дијаграм за размишљање:

Град заспи, становници Хабровска се буде

На њему уопште нема јасно дефинисане „успаване шупљине“. Једва се назире видљиви вишак у броју коментара послатих после подне у односу на оне раније.

Уз сву комсомолску строгост позивам поштоване МТирз разоружајте се пред журком и поштено признајте колико баба, деда, унука, бубица и мишева влада вашим налогом и пише коментаре.

И на крају, подмукло питање – да ли неко може бити толико заинтересован за све ово да би пожелео да развије код парсера или да добије думп базе података или приступ њему и тако даље? Моје сопствено знање о методама рударења података и визуелизације података тешко превазилази општу ерудицију. Тешко да могу да смислим нешто паметније и занимљивије од ових једноставних дијаграма. Ако је неко заинтересован нека ми пише у телеграм (надимак у профилу).

Спасибо за внимание!

УПД. Постед ит извори на ГитХуб-у.

Извор: ввв.хабр.цом

Купите поуздан хостинг за сајтове са ДДоС заштитом, ВПС ВДС сервере 🔥 Купите поуздан веб хостинг са DDoS заштитом, VPS VDS сервере | ProHoster