A cidade adormece, os residentes de Khabrovsk acordam

Se o número de comentários em um artigo se aproxima rapidamente de 1000, tenha certeza de que, independentemente do tópico declarado pelo autor, uma disputa está acontecendo por dentro: focos de tensão na política, cercados por especialistas de poltrona em todos os assuntos, diagnósticos psiquiátricos à distância por avatar e apelido, recebendo ataques pessoais e sarcásticos, cuja causticidade ultrapassa a do sangue dos xenomorfos, e, claro, o prato obrigatório nesses casos são as acusações mútuas que seu homólogo discute com você apenas por remuneração ou por dever. O que, aparentemente, é perigoso e difícil, e à primeira vista parece não ser visível, e trinta moedas de prata não estão na estrada.

O engraçado dessa situação é queque as pessoas profundamente afetadas pela síndrome na-internet-alguém-está-errado, muitas vezes gastam muito tempo e nervosismo para completamente grátis provar a outra pessoa igualmente surpresa que ela está fazendo exatamente a mesma coisa por dinheiro ou por encomenda. Você está procurando lógica aqui? Ela se foi. É a internet, querido.

Vamos pegar um dos merda relativamente nova sobre suposta discriminação territorial no Gitlab. 4 dias se passaram desde a publicação do artigo e, claro, a discussão já se afastou há muito do tema originalmente declarado. As seguintes frases soam:

Uma pessoa real não poderá se opor a nada a um comentarista profissional por assinatura...

O usuário (fulano de tal) gasta uma quantidade irreal de tempo em comentários...
Além disso, sua atividade não possui padrões normalmente característicos de um usuário comum....

p.s. mas isso me deu a ideia de escrever um analisador-analisador para tais comentaristas) Com indicação de atividade por hora, quantidade de tempo por dia, por semana, etc... Um bom tópico para um artigo)

Ok, pare. E que tipo de padrões são “geralmente inerentes ao usuário médio”? O autor desta frase naquele tópico, infelizmente, já foi transcrito, então você terá que ir ao acaso.

A questão que quero colocar diante de seus olhos claros é a seguinte: é mesmo possível, usando métodos estatísticos, identificar pelo menos de forma confiável esses mesmos padrões, de modo a criar um classificador formal que distinga comentaristas casuais de comentaristas profissionais? Imagine - “de acordo com o botômetro Habra, você tem 76% de probabilidade de ser um Kremlinbot”. Isso será muito mais legal do que ataques cármicos uns contra os outros.
Infelizmente, minhas competências não são suficientes nem para sugerir que direção seguir para resolver tal problema. No entanto, ontem à noite eu hackeei um pequeno analisador primitivo, que (felizmente as páginas com comentários estão abertas até mesmo para visitantes não autorizados) até agora faz duas coisas - a) coleta estatísticas de um determinado nome de usuário de todos os seus comentários (por enquanto apenas carimbo de data / hora ) e adiciona-o ao banco de dados MySQL; b) traça um diagrama temporal, marcando nele os eventos de envio de comentários retirados desta base de dados. Mesmo sem nenhuma análise sofisticada, acabou sendo bastante engraçado. Esta é a aparência do meu gráfico de comentários. As explicações estão abaixo. É melhor visualizá-lo em uma janela separada em uma escala de 100% ou mais.

A cidade adormece, os residentes de Khabrovsk acordam

O eixo horizontal é o tempo, cada pixel é igual a um minuto, o valor das divisões cinza é igual a uma hora, toda a linha horizontal é igual a um dia. Os dias vão de baixo para cima ao longo do eixo vertical, o valor da divisão nele é 365 dias.

Não há nada particularmente interessante em meu diagrama. Pode-se ver que gosto de dormir de 7 a 8 horas, muitas vezes vou para a cama depois da meia-noite e às vezes faço maratonas de comentários de horas de duração, e que a atividade no ano passado foi maior ou aproximadamente igual à dos cinco anos anteriores. .
Ou aqui está um camarada gecubo Mantive um voto de silêncio por três anos e meio, e então ele quebrou...

A cidade adormece, os residentes de Khabrovsk acordam

O diagrama de atividades de um habracomentarista típico se parece com isto (isso é QtRoS)

A cidade adormece, os residentes de Khabrovsk acordam

Um distinto “vazio sonolento” à esquerda em algum lugar da noite europeia e comentários tranquilos durante o dia, talvez com intervalos de meio ano.

Mas nem todos os diagramas são tão chatos! Que tal isso, por exemplo:

A cidade adormece, os residentes de Khabrovsk acordam

Em pouco mais de dois anos, o nosso colega aparentemente retreinou o seu biorritmo para dormir da noite europeia algures sob a Dorsal Meso-Atlântica, de forma uniforme e gradual, e depois passou mais dois anos para regressar às costas de Portugal. Você caminhou? Nadar? Não consigo encontrar explicações plausíveis... Nas primeiras três horas em que estou acordado, os comentários voam como uma metralhadora, mas no final das contas é assim, uma vez a cada hora eu olho para ver o que está acontecendo aí e pronto.

Aliás, foi 0xd34df00d.

E aqui está outro enigma:

A cidade adormece, os residentes de Khabrovsk acordam

O colega durou quatro anos e meio sem um único comentário – aparentemente ele estava treinando em algum lugar em mosteiros secretos sobre como ficar acordado por dias, a julgar pela quantidade de comentários postados em “sleepy Hollow”.

Mas o mais interessante aqui é a anomalia da 16ª hora, que dura mais de três anos e desaparece gradativamente no último ano. Pausa para fumar? Passear com o cão? Corrida? O que mais pode afastar um residente de Khabrov do feed de comentários no meio de uma jornada de trabalho com tanta predeterminação diária? Sou uma pessoa desleixada e preguiçosa, não consigo imaginar o tipo de autodisciplina que o respeitado khim.

Finalmente, um último diagrama para pensar:

A cidade adormece, os residentes de Khabrovsk acordam

Não existe um “vazio sonolento” claramente definido. Mal se consegue discernir o visível excesso no número de comentários enviados depois do meio-dia em relação aos enviados antes.

Com todo o rigor do Komsomol, apelo ao respeitado MTyrz desarme-se na frente da festa e admita honestamente quantos avós, netas, insetos e ratos controlam sua conta e escrevem comentários.

E, finalmente, uma pergunta insidiosa - alguém poderia estar tão interessado em tudo isso a ponto de querer desenvolver o código do analisador ou obter um dump do banco de dados ou acesso a ele, e assim por diante? Meu próprio conhecimento de métodos de mineração e visualização de dados dificilmente excede a erudição geral. Não consigo pensar em nada mais inteligente e interessante do que esses diagramas simples. Se alguém estiver interessado, escreva-me por telegrama (apelido no perfil).

Obrigado!

Atualização. Postado fontes no GitHub.

Fonte: habr.com

Adicionar um comentário