Sobre as estranhezas da habroestatística

Já notei um comportamento estranho nas classificações antes, mas recentemente a estranheza tornou-se demasiado óbvia. E decidi investigar o problema utilizando os métodos científicos de que disponho, nomeadamente: analisar a dinâmica do mais-menos. Você imaginou de repente?

Ainda sou programador, mas posso fazer coisas muito básicas. Então codifiquei um utilitário simples que coleta estatísticas dos painéis da postagem de Khabrov: prós, contras, visualizações, favoritos, etc.

Sobre as estranhezas da habroestatística

As estatísticas são apresentadas em gráficos, depois de estudá-los pudemos descobrir mais algumas surpresas, menores. Mas primeiro as primeiras coisas.

Estranheza 1.
Foi aqui que minha pesquisa estatística realmente começou.

Pareceu-me estranho que nas primeiras horas após a publicação de alguns dos meus posts eles se tornaram nitidamente negativos, depois foram para zero e acabaram ganhando o sinal positivo esperado. Por que isso aconteceu?

Eu estava prestes a publicar outro post - em duas partes. Decidi submetê-lo a uma análise estatística.

Publicada a primeira parte. Ao mesmo tempo, lancei o utilitário e comecei a aguardar o resultado. Infelizmente, à noite - enquanto eu dormia - o programa parou de coletar informações devido a um bug. Na manhã seguinte corrigi o erro, mas as estatísticas eram de menos de um dia. Contudo, as tendências também são evidentes para o tempo trabalhado.

Os dados são fornecidos durante as primeiras 14 horas a partir do momento da publicação, o intervalo entre as medições é de 10 minutos.

Sobre as estranhezas da habroestatística

Os olhos não nos enganaram: a maioria dos pontos negativos ocorre na primeira hora de existência do post. A princípio o posto entrou em território negativo, depois se recuperou. Aqui estão os números usados ​​para traçar o gráfico:

Sobre as estranhezas da habroestatística

E isso apesar do fato de as visualizações estarem aumentando suavemente!

Sobre as estranhezas da habroestatística

As etapas a partir dos milésimos de valores são explicadas pelo fato de as abreviaturas começarem no painel Khabrov: não há lugar para obter o número exato de visualizações (provavelmente poderia ter sido obtido de serviços de terceiros, mas não os usei ).

Não sou especialista em estatística, mas tal distribuição de pontos negativos é anormal, pelo que entendi?!

Veja, os marcadores são distribuídos de forma mais ou menos uniforme durante o período de registro:

Sobre as estranhezas da habroestatística

Os comentários também são distribuídos uniformemente:

Sobre as estranhezas da habroestatística

Há explosões de atividade e passividade, mas também se distribuem ao longo do período: os comentários desaparecem ou recomeçam.

O mesmo acontece com os assinantes – há um ligeiro aumento uniforme:

Sobre as estranhezas da habroestatística

O karma não mudou durante o período do relatório - não estou citando isso. E a classificação é calculada pela Habr, não adianta listá-la.

Todos os indicadores mudam proporcionalmente ao número de visualizações, e só com os pontos negativos algo está errado: a explosão de raiva ocorre na primeira hora desde o início da publicação. A mesma coisa aconteceu com meus posts anteriores. Mas se antes eram, por assim dizer, impressões pessoais, agora são confirmadas pelo registo.

Na minha opinião puramente novata, tal distribuição significa: há vários usuários no site que visualizam propositalmente as últimas postagens publicadas e rejeitam algumas das postagens - com base em uma necessidade conhecida apenas por eles. Escrevo “alguns dos posts” porque percebi esse efeito não só nas minhas publicações. Em todos os casos, o efeito é pronunciado, caso contrário eu simplesmente não teria prestado atenção nele.

Tenho quatro versões de por que isso acontece.

Versão 1. Perversão mental. Pessoas doentes vigiam deliberadamente os autores que consideram desagradáveis ​​e os rejeitam, com o objetivo de prejudicá-los.

Não acredito nesta versão.

Versão 2. Efeito psicológico. Qual deles - eu não sei. Bem, por que os leitores primeiro rejeitam a postagem por unanimidade e depois a votam de forma não menos unânime? Eles são negativos por não serem temáticos, mas positivos depois que os conhecedores de beleza se tornam a maioria? Não sei.

Se houver psicólogos entre os leitores, deixe-os dar a sua opinião.

Versão 3. Os servos estão agindo. Porque haveriam os seus chefes de espalhar podridão nos postos de Khabrov? Deus sabe. Porém, existem militares não só em nosso país. Quem vai entendê-los, russófobos?!

Versão 4. Efeitos combinados dos fatores mencionados anteriormente.

Bastante imaginável.

Seja como for, os minusers conseguem reduzir o número de visualizações. Não estou familiarizado com as regras para levar as postagens de Khabrov ao topo, nem sei se esses algoritmos foram divulgados ou não, mas é óbvio para mim: o sinal de menos inicial não permite que postagens condenadas ao ostracismo cheguem ao topo - mais precisamente, atrasa a chegada, o que por sua vez reduz significativamente, às vezes, o número de visualizações.

Pelo que entendi, não existem formas eficazes de combater esse mal. A única maneira é a votação pessoal. Somente neste caso você pode estabelecer quais perfis são monitorados periodicamente e menos as postagens mais recentes. Contudo, não há votação pessoal sobre Habré (ou melhor, não é tornada pública).

Mas não é tão simples.

Como eu disse, o material dissecado foi publicado em partes. Após a publicação da segunda parte, esperava um quadro semelhante: com o resultado inicial negativo e o subsequente positivo. Porém, o efeito acabou sendo muito mais suavizado: o post não virou sinal de menos.

No momento da publicação da segunda parte, o bug já havia sido corrigido, então os dados são fornecidos por dia:

Sobre as estranhezas da habroestatística

Não sei de onde veio a suavização. Talvez porque foi publicado no sábado (votos negativos não funcionam aos sábados?) Ou porque este é o fim do material publicado anteriormente.

No entanto, a distribuição dos pontos negativos ainda é desigual: todos os pontos negativos ocorrem na primeira metade do período de registro e o sinal negativo termina muito antes do sinal positivo. Ao mesmo tempo, as visualizações são distribuídas ao longo do período exatamente como da última vez - uniformemente:

Sobre as estranhezas da habroestatística

O pico que aconteceu por volta das três da tarde não é material classificado. Minha internet caiu por uma hora. O utilitário não conseguiu se conectar ao site.

Sobre as estranhezas da habroestatística

Todo o resto é completamente padrão.

Favoritos:

Sobre as estranhezas da habroestatística

Comentários: como da última vez, períodos de atividade se alternam com períodos de silêncio.

Sobre as estranhezas da habroestatística

Carma. Foi registrado um aumento de algumas unidades - claro, não simultâneo:

Sobre as estranhezas da habroestatística

E assinantes. O número total permaneceu inalterado (aparentemente, os interessados ​​se inscreveram quando a primeira parte foi publicada). Por volta de uma hora da tarde houve uma única flutuação: alguém cancelou a inscrição - talvez por engano - mas imediatamente se inscreveu novamente. Se fosse outra pessoa, ocorria a compensação: o número total de assinantes não mudava.

Sobre as estranhezas da habroestatística

Assim, as pós-métricas se comportam de forma clara e previsível. Todos os indicadores, exceto os pontos negativos. Como não vejo nenhuma razão óbvia para isso, considero o pico negativo no mínimo estranho.

Estranheza 2.
Às vezes o número de visualizações diminui (o que, claro, é impossível), mas logo volta ao normal.

Eu o rastreei por acidente, enquanto depurava o programa, quando a função de exportação-importação ainda não havia sido anexada, então o zigue-zague correspondente está faltando no gráfico. Você pode acreditar na minha palavra - esse efeito foi observado duas vezes. Vários milhares de visualizações, de repente o número de visualizações diminui em algumas centenas, após 10-20 minutos é restaurado ao nível anterior (sem levar em conta o aumento natural).

Isto é bastante simples: um bug no site. E não há nada em que pensar.

Estranheza 3.
Isto é o que me pareceu muito mais estranho do que os primeiros efeitos voluntários e os segundos efeitos técnicos. As vantagens não acontecem isoladamente, com distribuição uniforme ao longo do período, mas em blocos. Mas acrescentar não é um comentário, quando uma pergunta é naturalmente seguida de uma resposta, é um ato individual!

Dê uma olhada nos gráficos de resultados publicados acima: os blocos são perceptíveis.

Pessoas experientes acenaram para mim sobre a distribuição de Poisson, mas não sou capaz de calcular a probabilidade sozinho. Se você puder, faça as contas. Já é óbvio para mim que o número de vantagens duplas excede em muito a norma.

Aqui estão os dados digitais sobre as vantagens da primeira parte do post. O gráfico mostra o número de vantagens para posições simples, duplas e triplas no número total de classificações atribuídas. Conforme mencionado anteriormente, o intervalo de medição é de 10 minutos.

Sobre as estranhezas da habroestatística

Das 30 cutucadas em 84 células, duas células foram cutucadas três vezes. Bem, não sei o quanto isso corresponde à teoria da probabilidade...

Dados da segunda parte do post (como o período de medição é maior, estou encurtando de acordo com a duração da primeira parte, para comparabilidade):

Sobre as estranhezas da habroestatística

A propósito, aqui um dos pontos positivos únicos é adjacente no tempo ao triplo, ou seja, em cerca de 20 minutos houve um aumento nos pontos positivos (29% do seu número total eram pontos positivos). E isso não aconteceu nos primeiros minutos de publicação.

A relação entre as posições simples, duplas e triplas é aproximadamente a mesma da primeira parte. E a diminuição da participação das avaliações nas medições é explicada pelo fato de as avaliações terem sido atribuídas com menor frequência. Foram feitas medições, mas nenhuma vantagem foi registrada.

Não posso explicar esse efeito de bloqueio mais de forma alguma, isto é, de forma alguma. Por outro lado, esse comportamento “bloco” não parece ser típico.

Os emissores do bem enviam sugestões em lotes, ligando e desligando? Hehehehe...

PS
Se alguém quiser analisar as estatísticas das postagens usando métodos mais avançados ou verificar a aritmética, os arquivos com os dados de origem estão aqui:
yadi.sk/d/iN4SL6tzsGEQxw

Não insisto nas minhas dúvidas – talvez esteja errado, especialmente porque as estatísticas são sombrias. Espero que os comentários de estatísticos profissionais, psicólogos e outros utilizadores interessados ​​esclareçam a confusão que surgiu.

Obrigado por sua atenção.

Fonte: habr.com

Adicionar um comentário