La città si addormenta, i residenti di Khabrovsk si svegliano

Se il numero di commenti sotto un articolo si avvicina rapidamente a 1000, state certi che, qualunque sia l'argomento esposto dall'autore, al suo interno infuria un battibecco: focolai della politica, circondati da esperti in poltrona su tutte le questioni, diagnosi psichiatriche a distanza da avatar e soprannome, ricevendo attacchi personali e sarcastici, la cui causticità supera quella del sangue degli xenomorfi, e, naturalmente, il piatto obbligatorio in questi casi sono le accuse reciproche che la tua controparte sta discutendo con te esclusivamente dietro compenso o per dovere. Il che, a quanto pare, è pericoloso e difficile, e a prima vista sembra non essere visibile, e trenta pezzi d'argento non giacciono sulla strada.

La cosa divertente di questa situazione è questache le persone profondamente colpite dalla sindrome su internet qualcuno ha torto, spesso dedicano un sacco di tempo e nervi a questo completamente gratuito dimostrare ad un'altra persona altrettanto stupita che sta facendo esattamente la stessa cosa per denaro o tramite ordine. Stai cercando la logica qui? Se n'è andata. È Internet, tesoro.

Prendiamone uno merda relativamente fresca sulla presunta discriminazione territoriale su Gitlab. Sono trascorsi 4 giorni dalla pubblicazione dell'articolo e, ovviamente, la discussione si è allontanata da tempo dall'argomento originariamente dichiarato. Suonano le seguenti frasi:

Una persona reale non potrà opporre nulla ad un commentatore professionista su un abbonamento...

L'utente (così e così) trascorre una quantità di tempo irrealistica sui commenti...
Inoltre, la sua attività non ha schemi solitamente caratteristici di un utente normale....

p.s. ma questo mi ha dato l'idea di scrivere un analizzatore parser per tali commentatori) Con l'indicazione dell'attività per ora, quantità di tempo al giorno, per settimana, ecc... Un buon argomento per un articolo)

Ok, fermati. Che tipo di modelli sono “solitamente inerenti all’utente medio”? L'autore di questa frase in quel thread, purtroppo, è già stato trascritto, quindi dovrai andare a caso.

La domanda che voglio porre davanti ai vostri occhi lucidi è la seguente: è possibile, utilizzando metodi statistici, identificare almeno in modo affidabile questi stessi modelli in modo da creare un classificatore formale che distingua i commentatori casuali da quelli professionisti? Immagina: "secondo Habra-botometer, hai il 76% di probabilità di essere un Kremlinbot." Sarà molto più interessante delle incursioni karmiche reciproche.
Purtroppo le mie competenze non sono sufficienti nemmeno per suggerire in quale direzione scavare per risolvere un problema del genere. Tuttavia, ieri sera ho messo insieme un piccolo parser primitivo, che (fortunatamente le pagine con commenti sono aperte anche a visitatori non autorizzati) finora fa due cose: a) raccoglie statistiche da un dato nome utente di tutti i suoi commenti (per ora solo time -stamp ) e lo aggiunge al database MySQL; b) disegna un diagramma temporale, segnando su di esso gli eventi di invio dei commenti prelevati da questo database. Anche senza alcuna analisi sofisticata si è rivelato piuttosto divertente. Ecco come appare la mia tabella dei commenti. Le spiegazioni sono riportate di seguito. È meglio visualizzarlo in una finestra separata con una scala pari o superiore al 100%.

La città si addormenta, i residenti di Khabrovsk si svegliano

L'asse orizzontale è il tempo, ogni pixel equivale ad un minuto, il valore delle divisioni grigie è pari ad un'ora, l'intera linea orizzontale equivale ad un giorno. I giorni vanno dal basso verso l'alto lungo l'asse verticale, il valore della divisione su di esso è di 365 giorni.

Non c'è nulla di particolarmente interessante nel mio diagramma. Si può vedere che mi piace dormire 7-8 ore, spesso andare a letto dopo mezzanotte e talvolta fare maratone di commenti di ore e ore e che l'attività dell'ultimo anno è maggiore o approssimativamente uguale a quella dei cinque anni precedenti .
Oppure ecco un compagno gecube Ho mantenuto il voto di silenzio per tre anni e mezzo, e poi è scoppiato...

La città si addormenta, i residenti di Khabrovsk si svegliano

Il diagramma di attività di un tipico habracommentatore assomiglia a questo (questo è QtRoS)

La città si addormenta, i residenti di Khabrovsk si svegliano

Una distinta “cavità addormentata” sulla sinistra da qualche parte nella notte europea e un piacevole commento durante le ore diurne, forse con pause per sei mesi.

Ma non tutti i diagrammi sono così noiosi! Che ne dici di questo, ad esempio:

La città si addormenta, i residenti di Khabrovsk si svegliano

In poco più di due anni, il nostro collega apparentemente ha riqualificato i suoi bioritmi per dormire dalla notte europea da qualche parte sotto la dorsale medio-atlantica, in modo uniforme e graduale, e poi ha trascorso altri due anni per tornare sulle coste del Portogallo. Hai camminato? Nuotare? Non riesco a trovare spiegazioni plausibili... Per le prime tre ore di veglia i commenti volano come un mitragliatore, ma alla fine è così, una volta ogni ora guardo dentro per vedere cosa sta succedendo lì e basta.

A proposito, lo era 0xd34df00d.

Ed ecco un altro indovinello:

La città si addormenta, i residenti di Khabrovsk si svegliano

Il collega è durato quattro anni e mezzo senza un solo commento - a quanto pare si stava allenando da qualche parte nei monasteri segreti su come rimanere sveglio per giorni, a giudicare da quanti commenti sono stati pubblicati in "Sleepy Hollow".

Ma la cosa più interessante qui è l'anomalia della 16a ora, che dura più di tre anni e gradualmente svanisce nell'ultimo anno. Pausa sigaretta? Portare a spasso il cane? Jogging? Cos'altro può strappare un residente di Khabrov dai commenti alimentati nel bel mezzo di una giornata lavorativa con tale predeterminazione quotidiana? Sono una persona sciatta e pigra, non riesco a immaginare il tipo di autodisciplina che rispettano chim.

Infine, un ultimo diagramma a cui pensare:

La città si addormenta, i residenti di Khabrovsk si svegliano

Non c’è alcun “sleepy cavità” chiaramente definito su di esso. Solo si riesce a malapena a discernere l'evidente eccesso nel numero dei commenti inviati dopo mezzogiorno rispetto a quelli inviati prima.

Con tutto il rigore di Komsomol esorto gli rispettati MTyrz Disarmati davanti alla festa e ammetti onestamente quanti nonni, nipoti, insetti e topi governano il tuo account e scrivi commenti.

E infine, una domanda insidiosa: qualcuno potrebbe essere così interessato a tutto ciò da voler sviluppare il codice del parser o ottenere un dump del database o accedervi, e così via? La mia conoscenza dei metodi di data mining e visualizzazione dei dati difficilmente supera l'erudizione generale. Difficilmente riesco a pensare a qualcosa di più intelligente e interessante di questi semplici diagrammi. Se qualcuno è interessato mi scriva in telegram (soprannome nel profilo).

Grazie!

AGGIORNAMENTO. L'ho pubblicato fonti su GitHub.

Fonte: habr.com

Aggiungi un commento