Habrastatistics: analizà i cumenti di i lettori

Salutami Habr. IN parte precedente A pupularità di diverse sezzioni di u situ hè stata analizata, è à u stessu tempu a quistione hè stata - chì dati pò esse estratti da i cumenti nantu à l'articuli. Vuliu ancu pruvà una ipotesi, chì discuteraghju quì sottu.
Habrastatistics: analizà i cumenti di i lettori

I dati sò stati assai interessanti, è avemu ancu pussutu cumpilà una piccula "mini-rating" di cummentarii. Cuntinuò sottu à u cut.

Raccolta di dati

Per l'analisi, useremu dati per questu annu, 2019, soprattuttu chì aghju digià ricevutu una lista d'articuli in forma csv. Tuttu ciò chì resta hè di caccià i cumenti da ogni articulu, per furtuna per noi, sò stati cullucati, è ùn ci hè bisognu di fà richieste supplementari.

Per mette in risaltu i cumenti da un articulu, u codice seguente hè abbastanza:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Questu ci permette di ottene una lista di cumenti chì s'assumiglia à questu (alcuni eliminati per ragioni di privacy):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Comu pudete vede, per ogni cumentu pudemu avè u nome d'utilizatore, a data, a valutazione è u testu propiu. Videmu ciò chì pudemu avè da questu.

A propositu, inizialmente, l'idea di cullezzione di valutazioni era un pocu sfarente - per vede ciò chì l'utilizatori danu valutazioni. Per esempiu, pudete guardà YouTube - ancu u video più ideale, ancu un video chì ùn porta micca infurmazione subjectiva, puramente per riferimentu o un comunicatu di notizia, guadagna ancu un certu numaru di minus. L'ipotesi era chì ci sò utilizatori chì, puramente clinicamente, ùn piace micca tuttu, forse a serotonina ùn hè micca prodotta in u cervellu o qualcosa altru. Forsi una persona ùn hà più bisognu à pusà nantu à Habré, ma per trattà a depressione ... Ma cum'è hè stata, ùn possu micca verificà questu quì, perchè ... a lista di quelli chì detti qualificazioni ùn hè micca salvatu in u cumentu o articulu. Ebbè, questu hè, avemu da travaglià cù e dati dispunibili. U risultatu hè una valutazione "inversa" - pudete vede ciò chì valutazioni _riceve_ da l'utilizatori. Chì, in principiu, hè ancu interessante.

Processing

Per principià, un disclaimer tradiziunale. Questa valutazione, cum'è tutti i precedenti, ùn hè micca ufficiale. Ùn aghju micca garantitu chì ùn aghju micca sbagliatu in ogni locu. Per quelli chì sò interessati à i dettagli tecnichi, un codice più detallatu hè furnitu in a parte precedente.

Allora cuminciamu. I cumenti per questu annu, 2019 (chì ùn hè micca finitu), sò stati pigliati per analisi. À u mumentu di a scrittura, l'utilizatori anu scrittu Cumunitati 448533, a dimensione di u schedariu csv hè 288 MB. Putente, impressiunanti.

Tempu di scrittura

Raggruppemu i cumenti per ora, dividendu i ghjorni di a settimana è i weekend per separatamente.

Habrastatistics: analizà i cumenti di i lettori

Quì ùn avemu micca interessatu in i valori assuluti, ma in quelli relative. S'ellu si guarda solu "cum'è hè", allora si trova chìоA maiò parte di i cumenti sò stati scritti durante l'ora di travagliu da 10 à 18 😉 D'altra parte, i fusi orari ùn sò micca cunsiderati quì, cusì a quistione hè sempre aperta.

Fighjemu a distribuzione di cumenti in tuttu l'annu:

Habrastatistics: analizà i cumenti di i lettori

Eppuru gira, un surge hè chjaramente visibili in i ghjorni di a settimana - a periodicità settimanale hè chjaramente visibile, cusì pudemu dì cun fiducia abbastanza alta chì a ghjente leghje è cummentendu Habr da u travagliu (ma questu ùn hè micca sicuru).

In modu, ci era una idea per pruvà l'ipotesi se u numeru di minus o pluses ricevuti difiere da u ghjornu o l'ora di u ghjornu, ma ùn era micca pussibule di truvà una relazione - u tempu chì a valutazione hè stata data ùn hè micca salvatu, è ùn ci hè micca una cunnessione diretta cù u tempu di u cumentu.

Utilizatori

Di sicuru, ùn cunnosci micca u numeru esatta di l'utilizatori nantu à u situ. Ma quelli chì anu lasciatu almenu un cummentariu quist'annu sò stati apprussimatamente E persone 25000.

U graficu di u numeru di missaghji lasciati da l'utilizatori pare assai interessante:

Habrastatistics: analizà i cumenti di i lettori

À u principiu ùn aghju micca cridutu à mè stessu, ma ùn pareva micca esse sbagliatu. 5% di l'utilizatori lascianu 60% di i missaghji. 10% - 74% di tutti i missaghji (di quali, lasciami ricurdà, questu annu, 450 mila). A maiuranza simpricamente leghje u situ, lassendu cumenti assai raramenti, o ùn lasciendu micca in tuttu (quelli, naturalmente, ùn eranu micca inclusi in a mo lista).

Classificazioni

Passemu à l'ultima è più divertente parte di e statistiche - valutazioni. Per ragioni di privacy, ùn daraghju micca i soprannomi cumpleti di l'utilizatori, quellu chì vole, pensu, si ricunnoscerà.

By numeru di cumenti per questu annu, i primi 5 sò occupati da VoXXXX (3377 cumenti), 0xdXXXX (3286 cumenti), strXXXX (3043 cumenti), AmXXXX (2897 cumenti) è khXXXX (2748 cumenti).

By numeru di benefici ricevuti, i primi 5 sò occupati da amXXXX (1395 comments, ratings +3231/-309), tvXXXX (1544 comments, ratings +3231/-97), WhuXXXX (921 comments, ratings +2288/-13), MTXXXX (1328 comments, +1383 /-7) è amaXXXX (736 cumenti, rating +1340/-16).

By valutazione positiva assoluta (nimu commentu valutatu negativamente) a cima di a cima hè occupata da Milfgard и Boomburum. Per eccezzioni, aghju prisintatu i so nicknames in pienu, pensu chì si meritanu.

I svantaghji sò ancu interessanti. In cima numeru di minus cullate per questu annu sò occupati da siXX (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) è nicXXXXX (456 pluses, 487 minuses). Ma cum'è pudete vede, questi utilizatori anu abbastanza cumenti pusitivi. Ma sicondu minus assolutu L'antitopic include vladXXXX (55 comments, 84 minus, 0 pluses), ekoXXXX (77 comments, 92 minuses, 1 plus) è iMXXXX (225 comments, 205 minuses, 12 pluses).

cunchiusioni

Ùn aghju micca pussutu calculà tuttu ciò chì era previstu, ma speru chì era interessante.

Comu pudete vede, ancu un set di dati cù un numeru cusì chjucu di campi ponu furnisce dati interessanti per l'analisi. Ci hè ancu assai per scavà, da a custruzzione di una "nuvola di parole" à l'analisi di testu. Sì emergenu risultati interessanti, seranu publicati.

Source: www.habr.com

Add a comment