Habrastatistics: analiżi tal-kummenti tal-qarrejja

Hello Habr. IN parti preċedenti Ġiet analizzata l-popolarità ta 'diversi sezzjonijiet tas-sit, u fl-istess ħin qamet il-mistoqsija - liema data tista' tiġi estratta minn kummenti fuq artikli. Xtaqt ukoll nittestja ipoteżi waħda, li se niddiskuti hawn taħt.
Habrastatistics: analiżi tal-kummenti tal-qarrejja

Id-dejta rriżulta li kienet pjuttost interessanti, u stajna wkoll niġbru "mini-rating" żgħir ta 'kummentaturi. Tkompli taħt il-qatgħa.

Ġbir tad-dejta

Għall-analiżi, se nużaw id-dejta għal din is-sena, 2019, speċjalment peress li diġà rċevejt lista ta 'artikoli f'forma csv. Jibqa' biss li jiġu estratti l-kummenti minn kull artiklu fortunatament għalina, huma maħżuna hemmhekk, u m'hemmx għalfejn isiru talbiet addizzjonali;

Biex tenfasizza l-kummenti minn artiklu, il-kodiċi li ġej huwa biżżejjed:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Dan jippermettilna nġibu lista ta' kummenti li tidher xi ħaġa bħal din (il-laqmijiet jitneħħew għal raġunijiet ta' privatezza):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Kif tistgħu taraw, għal kull kumment nistgħu niksbu l-isem tal-utent, id-data, il-klassifikazzjoni, u t-test attwali. Ejja naraw x'nistgħu niksbu minn dan.

Mill-mod, inizjalment, l-idea tal-ġbir tal-klassifikazzjonijiet kienet xi ftit differenti - biex tara x'klassifikazzjonijiet jagħtu l-utenti. Pereżempju, tista 'tħares lejn YouTube - anki l-aktar vidjow ideali, anke vidjo li ma jġorr l-ebda informazzjoni suġġettiva, purament għal referenza jew stqarrija għall-aħbarijiet, xorta jikseb ċertu numru ta' minuses. L-ipoteżi kienet li hemm utenti li, purament klinikament, ma jogħġbux kollox, forsi s-serotonin ma jiġix prodott fil-moħħ jew xi ħaġa oħra. Forsi persuna m'għadhiex teħtieġ li toqgħod fuq Habré, iżda tikkura d-dipressjoni... Imma kif irriżulta, ma nistax niċċekkja dan hawn, għax... il-lista ta 'dawk li taw klassifikazzjonijiet ma tiġix salvata fil-kumment jew l-artiklu. Ukoll, jiġifieri, se naħdmu bid-dejta disponibbli. Ir-riżultat huwa klassifikazzjoni "reverse" - tista 'tara liema klassifikazzjonijiet _riċevi_ mill-utenti. Li, fil-prinċipju, huwa wkoll interessanti.

ipproċessar

Biex tibda, ċaħda tradizzjonali. Din il-klassifikazzjoni, bħal dawk kollha preċedenti, mhix uffiċjali. Ma niggarantixxix li ma għamilt żball imkien. Għal dawk interessati fid-dettalji tekniċi, huwa pprovdut kodiċi aktar dettaljat fil-parti ta’ qabel.

Mela ejja nibdew. Kummenti għal din is-sena, 2019 (li għadha ma spiċċatx), ittieħdu għall-analiżi. Fil-ħin tal-kitba, l-utenti kitbu 448533 комментария, id-daqs tal-fajl csv huwa 288MB. Qawwija, impressjonanti.

Ħin tal-kitba

Ejja niggruppaw il-kummenti skond is-siegħa, naqsmu l-ġranet tal-ġimgħa u l-weekends separatament.

Habrastatistics: analiżi tal-kummenti tal-qarrejja

Hawnhekk m’aħniex interessati f’valuri assoluti, iżda f’dawk relattivi. Jekk tħares lejha "kif inhi", allura jirriżulta liоIl-biċċa l-kbira tal-kummenti nkitbu waqt il-ħinijiet tax-xogħol mill-10 sas-18 😉 Min-naħa l-oħra, iż-żoni tal-ħin mhumiex ikkunsidrati hawn, u għalhekk il-mistoqsija għadha miftuħa.

Ejja nħarsu lejn id-distribuzzjoni tal-kummenti matul is-sena:

Habrastatistics: analiżi tal-kummenti tal-qarrejja

U madankollu jdur; żieda hija viżibbli b'mod ċar fil-ġranet tal-ġimgħa - il-perjodiċità ta 'kull ġimgħa hija viżibbli b'mod ċar, għalhekk nistgħu ngħidu b'kunfidenza pjuttost għolja li n-nies qed jaqraw u jikkummentaw fuq Habr mix-xogħol (iżda dan mhux ċert).

Mill-mod, kien hemm idea li tiġi ttestjata l-ipoteżi jekk in-numru ta 'minuses jew pluses riċevuti huwiex differenti mill-ġurnata jew il-ħin tal-ġurnata, iżda ma kienx possibbli li tinstab relazzjoni - il-ħin li ngħatat il-klassifikazzjoni ma jiġix salvat, u m'hemm l-ebda konnessjoni diretta mal-ħin tal-kumment.

Membri

Naturalment, ma nafx in-numru eżatt ta 'utenti fuq is-sit. Iżda dawk li ħallew mill-inqas kumment wieħed din is-sena rriżultaw li kienu bejn wieħed u ieħor Nies 25000.

Il-grafika tan-numru ta' messaġġi li jħallu l-utenti tidher pjuttost interessanti:

Habrastatistics: analiżi tal-kummenti tal-qarrejja

Għall-ewwel ma kontx nemmen jien, imma donnu ma kienx hemm żball. 5% tal-utenti jħallu 60% tal-messaġġi. 10% - 74% tal-messaġġi kollha (li minnhom, ħalluni nfakkarkom, din is-sena, 450 elf). Il-maġġoranza sempliċement taqra s-sit, u tħalli kummenti rari ħafna, jew ma tħallihom xejn (dawk, naturalment, ma kinux inklużi fil-lista tiegħi).

Ratings

Ejja ngħaddu għall-aħħar u l-aktar parti divertenti tal-istatistika - il-klassifikazzjonijiet. Għal raġunijiet ta’ privatezza, mhux se nagħti l-laqmijiet sħaħ tal-utenti, min irid, naħseb, jagħraf lilu nnifsu.

Fuq numru ta’ kummenti għal din is-sena, l-aqwa 5 huma okkupati minn VoXXXX (3377 kummenti), 0xdXXXX (3286 kummenti), strXXXX (3043 kummenti), AmXXXX (2897 kummenti) u khXXXX (2748 kummenti).

Fuq numru ta' benefiċċji riċevuti, top 5 huma okkupati minn amXXXX (1395 kummenti, klassifikazzjonijiet +3231/-309), tvXXXX (1544 kummenti, klassifikazzjonijiet +3231/-97), WhuXXXX (921 kummenti, klassifikazzjonijiet +2288/-13), MTXXXX (1328 kummenti, +1383 /-7) u amaXXXX (736 kumment, klassifikazzjoni +1340/-16).

Fuq klassifikazzjoni pożittiva assoluta (Hadd kumment b'rata negattiva) il-quċċata tal-quċċata hija okkupata minn Milfgard и Boomburum. Bħala eċċezzjoni, nippreżenta l-laqmijiet tagħhom b'mod sħiħ, naħseb li ħaqqhom.

L-aspetti negattivi huma wkoll interessanti. Fuq minn numru ta' minuses miġbura għal din is-sena huma okkupati minn siXX (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) u nicXXXXX (456 pluses, 487 minuses). Imma kif tistgħu taraw, dawn l-utenti għandhom biżżejjed kummenti pożittivi. Iżda skond minus assolut L-antitopic jinkludi vladXXXX (55 kummenti, 84 minuses, 0 pluses), ekoXXXX (77 kummenti, 92 minuses, 1 plus) u iMXXXX (225 kummenti, 205 minuses, 12 pluses).

Konklużjoni

Ma kontx kapaċi nikkalkula dak kollu ppjanat, imma nispera li kien interessanti.

Kif tistgħu taraw, anke sett ta' dejta b'numru daqshekk żgħir ta' oqsma jista' jipprovdi dejta interessanti għall-analiżi. Għad hemm ħafna x'tħaffer, mill-bini ta '"sħaba ta' kliem" għal analiżi tat-test. Jekk joħorġu xi riżultati interessanti, dawn jiġu ppubblikati.

Sors: www.habr.com

Żid kumment