Habrastatistics: a 'dèanamh anailis air beachdan leughadair

Halo Habr. ANNS pàirt roimhe Chaidh sgrùdadh a dhèanamh air cho mòr sa bha diofar earrannan den làrach, agus aig an aon àm dh'èirich a 'cheist - dè an dàta a dh'fhaodar a thoirt a-mach à beachdan air artaigilean. Bha mi cuideachd airson deuchainn a dhèanamh air aon bharail, air am bi mi a’ bruidhinn gu h-ìosal.
Habrastatistics: a 'dèanamh anailis air beachdan leughadair

Bha an dàta gu math inntinneach; fhuair sinn cuideachd air “mion-ìre” de luchd-aithris a chruthachadh. Air a leantainn fon ghearradh.

Cruinneachadh dàta

Airson mion-sgrùdadh, cleachdaidh sinn dàta airson na bliadhna seo, 2019, gu sònraichte leis gu bheil mi air liosta artaigilean fhaighinn ann an cruth csv mu thràth. Chan eil air fhàgail ach na beachdan a thoirt a-mach às gach artaigil; gu fortanach dhuinne, tha iad air an stòradh an sin, agus chan fheumar iarrtasan a bharrachd a dhèanamh.

Gus beachdan bho artaigil a shoilleireachadh, tha an còd a leanas gu leòr:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Leigidh seo leinn liosta de bheachdan fhaighinn a tha a’ coimhead rudeigin mar seo (far-ainmean air an toirt air falbh airson adhbharan prìobhaideachd):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Mar a chì thu, airson gach beachd gheibh sinn an t-ainm neach-cleachdaidh, an ceann-latha, an rangachadh, agus an dearbh theacsa. Chì sinn dè a gheibh sinn bho seo.

Co-dhiù, an toiseach, bha am beachd a bhith a’ cruinneachadh rangachadh beagan eadar-dhealaichte - gus faicinn dè na rangachadh a bheir luchd-cleachdaidh seachad. Mar eisimpleir, faodaidh tu coimhead air YouTube - eadhon am bhidio as fheàrr, eadhon bhidio anns nach eil fiosrachadh pearsanta sam bith, dìreach airson iomradh no brath naidheachd, fhathast a ’faighinn àireamh sònraichte de minuses. B 'e am beachd-smuain gu bheil luchd-cleachdaidh ann nach eil a' còrdadh riutha gu clinigeach idir, is dòcha nach eil serotonin air a thoirt a-mach san eanchainn no rudeigin eile. Is dòcha nach fheum duine suidhe air Habré tuilleadh, ach airson trom-inntinn a làimhseachadh... Ach mar a thàinig e a-mach, chan urrainn dhomh sùil a thoirt air an seo, oir... chan eil an liosta den fheadhainn a thug seachad rangachadh air a shàbhaladh sa bheachd no san artaigil. Uill, is e sin, obraichidh sinn leis an dàta a tha ri fhaighinn. Is e an toradh rangachadh “cùl” - chì thu dè na rangachadh _receive_ le luchd-cleachdaidh. A tha, ann am prionnsabal, cuideachd inntinneach.

Pròiseas

An toiseach, aithris-àichidh traidiseanta. Tha an rangachadh seo, mar a h-uile gin roimhe, neo-oifigeil. Chan eil mi an urras nach do rinn mi mearachd an àite sam bith. Dhaibhsan aig a bheil ùidh ann am mion-fhiosrachadh teicnigeach, tha còd nas mionaidiche air a thoirt seachad anns a' chuid roimhe.

Mar sin leig leinn tòiseachadh. Chaidh beachdan airson na bliadhna seo, 2019 (nach eil seachad fhathast), a ghabhail airson mion-sgrùdadh. Aig àm sgrìobhaidh, sgrìobh luchd-cleachdaidh Tha 448533 ag ràdh, tha meud an fhaidhle csv 288MB. Cumhachdach, drùidhteach.

Ùine sgrìobhaidh

Nach toir sinn beachdan buidhne a rèir uair a thìde, a’ roinn làithean seachdaineach agus deireadh-sheachdainean air leth.

Habrastatistics: a 'dèanamh anailis air beachdan leughadair

An seo chan eil ùidh againn ann an luachan iomlan, ach ann an luachan càirdeach. Ma tha thu dìreach a 'coimhead air "mar a tha e", tha e a' tionndadh a-mach sinоChaidh a 'mhòr-chuid de na beachdan a sgrìobhadh rè uairean obrach bho 10 gu 18 😉 Air an làimh eile, chan eilear a' toirt aire do shònaichean ùine an seo, agus mar sin tha a 'cheist fhathast fosgailte.

Bheir sinn sùil air sgaoileadh bheachdan tron ​​​​bhliadhna:

Habrastatistics: a 'dèanamh anailis air beachdan leughadair

Agus fhathast bidh e a’ cuairteachadh; tha àrdachadh ri fhaicinn gu soilleir air làithean na seachdain - tha an ùine seachdaineil ri fhaicinn gu soilleir, agus mar sin faodaidh sinn a ràdh le misneachd gu math àrd gu bheil daoine a ’leughadh agus a’ toirt iomradh air Habr bhon obair (ach chan eil seo cinnteach).

Co-dhiù, bha beachd ann deuchainn a dhèanamh air a ’bheachd a bheil an àireamh de minuses no buannachdan a fhuaireadh eadar-dhealaichte bhon latha no den latha, ach cha robh e comasach dàimh a lorg - chan eil an ùine a chaidh an rangachadh a shàbhaladh air a shàbhaladh, agus chan eil ceangal dìreach ann ri àm a’ bheachd.

Luchd-cleachdaidh

Gu dearbh, chan eil fios agam an dearbh àireamh de luchd-cleachdaidh air an làrach. Ach bha an fheadhainn a dh’ fhàg co-dhiù aon bheachd am-bliadhna timcheall air Daoine 25000.

Tha an graf den àireamh de theachdaireachdan a dh’ fhàg luchd-cleachdaidh a’ coimhead gu math inntinneach:

Habrastatistics: a 'dèanamh anailis air beachdan leughadair

An toiseach cha robh mi ga chreidsinn mi fhìn, ach bha coltas nach robh mearachd ann. Bidh 5% de luchd-cleachdaidh a’ fàgail 60% de theachdaireachdan. 10% - 74% de na teachdaireachdan gu lèir (de sin, leig dhomh do chuimhneachadh, am-bliadhna, 450 mìle). Bha a’ mhòr-chuid dìreach a’ leughadh na làraich, a’ fàgail bheachdan glè ainneamh, no gun a bhith gam fàgail idir (cha robh iad sin, gu nàdarrach, air an toirt a-steach don liosta agam).

Ratings

Gluaisidh sinn air adhart chun phàirt mu dheireadh agus as spòrsail de na staitistig - rangachadh. Airson adhbharan prìobhaideachd, cha toir mi far-ainmean iomlan an luchd-cleachdaidh; ge bith cò a tha ag iarraidh, tha mi a’ smaoineachadh, aithnichidh e iad fhèin.

Le àireamh de bheachdan airson na bliadhna seo, tha VoXXXX (5 beachdan), 3377xdXXXX (0 beachdan), strXXXX (3286 beachdan), AmXXXX (3043 beachdan) agus khXXXX (2897 beachdan) anns na 2748 as àirde.

Le àireamh de shochairean a fhuaireadh, tha amXXXX a’ fuireach anns na 5 as àirde (1395 beachdan, rangachadh +3231/-309), tvXXXX (1544 beachdan, rangachadh +3231/-97), WhuXXXX (921 beachdan, rangachadh +2288/-13), MTXXXX (1328 beachdan, +1383 /-7) agus amaXXXX (736 beachdan, rangachadh +1340/-16).

Le rangachadh dearbhach iomlan (Chan eil duine beachd le inbhe àicheil) tha mullach a’ mhullaich air a ghabhail thairis Milfgard и Bomburum. Mar eisgeachd, bidh mi a’ taisbeanadh am far-ainmean gu h-iomlan, tha mi a’ smaoineachadh gu bheil iad airidh air.

Tha na h-eas-bhuannachdan inntinneach cuideachd. Suas leis àireamh de minuses a chaidh a chruinneachadh airson na bliadhna seo tha siXX (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) agus nicXXXX (456 pluses, 487 minuses). Ach mar a chì thu, tha beachdan adhartach gu leòr aig na cleachdaichean sin. Ach a rèir iomlan minus Tha an antitopic a’ toirt a-steach vladXXXX (55 beachd, 84 minuses, 0 pluses), ekoXXXX (77 beachdan, 92 minuses, 1 plus) agus iMXXXX (225 beachd, 205 minuses, 12 buannachdan).

co-dhùnadh

Cha robh e comasach dhomh a h-uile dad a bha san amharc obrachadh a-mach, ach tha mi an dòchas gu robh e inntinneach.

Mar a chì thu, faodaidh eadhon stòr-dàta le àireamh cho beag de raointean dàta inntinneach a thoirt seachad airson mion-sgrùdadh. Tha tòrr ri chladhach fhathast, bho bhith a’ togail “sgòth fhaclan” gu mion-sgrùdadh teacsa. Ma nochdas toraidhean inntinneach sam bith, thèid am foillseachadh.

Source: www.habr.com

Cuir beachd ann