Habrastatistics: anailís a dhéanamh ar thuairimí an léitheora

Dia duit Habr. IN chuid roimhe Rinneadh anailís ar an tóir a bhí ar ranna éagsúla den láithreán, agus ag an am céanna d'éirigh an cheist - cad iad na sonraí is féidir a bhaint as tuairimí ar ailt. Theastaigh uaim freisin hipitéis amháin a thástáil, a phléifidh mé thíos.
Habrastatistics: anailís a dhéanamh ar thuairimí an léitheora

Bhí na sonraí suimiúil go leor, agus bhíomar in ann “mionrátáil” tráchtairí a thiomsú freisin. Leanúint ar aghaidh faoin gearrtha.

Bailiú sonraí

Le haghaidh anailíse, úsáidfimid sonraí don bhliain seo, 2019, go háirithe ós rud é go bhfuil liosta altanna i bhfoirm csv faighte agam cheana féin. Níl fágtha ach na tuairimí a bhaint as gach alt; go fortunately dúinn, déantar iad a stóráil ann, agus ní gá aon iarratais bhreise a dhéanamh.

Chun aird a tharraingt ar thuairimí ó alt, is leor an cód seo a leanas:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Ligeann sé seo dúinn liosta tuairimí a fháil a bhfuil cuma rud éigin mar seo orthu (leasainmneacha bainte ar chúiseanna príobháideachais):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Mar a fheiceann tú, is féidir linn an t-ainm úsáideora, an dáta, an rátáil agus an téacs féin a fháil do gach tráchtaireacht. Féachaimis cad is féidir linn a fháil uaidh seo.

Dála an scéil, ar dtús, bhí an smaoineamh ar rátálacha a bhailiú beagán difriúil - féachaint cad a thugann úsáideoirí rátálacha. Mar shampla, is féidir leat breathnú ar YouTube - fiú an físeán is idéalach, fiú físeán nach n-iompraíonn aon fhaisnéis suibiachtúla, amháin le haghaidh tagartha nó eisiúint nuachta, fós gnóthachain líon áirithe de minuses. Ba é an hipitéis ná go bhfuil úsáideoirí ann, go cliniciúil amháin, nach dtaitníonn gach rud leo ar chor ar bith, b'fhéidir nach dtáirgtear serotonin san inchinn nó rud éigin eile. B’fhéidir nach gá do dhuine suí ar Habré a thuilleadh, ach chun an dúlagar a chóireáil... Ach mar a tharla, ní féidir liom é seo a sheiceáil anseo, mar... níl an liosta díobh siúd a thug rátálacha sábháilte sa trácht nó san alt. Bhuel, is é sin, oibreoimid leis na sonraí atá ar fáil. Is é an toradh rátáil “droim ar ais” - is féidir leat a fheiceáil cad iad na rátálacha _receive_ ag úsáideoirí. Cé acu, i bprionsabal, suimiúil freisin.

Próiseáil

Chun tús a chur leis, séanadh traidisiúnta. Tá an rátáil seo, cosúil le gach ceann roimhe seo, neamhoifigiúil. Ní chinntím nach ndearna mé botún áit ar bith. Dóibh siúd a bhfuil suim acu i sonraí teicniúla, cuirtear cód níos mionsonraithe ar fáil sa chuid roimhe seo.

Mar sin a ligean ar tús a chur leis. Tógadh tuairimí don bhliain seo, 2019 (nach bhfuil deireadh fós), le haghaidh anailíse. Agus é seo á scríobh, scríobh úsáideoirí 448533 комментария, is é méid an chomhaid csv 288MB. Cumhachtach, go hiontach.

Am scríofa

Déanaimis tuairimí a ghrúpáil de réir uaire, ag roinnt laethanta na seachtaine agus ag an deireadh seachtaine ar leithligh.

Habrastatistics: anailís a dhéanamh ar thuairimí an léitheora

Anseo níl suim againn i luachanna iomlána, ach i luachanna coibhneasta. Má fhéachann tú air “mar atá sé”, is amhlaidh a tharlaíonn séоScríobhadh an chuid is mó de na tuairimí le linn uaireanta oibre ó 10 go 18 😉 Ar an láimh eile, ní chuirtear san áireamh criosanna ama anseo, agus mar sin tá an cheist fós oscailte.

Breathnaímid ar dháileadh na dtuairimí i rith na bliana:

Habrastatistics: anailís a dhéanamh ar thuairimí an léitheora

Agus fós rothlaíonn sé; tá borradh le feiceáil go soiléir i rith na seachtaine - tá an tréimhsiúlacht seachtainiúil le feiceáil go soiléir, mar sin is féidir linn a rá le muinín sách ard go bhfuil daoine ag léamh agus ag trácht ar Habr ón obair (ach níl sé seo cinnte).

Dála an scéil, bhí smaoineamh ann an hipitéis a thástáil cibé an bhfuil líon na buntáistí nó na buntáistí a fuarthas difriúil ón lá nó den lá, ach níorbh fhéidir caidreamh a aimsiú - ní shábháiltear an t-am ar tugadh an rátáil, agus níl aon bhaint dhíreach le ham na tráchtaireachta.

Baill

Ar ndóigh, níl a fhios agam an líon beacht úsáideoirí ar an suíomh. Ach b'ionann iad siúd a d'fhág tuairim amháin ar a laghad i mbliana Daoine 25000.

Tá cuma an-suimiúil ar ghraf líon na dteachtaireachtaí a d’fhág úsáideoirí:

Habrastatistics: anailís a dhéanamh ar thuairimí an léitheora

Ar dtús níor chreid mé mé féin é, ach ba chosúil nach raibh aon bhotún ann. Fágann 5% d’úsáideoirí 60% de theachtaireachtaí. 10% - 74% de na teachtaireachtaí go léir (a, lig dom i gcuimhne duit, i mbliana, 450). Léann an tromlach an suíomh go simplí, ag fágáil tuairimí an-annamh, nó gan iad a fhágáil ar chor ar bith (níor cuireadh iad siúd, go nádúrtha, ar mo liosta).

Ratings

A ligean ar bogadh ar aghaidh go dtí an chuid dheireanach agus is spraíúla de na staitisticí - rátálacha. Ar chúiseanna príobháideachta, ní thabharfaidh mé leasainmneacha iomlána na n-úsáideoirí, is cuma cé atá ag iarraidh, is dóigh liom, iad féin a aithint.

Ar líon tuairimí don bhliain seo, tá VoXXXX (5 trácht), 3377xdXXXX (0 trácht), strXXXX (3286 trácht), AmXXXX (3043 trácht) agus khXXXX (2897 trácht) áitithe ag na 2748 barr.

Ar líon na sochar a fuarthas, tá amXXXX áitithe ag an 5 is airde (1395 trácht, rátáil +3231/-309), tvXXXX (1544 trácht, rátáil +3231/-97), WHuXXXX (921 trácht, rátálacha +2288/-13), MTXXXX (1328 trácht, +1383 /-7) agus amaXXXX (736 trácht, rátáil +1340/-16).

Ar rátáil dearfach iomlán (duine ar bith trácht rátáilte diúltach) an barr an barr áitiú ag Milfgard и Bomburum. Mar eisceacht, cuirim a leasainmneacha i láthair go hiomlán, sílim go bhfuil sé tuillte acu.

Tá na míbhuntáistí suimiúil freisin. Barr le líon na míbhuntáistí a bailíodh don bhliain seo tá siad á n-áitiú ag siXX (473 móide, 699 móide), khXX (móide 1915, 573 lúide) agus nicXXXX (456 móide, 487 lúide). Ach mar a fheiceann tú, tá go leor tuairimí dearfacha ag na húsáideoirí seo. Ach de réir lúide iomlán Áirítear leis an antitopic vladXXXX (55 trácht, 84 lúide, 0 móide), ekoXXXX (77 trácht, 92 lúide, 1 móide) agus iMXXXX (225 trácht, 205 lúide, 12 móide).

Conclúid

Ní raibh mé in ann gach rud pleanáilte a ríomh, ach tá súil agam go raibh sé suimiúil.

Mar a fheiceann tú, is féidir fiú tacar sonraí le líon chomh beag réimsí sin sonraí suimiúla a sholáthar le haghaidh anailíse. Tá go leor le tochailt isteach go fóill, ó thógáil “scamall focal” go hanailís téacs. Má thagann aon torthaí suimiúla chun cinn, foilseofar iad.

Foinse: will.com

Add a comment