Habrastatistics. վերլուծելով ընթերցողների մեկնաբանությունները

Բարև Հաբր։ IN նախորդ մասը Վերլուծվել է կայքի տարբեր բաժինների ժողովրդականությունը, և միևնույն ժամանակ առաջացել է հարց՝ ի՞նչ տվյալներ կարելի է քաղել հոդվածների մեկնաբանություններից։ Ես նաև ուզում էի ստուգել մեկ վարկած, որը կքննարկեմ ստորև։
Habrastatistics. վերլուծելով ընթերցողների մեկնաբանությունները

Տվյալները բավականին հետաքրքիր են ստացվել, մեզ հաջողվել է նաև մեկնաբանների փոքրիկ «մինի վարկանիշ» ստեղծել. Շարունակությունը կտրվածքի տակ։

Տվյալների հավաքագրումը

Վերլուծության համար մենք կօգտագործենք այս տարվա՝ 2019 թվականի տվյալները, մանավանդ որ ես արդեն ստացել եմ հոդվածների ցանկ csv ձևով։ Մնում է միայն հանել մեկնաբանությունները յուրաքանչյուր հոդվածից, որոնք, բարեբախտաբար, պահվում են այնտեղ, և լրացուցիչ հարցումներ չկան։

Հոդվածի մեկնաբանությունները ընդգծելու համար բավարար է հետևյալ ծածկագիրը.

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Սա թույլ է տալիս մեզ ստանալ այսպիսի մեկնաբանությունների ցանկ (մականունները հանվել են գաղտնիության նկատառումներով).

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Ինչպես տեսնում եք, յուրաքանչյուր մեկնաբանության համար մենք կարող ենք ստանալ օգտվողի անունը, ամսաթիվը, վարկանիշը և իրական տեքստը: Տեսնենք, թե ինչ կարող ենք ստանալ սրանից:

Ի դեպ, ի սկզբանե վարկանիշներ հավաքելու գաղափարը մի փոքր այլ էր՝ տեսնել, թե ինչ գնահատականներ են տալիս օգտատերերը։ Օրինակ, դուք կարող եք դիտել YouTube-ը. նույնիսկ ամենաիդեալական տեսանյութը, նույնիսկ այն տեսանյութը, որը չի պարունակում որևէ սուբյեկտիվ տեղեկատվություն, զուտ տեղեկանքի կամ լրատվական թողարկման համար, այնուամենայնիվ ստանում է որոշակի մինուսներ: Վարկածն այն էր, որ կան օգտատերեր, որոնց զուտ կլինիկորեն ամեն ինչ դուր չի գալիս, գուցե սերոտոնինը չի արտադրվում ուղեղում կամ այլ բան: Միգուցե մարդն այլևս կարիք չունի Հաբրեի վրա նստելու, այլ դեպրեսիայի բուժման համար... Բայց ինչպես պարզվեց, ես չեմ կարող սա ստուգել այստեղ, քանի որ... վարկանիշ տվողների ցուցակը մեկնաբանությունում կամ հոդվածում պահպանված չէ։ Դե, այսինքն՝ մենք աշխատելու ենք առկա տվյալների հետ։ Արդյունքը «հակադարձ» գնահատական ​​է. դուք կարող եք տեսնել, թե ինչ գնահատականներ են ստանում օգտվողները: Ինչը, սկզբունքորեն, նույնպես հետաքրքիր է։

Մշակման

Սկսելու համար, ավանդական հերքում: Այս վարկանիշը, ինչպես բոլոր նախորդները, ոչ պաշտոնական է։ Չեմ երաշխավորում, որ ոչ մի տեղ չեմ սխալվել։ Տեխնիկական մանրամասներով հետաքրքրվողներին տրամադրվում է ավելի մանրամասն ծածկագիր նախորդ մասում.

Այսպիսով, եկեք սկսենք: Այս տարվա՝ 2019 թվականի (որը դեռ ավարտված չէ) մեկնաբանությունները վերցվել են վերլուծության։ Գրելու պահին օգտատերերը գրել են 448533 комментария, csv ֆայլի չափն է 288 ՄԲ. Հզոր, տպավորիչ:

Գրելու ժամանակը

Եկեք խմբավորենք մեկնաբանությունները ըստ ժամերի՝ բաժանելով աշխատանքային օրերն ու հանգստյան օրերն առանձին։

Habrastatistics. վերլուծելով ընթերցողների մեկնաբանությունները

Այստեղ մեզ ոչ թե բացարձակ արժեքներն են հետաքրքրում, այլ հարաբերականները։ Եթե ​​դուք պարզապես նայեք դրան «ինչպես կա», ապա պարզվում է, որоՄեկնաբանությունների մեծ մասը գրվել է 10-ից 18-ը աշխատանքային ժամերին 😉 Մյուս կողմից այստեղ ժամային գոտիները հաշվի չեն առնվում, ուստի հարցը դեռ բաց է։

Դիտարկենք մեկնաբանությունների բաշխումը ամբողջ տարվա ընթացքում.

Habrastatistics. վերլուծելով ընթերցողների մեկնաբանությունները

Եվ այնուամենայնիվ, այն պտտվում է աշխատանքային օրերին. շաբաթական պարբերականությունը հստակ տեսանելի է, ուստի մենք կարող ենք բավականին բարձր վստահությամբ ասել, որ մարդիկ կարդում և մեկնաբանում են Habr-ը աշխատանքից (բայց դա հաստատ չէ):

Ի դեպ, միտք կար ստուգելու վարկածը, թե ստացված մինուսների կամ պլյուսների թիվը տարբերվում է օրվա կամ ժամից, բայց հարաբերություններ գտնել հնարավոր չեղավ. վարկանիշի տրված ժամանակը չի պահպանվում, և ուղղակի կապ չկա մեկնաբանության ժամանակի հետ։

Անդամներ

Իհարկե, ես չգիտեմ կայքի օգտատերերի ճշգրիտ թիվը: Բայց այս տարի գոնե մեկ մեկնաբանություն թողածները մոտավոր են ստացվել 25000 մարդկանց.

Օգտատերերի թողած հաղորդագրությունների քանակի գրաֆիկը բավականին հետաքրքիր է թվում.

Habrastatistics. վերլուծելով ընթերցողների մեկնաբանությունները

Սկզբում ես ինքս չէի հավատում, բայց կարծես սխալ չկար: Օգտատերերի 5%-ը թողնում է հաղորդագրությունների 60%-ը. Բոլոր հաղորդագրությունների 10%-ը՝ 74%-ը (որից, հիշեցնեմ, այս տարի՝ 450 հազ.)։ Մեծամասնությունը պարզապես կարդում է կայքը՝ շատ հազվադեպ մեկնաբանություններ թողնելով կամ ընդհանրապես չթողնելով դրանք (դրանք, բնականաբար, ներառված չեն իմ ցուցակում)։

Ratings

Անցնենք վիճակագրության վերջին և ամենազվարճալի հատվածին՝ վարկանիշներին։ Գաղտնիության նկատառումներից ելնելով օգտատերերի լրիվ մականունները չեմ տա, կարծում եմ, ով ուզի, կճանաչի իրեն։

On մեկնաբանությունների քանակը այս տարվա լավագույն հնգյակը զբաղեցնում են VoXXXX (5 մեկնաբանություն), 3377xdXXXXX (0 մեկնաբանություն), strXXXX (3286 մեկնաբանություն), AmXXXX (3043 մեկնաբանություն) և khXXXX (2897 մեկնաբանություն):

On ստացված նպաստների քանակը, թոփ 5-ը զբաղեցնում է amXXXX (1395 մեկնաբանություն, գնահատական ​​+3231/-309), tvXXXX (1544 մեկնաբանություն, գնահատական ​​+3231/-97), WhuXXXX (921 մեկնաբանություն, գնահատական ​​+2288/-13), MTXXXX (1328 մեկնաբանություն, +1383 /-7) և amaXXXX (736 մեկնաբանություն, վարկանիշ +1340/-16):

On բացարձակ դրական գնահատական (ոչ մեկ բացասական գնահատված մեկնաբանություն) վերևի գագաթը զբաղեցնում է Միլֆգարդ и Բումբուրում. Բացառության կարգով ներկայացնում եմ նրանց մականուններն ամբողջությամբ, կարծում եմ՝ արժանի են։

Հետաքրքիր են նաև բացասական կողմերը. Վերևում հավաքված մինուսների քանակը այս տարվա համար զբաղեցրել են siXX (473 պլյուս, 699 մինուս), khXX (1915 պլյուս, 573 մինուս) և nicXXXXX (456 պլյուս, 487 մինուս): Բայց ինչպես տեսնում եք, այս օգտատերերը բավականաչափ դրական մեկնաբանություններ ունեն։ Բայց ըստ բացարձակ մինուս Հակաթեման ներառում է vladXXXX (55 մեկնաբանություն, 84 մինուս, 0 պլյուս), ekoXXX (77 մեկնաբանություն, 92 մինուս, 1 գումարած) և iMXXX (225 մեկնաբանություն, 205 մինուս, 12 պլյուս):

Ամփոփում

Ես չկարողացա հաշվարկել այն ամենը, ինչ նախատեսված էր, բայց հուսով եմ, որ հետաքրքիր էր։

Ինչպես տեսնում եք, նույնիսկ այդքան փոքր թվով դաշտերով տվյալների բազան կարող է հետաքրքիր տվյալներ տրամադրել վերլուծության համար: Դեռ շատ բան կա փորելու՝ սկսած «բառերի ամպ» կառուցելուց մինչև տեքստի վերլուծություն: Եթե ​​ինչ-որ հետաքրքիր արդյունքներ հայտնվեն, դրանք կհրապարակվեն։

Source: www.habr.com

Добавить комментарий