Habrastatistics: پڙهندڙن جي تبصرن جو تجزيو

هيلو حبر. IN پويون حصو سائيٽ جي مختلف حصن جي مقبوليت جو تجزيو ڪيو ويو، ۽ ساڳئي وقت سوال پيدا ٿيو - مضمونن تي تبصرن مان ڪهڙي ڊيٽا ڪڍي سگهجي ٿي. مان پڻ هڪ مفروضي کي جانچڻ چاهيان ٿو، جنهن تي آئون هيٺ بحث ڪندس.
Habrastatistics: پڙهندڙن جي تبصرن جو تجزيو

ڊيٽا ڪافي دلچسپ ٿي چڪي آهي، ۽ اسان مبصرين جي هڪ ننڍڙي "مني-ريٽنگ" کي ​​گڏ ڪرڻ جي قابل پڻ هئاسين. کٽ جي هيٺان جاري.

ڊيٽا گڏ ڪرڻ

تجزيي لاءِ، اسان هن سال، 2019 لاءِ ڊيٽا استعمال ڪنداسين، خاص طور تي جڏهن مون اڳ ۾ ئي csv فارم ۾ مضمونن جي لسٽ حاصل ڪئي آهي. باقي رهي ٿو هر مضمون مان رايا ڪڍڻ؛ خوشقسمتيءَ سان اسان لاءِ، اهي اتي محفوظ ٿيل آهن، ۽ ڪا به اضافي درخواست ڪرڻ جي ضرورت ناهي.

مضمون مان تبصرن کي اجاگر ڪرڻ لاءِ، ھيٺ ڏنل ڪوڊ ڪافي آھي:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

هي اسان کي تبصرن جي هڪ فهرست حاصل ڪرڻ جي اجازت ڏئي ٿو جيڪا ڪجهه هن طرح نظر اچي ٿي (پرائيويسي سببن جي ڪري هٽايو ويو نالو):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

جئين توهان ڏسي سگهو ٿا، هر تبصري لاء اسين صارف جو نالو، تاريخ، درجه بندي، ۽ اصل متن حاصل ڪري سگهون ٿا. اچو ته ڏسون ته اسان هن مان ڇا حاصل ڪري سگهون ٿا.

رستي جي ذريعي، شروعاتي طور تي، درجه بندي گڏ ڪرڻ جو خيال ٿورو مختلف هو - اهو ڏسڻ لاء ته صارفين کي ڪهڙي درجه بندي ڏيو. مثال طور، توهان يوٽيوب تي ڏسي سگهو ٿا - ايستائين جو سڀ کان وڌيڪ مثالي وڊيو، ايستائين جو هڪ وڊيو جنهن ۾ ڪا به موضوعي معلومات نه هجي، خالص طور تي حوالن لاءِ يا خبر ڇڏڻ لاءِ، اڃا به هڪ خاص تعداد ۾ گهٽتائي حاصل ڪري ٿي. مفروضو اهو هو ته اهڙا صارف آهن جيڪي خالص ڪلينڪ طور تي، هر شيء کي پسند نٿا ڪن، شايد دماغ ۾ سيروٽونين پيدا نه ٿئي يا ٻيو ڪجهه. ٿي سگهي ٿو ڪنهن ماڻهوءَ کي هاڻ هبري تي ويهڻ جي ضرورت نه آهي، پر ڊپريشن جو علاج ڪرڻ لاءِ... پر جيئن اهو نڪتو، ته مان هن کي هتي چيڪ نه ٿو ڪري سگهان، ڇاڪاڻ ته... انهن جي فهرست جيڪي درجه بندي ڏنيون آهن تبصري يا آرٽيڪل ۾ محفوظ نه آهن. خير، اهو آهي، اسان دستياب ڊيٽا سان ڪم ڪنداسين. نتيجو هڪ "ريورس" ريٽنگ آهي - توهان ڏسي سگهو ٿا ته ڪهڙي درجه بندي _receive_ استعمال ڪندڙن طرفان. جيڪو، اصول ۾، پڻ دلچسپ آهي.

پروسيسنگ

شروع ڪرڻ سان، هڪ روايتي اعلان. هي درجه بندي، سڀني پوئين وانگر، غير رسمي آهي. مان ضمانت نه ٿو ڏيان ته مون ڪٿي به غلطي نه ڪئي آهي. ٽيڪنيڪل تفصيلن ۾ دلچسپي رکندڙن لاءِ، وڌيڪ تفصيلي ڪوڊ مهيا ڪيو ويو آهي پوئين حصي ۾.

سو اچو ته شروع ڪريون. هن سال، 2019 لاءِ تبصرا (جيڪو اڃا ختم نه ٿيو آهي)، تجزيو لاءِ ورتو ويو. لکڻ جي وقت تي، صارفين لکيو 448533 راياcsv فائل جي سائيز آهي 288 ايم بي. طاقتور ، اثرائتو.

لکڻ جو وقت

اچو ته ڪلاڪ جي حساب سان تبصرو گروپ ڪريون، هفتي جي ڏينهن ۽ هفتي جي آخر ۾ الڳ الڳ.

Habrastatistics: پڙهندڙن جي تبصرن جو تجزيو

هتي اسان کي مطلق قدرن ۾ دلچسپي نه آهي، پر مائٽن ۾. جيڪڏهن توهان صرف ان کي ڏسو "جيئن اهو آهي"، پوء اهو ظاهر ٿئي ٿوоسڀ کان وڌيڪ تبصرا 10 کان 18 وڳي تائين ڪم جي ڪلاڪن دوران لکيا ويا 😉 ٻئي طرف، هتي ٽائم زون کي حساب ۾ نه رکيو ويو آهي، تنهنڪري سوال اڃا تائين کليل آهي.

اچو ته سڄي سال جي تبصرن جي تقسيم تي نظر رکون:

Habrastatistics: پڙهندڙن جي تبصرن جو تجزيو

۽ اڃا تائين اهو گھمندو آهي؛ هڪ اضافو واضح طور تي هفتي جي ڏينهن تي واضح طور تي نظر اچي ٿو - هفتيوار مدت واضح طور تي نظر اچي ٿو، تنهنڪري اسان وڏي اعتماد سان چئي سگهون ٿا ته ماڻهو ڪم کان هيبر تي پڙهي رهيا آهن ۽ تبصرو ڪري رهيا آهن (پر اهو يقين نه آهي).

رستي ۾، اتي هڪ خيال هو ته مفروضي کي جانچڻ لاءِ ته ڇا مليل مائنس يا پلسز جو تعداد ڏينهن يا وقت کان مختلف آهي، پر اهو ممڪن نه هو ته هڪ تعلق ڳولڻ - وقت جي درجه بندي محفوظ نه ڪئي وئي آهي، ۽ تبصري جي وقت سان ڪو به سڌو واسطو ناهي.

صارفين

يقينن، مون کي خبر ناهي ته سائيٽ تي استعمال ڪندڙن جو صحيح تعداد. پر جيڪي هن سال گهٽ ۾ گهٽ هڪ تبصرو ڇڏيا اهي لڳ ڀڳ ٿي ويا 25000 ماڻهو.

صارفين طرفان ڇڏيل پيغامن جي تعداد جو گراف ڪافي دلچسپ ڏسڻ ۾ اچي ٿو:

Habrastatistics: پڙهندڙن جي تبصرن جو تجزيو

پهرين ته مون کي ان تي يقين نه آيو، پر لڳي ٿو ته ڪا به غلطي نه هئي. 5٪ استعمال ڪندڙ 60٪ پيغام ڇڏيندا آهن. 10٪ - 74٪ سڀني پيغامن جو (جنهن مان، مان توهان کي ياد ڏيان ٿو، هن سال، 450 هزار). اڪثريت صرف سائيٽ پڙهي ٿي، تبصرا تمام گهٽ ڇڏيندا آهن، يا انهن کي بلڪل نه ڇڏيندا آهن (اهي، قدرتي طور تي، منهنجي لسٽ ۾ شامل نه هئا).

درجه بندي

اچو ته انگن اکرن جي آخري ۽ سڀ کان وڌيڪ مزيدار حصي ڏانهن وڃو - درجه بندي. رازداري جي سببن لاء، مان استعمال ڪندڙن جا مڪمل نالا نه ڏيندس، جيڪو چاهي ٿو، مان سمجهان ٿو، پاڻ کي سڃاڻي سگهندو.

پاران تبصرن جو تعداد هن سال لاء، مٿين 5 تي قبضو ڪيو ويو آهي VoXXXX (3377 تبصرا)، 0xdXXXXX (3286 تبصرا)، strXXXX (3043 رايا)، AmXXXX (2897 تبصرا) ۽ khXXXX (2748 تبصرا).

پاران حاصل ڪيل فائدن جو تعداد، مٿين 5 تي قبضو ڪيو ويو آهي amXXXX (1395 تبصرا، درجه بندي +3231/-309)، tvXXXX (1544 تبصرا، درجه بندي +3231/-97)، WhuXXXX (921 تبصرا، درجه بندي +2288/-13)، MTXXXX (1328 تبصرا، +1383 /-7) ۽ amaXXXX (736 تبصرا، درجه بندي +1340/-16).

پاران مڪمل مثبت درجه بندي (ڪو به نه منفي طور تي درجه بندي ٿيل تبصرو) مٿين جي چوٽي تي قبضو ڪيو ويو آهي ملفگارڊ и بومبرم. هڪ استثنا جي طور تي، مان انهن جا نالا مڪمل طور تي پيش ڪريان ٿو، مان سمجهان ٿو ته اهي ان جا مستحق آهن.

downsides پڻ دلچسپ آهن. مٿان کان گڏ ڪيل مائنس جو تعداد هن سال لاء اهي سيڪسڪس (473 پلس، 699 منٽ)، khXX (1915 پلس، 573 مائنس) ۽ نڪڪسڪسڪسڪسڪس (456 پلس، 487 منٽ) تي قبضو ڪيا ويا آهن. پر جيئن توهان ڏسي سگهو ٿا، انهن صارفين کي ڪافي مثبت رايا آهن. پر مطابق مطلق مائنس اينٽي ٽاپڪ ۾ شامل آهن vladXXXX (55 تبصرا، 84 منٽ، 0 پلس)، ايڪوڪسڪسڪسڪس (77 تبصرا، 92 منٽ، 1 پلس) ۽ آئي ايم ايڪسڪسڪس (225 تبصرا، 205 منٽ، 12 پلس).

ٿڪل

مان هر شي جي رٿابندي ڪرڻ جي قابل نه هئي، پر مون کي اميد آهي ته اهو دلچسپ هو.

جئين توهان ڏسي سگهو ٿا، ايستائين جو هڪ ڊيٽا سيٽ اهڙين ننڍڙن شعبن سان گڏ تجزيي لاءِ دلچسپ ڊيٽا مهيا ڪري سگهي ٿو. ”لفظ ڪلائوڊ“ ٺاهڻ کان وٺي ٽيڪسٽ analysis تائين اڃا به گهڻو ڪجهه آهي. جيڪڏهن ڪي دلچسپ نتيجا نڪرندا، اهي شايع ڪيا ويندا.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو