Habrastatistics: قارئین کے تبصروں کا تجزیہ کرنا

ہیلو حبر۔ میں پچھلے حصہ سائٹ کے مختلف حصوں کی مقبولیت کا تجزیہ کیا گیا، اور ایک ہی وقت میں سوال پیدا ہوا - مضامین پر تبصرے سے کیا ڈیٹا نکالا جا سکتا ہے. میں ایک مفروضے کو بھی جانچنا چاہتا تھا، جس پر میں ذیل میں بات کروں گا۔
Habrastatistics: قارئین کے تبصروں کا تجزیہ کرنا

اعداد و شمار کافی دلچسپ نکلے؛ ہم نے تبصرہ نگاروں کی ایک چھوٹی سی "منی ریٹنگ" بھی بنائی۔ کٹ کے تحت جاری.

ڈیٹا اکٹھا کرنا

تجزیہ کے لیے، ہم اس سال، 2019 کے لیے ڈیٹا استعمال کریں گے، خاص طور پر چونکہ مجھے پہلے ہی csv فارم میں مضامین کی فہرست موصول ہوئی ہے۔ باقی صرف ہر مضمون سے تبصرے نکالنا ہے؛ خوش قسمتی سے وہ وہاں محفوظ ہیں، اور کوئی اضافی درخواست کرنے کی ضرورت نہیں ہے۔

کسی مضمون کے تبصروں کو نمایاں کرنے کے لیے، درج ذیل کوڈ کافی ہے:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

یہ ہمیں تبصروں کی فہرست حاصل کرنے کی اجازت دیتا ہے جو کچھ اس طرح نظر آتے ہیں (پرائیویسی وجوہات کی بناء پر ہٹائے گئے عرفی نام):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

جیسا کہ آپ دیکھ سکتے ہیں، ہر تبصرے کے لیے ہم صارف کا نام، تاریخ، درجہ بندی اور اصل متن حاصل کر سکتے ہیں۔ آئیے دیکھتے ہیں کہ ہم اس سے کیا حاصل کر سکتے ہیں۔

ویسے، شروع میں ریٹنگ اکٹھا کرنے کا آئیڈیا تھوڑا مختلف تھا - یہ دیکھنے کے لیے کہ صارفین کیا ریٹنگ دیتے ہیں۔ مثال کے طور پر، آپ یوٹیوب کو دیکھ سکتے ہیں - یہاں تک کہ سب سے مثالی ویڈیو، یہاں تک کہ ایک ایسی ویڈیو جس میں کوئی موضوعی معلومات نہ ہوں، خالصتاً حوالہ یا خبر کی ریلیز کے لیے، پھر بھی ایک خاص تعداد میں نقصانات حاصل کرتی ہے۔ مفروضہ یہ تھا کہ ایسے صارفین ہیں جو خالصتا طبی طور پر ہر چیز کو پسند نہیں کرتے، ہو سکتا ہے دماغ میں سیروٹونن پیدا نہ ہو یا کوئی اور چیز۔ ہو سکتا ہے کہ کسی شخص کو اب Habré پر بیٹھنے کی ضرورت نہ ہو، بلکہ ڈپریشن کا علاج کرنے کے لیے... لیکن جیسا کہ یہ نکلا، میں اسے یہاں چیک نہیں کر سکتا، کیونکہ... ریٹنگ دینے والوں کی فہرست تبصرے یا مضمون میں محفوظ نہیں ہے۔ ٹھیک ہے، یعنی ہم دستیاب ڈیٹا کے ساتھ کام کریں گے۔ نتیجہ ایک "الٹ" درجہ بندی ہے - آپ دیکھ سکتے ہیں کہ صارفین کی طرف سے کیا ریٹنگ _receive_ ہے۔ جو اصولی طور پر بھی دلچسپ ہے۔

پروسیسنگ

شروع کرنے کے لیے، ایک روایتی ڈس کلیمر۔ یہ درجہ بندی، تمام سابقہ ​​کی طرح، غیر سرکاری ہے۔ میں اس بات کی ضمانت نہیں دیتا کہ میں نے کہیں بھی غلطی نہیں کی۔ تکنیکی تفصیلات میں دلچسپی رکھنے والوں کے لیے مزید تفصیلی کوڈ فراہم کیا گیا ہے۔ پچھلے حصے میں.

تو آئیے شروع کرتے ہیں۔ اس سال، 2019 (جو ابھی ختم نہیں ہوا) کے تبصرے تجزیہ کے لیے لیے گئے تھے۔ لکھنے کے وقت، صارفین نے لکھا 448533 комментария، csv فائل کا سائز ہے۔ 288MB. طاقتور، متاثر کن۔

لکھنے کا وقت

آئیے کمنٹس کو گھنٹے کے حساب سے گروپ کرتے ہیں، ہفتے کے دن اور اختتام ہفتہ کو الگ الگ تقسیم کرتے ہیں۔

Habrastatistics: قارئین کے تبصروں کا تجزیہ کرنا

یہاں ہمیں مطلق اقدار میں دلچسپی نہیں ہے، بلکہ رشتہ داروں میں۔ اگر آپ اسے صرف "جیسا ہے" دیکھیں، تو یہ پتہ چلتا ہے۔оزیادہ تر کمنٹس 10 سے 18 بجے تک کام کے اوقات میں لکھے گئے 😉 دوسری جانب یہاں ٹائم زونز کو مدنظر نہیں رکھا گیا، اس لیے سوال اب بھی کھلا ہے۔

آئیے سال بھر کے تبصروں کی تقسیم کو دیکھتے ہیں:

Habrastatistics: قارئین کے تبصروں کا تجزیہ کرنا

اور پھر بھی یہ گھومتا ہے؛ ہفتے کے دنوں میں ایک اضافہ واضح طور پر نظر آتا ہے - ہفتہ وار وقفہ واضح طور پر نظر آتا ہے، لہذا ہم کافی زیادہ اعتماد کے ساتھ کہہ سکتے ہیں کہ لوگ کام سے ہیبر کو پڑھ رہے ہیں اور تبصرہ کر رہے ہیں (لیکن یہ یقینی نہیں ہے)۔

ویسے، اس مفروضے کو جانچنے کے لیے ایک آئیڈیا آیا تھا کہ آیا موصول ہونے والے مائنس یا پلسز کی تعداد دن یا وقت سے مختلف ہے، لیکن رشتہ تلاش کرنا ممکن نہیں تھا - درجہ بندی کا وقت محفوظ نہیں ہوا، اور تبصرہ کے وقت کے ساتھ کوئی براہ راست تعلق نہیں ہے.

صارفین

یقینا، میں سائٹ پر صارفین کی صحیح تعداد نہیں جانتا ہوں۔ لیکن جنہوں نے اس سال کم از کم ایک تبصرہ چھوڑا وہ تقریباً نکلے۔ 25000 لوگوں.

صارفین کی طرف سے چھوڑے گئے پیغامات کی تعداد کا گراف کافی دلچسپ لگتا ہے:

Habrastatistics: قارئین کے تبصروں کا تجزیہ کرنا

پہلے تو مجھے خود یقین نہیں آیا، لیکن ایسا لگتا تھا کہ کوئی غلطی نہیں ہے۔ 5% صارفین 60% پیغامات چھوڑتے ہیں۔. 10% - تمام پیغامات کا 74% (جن میں سے، میں آپ کو یاد دلاتا ہوں، اس سال، 450 ہزار)۔ اکثریت صرف سائٹ کو پڑھتی ہے، تبصرے بہت کم چھوڑتی ہیں، یا انہیں بالکل نہیں چھوڑتی ہیں (وہ، قدرتی طور پر، میری فہرست میں شامل نہیں تھے)۔

کی ریٹنگ

آئیے اعدادوشمار کے آخری اور سب سے دلچسپ حصے کی طرف چلتے ہیں - درجہ بندی۔ رازداری کی وجہ سے، میں صارفین کے مکمل عرفی نام نہیں دوں گا، جو بھی چاہے گا، میرے خیال میں، خود کو پہچان لے گا۔

پر تبصرے کی تعداد اس سال کے لیے، سب سے اوپر 5 پر VoXXXX (3377 تبصرے)، 0xdXXXXX (3286 تبصرے)، strXXXX (3043 تبصرے)، AmXXXX (2897 تبصرے) اور khXXXX (2748 تبصرے) کا قبضہ ہے۔

پر حاصل کردہ فوائد کی تعداد, ٹاپ 5 پر amXXXX (1395 تبصرے، ریٹنگز +3231/-309)، tvXXXX (1544 تبصرے، ریٹنگز +3231/-97)، WhuXXXX (921 تبصرے، ریٹنگز +2288/-13)، MTXXXX (1328 تبصرے، +1383 /-7) اور amaXXXX (736 تبصرے، درجہ بندی +1340/-16)۔

پر مطلق مثبت درجہ بندی (کوئی نہیں منفی درجہ بندی شدہ تبصرہ) سب سے اوپر کے سب سے اوپر کا قبضہ ہے ملفگارڈ и بومبرم. ایک استثناء کے طور پر، میں ان کے عرفی نام مکمل طور پر پیش کرتا ہوں، میرے خیال میں وہ اس کے مستحق ہیں۔

منفی پہلو بھی دلچسپ ہیں۔ کی طرف سے سب سے اوپر جمع شدہ مائنس کی تعداد اس سال کے لیے وہ siXX (473 پلس، 699 مائنس)، khXX (1915 پلس، 573 مائنس) اور nicXXXXX (456 پلس، 487 مائنس) کے زیر قبضہ ہیں۔ لیکن جیسا کہ آپ دیکھ سکتے ہیں، ان صارفین کے پاس کافی مثبت تبصرے ہیں۔ لیکن کے مطابق مطلق مائنس اینٹی ٹاپک میں vladXXXX (55 تبصرے، 84 مائنس، 0 پلس)، ekoXXXX (77 تبصرے، 92 مائنس، 1 پلس) اور iMXXXX (225 تبصرے، 205 منفی، 12 پلس) شامل ہیں۔

حاصل يہ ہوا

میں منصوبہ بند ہر چیز کا حساب لگانے کے قابل نہیں تھا، لیکن مجھے امید ہے کہ یہ دلچسپ تھا۔

جیسا کہ آپ دیکھ سکتے ہیں، اتنے کم فیلڈز والا ڈیٹا سیٹ بھی تجزیہ کے لیے دلچسپ ڈیٹا فراہم کر سکتا ہے۔ "لفظ کلاؤڈ" بنانے سے لے کر متن کے تجزیہ تک ابھی بھی بہت کچھ کھودنا باقی ہے۔ اگر کوئی دلچسپ نتائج سامنے آئے تو انہیں شائع کیا جائے گا۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں