هابراتستاتيكس: تحليل تعليقات القراء

مرحبا حبر. في الجزء السابق تم تحليل شعبية أقسام الموقع المختلفة، وفي الوقت نفسه نشأ السؤال - ما هي البيانات التي يمكن استخراجها من التعليقات على المقالات. وأردت أيضًا اختبار فرضية واحدة سأناقشها أدناه.
هابراتستاتيكس: تحليل تعليقات القراء

تبين أن البيانات مثيرة للاهتمام للغاية، كما تمكنا من إنشاء "تصنيف مصغر" صغير للمعلقين. استمر تحت الخفض.

جمع البيانات

للتحليل، سنستخدم بيانات هذا العام 2019، خاصة وأنني تلقيت بالفعل قائمة بالمقالات في شكل ملف CSV. كل ما تبقى هو استخراج التعليقات من كل مقالة، ولحسن الحظ أنها مخزنة هناك، ولا داعي لتقديم أي طلبات إضافية.

لتسليط الضوء على التعليقات من مقال ما، الكود التالي يكفي:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

يتيح لنا ذلك الحصول على قائمة بالتعليقات التي تبدو على هذا النحو (تمت إزالة الألقاب لأسباب تتعلق بالخصوصية):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

كما ترى، يمكننا الحصول على اسم المستخدم والتاريخ والتقييم والنص الفعلي لكل تعليق. دعونا نرى ما يمكننا الحصول عليه من هذا.

بالمناسبة، في البداية، كانت فكرة جمع التقييمات مختلفة بعض الشيء - لمعرفة التقييمات التي يقدمها المستخدمون. على سبيل المثال، يمكنك إلقاء نظرة على YouTube - حتى الفيديو الأكثر مثالية، حتى الفيديو الذي لا يحمل أي معلومات ذاتية، كمرجع بحت أو بيان صحفي، لا يزال يكتسب عددًا معينًا من السلبيات. كانت الفرضية هي أن هناك مستخدمين، سريريًا بحتًا، لا يحبون كل شيء على الإطلاق، ربما لا يتم إنتاج السيروتونين في الدماغ أو أي شيء آخر. ربما لم يعد الشخص بحاجة إلى الجلوس على حبري، بل لعلاج الاكتئاب... ولكن كما اتضح، لا يمكنني التحقق من ذلك هنا، لأن... لا يتم حفظ قائمة الأشخاص الذين أعطوا التقييمات في التعليق أو المقالة. حسنًا، أي أننا سنعمل مع البيانات المتاحة. والنتيجة هي تصنيف "عكسي" - يمكنك معرفة التقييمات التي يتلقاها المستخدمون. وهو أمر مثير للاهتمام أيضًا من حيث المبدأ.

تحويل

بادئ ذي بدء، إخلاء المسؤولية التقليدية. هذا التصنيف، مثل كل التقييمات السابقة، غير رسمي. لا أضمن أنني لم أرتكب أي خطأ في أي مكان. بالنسبة للمهتمين بالتفاصيل الفنية، يتم توفير رمز أكثر تفصيلاً في الجزء السابق.

اذا هيا بنا نبدأ. تم أخذ التعليقات لهذا العام 2019 (الذي لم ينته بعد) للتحليل. في وقت كتابة هذا التقرير، كتب المستخدمون 448533 комментария، حجم ملف CSV هو 288 ميجابايت. قوية ومثيرة للإعجاب.

وقت الكتابة

دعونا نجمع التعليقات حسب الساعة، ونقسم أيام الأسبوع وعطلات نهاية الأسبوع بشكل منفصل.

هابراتستاتيكس: تحليل تعليقات القراء

نحن هنا لا نهتم بالقيم المطلقة، بل بالقيم النسبية. إذا نظرت إلى الأمر "كما هو"، فسوف يتبين لك ذلكоمعظم التعليقات تمت كتابتها خلال ساعات العمل من الساعة 10 إلى الساعة 18 😉 ومن ناحية أخرى، لا يتم مراعاة المناطق الزمنية هنا، لذلك لا يزال السؤال مفتوحًا.

دعونا نلقي نظرة على توزيع التعليقات على مدار العام:

هابراتستاتيكس: تحليل تعليقات القراء

ومع ذلك، فهي تدور؛ فالزيادة واضحة للعيان في أيام الأسبوع - الدورية الأسبوعية واضحة للعيان، لذا يمكننا أن نقول بثقة عالية إلى حد ما أن الناس يقرؤون ويعلقون على حبر من العمل (لكن هذا ليس مؤكدًا).

بالمناسبة، كانت هناك فكرة لاختبار الفرضية، ما إذا كان عدد السلبيات أو الإيجابيات المستلمة يختلف عن اليوم أو الوقت من اليوم، ولكن لم يكن من الممكن العثور على علاقة - لا يتم حفظ الوقت الذي تم فيه إعطاء التصنيف، و لا يوجد اتصال مباشر مع وقت التعليق.

الأعضاء

وبطبيعة الحال، لا أعرف العدد الدقيق للمستخدمين على الموقع. لكن تبين أن أولئك الذين تركوا تعليقًا واحدًا على الأقل هذا العام كانوا تقريبًا الناس 25000.

يبدو الرسم البياني لعدد الرسائل التي تركها المستخدمون مثيرًا للاهتمام:

هابراتستاتيكس: تحليل تعليقات القراء

في البداية لم أصدق ذلك بنفسي، ولكن يبدو أنه لم يكن هناك أي خطأ. 5% من المستخدمين يتركون 60% من الرسائل. 10% - 74% من إجمالي الرسائل (أذكركم بها هذا العام 450 ألف). الأغلبية ببساطة تقرأ الموقع، ونادرًا ما تترك التعليقات، أو لا تتركها على الإطلاق (هؤلاء، بطبيعة الحال، لم يتم تضمينهم في قائمتي).

تقييمات

دعنا ننتقل إلى الجزء الأخير والأكثر متعة من الإحصائيات - التقييمات. ولأسباب تتعلق بالخصوصية، لن أعطي الألقاب الكاملة للمستخدمين، وأعتقد أن من يريد ذلك سيتعرف على نفسه.

في عدد التعليقات لهذا العام، احتلت VoXXXX (5 تعليقًا)، و3377xdXXXXX (0 تعليقًا)، وstrXXXX (3286 تعليقًا)، وAmXXXX (3043 تعليقًا)، وkhXXXX (2897 تعليقًا).

في عدد الفوائد المستلمة، أعلى 5 يشغلها amXXXX (1395 تعليقًا، التقييمات +3231/-309)، tvXXXX (1544 تعليقًا، التقييمات +3231/-97)، WhoXXXX (921 تعليقًا، التقييمات +2288/-13)، MTXXXX (1328 تعليقًا، +1383 / -7) وamaXXXX (736 تعليقًا، التقييم +1340/-16).

في تصنيف إيجابي مطلق (لا احد تعليق ذو تقييم سلبي) الجزء العلوي مشغول بـ ميلفغارد и بومبروم. كاستثناء، أقدم ألقابهم بالكامل، وأعتقد أنهم يستحقون ذلك.

الجوانب السلبية مثيرة للاهتمام أيضًا. أعلى من عدد السلبيات التي تم جمعها لهذا العام، يتم احتلالها بواسطة siXX (473 زائد، 699 ناقص)، khXX (1915 زائد، 573 ناقص) وnicXXXXXX (456 زائد، 487 ناقص). ولكن كما ترون، هؤلاء المستخدمين لديهم ما يكفي من التعليقات الإيجابية. ولكن وفقا ل ناقص مطلق يتضمن الموضوع المضاد vladXXXX (55 تعليقًا، 84 سلبيًا، 0 إيجابيات)، ekoXXXX (77 تعليقًا، 92 سلبيًا، 1 زائدًا) وiMXXXX (225 تعليقًا، 205 سلبيات، 12 زائدًا).

اختتام

لم أتمكن من حساب كل ما تم التخطيط له، لكني آمل أن يكون الأمر مثيرًا للاهتمام.

كما ترون، حتى مجموعة البيانات التي تحتوي على هذا العدد الصغير من الحقول يمكن أن توفر بيانات مثيرة للاهتمام للتحليل. لا يزال هناك الكثير مما يجب التعمق فيه، بدءًا من إنشاء "سحابة الكلمات" وحتى تحليل النص. وإذا ظهرت أي نتائج مثيرة للاهتمام، فسيتم نشرها.

المصدر: www.habr.com

إضافة تعليق