హబ్రాస్టాటిస్టిక్స్: రీడర్ వ్యాఖ్యలను విశ్లేషించడం

హలో హబ్ర్. IN మునుపటి భాగం సైట్ యొక్క వివిధ విభాగాల యొక్క ప్రజాదరణ విశ్లేషించబడింది మరియు అదే సమయంలో ప్రశ్న తలెత్తింది - కథనాలపై వ్యాఖ్యల నుండి ఏ డేటాను సేకరించవచ్చు. నేను ఒక పరికల్పనను కూడా పరీక్షించాలనుకుంటున్నాను, దానిని నేను క్రింద చర్చిస్తాను.
హబ్రాస్టాటిస్టిక్స్: రీడర్ వ్యాఖ్యలను విశ్లేషించడం

డేటా చాలా ఆసక్తికరంగా మారింది; మేము వ్యాఖ్యాతల యొక్క చిన్న “మినీ-రేటింగ్”ని కూడా సృష్టించగలిగాము. కట్ కింద కొనసాగింది.

వివరాల సేకరణ

విశ్లేషణ కోసం, మేము ఈ సంవత్సరం, 2019కి సంబంధించిన డేటాను ఉపయోగిస్తాము, ప్రత్యేకించి నేను ఇప్పటికే csv రూపంలో కథనాల జాబితాను అందుకున్నాను. ప్రతి వ్యాసం నుండి వ్యాఖ్యలను సంగ్రహించడం మాత్రమే మిగిలి ఉంది; అదృష్టవశాత్తూ, అవి అక్కడ నిల్వ చేయబడ్డాయి మరియు అదనపు అభ్యర్థనలు చేయవలసిన అవసరం లేదు.

కథనం నుండి వ్యాఖ్యలను హైలైట్ చేయడానికి, కింది కోడ్ సరిపోతుంది:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

ఇది ఇలా కనిపించే వ్యాఖ్యల జాబితాను పొందడానికి మమ్మల్ని అనుమతిస్తుంది (గోప్యతా కారణాల వల్ల మారుపేర్లు తీసివేయబడ్డాయి):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

మీరు చూడగలిగినట్లుగా, ప్రతి వ్యాఖ్యకు మేము వినియోగదారు పేరు, తేదీ, రేటింగ్ మరియు వాస్తవ వచనాన్ని పొందవచ్చు. దీని నుండి మనం ఏమి పొందవచ్చో చూద్దాం.

మార్గం ద్వారా, ప్రారంభంలో, రేటింగ్‌లను సేకరించే ఆలోచన కొద్దిగా భిన్నంగా ఉంది - వినియోగదారులు ఏ రేటింగ్‌లు ఇస్తారో చూడటానికి. ఉదాహరణకు, మీరు YouTubeని చూడవచ్చు - అత్యంత ఆదర్శవంతమైన వీడియో అయినా, ఎటువంటి ఆత్మాశ్రయ సమాచారాన్ని కలిగి ఉండని వీడియో అయినా, పూర్తిగా సూచన లేదా వార్త విడుదల కోసం, ఇప్పటికీ నిర్దిష్ట సంఖ్యలో మైనస్‌లను పొందుతుంది. పరికల్పన ఏమిటంటే, పూర్తిగా వైద్యపరంగా, ప్రతిదీ ఇష్టపడని వినియోగదారులు ఉన్నారు, బహుశా సెరోటోనిన్ మెదడులో లేదా మరేదైనా ఉత్పత్తి చేయబడకపోవచ్చు. బహుశా ఒక వ్యక్తి ఇకపై హబ్రేపై కూర్చోవాల్సిన అవసరం లేదు, కానీ నిరాశకు చికిత్స చేయడానికి... కానీ అది ముగిసినట్లుగా, నేను దీన్ని ఇక్కడ తనిఖీ చేయలేను, ఎందుకంటే... రేటింగ్‌లు ఇచ్చిన వారి జాబితా వ్యాఖ్య లేదా కథనంలో సేవ్ చేయబడలేదు. బాగా, అంటే, మేము అందుబాటులో ఉన్న డేటాతో పని చేస్తాము. ఫలితం “రివర్స్” రేటింగ్ - మీరు వినియోగదారులు ఏ రేటింగ్‌లు _రిసీవ్ చేసుకుంటారో చూడవచ్చు. ఏది, సూత్రప్రాయంగా, కూడా ఆసక్తికరంగా ఉంటుంది.

ప్రాసెసింగ్

ప్రారంభించడానికి, సాంప్రదాయ నిరాకరణ. ఈ రేటింగ్, మునుపటి అన్నింటిలాగే, అనధికారికమైనది. నేను ఎక్కడా తప్పు చేయలేదని నేను హామీ ఇవ్వను. సాంకేతిక వివరాలపై ఆసక్తి ఉన్నవారికి, మరింత వివరణాత్మక కోడ్ అందించబడింది మునుపటి భాగంలో.

కాబట్టి ప్రారంభిద్దాం. ఈ సంవత్సరం, 2019 (ఇంకా ముగియలేదు) వ్యాఖ్యలు విశ్లేషణ కోసం తీసుకోబడ్డాయి. వ్రాసే సమయంలో, వినియోగదారులు వ్రాసారు 26 వ్యాఖ్యలు, csv ఫైల్ పరిమాణం 288MB. శక్తివంతమైన, ఆకట్టుకునే.

వ్రాసే సమయం

వారాంతపు రోజులు మరియు వారాంతాలను విడివిడిగా విభజించి, గంట వారీగా వ్యాఖ్యలను సమూహపరుద్దాం.

హబ్రాస్టాటిస్టిక్స్: రీడర్ వ్యాఖ్యలను విశ్లేషించడం

ఇక్కడ మనకు సంపూర్ణ విలువలపై ఆసక్తి లేదు, కానీ సంబంధిత వాటిపై. మీరు దానిని “ఉన్నట్లుగా” చూస్తే, అది మారుతుందిоచాలా వ్యాఖ్యలు 10 నుండి 18 వరకు పని వేళల్లో వ్రాయబడ్డాయి 😉 మరోవైపు, టైమ్ జోన్‌లు ఇక్కడ పరిగణనలోకి తీసుకోబడవు, కాబట్టి ప్రశ్న ఇంకా తెరిచి ఉంది.

ఏడాది పొడవునా వ్యాఖ్యల పంపిణీని చూద్దాం:

హబ్రాస్టాటిస్టిక్స్: రీడర్ వ్యాఖ్యలను విశ్లేషించడం

ఇంకా అది తిరుగుతుంది; వారాంతపు రోజులలో ఉప్పెన స్పష్టంగా కనిపిస్తుంది - వారపు ఆవర్తనం స్పష్టంగా కనిపిస్తుంది, కాబట్టి ప్రజలు పని నుండి హబ్ర్‌ను చదువుతున్నారని మరియు వ్యాఖ్యానిస్తున్నారని మేము చాలా ఎక్కువ విశ్వాసంతో చెప్పగలం (కానీ ఇది ఖచ్చితంగా కాదు).

మార్గం ద్వారా, అందుకున్న మైనస్‌లు లేదా ప్లస్‌ల సంఖ్య రోజు లేదా సమయానికి భిన్నంగా ఉందా అనే పరికల్పనను పరీక్షించే ఆలోచన ఉంది, కానీ సంబంధాన్ని కనుగొనడం సాధ్యం కాలేదు - రేటింగ్ ఇచ్చిన సమయం ఆదా చేయబడలేదు మరియు వ్యాఖ్య సమయంతో ప్రత్యక్ష సంబంధం లేదు.

వినియోగదారులు

వాస్తవానికి, సైట్‌లోని వినియోగదారుల సంఖ్య నాకు ఖచ్చితంగా తెలియదు. కానీ ఈ సంవత్సరం కనీసం ఒక వ్యాఖ్యను వదిలిన వారు సుమారుగా మారారు 25000 ప్రజలు.

వినియోగదారులు పంపిన సందేశాల సంఖ్య యొక్క గ్రాఫ్ చాలా ఆసక్తికరంగా ఉంది:

హబ్రాస్టాటిస్టిక్స్: రీడర్ వ్యాఖ్యలను విశ్లేషించడం

మొదట్లో నేనే నమ్మలేదు, కానీ తప్పు లేదనిపించింది. 5% వినియోగదారులు 60% సందేశాలను పంపారు. అన్ని సందేశాలలో 10% - 74% (వీటిలో, ఈ సంవత్సరం, 450 వేలు నేను మీకు గుర్తు చేస్తాను). మెజారిటీ కేవలం సైట్‌ను చదివి, చాలా అరుదుగా వ్యాఖ్యలను వదిలివేయడం లేదా వాటిని అస్సలు వదిలివేయడం లేదు (అవి, సహజంగా, నా జాబితాలో చేర్చబడలేదు).

రేటింగ్లు

గణాంకాలు - రేటింగ్‌లలో చివరి మరియు అత్యంత సరదా భాగానికి వెళ్దాం. గోప్యతా కారణాల దృష్ట్యా, నేను వినియోగదారుల పూర్తి మారుపేర్లను ఇవ్వను, ఎవరైతే కోరుకుంటున్నారో, వారు తమను తాము గుర్తిస్తారని నేను భావిస్తున్నాను.

వ్యాఖ్యల సంఖ్య ఈ సంవత్సరం, టాప్ 5 VoXXXX (3377 వ్యాఖ్యలు), 0xdXXXXX (3286 వ్యాఖ్యలు), strXXXX (3043 వ్యాఖ్యలు), AmXXXX (2897 వ్యాఖ్యలు) మరియు khXXXX (2748 వ్యాఖ్యలు) ఆక్రమించబడ్డాయి.

పొందిన ప్రయోజనాల సంఖ్య, టాప్ 5 amXXXX (1395 వ్యాఖ్యలు, రేటింగ్‌లు +3231/-309), tvXXXX (1544 వ్యాఖ్యలు, రేటింగ్‌లు +3231/-97), WhuXXXX (921 వ్యాఖ్యలు, రేటింగ్‌లు +2288/-13), MTTXXX (1328 వ్యాఖ్యలు, 1383 వ్యాఖ్యలు, +7 /-736) మరియు amaXXXX (1340 వ్యాఖ్యలు, రేటింగ్ +16/-XNUMX).

సంపూర్ణ సానుకూల రేటింగ్ (ఎవరూ ప్రతికూలంగా రేట్ చేయబడిన వ్యాఖ్య) పైభాగంలో పైభాగం ఆక్రమించబడింది మిల్ఫ్‌గార్డ్ и బూంబురం. మినహాయింపుగా, నేను వారి మారుపేర్లను పూర్తిగా ప్రదర్శిస్తాను, వారు దానికి అర్హులని నేను భావిస్తున్నాను.

ప్రతికూలతలు కూడా ఆసక్తికరంగా ఉన్నాయి. టాప్ బై సేకరించిన మైనస్‌ల సంఖ్య ఈ సంవత్సరం వారు siXX (473 ప్లస్‌లు, 699 మైనస్‌లు), khXX (1915 ప్లస్‌లు, 573 మైనస్‌లు) మరియు nicXXXXX (456 ప్లస్‌లు, 487 మైనస్‌లు) ఆక్రమించబడ్డారు. కానీ మీరు చూడగలిగినట్లుగా, ఈ వినియోగదారులకు తగినంత సానుకూల వ్యాఖ్యలు ఉన్నాయి. కానీ ప్రకారం సంపూర్ణ మైనస్ యాంటీటోపిక్‌లో vladXXXX (55 వ్యాఖ్యలు, 84 మైనస్‌లు, 0 ప్లస్‌లు), ekoXXXX (77 వ్యాఖ్యలు, 92 మైనస్‌లు, 1 ప్లస్) మరియు iMXXXX (225 వ్యాఖ్యలు, 205 మైనస్‌లు, 12 ప్లస్‌లు) ఉన్నాయి.

తీర్మానం

నేను ప్లాన్ చేసిన ప్రతిదాన్ని లెక్కించలేకపోయాను, కానీ ఇది ఆసక్తికరంగా ఉందని నేను ఆశిస్తున్నాను.

మీరు చూడగలిగినట్లుగా, ఇంత తక్కువ సంఖ్యలో ఫీల్డ్‌లతో కూడిన డేటాసెట్ కూడా విశ్లేషణ కోసం ఆసక్తికరమైన డేటాను అందిస్తుంది. “వర్డ్ క్లౌడ్” ను నిర్మించడం నుండి వచన విశ్లేషణ వరకు ఇంకా చాలా తీయవలసి ఉంది. ఏవైనా ఆసక్తికరమైన ఫలితాలు వెలువడితే, అవి ప్రచురించబడతాయి.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి