హలో హబ్ర్. IN
డేటా చాలా ఆసక్తికరంగా మారింది; మేము వ్యాఖ్యాతల యొక్క చిన్న “మినీ-రేటింగ్”ని కూడా సృష్టించగలిగాము. కట్ కింద కొనసాగింది.
వివరాల సేకరణ
విశ్లేషణ కోసం, మేము ఈ సంవత్సరం, 2019కి సంబంధించిన డేటాను ఉపయోగిస్తాము, ప్రత్యేకించి నేను ఇప్పటికే csv రూపంలో కథనాల జాబితాను అందుకున్నాను. ప్రతి వ్యాసం నుండి వ్యాఖ్యలను సంగ్రహించడం మాత్రమే మిగిలి ఉంది; అదృష్టవశాత్తూ, అవి అక్కడ నిల్వ చేయబడ్డాయి మరియు అదనపు అభ్యర్థనలు చేయవలసిన అవసరం లేదు.
కథనం నుండి వ్యాఖ్యలను హైలైట్ చేయడానికి, కింది కోడ్ సరిపోతుంది:
r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')
comments_list = []
for comment in comments:
body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
if len(body) < 4: continue
body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace(' ', ' ')
user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
date = dateparser.parse(date_str)
csv_data = "{},{},{},{}".format(user, date, vote, body)
comments_list.append(csv_data)
ఇది ఇలా కనిపించే వ్యాఖ్యల జాబితాను పొందడానికి మమ్మల్ని అనుమతిస్తుంది (గోప్యతా కారణాల వల్ల మారుపేర్లు తీసివేయబడ్డాయి):
xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться
మీరు చూడగలిగినట్లుగా, ప్రతి వ్యాఖ్యకు మేము వినియోగదారు పేరు, తేదీ, రేటింగ్ మరియు వాస్తవ వచనాన్ని పొందవచ్చు. దీని నుండి మనం ఏమి పొందవచ్చో చూద్దాం.
మార్గం ద్వారా, ప్రారంభంలో, రేటింగ్లను సేకరించే ఆలోచన కొద్దిగా భిన్నంగా ఉంది - వినియోగదారులు ఏ రేటింగ్లు ఇస్తారో చూడటానికి. ఉదాహరణకు, మీరు YouTubeని చూడవచ్చు - అత్యంత ఆదర్శవంతమైన వీడియో అయినా, ఎటువంటి ఆత్మాశ్రయ సమాచారాన్ని కలిగి ఉండని వీడియో అయినా, పూర్తిగా సూచన లేదా వార్త విడుదల కోసం, ఇప్పటికీ నిర్దిష్ట సంఖ్యలో మైనస్లను పొందుతుంది. పరికల్పన ఏమిటంటే, పూర్తిగా వైద్యపరంగా, ప్రతిదీ ఇష్టపడని వినియోగదారులు ఉన్నారు, బహుశా సెరోటోనిన్ మెదడులో లేదా మరేదైనా ఉత్పత్తి చేయబడకపోవచ్చు. బహుశా ఒక వ్యక్తి ఇకపై హబ్రేపై కూర్చోవాల్సిన అవసరం లేదు, కానీ నిరాశకు చికిత్స చేయడానికి... కానీ అది ముగిసినట్లుగా, నేను దీన్ని ఇక్కడ తనిఖీ చేయలేను, ఎందుకంటే... రేటింగ్లు ఇచ్చిన వారి జాబితా వ్యాఖ్య లేదా కథనంలో సేవ్ చేయబడలేదు. బాగా, అంటే, మేము అందుబాటులో ఉన్న డేటాతో పని చేస్తాము. ఫలితం “రివర్స్” రేటింగ్ - మీరు వినియోగదారులు ఏ రేటింగ్లు _రిసీవ్ చేసుకుంటారో చూడవచ్చు. ఏది, సూత్రప్రాయంగా, కూడా ఆసక్తికరంగా ఉంటుంది.
ప్రాసెసింగ్
ప్రారంభించడానికి, సాంప్రదాయ నిరాకరణ. ఈ రేటింగ్, మునుపటి అన్నింటిలాగే, అనధికారికమైనది. నేను ఎక్కడా తప్పు చేయలేదని నేను హామీ ఇవ్వను. సాంకేతిక వివరాలపై ఆసక్తి ఉన్నవారికి, మరింత వివరణాత్మక కోడ్ అందించబడింది
కాబట్టి ప్రారంభిద్దాం. ఈ సంవత్సరం, 2019 (ఇంకా ముగియలేదు) వ్యాఖ్యలు విశ్లేషణ కోసం తీసుకోబడ్డాయి. వ్రాసే సమయంలో, వినియోగదారులు వ్రాసారు 26 వ్యాఖ్యలు, csv ఫైల్ పరిమాణం 288MB. శక్తివంతమైన, ఆకట్టుకునే.
వ్రాసే సమయం
వారాంతపు రోజులు మరియు వారాంతాలను విడివిడిగా విభజించి, గంట వారీగా వ్యాఖ్యలను సమూహపరుద్దాం.
ఇక్కడ మనకు సంపూర్ణ విలువలపై ఆసక్తి లేదు, కానీ సంబంధిత వాటిపై. మీరు దానిని “ఉన్నట్లుగా” చూస్తే, అది మారుతుందిоచాలా వ్యాఖ్యలు 10 నుండి 18 వరకు పని వేళల్లో వ్రాయబడ్డాయి 😉 మరోవైపు, టైమ్ జోన్లు ఇక్కడ పరిగణనలోకి తీసుకోబడవు, కాబట్టి ప్రశ్న ఇంకా తెరిచి ఉంది.
ఏడాది పొడవునా వ్యాఖ్యల పంపిణీని చూద్దాం:
ఇంకా అది తిరుగుతుంది; వారాంతపు రోజులలో ఉప్పెన స్పష్టంగా కనిపిస్తుంది - వారపు ఆవర్తనం స్పష్టంగా కనిపిస్తుంది, కాబట్టి ప్రజలు పని నుండి హబ్ర్ను చదువుతున్నారని మరియు వ్యాఖ్యానిస్తున్నారని మేము చాలా ఎక్కువ విశ్వాసంతో చెప్పగలం (కానీ ఇది ఖచ్చితంగా కాదు).
మార్గం ద్వారా, అందుకున్న మైనస్లు లేదా ప్లస్ల సంఖ్య రోజు లేదా సమయానికి భిన్నంగా ఉందా అనే పరికల్పనను పరీక్షించే ఆలోచన ఉంది, కానీ సంబంధాన్ని కనుగొనడం సాధ్యం కాలేదు - రేటింగ్ ఇచ్చిన సమయం ఆదా చేయబడలేదు మరియు వ్యాఖ్య సమయంతో ప్రత్యక్ష సంబంధం లేదు.
వినియోగదారులు
వాస్తవానికి, సైట్లోని వినియోగదారుల సంఖ్య నాకు ఖచ్చితంగా తెలియదు. కానీ ఈ సంవత్సరం కనీసం ఒక వ్యాఖ్యను వదిలిన వారు సుమారుగా మారారు 25000 ప్రజలు.
వినియోగదారులు పంపిన సందేశాల సంఖ్య యొక్క గ్రాఫ్ చాలా ఆసక్తికరంగా ఉంది:
మొదట్లో నేనే నమ్మలేదు, కానీ తప్పు లేదనిపించింది. 5% వినియోగదారులు 60% సందేశాలను పంపారు. అన్ని సందేశాలలో 10% - 74% (వీటిలో, ఈ సంవత్సరం, 450 వేలు నేను మీకు గుర్తు చేస్తాను). మెజారిటీ కేవలం సైట్ను చదివి, చాలా అరుదుగా వ్యాఖ్యలను వదిలివేయడం లేదా వాటిని అస్సలు వదిలివేయడం లేదు (అవి, సహజంగా, నా జాబితాలో చేర్చబడలేదు).
రేటింగ్లు
గణాంకాలు - రేటింగ్లలో చివరి మరియు అత్యంత సరదా భాగానికి వెళ్దాం. గోప్యతా కారణాల దృష్ట్యా, నేను వినియోగదారుల పూర్తి మారుపేర్లను ఇవ్వను, ఎవరైతే కోరుకుంటున్నారో, వారు తమను తాము గుర్తిస్తారని నేను భావిస్తున్నాను.
న వ్యాఖ్యల సంఖ్య ఈ సంవత్సరం, టాప్ 5 VoXXXX (3377 వ్యాఖ్యలు), 0xdXXXXX (3286 వ్యాఖ్యలు), strXXXX (3043 వ్యాఖ్యలు), AmXXXX (2897 వ్యాఖ్యలు) మరియు khXXXX (2748 వ్యాఖ్యలు) ఆక్రమించబడ్డాయి.
న పొందిన ప్రయోజనాల సంఖ్య, టాప్ 5 amXXXX (1395 వ్యాఖ్యలు, రేటింగ్లు +3231/-309), tvXXXX (1544 వ్యాఖ్యలు, రేటింగ్లు +3231/-97), WhuXXXX (921 వ్యాఖ్యలు, రేటింగ్లు +2288/-13), MTTXXX (1328 వ్యాఖ్యలు, 1383 వ్యాఖ్యలు, +7 /-736) మరియు amaXXXX (1340 వ్యాఖ్యలు, రేటింగ్ +16/-XNUMX).
న సంపూర్ణ సానుకూల రేటింగ్ (ఎవరూ ప్రతికూలంగా రేట్ చేయబడిన వ్యాఖ్య) పైభాగంలో పైభాగం ఆక్రమించబడింది
ప్రతికూలతలు కూడా ఆసక్తికరంగా ఉన్నాయి. టాప్ బై సేకరించిన మైనస్ల సంఖ్య ఈ సంవత్సరం వారు siXX (473 ప్లస్లు, 699 మైనస్లు), khXX (1915 ప్లస్లు, 573 మైనస్లు) మరియు nicXXXXX (456 ప్లస్లు, 487 మైనస్లు) ఆక్రమించబడ్డారు. కానీ మీరు చూడగలిగినట్లుగా, ఈ వినియోగదారులకు తగినంత సానుకూల వ్యాఖ్యలు ఉన్నాయి. కానీ ప్రకారం సంపూర్ణ మైనస్ యాంటీటోపిక్లో vladXXXX (55 వ్యాఖ్యలు, 84 మైనస్లు, 0 ప్లస్లు), ekoXXXX (77 వ్యాఖ్యలు, 92 మైనస్లు, 1 ప్లస్) మరియు iMXXXX (225 వ్యాఖ్యలు, 205 మైనస్లు, 12 ప్లస్లు) ఉన్నాయి.
తీర్మానం
నేను ప్లాన్ చేసిన ప్రతిదాన్ని లెక్కించలేకపోయాను, కానీ ఇది ఆసక్తికరంగా ఉందని నేను ఆశిస్తున్నాను.
మీరు చూడగలిగినట్లుగా, ఇంత తక్కువ సంఖ్యలో ఫీల్డ్లతో కూడిన డేటాసెట్ కూడా విశ్లేషణ కోసం ఆసక్తికరమైన డేటాను అందిస్తుంది. “వర్డ్ క్లౌడ్” ను నిర్మించడం నుండి వచన విశ్లేషణ వరకు ఇంకా చాలా తీయవలసి ఉంది. ఏవైనా ఆసక్తికరమైన ఫలితాలు వెలువడితే, అవి ప్రచురించబడతాయి.
మూలం: www.habr.com