Habrastatistics: د لوستونکي نظرونو تحلیل

سلام حبر. IN پخوانۍ برخه د سایټ د مختلفو برخو شهرت تحلیل شوی، او په ورته وخت کې پوښتنه راپورته شوه - کوم معلومات د مقالو په اړه د تبصرو څخه اخیستل کیدی شي. ما هم غوښتل چې یوه فرضیه ازموینه وکړم، کوم چې زه به یې لاندې بحث وکړم.
Habrastatistics: د لوستونکي نظرونو تحلیل

معلومات خورا په زړه پوري وګرځیدل؛ موږ د تبصره کونکو کوچنۍ "منی درجه" رامینځته کولو هم اداره کړې. د کټ لاندې ادامه ورکړه.

د معلوماتو راټولول

د تحلیل لپاره ، موږ به د دې کال ، 2019 لپاره ډیټا وکاروو ، په ځانګړي توګه له هغه وخته چې ما دمخه د csv فارم کې د مقالو لیست ترلاسه کړی. ټول هغه څه چې پاتې دي د هرې مقالې څخه د نظرونو استخراج کول دي؛ خوشبختانه زموږ لپاره ، دوی هلته زیرمه شوي ، او اضافي غوښتنې ته اړتیا نشته.

د یوې مقالې څخه د نظرونو روښانه کولو لپاره، لاندې کوډ کافي دی:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

دا موږ ته اجازه راکوي د تبصرو لیست ترلاسه کړو چې داسې ښکاري (د محرمیت دلایلو لپاره مستعار نومونه لرې شوي):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

لکه څنګه چې تاسو لیدلی شئ، د هرې تبصرې لپاره موږ کولی شو د کارونکي نوم، نیټه، درجه بندي، او اصلي متن ترلاسه کړو. راځئ وګورو چې موږ له دې څخه څه ترلاسه کولی شو.

په هرصورت، په پیل کې، د درجه بندي راټولولو نظر یو څه توپیر درلود - د دې لپاره چې وګورئ چې کوم کاروونکي درجه بندي ورکوي. د مثال په توګه، تاسو کولی شئ په یوټیوب کې وګورئ - حتی ترټولو غوره ویډیو، حتی یوه ویډیو چې هیڅ ډول موضوعي معلومات نه لري، په خالص ډول د حوالې یا خبر خپرولو لپاره، بیا هم یو مشخص شمیر نیمګړتیاوې ترلاسه کوي. فرضیه دا وه چې داسې کاروونکي شتون لري چې په خالص ډول کلینیکي، هر څه نه خوښوي، شاید سیرټونین په دماغ یا بل څه کې تولید نه وي. شاید یو سړی نور اړتیا نه لري چې په هابري کې ناست وي، مګر د خپګان د درملنې لپاره ... مګر لکه څنګه چې معلومه شوه، زه دا دلته نه شم چیک کولی، ځکه چې ... د هغو کسانو لیست چې درجه یې ورکړې په تبصره یا مقاله کې نه خوندي کیږي. ښه، دا دی، موږ به د شته معلوماتو سره کار وکړو. پایله د "ریورس" درجه بندي ده - تاسو کولی شئ وګورئ چې د کاروونکو لخوا کومې درجه بندي _receive_. کوم چې په اصولو کې هم په زړه پورې دی.

پروسس کول

د پیل کولو لپاره، یو دودیز اعلان. دا درجه بندي، د ټولو پخوانیو په څیر، غیر رسمي ده. زه دا تضمین نه کوم چې ما په هیڅ ځای کې غلطي نه ده کړې. د هغو کسانو لپاره چې تخنیکي توضیحاتو سره علاقه لري ، نور تفصیلي کوډ چمتو شوی په تیره برخه کې.

نو راځئ چې پیل وکړو. د دې کال لپاره نظرونه، 2019 (کوم چې لاهم پای ته نه دی رسیدلی)، د تحلیل لپاره اخیستل شوي. د لیکلو په وخت کې، کاروونکو لیکلي د 448533 تبصرهد csv فایل اندازه ده 288MB. ځواکمن، اغیزمن.

د لیکلو وخت

راځئ چې د ساعت په واسطه نظرونه ګروپ کړو، د اونۍ ورځې او د اونۍ پای په جلا توګه وویشو.

Habrastatistics: د لوستونکي نظرونو تحلیل

دلته موږ په مطلق ارزښتونو کې دلچسپي نه لرو، مګر په نسبي ارزښتونو کې. که تاسو یوازې دا "لکه څنګه چې دی" وګورئ، نو دا معلومه شوهоډیری تبصرې د 10 څخه تر 18 پورې کاري ساعتونو کې لیکل شوي 😉 له بلې خوا ، دلته د وخت زونونه په پام کې ندي نیول شوي ، نو پوښتنه لاهم خلاصه ده.

راځئ چې په ټول کال کې د تبصرو ویش وګورو:

Habrastatistics: د لوستونکي نظرونو تحلیل

او بیا هم دا گردش کوي؛ یو زیاتوالی د اونۍ په ورځو کې په ښکاره ډول لیدل کیږي - د اونۍ دوره په ښکاره ډول لیدل کیږي، نو موږ کولی شو په خورا لوړ باور سره ووایو چې خلک د کار څخه د حبر په اړه لوستل او تبصره کوي (مګر دا ډاډه نه ده).

په هرصورت، د فرضیې ازموینې لپاره یو نظر شتون درلود چې ایا د ترلاسه شوي منفي یا پلسونو شمیر د ورځې یا وخت څخه توپیر لري، مګر دا ممکنه نه وه چې اړیکه ومومي - هغه وخت چې درجه بندي ورکړل شوې خوندي نه ده، او د تبصرې د وخت سره مستقیم اړیکه نشته.

کارونکي

البته، زه په سایټ کې د کاروونکو دقیق شمیر نه پوهیږم. مګر هغه کسان چې سږکال یې لږترلږه یوه تبصره پریښوده نږدې و د 25000 خلک.

د کاروونکو لخوا پریښودل شوي پیغامونو ګراف خورا په زړه پوري ښکاري:

Habrastatistics: د لوستونکي نظرونو تحلیل

په لومړي سر کې ما پخپله باور نه درلود، مګر داسې بریښي چې هیڅ غلطی نه وي. 5٪ کاروونکي 60٪ پیغامونه پریږدي. 10٪ - د ټولو پیغامونو 74٪ (له هغې څخه، اجازه راکړئ تاسو ته یادونه وکړم، سږکال، 450 زره). اکثریت په ساده ډول سایټ لولي، تبصرې په ندرت سره پریږدي، یا یې نه پریږدي (هغه، په طبیعي توګه، زما په لیست کې شامل ندي).

درجه بندي

راځئ چې د احصایې وروستي او خورا ساتیرۍ برخې ته لاړ شو - درجه بندي. د محرمیت دلایلو لپاره ، زه به د کاروونکو بشپړ مستعار نومونه نه ورکوم ، هرڅوک چې وغواړي ، زما په اند به ځان وپیژني.

د د نظرونو شمیر د دې کال لپاره، غوره 5 د VoXXXX (3377 تبصرې)، 0xdXXXXXX (3286 تبصرې)، strXXXX (3043 تبصرې)، AmXXXX (2897 تبصرې) او khXXXX (2748 تبصرې) لخوا نیول شوي دي.

د د ترلاسه شویو ګټو شمیر, لومړی 5 د amXXXX لخوا نیول شوي (1395 تبصرې، درجه بندي +3231/-309)، tvXXXX (1544 تبصرې، درجه بندي +3231/-97)، WhuXXXX (921 تبصرې، درجه بندي +2288/-13)، MTXXXX (1328 تبصرې، +1383 /-7) او amaXXXX (736 تبصرې، درجه بندي +1340/-16).

د مطلق مثبت درجه بندي (یو هم نه منفي درجه شوي تبصره) د پورتنۍ برخې لخوا نیول کیږي ملفګارډ и بومبورم. د استثنا په توګه، زه د دوی مستعار نومونه په بشپړ ډول وړاندې کوم، زما په اند دوی د دې مستحق دي.

نیمګړتیاوې هم په زړه پوري دي. پورته خوا د راټول شوي منفيونو شمیر د دې کال لپاره دوی د siXX (473 پلس، 699 minuses)، khXX (1915 pluses، 573 minuses) او nicXXXXX (456 پلس، 487 minuses) لخوا اشغال شوي دي. مګر لکه څنګه چې تاسو لیدلی شئ، دا کاروونکي کافي مثبت نظرونه لري. خو په وینا مطلق منفي په انټيټوپک کې vladXXXX (55 تبصرې، 84 دقیقې، 0 پلس)، ایکو ایکس ایکس ایکس ایکس (77 تبصرې، 92 دقیقې، 1 جمع) او iMXXXX (225 تبصرې، 205 منفي، 12 پلس) شامل دي.

پایلې

زه نشم کولی ټول پلان شوي محاسبه کړم، مګر زه هیله لرم چې دا په زړه پورې وي.

لکه څنګه چې تاسو لیدلی شئ ، حتی د دومره لږ شمیر ساحو سره ډیټاسیټ کولی شي د تحلیل لپاره په زړه پوري معلومات چمتو کړي. د "کلام کلاوډ" جوړولو څخه د متن تحلیل پورې لاهم ډیر څه شتون لري. که کومه په زړه پورې پایلې راڅرګندې شي، دوی به خپاره شي.

سرچینه: www.habr.com

Add a comment