Habrastatistics: පාඨක අදහස් විශ්ලේෂණය කිරීම

හලෝ හබ්ර්. තුල පෙර කොටස වෙබ් අඩවියේ විවිධ කොටස්වල ජනප්රියත්වය විශ්ලේෂණය කරන ලද අතර, ඒ සමඟම ප්රශ්නය පැනනගින අතර - ලිපිවල අදහස් වලින් ලබාගත හැකි දත්ත මොනවාද. මට එක් උපකල්පනයක් පරීක්ෂා කිරීමට ද අවශ්‍ය විය, එය මම පහත සාකච්ඡා කරමි.
Habrastatistics: පාඨක අදහස් විශ්ලේෂණය කිරීම

දත්ත තරමක් සිත්ගන්නා සුළු විය; විචාරකයින්ගේ කුඩා “කුඩා ශ්‍රේණිගත කිරීමක්” නිර්මාණය කිරීමට ද අපි සමත් විය. කප්පාදුව යටතේ දිගටම.

දත්ත එකතුව

විශ්ලේෂණය සඳහා, අපි මෙම වසර, 2019 සඳහා දත්ත භාවිතා කරන්නෙමු, විශේෂයෙන් මට දැනටමත් csv ආකාරයෙන් ලිපි ලැයිස්තුවක් ලැබී ඇති බැවින්. ඉතිරිව ඇත්තේ එක් එක් ලිපියෙන් අදහස් උපුටා ගැනීම පමණි; අපගේ වාසනාවකට මෙන්, ඒවා එහි ගබඩා කර ඇති අතර අමතර ඉල්ලීම් කිරීමට අවශ්‍ය නොවේ.

ලිපියකින් අදහස් උද්දීපනය කිරීමට, පහත කේතය ප්‍රමාණවත් වේ:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

මෙය අපට මෙවැනි දෙයක් පෙනෙන අදහස් ලැයිස්තුවක් ලබා ගැනීමට ඉඩ සලසයි (පෞද්ගලිකත්ව හේතූන් මත අන්වර්ථ නාම ඉවත් කර ඇත):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

ඔබට පෙනෙන පරිදි, එක් එක් අදහස් දැක්වීම සඳහා අපට පරිශීලක නාමය, දිනය, ශ්‍රේණිගත කිරීම සහ සත්‍ය පෙළ ලබා ගත හැකිය. අපි බලමු මේකෙන් අපිට මොනවද ගන්න පුළුවන් කියලා.

මාර්ගය වන විට, මුලදී, ශ්‍රේණිගත කිරීම් එකතු කිරීමේ අදහස ටිකක් වෙනස් විය - පරිශීලකයින් ලබා දෙන ශ්‍රේණිගත කිරීම් මොනවාදැයි බැලීමට. උදාහරණයක් ලෙස, ඔබට YouTube දෙස බැලිය හැකිය - වඩාත්ම පරමාදර්ශී වීඩියෝව පවා, කිසිදු ආත්මීය තොරතුරු රැගෙන නොයන වීඩියෝවක් පවා, හුදෙක් යොමු කිරීම හෝ ප්‍රවෘත්ති නිකුතුවක් සඳහා, තවමත් නිශ්චිත අවාසි සංඛ්‍යාවක් ලබා ගනී. උපකල්පනය වූයේ, සම්පූර්ණයෙන්ම සායනිකව, සියල්ලටම කැමති නැති පරිශීලකයින් සිටින බවයි, සමහර විට සෙරොටොනින් මොළයේ හෝ වෙනත් දෙයක් නිපදවන්නේ නැත. සමහර විට පුද්ගලයෙකුට තවදුරටත් හබ්රේ හි වාඩි වීමට අවශ්‍ය නැත, නමුත් මානසික අවපීඩනයට ප්‍රතිකාර කිරීමට ... නමුත් එය සිදු වූ පරිදි, මට මෙය මෙහි පරීක්ෂා කළ නොහැක, මන්ද ... ශ්‍රේණිගත කිරීම් ලබා දුන් අයගේ ලැයිස්තුව අදහස් දැක්වීමේ හෝ ලිපියේ සුරැකෙන්නේ නැත. හොඳයි, එනම්, අපි පවතින දත්ත සමඟ වැඩ කරන්නෙමු. ප්‍රතිඵලය "ප්‍රතිලෝම" ශ්‍රේණිගත කිරීමකි - පරිශීලකයින් විසින් ලබා ගන්නා ශ්‍රේණිගත කිරීම් මොනවාදැයි ඔබට දැක ගත හැක. එය ප්‍රතිපත්තිමය වශයෙන් ද සිත්ගන්නා සුළුය.

සැකසීම

ආරම්භ කිරීමට, සාම්ප්රදායික වියාචනය. මෙම ශ්‍රේණිගත කිරීම, පෙර පැවති සියලුම ඒවා මෙන්, නිල නොවන ය. මම කොතැනකවත් වරදක් කර නැති බව මම සහතික නොකරමි. තාක්ෂණික විස්තර සඳහා උනන්දුවක් දක්වන අය සඳහා, වඩාත් සවිස්තරාත්මක කේතය සපයනු ලැබේ කලින් කොටසේ.

එහෙනම් අපි පටන් ගනිමු. මෙම වසර, 2019 සඳහා අදහස් (තාම අවසන් වී නැත), විශ්ලේෂණය සඳහා ගන්නා ලදී. ලියන අවස්ථාවේදී, පරිශීලකයන් ලිවීය 448533 විවේචන, csv ගොනුවේ ප්‍රමාණය වේ 288MB. බලවත්, ආකර්ෂණීය.

ලියන කාලය

සතියේ දින සහ සති අන්ත වෙන වෙනම බෙදා පැයෙන් අදහස් සමූහ කරමු.

Habrastatistics: පාඨක අදහස් විශ්ලේෂණය කිරීම

මෙහිදී අපි නිරපේක්ෂ අගයන් ගැන උනන්දු නොවෙමු, නමුත් සාපේක්ෂ අගයන් ගැන. ඔබ එය "එසේම" දෙස බැලුවහොත්, එය හැරෙනවාоබොහෝ අදහස් ලියා ඇත්තේ වැඩ කරන වේලාවන් 10 සිට 18 දක්වා කාලය තුළය 😉 අනෙක් අතට, මෙහි කාල කලාප සැලකිල්ලට නොගනී, එබැවින් ප්‍රශ්නය තවමත් විවෘතය.

වසර පුරා අදහස් බෙදා හැරීම දෙස බලමු:

Habrastatistics: පාඨක අදහස් විශ්ලේෂණය කිරීම

එහෙත් එය භ්‍රමණය වේ; සතියේ දිනවල වැඩිවීමක් පැහැදිලිව දැකගත හැකිය - සතිපතා ආවර්තිතා පැහැදිලිව දැකගත හැකිය, එබැවින් මිනිසුන් රැකියාවෙන් හබ්ර් කියවන සහ අදහස් දක්වන බව අපට තරමක් ඉහළ විශ්වාසයකින් පැවසිය හැකිය (නමුත් මෙය නිශ්චිත නැත).

මාර්ගය වන විට, ලැබුණු අවාසි හෝ ප්ලස් ගණන දවසේ හෝ වේලාවට වඩා වෙනස් වේද යන්න උපකල්පනය පරීක්ෂා කිරීමට අදහසක් තිබුණි, නමුත් සම්බන්ධතාවයක් සොයා ගැනීමට නොහැකි විය - ශ්‍රේණිගත කිරීම ලබා දුන් කාලය ඉතිරි නොවේ, සහ අදහස් දැක්වීමේ වේලාව සමඟ සෘජු සම්බන්ධයක් නොමැත.

පරිශීලකයින්

ඇත්ත වශයෙන්ම, මම වෙබ් අඩවියේ පරිශීලකයින් සංඛ්යාව හරියටම දන්නේ නැහැ. නමුත් මේ වසරේ අඩුම තරමින් එක් කමෙන්ට් එකක්වත් දැමූ අය දළ වශයෙන් විය 25000 ජනතාව.

පරිශීලකයින් විසින් ඉතිරි කරන ලද පණිවිඩ ගණනේ ප්‍රස්ථාරය ඉතා සිත්ගන්නා සුළුය:

Habrastatistics: පාඨක අදහස් විශ්ලේෂණය කිරීම

මුලදී මම එය විශ්වාස නොකළ නමුත් එහි කිසිදු වරදක් පෙනෙන්නට නොතිබුණි. පරිශීලකයින්ගෙන් 5% ක් පණිවිඩ වලින් 60% ක් තබයි. සියලුම පණිවිඩ වලින් 10% - 74% (එයින්, මම ඔබට මතක් කර දෙන්නම්, මේ වසරේ, 450 දහසක්). බහුතරයක් සරලවම වෙබ් අඩවිය කියවන අතර, අදහස් දැක්වීම් ඉතා කලාතුරකිනි, නැතහොත් ඒවා කිසිසේත්ම ඉවත් නොකරයි (ඒවා, ස්වභාවිකවම, මගේ ලැයිස්තුවට ඇතුළත් කර නොමැත).

ශ්රේණිගත කිරීම්

අපි සංඛ්‍යාලේඛනවල අවසාන හා වඩාත්ම විනෝදජනක කොටස වෙත යමු - ශ්‍රේණිගත කිරීම්. පුද්ගලිකත්වයේ හේතූන් මත, මම පරිශීලකයින්ගේ සම්පූර්ණ අන්වර්ථ නාම ලබා නොදෙමි, කැමති ඕනෑම අයෙකු තමන්ව හඳුනා ගනු ඇතැයි මම සිතමි.

විසින් අදහස් ගණන මෙම වසර සඳහා, ඉහළම 5 VoXXXX (අදහස් 3377), 0xdXXXXX (අදහස් 3286), strXXXX (අදහස් 3043), AmXXXX (අදහස් 2897) සහ khXXXX (අදහස් 2748) විසින් අත්පත් කරගෙන ඇත.

විසින් ලැබුණු ප්රතිලාභ සංඛ්යාව, ඉහළ 5 amXXXX (අදහස් 1395, ශ්‍රේණිගත කිරීම් +3231/-309), tvXXXX (අදහස් 1544, ශ්‍රේණිගත කිරීම් +3231/-97), WhuXXXX (අදහස් 921, ශ්‍රේණිගත කිරීම් +2288/-13), MTTXXX (1328 අදහස්, 1383 +7 /-736) සහ amaXXXX (අදහස් 1340, ශ්‍රේණිගත කිරීම +16/-XNUMX).

විසින් නිරපේක්ෂ ධනාත්මක ශ්රේණිගත කිරීම (කිසි කෙනෙක නැහැ සෘණාත්මකව ශ්‍රේණිගත කර ඇති අදහස) මුදුනේ ඉහළ කොටස අල්ලාගෙන ඇත මිල්ෆ්ගාඩ් и බූම්බුරම්. ව්යතිරේකයක් ලෙස, මම ඔවුන්ගේ අන්වර්ථ නාම සම්පූර්ණයෙන්ම ඉදිරිපත් කරමි, මම හිතන්නේ ඔවුන් එයට සුදුසුයි.

අවාසි ද සිත්ගන්නා සුළුය. උඩින් එකතු කරන ලද අවාසි ගණන මෙම වසර සඳහා ඔවුන් siXX (473 ප්ලස්, ඍණ 699), khXX (1915 ප්ලස්, 573 අඩු) සහ nicXXXXX (456 ප්ලස්, 487 අඩු) විසින් අත්පත් කරගෙන ඇත. නමුත් ඔබට පෙනෙන පරිදි, මෙම පරිශීලකයින්ට ප්රමාණවත් තරම් ධනාත්මක අදහස් ඇත. නමුත් අනුව නිරපේක්ෂ අඩු ප්‍රතිවිරෝධකයට vladXXXX (අදහස් 55, අඩු කිරීම් 84, 0 ප්ලස්), ekoXXXX (අදහස් 77, අඩු 92, 1 ප්ලස්) සහ iMXXXX (අදහස් 225, අවාසි 205, ප්ලස් 12) ඇතුළත් වේ.

නිගමනය

සැලසුම් කළ සියල්ල ගණනය කිරීමට මට නොහැකි විය, නමුත් එය සිත්ගන්නාසුළු යැයි මම බලාපොරොත්තු වෙමි.

ඔබට පෙනෙන පරිදි, එවැනි කුඩා ක්ෂේත්ර සංඛ්යාවක් සහිත දත්ත කට්ටලයක් පවා විශ්ලේෂණය සඳහා රසවත් දත්ත සැපයිය හැකිය. “වචන වලාකුළක්” ගොඩනැගීමේ සිට පෙළ විශ්ලේෂණය දක්වා හෑරීමට තවමත් බොහෝ දේ ඇත. කිසියම් රසවත් ප්‍රතිඵල මතු වුවහොත් ඒවා ප්‍රකාශයට පත් කෙරේ.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න