ஹப்ராஸ்டாடிஸ்டிக்ஸ்: வாசகர் கருத்துகளை பகுப்பாய்வு செய்தல்

வணக்கம் ஹப்ர். IN முந்தைய பகுதி தளத்தின் பல்வேறு பிரிவுகளின் புகழ் பகுப்பாய்வு செய்யப்பட்டது, அதே நேரத்தில் கேள்வி எழுந்தது - கட்டுரைகளின் கருத்துக்களிலிருந்து என்ன தரவைப் பிரித்தெடுக்க முடியும். நான் ஒரு கருதுகோளை சோதிக்க விரும்பினேன், அதை நான் கீழே விவாதிக்கிறேன்.
ஹப்ராஸ்டாடிஸ்டிக்ஸ்: வாசகர் கருத்துகளை பகுப்பாய்வு செய்தல்

தரவு மிகவும் சுவாரஸ்யமானதாக மாறியது, மேலும் வர்ணனையாளர்களின் சிறிய "மினி-மதிப்பீட்டை" தொகுக்க முடிந்தது. வெட்டு கீழ் தொடர்ந்தது.

தரவு சேகரிப்பு

பகுப்பாய்வுக்காக, 2019 ஆம் ஆண்டிற்கான தரவைப் பயன்படுத்துவோம், குறிப்பாக நான் ஏற்கனவே csv வடிவத்தில் கட்டுரைகளின் பட்டியலைப் பெற்றுள்ளதால். எங்களுக்கு அதிர்ஷ்டவசமாக ஒவ்வொரு கட்டுரையிலிருந்தும் கருத்துகளைப் பிரித்தெடுப்பது மட்டுமே எஞ்சியுள்ளது, அவை அங்கு சேமிக்கப்பட்டுள்ளன, மேலும் கூடுதல் கோரிக்கைகள் எதுவும் தேவையில்லை.

ஒரு கட்டுரையில் இருந்து கருத்துகளை முன்னிலைப்படுத்த, பின்வரும் குறியீடு போதுமானது:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

இது போன்ற கருத்துகளின் பட்டியலைப் பெற இது அனுமதிக்கிறது (தனியுரிமை காரணங்களுக்காக புனைப்பெயர்கள் அகற்றப்பட்டன):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

நீங்கள் பார்க்க முடியும் என, ஒவ்வொரு கருத்துக்கும் பயனர் பெயர், தேதி, மதிப்பீடு மற்றும் உண்மையான உரை ஆகியவற்றைப் பெறலாம். இதிலிருந்து நாம் என்ன பெற முடியும் என்பதைப் பார்ப்போம்.

மூலம், ஆரம்பத்தில், மதிப்பீடுகளை சேகரிக்கும் யோசனை சற்று வித்தியாசமாக இருந்தது - பயனர்கள் என்ன மதிப்பீடுகளை வழங்குகிறார்கள் என்பதைப் பார்க்க. எடுத்துக்காட்டாக, நீங்கள் YouTube ஐப் பார்க்கலாம் - மிகவும் சிறந்த வீடியோவாக இருந்தாலும், எந்தவொரு அகநிலைத் தகவலையும் கொண்டு செல்லாத வீடியோவாக இருந்தாலும், குறிப்பு அல்லது செய்தி வெளியீட்டிற்காக, இன்னும் குறிப்பிட்ட எண்ணிக்கையிலான மைனஸ்களைப் பெறுகிறது. கருதுகோள் என்னவென்றால், முற்றிலும் மருத்துவ ரீதியாக, எல்லாவற்றையும் விரும்பாத பயனர்கள் உள்ளனர், ஒருவேளை செரோடோனின் மூளையில் அல்லது வேறு ஏதாவது உற்பத்தி செய்யப்படவில்லை. ஒருவேளை ஒரு நபர் இனி ஹப்ரேயில் உட்கார வேண்டிய அவசியமில்லை, ஆனால் மனச்சோர்வுக்கு சிகிச்சையளிக்க வேண்டும் ... ஆனால் அது மாறியது, என்னால் இதை இங்கே சரிபார்க்க முடியாது, ஏனென்றால் ... மதிப்பீடுகள் வழங்கியவர்களின் பட்டியல் கருத்து அல்லது கட்டுரையில் சேமிக்கப்படவில்லை. சரி, அதாவது, கிடைக்கக்கூடிய தரவுகளுடன் நாங்கள் வேலை செய்வோம். இதன் விளைவாக "தலைகீழ்" மதிப்பீடு - பயனர்களால் என்ன மதிப்பீடுகள் _பெறுகின்றன என்பதை நீங்கள் பார்க்கலாம். இது, கொள்கையளவில், சுவாரஸ்யமானது.

செயலாக்க

தொடங்குவதற்கு, ஒரு பாரம்பரிய மறுப்பு. இந்த மதிப்பீடு, முந்தைய எல்லாவற்றைப் போலவே, அதிகாரப்பூர்வமற்றது. நான் எங்கும் தவறு செய்யவில்லை என்று நான் உத்தரவாதம் அளிக்கவில்லை. தொழில்நுட்ப விவரங்களில் ஆர்வமுள்ளவர்களுக்கு, மேலும் விரிவான குறியீடு வழங்கப்படுகிறது முந்தைய பகுதியில்.

எனவே ஆரம்பிக்கலாம். இந்த ஆண்டிற்கான கருத்துகள், 2019 (இது இன்னும் முடிவடையவில்லை), பகுப்பாய்வுக்காக எடுக்கப்பட்டது. எழுதும் நேரத்தில், பயனர்கள் எழுதினர் பதில்கள், csv கோப்பின் அளவு 288எம்பி. சக்திவாய்ந்த, ஈர்க்கக்கூடிய.

எழுதும் நேரம்

வார நாட்களையும் வார இறுதி நாட்களையும் தனித்தனியாகப் பிரித்து, மணிநேரம் வாரியாக கருத்துகளைக் குழுவாக்கலாம்.

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: வாசகர் கருத்துகளை பகுப்பாய்வு செய்தல்

இங்கே நாம் முழுமையான மதிப்புகளில் ஆர்வம் காட்டவில்லை, ஆனால் உறவினர்களில். நீங்கள் அதை "உள்ளது" என்று பார்த்தால், அது மாறிவிடும்оபெரும்பாலான கருத்துக்கள் 10 முதல் 18 வரை வேலை நேரத்தில் எழுதப்பட்டவை 😉 மறுபுறம், நேர மண்டலங்கள் இங்கே கணக்கில் எடுத்துக்கொள்ளப்படவில்லை, எனவே கேள்வி இன்னும் திறந்தே உள்ளது.

ஆண்டு முழுவதும் கருத்துகளின் விநியோகத்தைப் பார்ப்போம்:

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: வாசகர் கருத்துகளை பகுப்பாய்வு செய்தல்

இன்னும் அது சுழல்கிறது வார நாட்களில் ஒரு எழுச்சி தெளிவாகத் தெரியும் - வாராந்திர கால இடைவெளி தெளிவாகத் தெரியும், எனவே மக்கள் வேலையிலிருந்து ஹப்ரைப் படித்து கருத்து தெரிவிக்கிறார்கள் என்று நாங்கள் மிகவும் நம்பிக்கையுடன் கூறலாம் (ஆனால் இது உறுதியாகத் தெரியவில்லை).

மூலம், பெறப்பட்ட மைனஸ்கள் அல்லது பிளஸ்களின் எண்ணிக்கை நாள் அல்லது நேரத்திலிருந்து வேறுபடுகிறதா என்று கருதுகோளைச் சோதிக்க ஒரு யோசனை இருந்தது, ஆனால் ஒரு உறவைக் கண்டுபிடிக்க முடியவில்லை - மதிப்பீடு வழங்கப்பட்ட நேரம் சேமிக்கப்படவில்லை, மேலும் கருத்து நேரத்துடன் நேரடி தொடர்பு இல்லை.

பயனர்கள்

நிச்சயமாக, தளத்தில் உள்ள பயனர்களின் சரியான எண்ணிக்கை எனக்குத் தெரியாது. ஆனால் இந்த ஆண்டு குறைந்தது ஒரு கருத்தையாவது விட்டுச் சென்றவர்கள் தோராயமாக மாறிவிட்டனர் 25000 மக்கள்.

பயனர்கள் விட்டுச் சென்ற செய்திகளின் எண்ணிக்கையின் வரைபடம் மிகவும் சுவாரஸ்யமாகத் தெரிகிறது:

ஹப்ராஸ்டாடிஸ்டிக்ஸ்: வாசகர் கருத்துகளை பகுப்பாய்வு செய்தல்

முதலில் நான் அதை நம்பவில்லை, ஆனால் எந்த தவறும் இல்லை என்று தோன்றியது. 5% பயனர்கள் 60% செய்திகளை விட்டுச் செல்கின்றனர். அனைத்து செய்திகளிலும் 10% - 74% (அதில், இந்த ஆண்டு, 450 ஆயிரம் உங்களுக்கு நினைவூட்டுகிறேன்). பெரும்பான்மையானவர்கள் தளத்தைப் படிக்கிறார்கள், கருத்துகளை மிகவும் அரிதாகவே விட்டுவிடுகிறார்கள் அல்லது அவற்றை விட்டுவிடவில்லை (அவை, இயற்கையாகவே, எனது பட்டியலில் சேர்க்கப்படவில்லை).

மதிப்பீடுகள்

புள்ளிவிவரங்களின் கடைசி மற்றும் மிகவும் வேடிக்கையான பகுதிக்கு செல்லலாம் - மதிப்பீடுகள். தனியுரிமை காரணங்களுக்காக, பயனர்களின் முழு புனைப்பெயர்களை நான் கொடுக்க மாட்டேன், யார் விரும்புகிறார்களோ, அவர்கள் தங்களை அடையாளம் கண்டுகொள்வார்கள் என்று நான் நினைக்கிறேன்.

மீது கருத்துகளின் எண்ணிக்கை இந்த ஆண்டு, முதல் 5 இடங்களை VoXXXX (3377 கருத்துகள்), 0xdXXXXX (3286 கருத்துகள்), strXXXX (3043 கருத்துகள்), AmXXXX (2897 கருத்துகள்) மற்றும் khXXXX (2748 கருத்துகள்) ஆக்கிரமித்துள்ளன.

மீது பெறப்பட்ட நன்மைகளின் எண்ணிக்கை, முதல் 5 இடங்களை amXXXX (1395 கருத்துகள், மதிப்பீடுகள் +3231/-309), tvXXXX (1544 கருத்துகள், மதிப்பீடுகள் +3231/-97), WhuXXXX (921 கருத்துகள், மதிப்பீடுகள் +2288/-13), MTTXXXX (1328 கருத்துகள், 1383 கருத்துகள், +7 /-736) மற்றும் amaXXXX (1340 கருத்துகள், மதிப்பீடு +16/-XNUMX).

மீது முழுமையான நேர்மறை மதிப்பீடு (யாரும் இல்லை எதிர்மறையாக மதிப்பிடப்பட்ட கருத்து) உச்சியின் மேற்பகுதி ஆக்கிரமிக்கப்பட்டுள்ளது மில்ஃப்கார்ட் и பூம்புரும். விதிவிலக்காக, நான் அவர்களின் புனைப்பெயர்களை முழுமையாக முன்வைக்கிறேன், அவர்கள் அதற்கு தகுதியானவர்கள் என்று நினைக்கிறேன்.

குறைபாடுகளும் சுவாரஸ்யமானவை. மேலே சேகரிக்கப்பட்ட குறைகளின் எண்ணிக்கை இந்த ஆண்டு அவை siXX (473 கூட்டல், 699 கழித்தல்), khXX (1915 கூட்டல், 573 கழித்தல்) மற்றும் nicXXXX (456 கூட்டல், 487 கழித்தல்) ஆகியவற்றால் ஆக்கிரமிக்கப்பட்டுள்ளன. ஆனால் நீங்கள் பார்க்க முடியும் என, இந்த பயனர்களுக்கு போதுமான நேர்மறையான கருத்துகள் உள்ளன. ஆனால் படி முழுமையான கழித்தல் ஆன்டிடோபிக் ஆனது vladXXXX (55 கருத்துகள், 84 மைனஸ்கள், 0 பிளஸ்கள்), ekoXXXX (77 கருத்துகள், 92 மைனஸ்கள், 1 பிளஸ்) மற்றும் iMXXXX (225 கருத்துகள், 205 மைனஸ்கள், 12 பிளஸ்கள்) ஆகியவை அடங்கும்.

முடிவுக்கு

திட்டமிடப்பட்ட அனைத்தையும் என்னால் கணக்கிட முடியவில்லை, ஆனால் அது சுவாரஸ்யமாக இருந்தது என்று நம்புகிறேன்.

நீங்கள் பார்க்கிறபடி, இவ்வளவு சிறிய எண்ணிக்கையிலான புலங்களைக் கொண்ட தரவுத்தொகுப்பு கூட பகுப்பாய்வுக்கான சுவாரஸ்யமான தரவை வழங்க முடியும். "வார்த்தை மேகம்" உருவாக்குவது முதல் உரை பகுப்பாய்வு வரை தோண்டி எடுக்க இன்னும் நிறைய இருக்கிறது. ஏதேனும் சுவாரஸ்யமான முடிவுகள் வந்தால், அவை வெளியிடப்படும்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்