ሃብራስታቲስቲክስ፡ የአንባቢ አስተያየቶችን መተንተን

ሰላም ሀብር። ውስጥ ያለፈው ክፍል የጣቢያው የተለያዩ ክፍሎች ታዋቂነት ተተነተነ, እና በተመሳሳይ ጊዜ ጥያቄው ተነሳ - በአንቀጾች ላይ ከአስተያየቶች ምን ውሂብ ሊወጣ ይችላል. እኔ ደግሞ አንድ መላምት መሞከር ፈልጌ ነበር, ከዚህ በታች የምወያይበትን.
ሃብራስታቲስቲክስ፡ የአንባቢ አስተያየቶችን መተንተን

ውሂቡ በጣም አስደሳች ሆኖ ተገኝቷል፤ እንዲሁም ትንሽ የአስተያየት ሰጪዎችን "አነስተኛ ደረጃ" መፍጠር ችለናል። በቆራጩ ስር ቀጥሏል.

የውሂብ መሰብሰብ

ለመተንተን፣ ለዚህ ​​አመት፣ 2019 መረጃን እንጠቀማለን፣ በተለይም ቀደም ሲል የጽሁፎችን ዝርዝር በ csv ቅጽ ተቀብያለሁ። የሚቀረው ከእያንዳንዱ መጣጥፍ ላይ አስተያየቶችን ማውጣት ብቻ ነው ፣ እንደ እድል ሆኖ ለእኛ እዚያ ተከማችተዋል እና ምንም ተጨማሪ ጥያቄዎችን ማቅረብ አያስፈልግም።

ከአንድ መጣጥፍ አስተያየቶችን ለማጉላት የሚከተለው ኮድ በቂ ነው፡-

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

ይህ እንደዚህ ያለ ነገር የሚመስሉ የአስተያየቶችን ዝርዝር እንድናገኝ ያስችለናል (በግላዊነት ምክንያቶች የተወገዱ ቅጽል ስሞች)

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

እንደሚመለከቱት፣ ለእያንዳንዱ አስተያየት የተጠቃሚውን ስም፣ ቀን፣ ደረጃ እና ትክክለኛ ጽሑፍ ማግኘት እንችላለን። ከዚህ ምን ማግኘት እንደምንችል እንይ።

በነገራችን ላይ በመጀመሪያ ደረጃ አሰጣጦችን የመሰብሰብ ሀሳብ ትንሽ የተለየ ነበር - ተጠቃሚዎች የሚሰጡትን ደረጃዎች ለማየት። ለምሳሌ ዩቲዩብን ማየት ይችላሉ - በጣም ጥሩ ቪዲዮ እንኳን ፣ ምንም አይነት ተጨባጭ መረጃ የማይይዝ ፣ ለማጣቀሻ ወይም ለዜና መልቀቅ ብቻ ፣ አሁንም የተወሰነ የመቀነስ ብዛት ያገኛል። መላምቱ በክሊኒካዊ ብቻ ፣ ሁሉንም ነገር በጭራሽ የማይወዱ ተጠቃሚዎች አሉ ፣ ምናልባት ሴሮቶኒን በአንጎል ውስጥ ወይም በሌላ ነገር ውስጥ አልተመረተም። ምናልባት አንድ ሰው የመንፈስ ጭንቀትን ለማከም እንጂ በሃበሬ ላይ መቀመጥ አያስፈልገውም ... ግን እንደ ተለወጠ, ይህንን እዚህ ማረጋገጥ አልችልም, ምክንያቱም ... ደረጃ የሰጡት ሰዎች ዝርዝር በአስተያየቱ ወይም በአንቀጹ ውስጥ አልተቀመጠም። ደህና ፣ ማለትም ፣ ካለው መረጃ ጋር እንሰራለን ። ውጤቱ "የተገላቢጦሽ" ደረጃ ነው - በተጠቃሚዎች ምን ደረጃዎች እንደተቀበሉ ማየት ይችላሉ። የትኛው, በመርህ ደረጃ, ደግሞ አስደሳች ነው.

በመስራት ላይ

ለመጀመር፣ ባህላዊ ማስተባበያ። ይህ ደረጃ፣ ልክ እንደ ቀደሙት ሁሉ፣ መደበኛ ያልሆነ ነው። የትም ስህተት ላለመስራቴ ዋስትና አልሰጥም። ለቴክኒካዊ ዝርዝሮች ፍላጎት ላላቸው, የበለጠ ዝርዝር ኮድ ቀርቧል በቀደመው ክፍል.

ስለዚህ እንጀምር። ለዚህ አመት፣ 2019 (እስካሁን ያላለቀ) አስተያየቶች ለመተንተን ተወስደዋል። በሚጽፉበት ጊዜ ተጠቃሚዎች ጽፈዋል 448533 አስተያየቶች፣ የ csv ፋይል መጠን ነው። 288 ሜባ. ኃይለኛ ፣ አስደናቂ።

የጽሑፍ ጊዜ

የስራ ቀናትን እና ቅዳሜና እሁድን ለየብቻ በመከፋፈል አስተያየቶችን በሰዓት እንከፋፍል።

ሃብራስታቲስቲክስ፡ የአንባቢ አስተያየቶችን መተንተን

እዚህ እኛ አንጻራዊ በሆኑት ላይ እንጂ ፍጹም እሴቶች ላይ ፍላጎት የለንም. “እንደሆነ” ብቻ ከተመለከቱት ፣ ያ ይሆናል።оአብዛኛዎቹ አስተያየቶች የተፃፉት ከ 10 እስከ 18 ባለው የስራ ሰአት ነው 😉 በሌላ በኩል የሰዓት ሰቆች እዚህ ግምት ውስጥ አይገቡም, ስለዚህ ጥያቄው አሁንም ክፍት ነው.

አመቱን ሙሉ የአስተያየቶችን ስርጭት እንይ፡-

ሃብራስታቲስቲክስ፡ የአንባቢ አስተያየቶችን መተንተን

እና አሁንም ይሽከረከራል ፣ ጭማሪው በሳምንቱ ቀናት በግልፅ ይታያል - ሳምንታዊው ወቅታዊነት በግልፅ ይታያል ፣ ስለሆነም ሰዎች ሀብርን ከስራ እያነበቡ እና አስተያየት እየሰጡ ነው ብለን በትክክል መናገር እንችላለን (ይህ ግን እርግጠኛ አይደለም)።

በነገራችን ላይ የተቀበሉት ተቀናሾች ወይም ፕላስ ቁጥር ከቀኑ ወይም ከቀኑ ሰዓት ይለያሉ የሚለውን መላምት ለመፈተሽ ሀሳብ ነበር ፣ ግን ግንኙነት ማግኘት አልተቻለም - ደረጃ የተሰጠው ጊዜ አልተቀመጠም ፣ እና ከአስተያየቱ ጊዜ ጋር ቀጥተኛ ግንኙነት የለም.

ተጠቃሚዎች

በእርግጥ, በጣቢያው ላይ ያሉትን የተጠቃሚዎች ትክክለኛ ቁጥር አላውቅም. ግን በዚህ አመት ቢያንስ አንድ አስተያየት የሰጡ ሰዎች በግምት ሆነዋል 25000 ሰዎች.

በተጠቃሚዎች የተተወው የመልእክት ብዛት ግራፍ በጣም አስደሳች ይመስላል።

ሃብራስታቲስቲክስ፡ የአንባቢ አስተያየቶችን መተንተን

መጀመሪያ ላይ እኔ ራሴ አላመንኩም ነበር, ነገር ግን ምንም ስህተት ያለ አይመስልም. 5% ተጠቃሚዎች 60% መልዕክቶችን ይተዋሉ።. 10% - 74% የሁሉም መልዕክቶች (ከዚህ ውስጥ, ላስታውስዎት, በዚህ አመት, 450 ሺህ). አብዛኛዎቹ በቀላሉ ጣቢያውን ያነባሉ ፣ አስተያየቶችን በጣም አልፎ አልፎ ይተዋል ፣ ወይም በጭራሽ አይተዉም (እነዚያ ፣ በተፈጥሮ ፣ በእኔ ዝርዝር ውስጥ አልተካተቱም)።

ደረጃዎች

ወደ የመጨረሻው እና በጣም አዝናኝ የስታቲስቲክስ ክፍል እንሂድ - ደረጃ አሰጣጦች። ለግላዊነት ምክንያቶች የተጠቃሚዎቹን ሙሉ ቅጽል ስሞች አልሰጥም ፣ ማንም የሚፈልግ ፣ እራሱን የሚያውቅ ይመስለኛል።

የአስተያየቶች ብዛት ለዚህ አመት, ከፍተኛዎቹ 5 በ VoXXXX (3377 አስተያየቶች), 0xdXXXX (3286 አስተያየቶች), strXXXX (3043 አስተያየቶች), AmXXXX (2897 አስተያየቶች) እና khXXXX (2748 አስተያየቶች) ተይዘዋል.

የተቀበሉት ጥቅሞች ብዛት, ከፍተኛ 5 በ amXXXX (1395 አስተያየቶች, ደረጃዎች +3231/--309), tvXXXX (1544 አስተያየቶች, ደረጃ አሰጣጦች +3231/-97), WhuXXXX (921 አስተያየቶች, ደረጃ አሰጣጦች +2288/-13), MTXXXX (1328 አስተያየቶች, +1383 /-7) እና amaXXXX (736 አስተያየቶች፣ ደረጃ +1340/-16)።

ፍጹም አዎንታዊ ደረጃ አሰጣጥ (አንድ አይደለም አሉታዊ ደረጃ የተሰጠው አስተያየት) የላይኛው የላይኛው ክፍል ተይዟል ሚልፍጋርድ и ቡምቡረም. እንደ በስተቀር, እኔ ያላቸውን ቅጽል ሙሉ በሙሉ አቀርባለሁ, እኔ ይገባቸዋል ይመስለኛል.

ጉዳቶቹም አስደሳች ናቸው። ከላይ በ የተሰበሰቡ የመቀነስ ብዛት ለዚህ አመት በ siXX (473 pluses፣ 699 minuses)፣ khXX (1915 pluses፣ 573 minuses) እና nicXXXXX (456 pluses፣ 487 minuses) ተይዘዋል:: ግን እንደምታየው እነዚህ ተጠቃሚዎች በቂ አዎንታዊ አስተያየቶች አሏቸው። ግን እንደሚለው ፍጹም ሲቀነስ አንቲ አርዕስት vladXXXX (55 አስተያየቶች፣ 84 ተቀናሾች፣ 0 ፕላስ)፣ ekoXXXX (77 አስተያየቶች፣ 92 ቅነሳዎች፣ 1 ፕላስ) እና iMXXXX (225 አስተያየቶች፣ 205 ተቀናሾች፣ 12 ፕላስ) ያካትታል።

መደምደሚያ

የታቀደውን ሁሉ ማስላት አልቻልኩም, ግን አስደሳች ነበር ብዬ ተስፋ አደርጋለሁ.

እንደሚመለከቱት ፣ እንደዚህ ያሉ አነስተኛ ቁጥር ያላቸው መስኮች ያለው የውሂብ ስብስብ እንኳን ለመተንተን አስደሳች መረጃን ሊያቀርብ ይችላል። "የቃላት ደመና" ከመገንባት ጀምሮ እስከ ጽሑፍ ትንተና ድረስ ብዙ የሚቆፍሩ ነገሮች አሉ። ማንኛውም አስደሳች ውጤቶች ብቅ ካሉ, እነሱ ይታተማሉ.

ምንጭ: hab.com

አስተያየት ያክሉ