ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

ሃይ ሀብር።

ይህ ጽሑፍ አመክንዮአዊ የደረጃ አሰጣጡ ቀጣይ ነው። የ2018 ምርጥ የሀብር መጣጥፎች. እና አመቱ ገና ያላለቀ ቢሆንም, እንደሚያውቁት, በበጋው ወቅት በህጎቹ ላይ ለውጦች ነበሩ, ስለዚህ ይህ የሆነ ነገር ላይ ተጽዕኖ እንዳሳደረ ማየቱ አስደሳች ሆነ.

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

ከትክክለኛው ስታቲስቲክስ በተጨማሪ የዘመነ መጣጥፎች ደረጃ እና እንዲሁም እንዴት እንደሚሰራ ለሚፈልጉ አንዳንድ ምንጭ ኮድ ይቀርባል።

ለተፈጠረው ነገር ፍላጎት ላላቸው ሰዎች, ቀጣይነቱ በቆራጩ ስር ነው. የገጹን ክፍሎች በበለጠ ዝርዝር ትንታኔ የሚፈልጉ ሁሉ ማየት ይችላሉ። ቀጣይ ክፍል.

ጥሬ ውሂብ

ይህ ደረጃ መደበኛ ያልሆነ ነው፣ እና ምንም አይነት የውስጥ አዋቂ መረጃ የለኝም። የአሳሽዎን የአድራሻ አሞሌ በመመልከት በቀላሉ እንደሚመለከቱት፣ በሐበሬ ላይ ያሉ ሁሉም መጣጥፎች ተከታታይ ቁጥር አላቸው። ከዚያ የቴክኒካል ጉዳይ ነው, ሁሉንም መጣጥፎችን በአንድ ዑደት ውስጥ በቀላሉ እናነባለን (በአንድ ክር እና በአፍታ ማቆም, አገልጋዩን ላለመጫን). እሴቶቹ እራሳቸው የተገኙት በፓይዘን ውስጥ በቀላል ተንታኝ ነው (ምንጮች ይገኛሉ እዚህ) እና በ csv ፋይል ውስጥ እንደዚህ ያለ ነገር ተቀምጧል።

2019-08-11T22:36Z,https://habr.com/ru/post/463197/,"Blazor + MVVM = Silverlight наносит ответный удар, потому что древнее зло непобедимо",votes:11,votesplus:17,votesmin:6,bookmarks:40,views:5300,comments:73
2019-08-11T05:26Z,https://habr.com/ru/news/t/463199/,"В NASA испытали систему автономного управления одного микроспутника другим",votes:15,votesplus:15,votesmin:0,bookmarks:2,views:1700,comments:7

በመስራት ላይ

ለመተንተን Python፣ Pandas እና Matplotlib እንጠቀማለን። ለስታቲስቲክስ ፍላጎት የሌላቸው ሰዎች ይህንን ክፍል መዝለል እና በቀጥታ ወደ ጽሑፎቹ መሄድ ይችላሉ.

በመጀመሪያ የመረጃ ቋቱን ወደ ማህደረ ትውስታ መጫን እና ለተፈለገው አመት ውሂብ መምረጥ ያስፈልግዎታል.

import pandas as pd
import datetime
import matplotlib.dates as mdates
from matplotlib.ticker import FormatStrFormatter
from pandas.plotting import register_matplotlib_converters


df = pd.read_csv("habr.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
df['datetime'] = dates
year = 2019
df = df[(df['datetime'] >= pd.Timestamp(datetime.date(year, 1, 1))) & (df['datetime'] < pd.Timestamp(datetime.date(year+1, 1, 1)))]

print(df.shape)

በዚህ ዓመት (እስካሁን ባይጠናቀቅም) ይህ ጽሑፍ በሚጻፍበት ጊዜ, 12715 ጽሑፎች ታትመዋል. ለማነፃፀር ፣ ለ 2018 በሙሉ - 15904. በአጠቃላይ ፣ ብዙ - ይህ በቀን ወደ 43 ያህል መጣጥፎች ነው (እና ይህ በአዎንታዊ ደረጃ ብቻ ነው ፣ ምን ያህል አጠቃላይ መጣጥፎች አሉታዊ እንደሆኑ ወይም ተሰርዘዋል ፣ አንድ ሰው ብቻ ሊወርድ ይችላል) በመለየት መካከል ካሉ ክፍተቶች መገመት ወይም በግምት)።

ከመረጃ ቋቱ ውስጥ አስፈላጊዎቹን መስኮች እንምረጥ። እንደ መለኪያ የእይታዎች ብዛት፣ አስተያየቶች፣ የደረጃ እሴቶች እና የዕልባቶች ብዛት እንጠቀማለን።

def to_float(s):
    # "bookmarks:22" => 22.0
    num = ''.join(i for i in s if i.isdigit())
    return float(num)

def to_int(s):
    # "bookmarks:22" => 22
    num = ''.join(i for i in s if i.isdigit())
    return int(num)

def to_date(dt):
    return dt.date() 

date = dates.map(to_date, na_action=None)
views = df["views"].map(to_int, na_action=None)
bookmarks = df["bookmarks"].map(to_int, na_action=None)
votes = df["votes"].map(to_float, na_action=None)
votes_up = df["up"].map(to_float, na_action=None)
votes_down = df["down"].map(to_float, na_action=None)
comments = df["comments"].map(to_int, na_action=None)

df['date'] = date
df['views'] = views
df['votes'] = votes
df['bookmarks'] = bookmarks
df['up'] = votes_up
df['down'] = votes_down

አሁን ውሂቡ ወደ የውሂብ ስብስብ ተጨምሯል እና ልንጠቀምበት እንችላለን. ውሂቡን በቀን እንቧድነው እና አማካይ እሴቶቹን እንውሰድ።

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.median().reset_index()
grouped['counts'] = days_count['counts']
counts_per_day = grouped['counts'].values
counts_per_day_avg = grouped['counts'].rolling(window=20).mean()
view_per_day = grouped['views'].values
view_per_day_avg = grouped['views'].rolling(window=20).mean()
votes_per_day = grouped['votes'].values
votes_per_day_avg = grouped['votes'].rolling(window=20).mean()
bookmarks_per_day = grouped['bookmarks'].values
bookmarks_per_day_avg = grouped['bookmarks'].rolling(window=20).mean()

አሁን የሚያስደንቀው ክፍል ግራፎችን መመልከት መቻላችን ነው.

እ.ኤ.አ. በ 2019 በሀበሬ ላይ የሕትመትን ብዛት እንመልከት ።

import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (16, 8)
fig, ax = plt.subplots()

plt.bar(year_days, counts_per_day, label='Articles/day')
plt.plot(year_days, counts_per_day_avg, 'g-', label='Articles avg/day')
plt.xticks(rotation=45)
ax.xaxis.set_major_formatter(mdates.DateFormatter("%d-%m-%Y"))  
ax.xaxis.set_major_locator(mdates.MonthLocator(interval=1))
plt.legend(loc='best')
plt.tight_layout()
plt.show()

ውጤቱ አስደሳች ነው. እንደምታየው ሃብር በዓመቱ ውስጥ ትንሽ "ቋሊማ" ሆኗል. ምክንያቱን አላውቅም።

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

ለማነፃፀር ፣ 2018 ትንሽ ለስላሳ ይመስላል

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

በአጠቃላይ፣ በ2019 በግራፉ ላይ በታተሙት መጣጥፎች ላይ ምንም አይነት ከባድ መቀነስ አላየሁም። ከዚህም በላይ በተቃራኒው በበጋው ወቅት ትንሽ እንኳን የጨመረ ይመስላል.

ግን የሚቀጥሉት ሁለት ግራፎች ትንሽ የበለጠ ያሳዝኑኛል።

አማካይ የእይታዎች ብዛት በአንድ መጣጥፍ፡-

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

አማካኝ ደረጃ በየጽሁፉ፡-

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

እንደሚመለከቱት, በዓመቱ ውስጥ አማካይ የእይታዎች ብዛት በትንሹ ይቀንሳል. ይህ አዲስ መጣጥፎች በፍለጋ ሞተሮች ገና አልተጠቆሙም እና ብዙ ጊዜ የማይገኙ በመሆናቸው ሊገለጽ ይችላል። ነገር ግን በእያንዳንዱ መጣጥፍ አማካይ ደረጃ ማሽቆልቆሉ የበለጠ ለመረዳት የማይቻል ነው። ስሜቱ አንባቢዎች ብዙ መጣጥፎችን ለማየት ጊዜ እንደሌላቸው ወይም ለደረጃ አሰጣጡ ትኩረት አለመስጠታቸው ነው። ከደራሲው የሽልማት ፕሮግራም አንጻር, ይህ አዝማሚያ በጣም ደስ የማይል ነው.

በነገራችን ላይ ይህ በ 2018 አልተከሰተም, እና መርሃግብሩ ብዙ ወይም ያነሰ እኩል ነው.

ሃብራስታቲስቲክስ፡ ሀብር ያለ geektimes እንዴት እንደሚኖር

በአጠቃላይ የሀብት ባለቤቶች ሊያስቡበት የሚገባ ነገር አላቸው።

ግን ስለ አሳዛኝ ነገር አንነጋገር። በአጠቃላይ, ሃበር የበጋው ወቅት በተሳካ ሁኔታ "የተረፈ" ማለት እንችላለን, እና በጣቢያው ላይ ያሉ ጽሑፎች ቁጥር አልቀነሰም.

ደረጃ አሰጣጥ

አሁን፣ በእውነቱ፣ ደረጃ አሰጣጡ። ወደ ውስጥ ለገቡት እንኳን ደስ አለዎት. አንዴ በድጋሚ ላስታውስህ ደረጃው መደበኛ ያልሆነ፣ ምናልባት የሆነ ነገር አምልጦኝ ሊሆን ይችላል፣ እና አንዳንድ መጣጥፍ በእርግጠኝነት እዚህ መሆን ካለበት፣ ግን ካልሆነ፣ ይፃፉ፣ እኔ በእጅ እጨምራለሁ እንደ ደረጃ አሰጣጥ፣ በጣም አስደሳች ሆኖ ተገኘ ብዬ የማስበውን የተሰላ መለኪያዎችን እጠቀማለሁ።

ከፍተኛ ጽሑፎች በእይታ ብዛት

ለእይታዎች ጥምርታ ደረጃ በመስጠት ከፍተኛ መጣጥፎች

ከፍተኛ መጣጥፎች በአስተያየቶች እና እይታዎች ጥምርታ

በጣም አወዛጋቢ መጣጥፎች

ከፍተኛ ጽሑፎች ደረጃ በመስጠት

ዋና መጣጥፎች በዕልባቶች ብዛት

ከላይ በዕልባቶች እና እይታዎች ጥምርታ

ዋና መጣጥፎች በአስተያየቶች ብዛት

እና በመጨረሻም ፣ የመጨረሻው አለመውደዶች ብዛት አንቲtop

ኧረ ጥቂት ተጨማሪ አስደሳች ምርጫዎች አሉኝ፣ ግን አንባቢዎቹን አላሰለቸኝም።

መደምደሚያ

ደረጃውን ስሰራ ትኩረት የሚስቡ የሚመስሉ ሁለት ነጥቦችን ትኩረት ሰጥቻለሁ።

በመጀመሪያ ደረጃ፣ 60% የሚሆኑት የ"geektimes" ዘውግ መጣጥፎች ናቸው። በሚቀጥለው ዓመት ከእነሱ ያነሱ ይኖሩ እንደሆነ እና ስለ ቢራ ፣ ቦታ ፣ መድኃኒት ፣ ወዘተ ያሉ ጽሑፎች ሳይኖሩ ሀብር ምን እንደሚመስል አላውቅም። በእርግጠኝነት, አንባቢዎች የሆነ ነገር ያጣሉ. እስኪ እናያለን.

በሁለተኛ ደረጃ, ዋናዎቹ ዕልባቶች ያልተጠበቁ ከፍተኛ ጥራት ያላቸው ሆነው ተገኝተዋል. ይህ በስነ-ልቦና ለመረዳት የሚቻል ነው ፣ አንባቢዎች ለደረጃው ትኩረት ላይሰጡ ይችላሉ ፣ ግን ጽሑፉ ከሆነ ፍላጎት, ከዚያ ወደ ዕልባቶችዎ ይታከላል. እና እዚህ በጣም ጠቃሚ እና ከባድ መጣጥፎች ትልቁ ትኩረት እዚህ አለ። እኔ እንደማስበው የጣቢያው ባለቤቶች ይህንን ልዩ የጽሁፎች ምድብ እዚህ ሀበሬ ላይ ለመጨመር ከፈለጉ በዕልባቶች ብዛት እና በሽልማት ፕሮግራሙ መካከል ያለውን ግንኙነት በሆነ መንገድ ማሰብ አለባቸው።

እንደዚህ ያለ ነገር. መረጃ ሰጪ ነበር ብዬ ተስፋ አደርጋለሁ።

የጽሑፎቹ ዝርዝር ረጅም ሆነ ፣ ጥሩ ፣ ምናልባት ለበጎ ነው። መልካም ንባብ ለሁሉም።

ምንጭ: hab.com

አስተያየት ያክሉ