హబ్రాస్టాటిస్టిక్స్: సైట్లో అత్యధికంగా మరియు తక్కువగా సందర్శించే విభాగాలను అన్వేషించడం
హలో, హబ్ర్.
В మునుపటి భాగం హబ్ర్ యొక్క ట్రాఫిక్ ప్రధాన పారామితుల ప్రకారం విశ్లేషించబడింది - కథనాల సంఖ్య, వాటి వీక్షణలు మరియు రేటింగ్లు. అయినప్పటికీ, సైట్ విభాగాల యొక్క ప్రజాదరణ సమస్య పరిశీలించబడలేదు. దీన్ని మరింత వివరంగా చూడటం మరియు అత్యంత ప్రజాదరణ పొందిన మరియు అత్యంత ప్రజాదరణ లేని కేంద్రాలను కనుగొనడం ఆసక్తికరంగా మారింది. చివరగా, నేను గీక్టైమ్స్ ప్రభావాన్ని మరింత వివరంగా పరిశీలిస్తాను, కొత్త ర్యాంకింగ్ల ఆధారంగా ఉత్తమ కథనాల యొక్క కొత్త ఎంపికతో ముగుస్తుంది.
ఏమి జరిగిందో ఆసక్తి ఉన్నవారికి, కొనసాగింపు కట్ కింద ఉంది.
గణాంకాలు మరియు రేటింగ్లు అధికారికం కాదని, నా దగ్గర అంతర్గత సమాచారం లేదని మరోసారి గుర్తు చేస్తున్నాను. నేను ఎక్కడా తప్పు చేయలేదని లేదా ఏదో కోల్పోలేదని కూడా హామీ ఇవ్వలేదు. కానీ ఇప్పటికీ, ఇది ఆసక్తికరంగా మారిందని నేను భావిస్తున్నాను. మేము మొదట కోడ్తో ప్రారంభిస్తాము; దీనిపై ఆసక్తి లేని వారు మొదటి విభాగాలను దాటవేయవచ్చు.
వివరాల సేకరణ
పార్సర్ యొక్క మొదటి సంస్కరణలో, వీక్షణల సంఖ్య, వ్యాఖ్యలు మరియు కథనం రేటింగ్లు మాత్రమే పరిగణనలోకి తీసుకోబడ్డాయి. ఇది ఇప్పటికే మంచిది, కానీ ఇది మరింత క్లిష్టమైన ప్రశ్నలను చేయడానికి మిమ్మల్ని అనుమతించదు. సైట్ యొక్క నేపథ్య విభాగాలను విశ్లేషించడానికి ఇది సమయం; ఇది చాలా ఆసక్తికరమైన పరిశోధన చేయడానికి మిమ్మల్ని అనుమతిస్తుంది, ఉదాహరణకు, "C++" విభాగం యొక్క ప్రజాదరణ చాలా సంవత్సరాలుగా ఎలా మారిందో చూడండి.
కథనం పార్సర్ మెరుగుపరచబడింది, ఇప్పుడు ఇది కథనానికి చెందిన హబ్లను అలాగే రచయిత మారుపేరు మరియు అతని రేటింగ్ను తిరిగి అందిస్తుంది (ఇక్కడ చాలా ఆసక్తికరమైన విషయాలు కూడా చేయవచ్చు, కానీ అది తరువాత వస్తుంది). డేటా ఇలా కనిపించే csv ఫైల్లో సేవ్ చేయబడింది:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
మేము సైట్ యొక్క ప్రధాన నేపథ్య కేంద్రాల జాబితాను అందుకుంటాము.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
find_between ఫంక్షన్ మరియు Str క్లాస్ రెండు ట్యాగ్ల మధ్య స్ట్రింగ్ను ఎంచుకుంటాను, నేను వాటిని ఉపయోగించాను ముందు. థీమాటిక్ హబ్లు "*"తో గుర్తించబడతాయి కాబట్టి వాటిని సులభంగా హైలైట్ చేయవచ్చు మరియు ఇతర వర్గాల విభాగాలను పొందడానికి మీరు సంబంధిత లైన్లను కూడా అన్కామెంట్ చేయవచ్చు.
get_hubs ఫంక్షన్ యొక్క అవుట్పుట్ చాలా ఆకట్టుకునే జాబితా, దీనిని మేము నిఘంటువుగా సేవ్ చేస్తాము. మీరు దాని వాల్యూమ్ను అంచనా వేయడానికి నేను ప్రత్యేకంగా జాబితాను పూర్తిగా ప్రదర్శిస్తున్నాను.
మిగిలిన హబ్లు అదే విధంగా భద్రపరచబడ్డాయి. ఇప్పుడు వ్యాసం గీక్టైమ్లకు చెందినదైనా లేదా ప్రొఫైల్ హబ్కి చెందినదైనా ఫలితాన్ని అందించే ఫంక్షన్ను వ్రాయడం సులభం.
మేము Matplotlib ఉపయోగించి ప్రచురించిన కథనాల సంఖ్యను ప్రదర్శిస్తాము:
నేను చార్ట్లో “గీక్టైమ్లు” మరియు “గీక్టైమ్లు మాత్రమే” కథనాలను విభజించాను, ఎందుకంటే ఒక కథనం ఒకే సమయంలో రెండు విభాగాలకు చెందినది కావచ్చు (ఉదాహరణకు, “DIY” + “మైక్రోకంట్రోలర్లు” + “C++”). నేను సైట్లోని ప్రొఫైల్ కథనాలను హైలైట్ చేయడానికి “ప్రొఫైల్” అనే హోదాను ఉపయోగించాను, అయినప్పటికీ దీనికి సంబంధించిన ఆంగ్ల పదం ప్రొఫైల్ పూర్తిగా సరైనది కాదు.
మునుపటి భాగంలో మేము ఈ వేసవి నుండి ప్రారంభమయ్యే గీక్టైమ్ల కథనాల చెల్లింపు నియమాలలో మార్పుతో అనుబంధించబడిన “గీక్టైమ్స్ ప్రభావం” గురించి అడిగాము. గీక్టైమ్స్ కథనాలను విడిగా ప్రదర్శిస్తాం:
ఫలితం ఆసక్తికరంగా ఉంది. గీక్టైమ్స్ కథనాల వీక్షణల మొత్తం నిష్పత్తికి దాదాపుగా దాదాపు 1:5 నిష్పత్తి ఉంది. అయితే మొత్తం వీక్షణల సంఖ్య గణనీయంగా హెచ్చుతగ్గులకు లోనైనప్పటికీ, “వినోదం” కథనాల వీక్షణ దాదాపు అదే స్థాయిలో ఉంది.
నిబంధనలను మార్చిన తర్వాత కూడా “గీక్టైమ్లు” విభాగంలోని కథనాల మొత్తం వీక్షణల సంఖ్య తగ్గిందని మీరు గమనించవచ్చు, అయితే “కంటి ద్వారా”, మొత్తం విలువలలో 5% కంటే ఎక్కువ తగ్గలేదు.
ఒక్కో కథనానికి సగటు వీక్షణల సంఖ్యను చూడటం ఆసక్తికరంగా ఉంటుంది:
"వినోదం" కథనాలకు ఇది సగటు కంటే 40% ఎక్కువ. ఇది బహుశా ఆశ్చర్యం కలిగించదు. ఏప్రిల్ ప్రారంభంలో వైఫల్యం నాకు అపారమయినది, బహుశా అదే జరిగింది, లేదా ఇది ఒక రకమైన పార్సింగ్ లోపం కావచ్చు, లేదా గీక్టైమ్స్ రచయితలలో ఒకరు సెలవులో వెళ్లి ఉండవచ్చు;).
మార్గం ద్వారా, గ్రాఫ్ కథనాల వీక్షణల సంఖ్యలో మరో రెండు గుర్తించదగిన శిఖరాలను చూపుతుంది - నూతన సంవత్సరం మరియు మే సెలవులు.
కేంద్రాలు
హబ్ల వాగ్దానం చేసిన విశ్లేషణకు వెళ్దాం. వీక్షణల సంఖ్య ఆధారంగా టాప్ 20 హబ్లను జాబితా చేద్దాం:
ఆశ్చర్యకరంగా, వీక్షణల పరంగా అత్యంత ప్రజాదరణ పొందిన కేంద్రం "సమాచార భద్రత"; టాప్ 5 లీడర్లలో "ప్రోగ్రామింగ్" మరియు "పాపులర్ సైన్స్" కూడా ఉన్నాయి.
Antitop Gtk మరియు కోకోను ఆక్రమించింది.
నేను మీకు ఒక రహస్యం చెబుతాను, అగ్ర కేంద్రాలను కూడా చూడవచ్చు ఇక్కడ, వీక్షణల సంఖ్య అక్కడ చూపబడనప్పటికీ.
రేటింగ్
చివరకు, వాగ్దానం చేసిన రేటింగ్. హబ్ విశ్లేషణ డేటాను ఉపయోగించి, మేము ఈ సంవత్సరం 2019లో అత్యంత జనాదరణ పొందిన హబ్ల కోసం అత్యంత ప్రజాదరణ పొందిన కథనాలను ప్రదర్శించవచ్చు.
చివరకు, ఎవరూ బాధపడకుండా ఉండటానికి, నేను కనీసం సందర్శించే హబ్ “gtk” రేటింగ్ ఇస్తాను. ఒక సంవత్సరం లోపు అది ప్రచురించబడింది ఒకటి "స్వయంచాలకంగా" కూడా రేటింగ్ యొక్క మొదటి పంక్తిని ఆక్రమించిన వ్యాసం.