Habrastatistics: kuchunguza sehemu nyingi na zisizotembelewa sana za tovuti
Habari Habr.
Π sehemu iliyopita Trafiki ya Habr ilichambuliwa kulingana na vigezo kuu - idadi ya vifungu, maoni yao na makadirio. Walakini, suala la umaarufu wa sehemu za tovuti lilibaki bila kuchunguzwa. Ilikuwa ya kuvutia kuangalia hili kwa undani zaidi na kupata vibanda maarufu zaidi na visivyojulikana zaidi. Hatimaye, nitaangalia athari za geektimes kwa undani zaidi, na kumalizia na uteuzi mpya wa makala bora kulingana na nafasi mpya.
Kwa wale ambao wana nia ya kile kilichotokea, kuendelea ni chini ya kukata.
Acha nikukumbushe tena kwamba takwimu na makadirio sio rasmi, sina habari yoyote ya ndani. Pia haijahakikishiwa kuwa sikufanya makosa mahali fulani au kukosa kitu. Lakini bado, nadhani iligeuka kuvutia. Tutaanza na msimbo kwanza; wale ambao hawapendi hii wanaweza kuruka sehemu za kwanza.
Mkusanyiko wa data
Katika toleo la kwanza la kichanganuzi, ni idadi tu ya maoni, maoni na makadirio ya makala yalizingatiwa. Hii tayari ni nzuri, lakini haikuruhusu kufanya maswali magumu zaidi. Ni wakati wa kuchambua sehemu za mada za tovuti; hii itawawezesha kufanya utafiti wa kuvutia kabisa, kwa mfano, angalia jinsi umaarufu wa sehemu ya "C ++" imebadilika zaidi ya miaka kadhaa.
Kichanganuzi cha makala kimeboreshwa, sasa kinarejesha vibanda ambavyo makala hiyo ni mali, pamoja na jina la utani la mwandishi na ukadiriaji wake (mambo mengi ya kuvutia yanaweza kufanywa hapa, pia, lakini hiyo itakuja baadaye). Data imehifadhiwa katika faili ya csv ambayo inaonekana kama hii:
Tutapokea orodha ya vitovu vya mada kuu vya tovuti.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
Find_between kazi na darasa la Str chagua kamba kati ya vitambulisho viwili, nilitumia mapema. Vituo vya mada vimewekwa alama ya "*" ili viweze kuangaziwa kwa urahisi, na unaweza pia kutoa maoni kwa mistari inayolingana ili kupata sehemu za aina zingine.
Matokeo ya kitendakazi cha get_hubs ni orodha ya kuvutia, ambayo tunaihifadhi kama kamusi. Ninawasilisha orodha kwa ukamilifu ili uweze kukadiria kiasi chake.
Vituo vilivyobaki vilihifadhiwa kwa njia ile ile. Sasa ni rahisi kuandika chaguo za kukokotoa ambazo hurejesha matokeo ikiwa makala ni ya geektimes au kitovu cha wasifu.
Tunaonyesha idadi ya nakala zilizochapishwa kwa kutumia Matplotlib:
Niligawanya makala "nyakati za kijiografia" na "nyakati za geektiki pekee" kwenye chati, kwa sababu Makala yanaweza kuwa ya sehemu zote mbili kwa wakati mmoja (kwa mfano, "DIY" + "microcontrollers" + "C++"). Nilitumia jina la "wasifu" kuangazia makala ya wasifu kwenye tovuti, ingawa pengine neno wasifu la Kiingereza kwa hili si sahihi kabisa.
Katika sehemu iliyotangulia tuliuliza kuhusu "athari za nyakati za geektime" zinazohusiana na mabadiliko ya sheria za malipo ya makala za nyakati za geektime kuanzia msimu huu wa kiangazi. Wacha tuonyeshe nakala za nyakati za geek kando:
Matokeo yake ni ya kuvutia. Uwiano wa takriban wa maoni ya makala za geektimes kwa jumla ni mahali fulani karibu 1:5. Lakini ingawa jumla ya mara ambazo maoni yalitazamwa ilibadilika-badilika, utazamaji wa makala za "burudani" ulisalia katika takriban kiwango sawa.
Unaweza pia kutambua kwamba jumla ya idadi ya maoni ya makala katika sehemu ya "geektimes" bado ilipungua baada ya kubadilisha sheria, lakini "kwa jicho", kwa si zaidi ya 5% ya jumla ya maadili.
Inafurahisha kuangalia wastani wa idadi ya maoni kwa kila makala:
Kwa makala za "burudani" ni takriban 40% juu ya wastani. Labda hii haishangazi. Kushindwa mwanzoni mwa Aprili haijulikani kwangu, labda ndivyo ilivyotokea, au ni aina fulani ya makosa ya kuchanganua, au labda mmoja wa waandishi wa geektimes alikwenda likizo;).
Kwa njia, grafu inaonyesha kilele mbili zinazoonekana zaidi katika idadi ya maoni ya vifungu - likizo ya Mwaka Mpya na Mei.
Vitovu
Wacha tuendelee kwenye uchambuzi ulioahidiwa wa vibanda. Wacha tuorodheshe vituo 20 vya juu kwa idadi ya maoni:
Kwa kushangaza, kitovu maarufu zaidi katika suala la maoni kilikuwa "Usalama wa Habari" viongozi wa juu wa 5 pia walijumuisha "Programu" na "Sayansi Maarufu".
Antitop inamiliki Gtk na Cocoa.
Nitakuambia siri, vibanda vya juu vinaweza pia kuonekana hapa, ingawa idadi ya maoni haijaonyeshwa hapo.
Upimaji
Na hatimaye, rating iliyoahidiwa. Kwa kutumia data ya uchanganuzi wa kituo, tunaweza kuonyesha makala maarufu zaidi kwa vitovu maarufu kwa mwaka huu wa 2019.
Na mwishowe, ili hakuna mtu anayekasirika, nitatoa rating ya kitovu kisichotembelewa zaidi "gtk". Ndani ya mwaka mmoja ilichapishwa moja Nakala, ambayo pia "moja kwa moja" inachukua mstari wa kwanza wa ukadiriaji.