ProHoster > Blog > netfréttir > Habrastatistics: kanna mest og minnst heimsóttu hluta síðunnar
Habrastatistics: kanna mest og minnst heimsóttu hluta síðunnar
Hæ Habr.
В fyrri hluta Umferð Habr var greind eftir helstu breytum - fjölda greina, skoðunum þeirra og einkunnum. Hins vegar var spurningin um vinsældir síðuhlutanna órannsökuð. Það varð áhugavert að skoða þetta nánar og finna vinsælustu og óvinsælustu miðstöðina. Að lokum mun ég skoða áhrif geektimes nánar, endar með nýju úrvali af bestu greinunum byggðum á nýjum röðum.
Fyrir þá sem hafa áhuga á því sem gerðist er framhaldið í skorðum.
Ég vil enn og aftur minna þig á að tölfræði og einkunnir eru ekki opinberar, ég hef engar innherjaupplýsingar. Það er heldur ekki tryggt að ég hafi ekki gert mistök einhvers staðar eða misst af einhverju. En samt held ég að þetta hafi verið áhugavert. Við byrjum fyrst á kóðanum; þeir sem ekki hafa áhuga á þessu geta sleppt fyrstu hlutunum.
Gagnasafn
Í fyrstu útgáfu greinarans var aðeins tekið tillit til fjölda skoðana, athugasemda og greinaeinkunna. Þetta er nú þegar gott, en það leyfir þér ekki að gera flóknari fyrirspurnir. Það er kominn tími til að greina þemahluta síðunnar; þetta gerir þér kleift að gera nokkuð áhugaverðar rannsóknir, til dæmis, sjá hvernig vinsældir „C++“ hlutans hafa breyst á nokkrum árum.
Greinarþátturinn hefur verið endurbættur, nú skilar hann þeim miðstöðvum sem greinin tilheyrir, svo og gælunafni höfundar og einkunn hans (margt áhugavert er hægt að gera hér líka, en það kemur síðar). Gögnin eru vistuð í csv skrá sem lítur eitthvað svona út:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
Við munum fá lista yfir helstu þemamiðstöðvar síðunnar.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
Find_between fallið og Str flokkurinn velja streng á milli tveggja merkja, ég notaði þau áðan. Þemamiðstöðvar eru merktar með „*“ svo auðvelt sé að auðkenna þær, og þú getur líka afskrifað samsvarandi línur til að fá hluta úr öðrum flokkum.
Úttak get_hubs fallsins er nokkuð áhrifamikill listi, sem við vistum sem orðabók. Ég er sérstaklega að kynna listann í heild sinni svo þú getir metið magn hans.
Höfuðstöðvarnar sem eftir voru voru varðveittar á sama hátt. Nú er auðvelt að skrifa fall sem skilar niðurstöðunni hvort sem greinin tilheyrir geektimes eða prófílmiðstöð.
Ég skipti greinunum „geektimes“ og „geektimes only“ í töfluna, vegna þess að Grein getur tilheyrt báðum hlutum á sama tíma (til dæmis „DIY“ + „örstýringar“ + „C++“). Ég notaði tilnefninguna „prófíl“ til að varpa ljósi á prófílgreinar á síðunni, þó kannski sé enska hugtakið profile fyrir þetta ekki alveg rétt.
Í fyrri hlutanum var spurt um „geektime effect“ sem tengist breytingu á greiðslureglum fyrir greinar fyrir nördatíma sem hefjast í sumar. Sýnum geektimes greinarnar sérstaklega:
Niðurstaðan er áhugaverð. Áætlað hlutfall áhorfa á geektimes greinar af heildarfjölda er einhvers staðar í kringum 1:5. En þó að heildarfjöldi áhorfa hafi sveiflast verulega, hélst áhorf á „skemmtigreinar“ á nokkurn veginn sama stigi.
Þú getur líka tekið eftir því að heildarfjöldi áhorfa á greinar í „geektime“ hlutanum féll enn eftir að reglunum var breytt, en „með auga“ um ekki meira en 5% af heildargildunum.
Það er áhugavert að skoða meðalfjölda skoðana á hverja grein:
Fyrir „skemmtun“ greinar er það um 40% yfir meðallagi. Þetta kemur líklega ekki á óvart. Bilunin í byrjun apríl er mér óljós, kannski er það það sem gerðist, eða það er einhvers konar þáttunarvilla, eða kannski fór einn af geektime höfundunum í frí ;).
Við the vegur, línuritið sýnir tvo fleiri áberandi toppa í fjölda áhorfa á greinar - áramót og maí frí.
Hubs
Við skulum halda áfram að lofaðri greiningu á miðstöðvum. Við skulum lista 20 efstu miðstöðvarnar eftir fjölda áhorfa:
Það kemur á óvart að vinsælasta miðstöðin hvað varðar skoðanir var „upplýsingaöryggi“; efstu 5 leiðtogarnir voru einnig „forritun“ og „vinsæld vísindi“.
Antitop hernema Gtk og Kakó.
Ég skal segja þér leyndarmál, efstu miðstöðvarnar má líka sjá hér, þó fjöldi skoðana sé ekki sýndur þar.
Einkunn
Og að lokum, lofað einkunn. Með því að nota gagnagrunnsgreiningargögn getum við birt vinsælustu greinarnar fyrir vinsælustu miðstöðvarnar fyrir þetta ár 2019.
Og að lokum, svo að enginn móðgist, mun ég gefa einkunnina fyrir minnst heimsótta miðstöðina „gtk“. Innan árs kom hún út einn Greinin, sem einnig „sjálfkrafa“ tekur fyrstu línu einkunnarinnar.