ProHoster > Blog > naidheachdan eadar-lìn > Habrastatistics: a’ sgrùdadh nan earrannan as motha agus as lugha air an deach tadhal air an làrach
Habrastatistics: a’ sgrùdadh nan earrannan as motha agus as lugha air an deach tadhal air an làrach
Hi Habr.
В pàirt roimhe Chaidh trafaic Habr a sgrùdadh a rèir nam prìomh chrìochan - an àireamh de artaigilean, am beachdan agus na rangachadh. Ach, bha a 'cheist mu cho mòr' sa tha na h-earrannan làraich fhathast gun sgrùdadh. Dh’ fhàs e inntinneach coimhead air seo ann am barrachd mionaideachd agus na mòr-ionadan as mòr-chòrdte agus as neo-chòrdte a lorg. Mu dheireadh, bheir mi sùil nas mionaidiche air buaidh geektimes, a’ crìochnachadh le taghadh ùr de na h-artaigilean as fheàrr stèidhichte air rangachadh ùra.
Dhaibhsan aig a bheil ùidh anns na thachair, tha an leantainn fon ghearradh.
Leig leam do chuimhneachadh a-rithist nach eil na staitistigean agus na rangachadh oifigeil, chan eil fiosrachadh taobh a-staigh agam. Chan eilear cinnteach cuideachd nach do rinn mi mearachd an àiteigin no gun do chaill mi rudeigin. Ach fhathast, tha mi a 'smaoineachadh gu robh e inntinneach. Tòisichidh sinn leis a’ chòd an toiseach; faodaidh an fheadhainn aig nach eil ùidh ann an seo na ciad earrannan a leum.
Cruinneachadh dàta
Anns a 'chiad dreach den parser, cha deach ach an àireamh de bheachdan, beachdan agus rangachadh artaigil a thoirt fa-near. Tha seo mar-thà math, ach chan eil e a 'leigeil leat ceistean nas iom-fhillte a dhèanamh. Tha an t-àm ann sgrùdadh a dhèanamh air earrannan cuspaireil na làraich; leigidh seo leat rannsachadh gu math inntinneach a dhèanamh, mar eisimpleir, faicinn mar a tha fèill na h-earrainn “C ++” air atharrachadh thar grunn bhliadhnaichean.
Chaidh parser an artaigil a leasachadh, a-nis tha e a’ tilleadh na mòr-ionadan dham buin an artaigil, a bharrachd air far-ainm an ùghdair agus an rangachadh aige (faodar tòrr rudan inntinneach a dhèanamh an seo cuideachd, ach thig sin nas fhaide air adhart). Tha an dàta air a shàbhaladh ann am faidhle csv a tha a’ coimhead rudeigin mar seo:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
Gheibh sinn liosta de phrìomh ionadan cuspaireil na làraich.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
Bidh an gnìomh find_between agus an clas Str a’ taghadh sreang eadar dà thaga, chleachd mi iad na bu thràithe. Tha mòr-ionadan cuspaireil air an comharrachadh le "*" gus an tèid an comharrachadh gu furasta, agus faodaidh tu cuideachd na loidhnichean co-fhreagarrach a thoirt seachad gus earrannan de roinnean eile fhaighinn.
Tha toradh na gnìomh get_hubs na liosta gu math drùidhteach, a shàbhaileas sinn mar fhaclair. Tha mi gu sònraichte a’ taisbeanadh an liosta gu h-iomlan gus an urrainn dhut tuairmse a dhèanamh air an tomhas-lìonaidh aige.
Chaidh na h-ionadan a bha air fhàgail a ghleidheadh san aon dòigh. A-nis tha e furasta gnìomh a sgrìobhadh a thilleas an toradh ge bith an ann le amannan geek no mòr-ionad ìomhaigh a tha an artaigil.
Bidh sinn a’ taisbeanadh an àireamh de artaigilean foillsichte a’ cleachdadh Matplotlib:
Roinn mi na h-artaigilean “geektimes” agus “geektimes a-mhàin” sa chairt, oir Faodaidh artaigil buntainn ris an dà roinn aig an aon àm (mar eisimpleir, “DIY” + “microcontrollers” + “C ++”). Chleachd mi an sònrachadh “profile” gus artaigilean ìomhaigh air an làrach a shoilleireachadh, ged is dòcha nach eil am facal Beurla profile airson seo gu tur ceart.
Anns a ’phàirt roimhe seo dh’ fhaighnich sinn mun “buaidh amannan geek” co-cheangailte ris an atharrachadh anns na riaghailtean pàighidh airson artaigilean airson amannan geek a ’tòiseachadh as t-samhradh. Nach seall sinn na h-artaigilean geektimes air leth:
Tha an toradh inntinneach. Tha an co-mheas tuairmseach de bheachdan air artaigilean amannan geek gu h-iomlan an àiteigin timcheall air 1: 5. Ach ged a bha an àireamh iomlan de bheachdan ag atharrachadh gu mòr, bha coimhead air artaigilean “cur-seachad” fhathast aig timcheall air an aon ìre.
Faodaidh tu cuideachd mothachadh gun do thuit an àireamh iomlan de bheachdan artaigilean anns an roinn “geektimes” fhathast às deidh na riaghailtean atharrachadh, ach “le sùil”, gun a bhith nas motha na 5% de na luachan iomlan.
Tha e inntinneach coimhead air an àireamh chuibheasach de bheachdan gach artaigil:
Airson artaigilean “fèisteas” tha e mu 40% os cionn na cuibheasachd. Is dòcha nach eil seo na iongnadh. Chan eil am fàiligeadh aig toiseach a’ Ghiblein soilleir dhomh, is dòcha gur e sin a thachair, no gur e mearachd parsaidh air choireigin a th’ ann, no is dòcha gun deach fear de na h-ùghdaran geektimes air saor-làithean ;).
Air an t-slighe, tha an graf a 'sealltainn dà stùc nas nochdte anns an àireamh de bheachdan artaigil - saor-làithean na Bliadhn' Ùire agus a 'Chèitein.
Mòr-ionadan
Gluaisidh sinn air adhart chun mhion-sgrùdadh a chaidh a ghealltainn air mòr-ionadan. Dèanamaid liosta de na prìomh ionadan 20 a rèir àireamh de bheachdan:
Gu h-iongantach, b’ e “Tèarainteachd Fiosrachaidh” am meadhan as mòr-chòrdte a thaobh bheachdan; bha na prìomh stiùirichean 5 cuideachd a’ toirt a-steach “Prògramadh” agus “Saidheans mòr-chòrdte”.
Tha Antitop ann an Gtk agus Cocoa.
Innsidh mi dìomhaireachd dhut, chithear na prìomh ionadan cuideachd an seo, ged nach eil an àireamh de bheachdan air a shealltainn an sin.
Rangachadh
Agus mu dheireadh, an ìre a chaidh a ghealltainn. A’ cleachdadh dàta mion-sgrùdadh mòr-ionad, is urrainn dhuinn na h-artaigilean as mòr-chòrdte a thaisbeanadh airson na mòr-ionadan as mòr-chòrdte airson na bliadhna seo 2019.
Agus mu dheireadh, gus nach bi duine ciontach, bheir mi seachad an ìre as lugha de thadhal air "gtk". Taobh a-staigh bliadhna chaidh fhoillseachadh одна Tha an artaigil, a tha cuideachd “gu fèin-ghluasadach” anns a’ chiad loidhne den rangachadh.