ProHoster > Blag > nuacht idirlín > Habrastatistics: iniúchadh a dhéanamh ar na codanna den láithreán is mó agus is lú a dtugtar cuairt orthu
Habrastatistics: iniúchadh a dhéanamh ar na codanna den láithreán is mó agus is lú a dtugtar cuairt orthu
Hey Habr.
В chuid roimhe Rinneadh anailís ar thrácht Habr de réir na bpríomhpharaiméadair - líon na n-alt, a dtuairimí agus a rátálacha. Mar sin féin, níor scrúdaíodh an cheist maidir le tóir na n-alt láithreáin. Bhí sé suimiúil breathnú ar seo níos mine agus teacht ar na moil is mó tóir agus is mó tóir. Ar deireadh, breathnóidh mé ar an éifeacht geektimes níos mine, ag críochnú le rogha nua de na hailt is fearr atá bunaithe ar rátálacha nua.
Dóibh siúd a bhfuil suim acu sa mhéid a tharla, tá an leanúint faoin gearrtha.
Cuir i gcuimhne duit arís eile nach bhfuil na staitisticí agus na rátálacha oifigiúla, nach bhfuil aon fhaisnéis chos istigh agam. Níl sé ráthaíocht freisin nach ndearna mé botún áit éigin nó gur chaill mé rud éigin. Ach fós, is dóigh liom go raibh sé suimiúil. Tosóimid leis an gcód ar dtús; is féidir leo siúd nach bhfuil suim acu ann dul thar na chéad ranna.
Bailiú sonraí
Sa chéad leagan den pharsálaí, níor cuireadh ach líon na dtuairimí, na dtuairimí agus na rátálacha alt san áireamh. Tá sé seo go maith cheana féin, ach ní cheadaíonn sé duit fiosrúcháin níos casta a dhéanamh. Tá sé in am anailís a dhéanamh ar ranna téamacha an tsuímh; ligfidh sé seo duit taighde an-suimiúil a dhéanamh, mar shampla, féachaint conas a d’athraigh an tóir a bhí ar an rannán “C++” le roinnt blianta anuas.
Tá parsálaí an ailt feabhsaithe, anois filleann sé na moil lena mbaineann an t-alt, chomh maith le leasainm an údair agus a rátáil (is féidir go leor rudaí suimiúla a dhéanamh anseo freisin, ach tiocfaidh sin níos déanaí). Sábháiltear na sonraí i gcomhad csv a bhfuil cuma mar seo air:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
Gheobhaidh muid liosta de phríomh-mhoil théamacha an tsuímh.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
Roghnaíonn an fheidhm find_between agus an rang Str teaghrán idir dhá chlib, d’úsáid mé iad níos luaithe. Tá moil théamacha marcáilte le "*" ionas gur féidir iad a aibhsiú go héasca, agus is féidir leat trácht a dhéanamh ar na línte comhfhreagracha freisin chun rannóga de chatagóirí eile a fháil.
Is liosta sách suntasach é aschur na feidhme get_hubs, a shábháilimid mar fhoclóir. Táim ag cur an liosta ina iomláine i láthair go sonrach ionas gur féidir leat a thoirt a mheas.
Caomhnaíodh na moil a bhí fágtha ar an mbealach céanna. Anois tá sé éasca feidhm a scríobh a thugann an toradh ar ais cibé an mbaineann an t-alt le geektimes nó le mol próifíle.
Taispeánaimid líon na n-alt foilsithe ag baint úsáide as Matplotlib:
Roinn mé na hailt “geektimes” agus “geektimes amháin” sa chairt, mar gheall ar Is féidir le halt a bheith sa dá chuid ag an am céanna (mar shampla, “DIY” + “microcontrollers” + “C++”). Bhain mé úsáid as an sonrúchán “próifíl” chun aird a tharraingt ar ailt phróifíle ar an suíomh, cé go mb’fhéidir nach bhfuil an téarma Béarla profile dó seo iomlán ceart.
Sa chuid roimhe seo chuireamar ceist faoin “éifeacht geektimes” a bhaineann leis an athrú ar na rialacha íocaíochta d'earraí geektimes ag tosú an samhradh seo. Taispeánaimis na hailt geektimes ar leithligh:
Tá an toradh suimiúil. Is é 1:5 an cóimheas tuairime ar ailt geektime leis an iomlán. Ach cé gur tháinig athrú suntasach ar líon iomlán na dtuairimí, d’fhan breathnú ar ailt “siamsaíochta” thart ar an leibhéal céanna.
Is féidir leat a thabhairt faoi deara freisin gur tháinig laghdú ar líon iomlán na n-amharc ar ailt sa rannán “geektimes” fós tar éis na rialacha a athrú, ach “go súl”, gan níos mó ná 5% de na luachanna iomlána.
Tá sé suimiúil breathnú ar an meánlíon tuairimí in aghaidh an ailt:
Maidir le hailt “siamsaíochta” tá sé thart ar 40% os cionn an mheáin. Is dócha nach ábhar iontais é seo. Níl an teip ag tús mhí Aibreáin soiléir dom, b’fhéidir gurb é sin a tharla, nó gur earráid parsála de shaghas éigin atá ann, nó b’fhéidir go ndeachaigh duine de na húdair geektimes ar saoire ;).
Dála an scéil, léiríonn an graf dhá bhuaic níos suntasaí i líon na dtuairimí ar earraí - an Bhliain Nua agus laethanta saoire na Bealtaine.
Moil
Gabhaimis ar aghaidh go dtí an anailís atá geallta ar na moil. Déanaimis liosta de na 20 mol is fearr de réir líon na n-amharc:
Ar ionadh, ba é “Slándáil Faisnéise” an mol ba mhó éileamh ó thaobh tuairimí de; chuimsigh na 5 cheannaire ba mhó freisin “Clárú” agus “Eolaíocht Choitianta”.
Áitíonn Antitop Gtk agus cócó.
Inseoidh mé rún duit, is féidir na moil barr a fheiceáil freisin anseo, cé nach léirítear líon na radharc ann.
Rátáil
Agus ar deireadh, an rátáil geallta. Agus sonraí anailíse moil á n-úsáid againn, is féidir linn na hailt is mó tóir a thaispeáint do na moil is mó tóir don bhliain 2019 seo.
Agus ar deireadh, ionas nach mbeidh aon duine ciontach, tabharfaidh mé rátáil an mhoil is lú cuairt “gtk”. Laistigh de bhliain foilsíodh é ceann Tá an chéad líne den rátáil ag an alt, atá “go huathoibríoch” freisin.