Otu m tụgharịrị Habr, akụkụ 1: trends

Mgbe Emechara Olivier nke Afọ Ọhụrụ, enweghị m ihe ọ bụla m ga-eme, ekpebiri m ibudata akụkọ niile sitere na Habrahabr (na nyiwe ndị metụtara ya) na kọmpụta m wee mee nyocha.

Ọ tụgharịrị bụrụ ọtụtụ akụkọ na-atọ ụtọ. Nke mbụ n'ime ha bụ mmepe nke usoro na isiokwu nke isiokwu n'ime afọ 12 nke saịtị ahụ dị. Dịka ọmụmaatụ, mgbanwe nke isiokwu ụfọdụ na-egosi nke ọma. Na-aga n'ihu n'okpuru ịkpụ.

Otu m tụgharịrị Habr, akụkụ 1: trends

Usoro nyocha

Iji ghọta ka Habr si malite, ọ dị mkpa ịgafe akụkọ ya niile wee wepụta ozi meta na ha (dịka ọmụmaatụ, ụbọchị). Ngafe ahụ dị mfe, n'ihi na njikọ nke akụkọ niile dị ka "habrahabr.ru/post/337722/", na ọnụ ọgụgụ ahụ akọwapụtara nke ọma n'usoro. N'ịmara na ọkwa ikpeazụ nwere ọnụọgụ dị ntakịrị karịa 350 puku, agara m naanị ids akwụkwọ niile nwere ike na akaghị (Python code):

import numpy as np
from multiprocessing import Pool
with Pool(100) as p:
    docs = p.map(download_document, np.arange(350000))

ọrụ download_document na-agbalị ibunye ibe ahụ na id kwekọrọ ma na-agbalị wepụ ozi bara uru na nhazi html.

import requests
from bs4 import BeautifulSoup

def download_document(pid):
    """ Download and process a Habr document and its comments """
    # выгрузка документа
    r = requests.get('https://habrahabr.ru/post/' +str(pid) + '/')
    # парсинг документа
    soup = BeautifulSoup(r.text, 'html5lib') # instead of html.parser
    doc = {}
    doc['id'] = pid
    if not soup.find("span", {"class": "post__title-text"}):
        # такое бывает, если статья не существовала или удалена
        doc['status'] = 'title_not_found'
    else:
        doc['status'] = 'ok'
        doc['title'] = soup.find("span", {"class": "post__title-text"}).text
        doc['text'] = soup.find("div", {"class": "post__text"}).text
        doc['time'] = soup.find("span", {"class": "post__time"}).text
        # create other fields: hubs, tags, views, comments, votes, etc.
        # ...
    # сохранение результата в отдельный файл
    fname = r'files/' + str(pid) + '.pkl'
    with open(fname, 'wb') as f:
        pickle.dump(doc, f)

N'oge usoro ntule ahụ, achọpụtara m ọtụtụ ihe ọhụrụ.

Nke mbụ, ha na-ekwu na ịmepụta usoro karịa cores na processor abaghị uru. Ma n'ọnọdụ m, ọ tụgharịrị na ihe mgbochi ahụ abụghị onye nrụpụta, mana netwọkụ, na usoro 100 na-arụ ọrụ ngwa ngwa karịa 4 ma ọ bụ, sịnụ, 20.

Nke abuo, na ụfọdụ posts enwere ngwakọta nke mkpụrụedemede pụrụ iche - dịka ọmụmaatụ, euphemisms dị ka "% & # @". Ọ tụgharịrị na html.parser, nke m na-eji na mbụ, na-emeghachi omume na nchikota &# na-egbu mgbu, na-ewere ya na mmalite nke html. M na-achọ ime anwansi ojii, mana ọgbakọ ahụ tụrụ aro na m nwere ike ịgbanwe nzacha ahụ.

Nke atọ, enwere m ike ibudata ha niile ma e wezụga akwụkwọ atọ. Antivirus m ehichapụrụ akwụkwọ ndị akpọrọ 65927, 162075 na 275987 ozugbo. Ndị a bụ akụkọ n'otu n'otu maka yinye javascripts na-ebudata pdf ọjọọ, ihe mgbapụta SMS n'ụdị nkwụnye ins maka ihe nchọgharị, yana saịtị CrashSafari.com, nke na-eziga iPhones ka ọ malitegharịa. Antivirus chọpụtara akụkọ ọzọ ka emechara, n'oge nyocha sistemu: biputere 338586 gbasara scripts na webụsaịtị ụlọ ahịa anụ ụlọ nke na-eji ihe nrụpụta onye ọrụ na-egwu cryptocurrency. Ya mere, anyị nwere ike iche na ọrụ nke antivirus zuru oke.

Enwere naanị ọkara nke akwụkwọ akụkọ "dị ndụ" - 166307 iberibe. Banyere ndị ọzọ, Habr na-enye nhọrọ "ibe ahụ agwụla, ehichapụ ma ọ bụ na ọ dịghị ma ọlị." Ọfọn, ihe ọ bụla nwere ike ime.

Ọrụ nka sochiri ibugo akụkọ: dịka ọmụmaatụ, ekwesịrị ịgbanwe ụbọchị mbipụta ya site na usoro "'December 21, 2006 na 10:47" gaa na nke ọkọlọtọ. datetime, na echiche "12,8k" - na 12800. N'oge a, ọtụtụ ihe ndị ọzọ pụtara. Nke kacha atọ ọchị metụtara ngụkọ votu na ụdị data: ụfọdụ posts ochie nwere oke int, ha nwetara 65535 votes.

Otu m tụgharịrị Habr, akụkụ 1: trends

N'ihi ya, ihe odide nke isiokwu (na-enweghị foto) were m 1.5 gigabytes, kwuru na meta ozi - ọzọ 3, na ihe dị ka otu narị megabyte - meta ozi banyere isiokwu. Enwere ike idobe nke a kpamkpam na RAM, nke bụụrụ m ihe ịtụnanya dị ụtọ.

Amalitere m inyocha akụkọ ọ bụghị site na ederede n'onwe ha, kama site na ozi meta: ụbọchị, mkpado, oghere, nlele na “mmasị”. O wee bụrụ na ya onwe ya nwekwara ike ikwu ọtụtụ ihe.

Usoro mmepe Habrahabr

Ebipụtala akụkọ dị na saịtị ahụ kemgbe 2006; kacha ike na 2008-2016.

Otu m tụgharịrị Habr, akụkụ 1: trends

Otu esi agụ akụkọ ndị a nke ọma n'oge dị iche iche adịghị mfe ịtụle. Ederede sitere na 2012 na nwata nwetara nkọwa na ọkwa dị ike karịa, mana ederede ọhụrụ nwere echiche na ibe edokọbara karịa. Metiriks ndị a mere otu ụzọ ahụ (ha dara ọkara) naanị otu ugboro, na 2015. Ikekwe, n'ọnọdụ nsogbu akụ na ụba na ndọrọ ndọrọ ọchịchị, uche nke ndị na-agụ akwụkwọ esiwo na blọọgụ IT gaa na okwu ndị na-egbu mgbu karị.

Otu m tụgharịrị Habr, akụkụ 1: trends

Na mgbakwunye na isiokwu ndị ahụ n'onwe ha, ebudatara m azịza nye ha. Enwere nde 6 kwuru, Otú ọ dị, a machibidoro 240 puku n'ime ha iwu ("UFO febatara wee bipụta ihe odide a ebe a"). Akụkụ bara uru nke nkọwa bụ na ha nwere stampụ oge. Site n'ịmụ oge ịza ajụjụ, ị nwere ike ịghọta nke ọma mgbe a na-agụ akụkọ.

Ọ tụgharịrị na ọtụtụ n'ime akụkọ a na-ede ma na-ekwu maka ebe site na elekere 10 ruo 20, ya bụ. na ụbọchị ọrụ nke Moscow. Nke a nwere ike ịpụta na a na-agụ Habr maka ebumnuche ọkachamara, yana na ọ bụ ụzọ dị mma isi kwụsịtụ n'ọrụ. Site n'ụzọ, nkesa oge nke ụbọchị a kwụsiri ike kemgbe a tọrọ ntọala Habr ruo taa.

Otu m tụgharịrị Habr, akụkụ 1: trends

Otú ọ dị, uru bụ isi nke stampụ oge nkọwa abụghị oge nke ụbọchị, kama "ndụ na-arụ ọrụ" nke isiokwu ahụ. M gbakọrọ otú e si kesaa oge site na mbipụta nke isiokwu ruo n'okwu ya. Ọ tụgharịrị na ugbu a okwu etiti (akara ndụ ndụ) na-abịa n'ihe dị ka awa 20, ya bụ. N'ụbọchị mbụ ka e bipụtasịrị, ná nkezi, a hapụrụ ntakịrị ihe karịrị ọkara nke ihe niile e kwuru n'isiokwu. Na n'ime ụbọchị abụọ, 75% nke nkwupụta niile fọdụrụ. Ọzọkwa, a na-agụ akụkọ ndị mbụ ọbụna ngwa ngwa - dịka ọmụmaatụ, na 2010, ọkara nke nkwupụta bịara n'ime awa 6 mbụ.

Otu m tụgharịrị Habr, akụkụ 1: trends

Ọ tụrụ m n'anya na nkwupụta adịla ogologo: nkezi ọnụọgụ mkpụrụedemede na nkwupụta fọrọ nke nta ka ọ bụrụ okpukpu abụọ n'oge ịdị adị nke Habr!

Otu m tụgharịrị Habr, akụkụ 1: trends

Nzaghachi dị mfe karịa nzaghachi bụ ntuli aka. N'adịghị ka ọtụtụ ihe ndị ọzọ, na Habré ị nwere ike itinye ọ bụghị naanị uru, kamakwa ọgbaghara. Otú ọ dị, ndị na-agụ akwụkwọ anaghị eji ohere ikpeazụ eme ihe ugboro ugboro: òkè nke enweghị mmasị ugbu a bụ ihe dịka 15% nke ntuli aka niile. A na-enwebu ihe ndị ọzọ, ma ka oge na-aga, ndị na-agụ akwụkwọ bịara nwee obiọma.

Otu m tụgharịrị Habr, akụkụ 1: trends

Ihe odide ndị ahụ n'onwe ha gbanwere ka oge na-aga. Dịka ọmụmaatụ, ogologo ogologo ederede akwụsịbeghị itolite nke ọma kemgbe mmalite saịtị ahụ, n'agbanyeghị ọgba aghara. N'ime afọ iri, ihe odide adịla ihe fọrọ nke nta ka ọ bụrụ okpukpu iri karịa!

Otu m tụgharịrị Habr, akụkụ 1: trends

Ụdị nke ederede (ruo nso nso nke mbụ) agbanwekwara. N'ime afọ ndị mbụ nke Habr dị, dịka ọmụmaatụ, òkè nke koodu na ọnụọgụgụ n'ime ederede mụbara:

Otu m tụgharịrị Habr, akụkụ 1: trends

N'ịghọta ihe na-eme n'ozuzu nke saịtị ahụ, ekpebiri m ịlele otú ewu ewu nke isiokwu dị iche iche si gbanwee. Enwere ike ịmata isiokwu site na ederede na-akpaghị aka, mana ịmalite, ị nweghị ike ịmegharị wiil ahụ, mana jiri mkpado emebere nke ndị dere edemede ọ bụla gbakwunyere. Egosiri m usoro anọ na-ahụkarị na eserese ahụ. Isiokwu "Google" na mbụ na-achịkwa (ikekwe ọ bụ n'ihi njikarịcha SEO), mana ọ na-efunahụ ibu kwa afọ. Javascript abụrụla isiokwu na-ewu ewu ma na-aga n'ihu, mana mmụta igwe amalitela na-ewu ewu ngwa ngwa n'afọ ndị na-adịbeghị anya. Linux ka dịkwa mkpa n'ime afọ iri.

Otu m tụgharịrị Habr, akụkụ 1: trends

N'ezie, enwere m mmasị na isiokwu ndị na-adọtakwu ọrụ ndị na-agụ akwụkwọ. Agwara m ọnụọgụ nlele, votu na nkọwa maka isiokwu ọ bụla. Nke a bụ ihe mere:

  • Isiokwu ndị a kacha elere anya: arduino, imewe webụ, mmepe webụ, mgbari, njikọ, css, html, html5, nginx, algọridim.
  • Isiokwu “masịrị” nke ukwuu: VKontakte, ọchị, jquery, opera, c, HTML, mmepe weebụ, HTML5, css, imewe webụ.
  • Isiokwu ndị a kacha atụle: opera, skype, freelancing, VKontakte, ubuntu, work, nokia, nginx, arduino, firefox.

Site n'ụzọ, ebe m na-atụnyere isiokwu, enwere m ike ịhazi ha site na ugboro ole (ma tụnyere nsonaazụ ya akụkọ yiri nke ahụ sitere na 2013).

  • N'ime afọ nke ịdị adị Habr, mkpado kachasị ewu ewu (na-agbadata n'usoro) bụ google, android, javascript, microsoft, linux, php, apple, java, python, mmemme, mmalite, mmepe, ios, mmalite, netwọkụ mmekọrịta.
  • Na 2017, ndị kacha ewu ewu bụ javascript, Python, java, android, development, linux, c++, mmemme, php, c#, ios, mmụta igwe, nchekwa ozi, microsoft, react

Mgbe ị na-atụnyere ọkwa ndị a, ị nwere ike ịṅa ntị, dịka ọmụmaatụ, na njem mmeri nke Python na mkpochapụ nke php, ma ọ bụ na "mbelata" nke isiokwu mmalite na ịrị elu nke mmụta igwe.

Ọ bụghị mkpado niile na Habré nwere agba agba agba doro anya. Ebe a, dịka ọmụmaatụ, bụ mkpado iri na abụọ pụtara naanị otu ugboro, mana ọ dị m ka ọ na-akpa ọchị. Yabụ: "echiche bụ injin nke agamnihu", "ịba na onyonyo floppy diski", "steeti Iowa", "ihe nkiri", "superalesha", "team engine", "ihe a ga-eme na Satọde", "M nwee nkịta ọhịa na grinder", "ma ọ tụgharịrị dị ka mgbe niile," "anyị enweghị ike iwepụta mkpado na-atọ ọchị." Iji chọpụta isiokwu nke isiokwu ndị dị otú ahụ, mkpado ezughị - ị ga-eme ihe ngosi isiokwu na ederede nke isiokwu.

Nyocha zuru ezu nke ọdịnaya nke akụkọ ga-adị na post na-esote. Nke mbụ, m ga-ewu ihe nlereanya na-ebu amụma ọnụ ọgụgụ echiche nke isiokwu ga-enweta dabere na ọdịnaya ya. Nke abuo, ọ ga-amasị m ịkụziri netwọk akwara ka ha mepụta ederede n'otu ụdị nke ndị dere Habr. Yabụ denye aha :)

PS Ma ebe a ka edere ya dataset.

isi: www.habr.com

Tinye a comment