Yadda na fassara Habr, sashi na 1: trends

Lokacin da Olivier na Sabuwar Shekara ya ƙare, babu abin da zan yi, kuma na yanke shawarar zazzage duk labaran daga Habrahabr (da dandamali masu alaƙa) zuwa kwamfuta ta kuma bincika.

Akwai labarai masu ban sha'awa da yawa. Na farko daga cikinsu shi ne ci gaban tsari da batutuwan labaran cikin shekaru 12 na wanzuwar shafin. Misali, sauye-sauyen wasu batutuwa na nuni da gaske. Ci gaba - a ƙarƙashin yanke.

Yadda na fassara Habr, sashi na 1: trends

Tsarin bincike

Don fahimtar yadda Habr ya ci gaba, ya zama dole a bi duk kasidunsa kuma a fitar da bayanan meta daga cikinsu (misali, kwanakin). Hanyar wucewa ta kasance mai sauƙi, saboda hanyoyin haɗin yanar gizo zuwa duk labaran suna kama da "habrahabr.ru/post/337722/", kuma ana ba da lambobin daidai gwargwado. Sanin cewa post ɗin ƙarshe yana da lamba kaɗan ƙasa da dubu 350, kawai na bi duk id ɗin da zai yiwu a cikin madauki (Python code):

import numpy as np
from multiprocessing import Pool
with Pool(100) as p:
    docs = p.map(download_document, np.arange(350000))

aiki download_document yayi ƙoƙarin loda shafin tare da madaidaicin id kuma yayi ƙoƙarin cire bayanai masu ma'ana daga tsarin html.

import requests
from bs4 import BeautifulSoup

def download_document(pid):
    """ Download and process a Habr document and its comments """
    # выгрузка документа
    r = requests.get('https://habrahabr.ru/post/' +str(pid) + '/')
    # парсинг документа
    soup = BeautifulSoup(r.text, 'html5lib') # instead of html.parser
    doc = {}
    doc['id'] = pid
    if not soup.find("span", {"class": "post__title-text"}):
        # такое бывает, если статья не существовала или удалена
        doc['status'] = 'title_not_found'
    else:
        doc['status'] = 'ok'
        doc['title'] = soup.find("span", {"class": "post__title-text"}).text
        doc['text'] = soup.find("div", {"class": "post__text"}).text
        doc['time'] = soup.find("span", {"class": "post__time"}).text
        # create other fields: hubs, tags, views, comments, votes, etc.
        # ...
    # сохранение результата в отдельный файл
    fname = r'files/' + str(pid) + '.pkl'
    with open(fname, 'wb') as f:
        pickle.dump(doc, f)

A cikin aikin tantancewa, na gano sabbin abubuwa da yawa.

Na farko, sun ce samar da ƙarin matakai fiye da yadda ake samu a cikin na'ura mai sarrafawa ba shi da amfani. Amma a cikin akwati na, ya juya cewa iyakance albarkatun ba shine mai sarrafawa ba, amma cibiyar sadarwa, kuma tsarin 100 yana aiki da sauri fiye da 4 ko, a ce, 20.

Na biyu, a wasu sakonnin akwai haduwar haruffa na musamman - alal misali, lamuni kamar "%& # @". Sai ya zama haka html.parser, wanda na fara amfani da shi, yana amsawa ga haɗuwa &# mai raɗaɗi, la'akari da shi farkon mahallin html. Na riga na yi baƙar sihiri, amma dandalin ya ba da shawarar cewa za ku iya canza parser kawai.

Na uku, na yi nasarar sauke duka littattafai, ban da guda uku. Takaddun bayanai masu lamba 65927, 162075, da 275987 na riga na goge nan take. Waɗannan labarai ne, bi da bi, game da sarkar javascript da ke zazzage pdf muguwar, ransomware na SMS a cikin nau'i na plugins na burauza, da shafin CrashSafari.com wanda ke aika iPhones zuwa sake yi. Antivirus gano wani labarin daga baya, a lokacin da tsarin scan: post 338586 game da rubutun a kan Pet store website cewa amfani da mai amfani processor to mine cryptocurrency. Don haka za mu iya la'akari da aikin riga-kafi ya isa sosai.

Labarun "Rayuwa" sun kasance kawai rabin matsakaicin iyakar - 166307 guda. Game da sauran, Habr yana ba da zaɓuɓɓuka "shafin ya tsufa, an share shi ko babu shi gaba ɗaya." To, komai na iya faruwa.

Aikin fasaha ya biyo bayan loda labaran: alal misali, kwanakin da aka buga dole ne a canza su daga tsarin "'21 Disamba 2006 da 10:47 na safe" zuwa daidaitaccen tsari. datetime, da kuma "12,8k" ra'ayoyi - a cikin 12800. A wannan mataki, wasu ƙananan abubuwan da suka faru sun fito. Mafi ban dariya wanda ke da alaƙa da kirga kuri'u da nau'ikan bayanai: wasu tsoffin posts sun cika int kuma sun sami kuri'u 65535 kowanne.

Yadda na fassara Habr, sashi na 1: trends

A sakamakon haka, da rubutu na articles (ba tare da hotuna) dauki ni 1.5 gigabytes, comments tare da meta-bayanan - wani 3, da kuma game da ɗari megabytes - meta-bayanai game da articles. Ana iya adana wannan gaba ɗaya a cikin RAM, wanda ya ba ni mamaki mai daɗi.

Na fara nazarin labaran ba daga rubutun kansu ba, amma daga bayanan meta: kwanan wata, tags, cibiyoyi, ra'ayoyi da abubuwan so. Sai ya zama cewa ta iya fada da yawa.

Habrahabr Development Trends

An buga labaran kan shafin tun 2006; mafi tsananin - a cikin 2008-2016.

Yadda na fassara Habr, sashi na 1: trends

Yadda aka karanta waɗannan labaran sosai a lokuta daban-daban ba shi da sauƙin tantancewa. Rubutu daga 2012 zuwa ƙarami sun sami ƙarin sharhi da ƙima, amma sabbin rubutu suna da ƙarin ra'ayoyi da alamun shafi. Waɗannan ma'auni sun yi daidai da hanya (rabi) sau ɗaya kawai, a cikin 2015. Wataƙila, a cikin halin da ake ciki na tattalin arziki da rikicin siyasa, hankalin masu karatu ya tashi daga shafukan IT zuwa wasu batutuwa masu raɗaɗi.

Yadda na fassara Habr, sashi na 1: trends

Baya ga labaran da kansu, na zazzage masu karin sharhi. Akwai sharhi miliyan 6, duk da haka, an dakatar da 240 dubu daga cikinsu ("UFO ya tashi ya buga wannan rubutun a nan"). Abubuwan da ke da amfani na sharhi shine cewa suna da tambarin lokaci. Ta yin nazarin lokacin sharhi, za ku iya fahimtar sosai lokacin da aka karanta labarai kwata-kwata.

Ya bayyana cewa yawancin labaran an rubuta su kuma ana yin sharhi a wani wuri daga karfe 10 na safe zuwa 20 na dare, watau. a kan al'ada Moscow aiki ranar. Wannan na iya nufin cewa ana karanta Habr don dalilai na ƙwararru, kuma wannan hanya ce mai kyau don jinkirta aiki. Wallahi wannan rabon lokacin rana ya tabbata tun daga kafuwar Habr har zuwa yau.

Yadda na fassara Habr, sashi na 1: trends

Koyaya, babban fa'idar tambarin sharhi ba shine lokacin rana ba, amma tsawon lokacin "rayuwar aiki" na labarin. Na lissafta yadda ake rarraba lokacin daga buga labarin zuwa sharhinsa. Ya zama cewa yanzu sharhin tsaka-tsaki (layin kore) ya zo a cikin kimanin sa'o'i 20, watau. a rana ta farko bayan bugawa, a matsakaita, an bar kaɗan fiye da rabin duk sharhi akan labarin. Kuma a cikin kwanaki biyu sun bar 75% na duk maganganun. A lokaci guda, an karanta labaran da suka gabata har ma da sauri - alal misali, a cikin 2010, rabin maganganun sun zo a cikin sa'o'i 6 na farko.

Yadda na fassara Habr, sashi na 1: trends

Ya zo mani da mamaki cewa sharhi ya yi tsawo: matsakaicin adadin haruffa a cikin sharhi ya kusan ninka sau biyu a tsawon rayuwar Habr!

Yadda na fassara Habr, sashi na 1: trends

Sauƙaƙan martani fiye da sharhi shine ƙuri'u. Ba kamar sauran albarkatu da yawa ba, akan Habré zaka iya sanya ba kawai ƙari ba, har ma da minuses. Duk da haka, masu karatu ba sa amfani da dama ta ƙarshe sau da yawa: rabon abubuwan da ba a so a yanzu shine kusan kashi 15% na duk ƙuri'un da aka jefa. Akwai da yawa, amma bayan lokaci, masu karatu sun zama masu kirki.

Yadda na fassara Habr, sashi na 1: trends

Rubutun da kansu sun canza akan lokaci. Misali, irin tsayin rubutu ba ya daina girma a hankali tun farkon ƙaddamar da rukunin yanar gizon, duk da rikice-rikice. A cikin shekaru goma, rubutu ya zama kusan sau goma!

Yadda na fassara Habr, sashi na 1: trends

Salon rubutun (zuwa kimamin farko) shima ya canza. A cikin shekarun farko na wanzuwar Habr, alal misali, rabon lambobi da lambobi a cikin rubutu ya karu:

Yadda na fassara Habr, sashi na 1: trends

Bayan fahimtar yanayin gabaɗayan rukunin yanar gizon, na yanke shawarar auna yadda shaharar batutuwa daban-daban suka canza. Za a iya zaɓar batutuwa ta atomatik daga rubutu, amma don masu farawa, ba za ku iya sake ƙirƙira dabaran ba, amma yi amfani da shirye-shiryen da marubutan kowane labarin ke liƙa. Na zana halaye guda huɗu na al'ada akan ginshiƙi. Jigon "Google" da farko ya mamaye (watakila saboda SEO), amma yana raguwa tsawon shekaru. Javascript ya kasance sanannen batu kuma yana ci gaba da girma a hankali, amma koyon injin ya fara samun shahara cikin sauri cikin 'yan shekarun nan. Linux, a gefe guda, ya kasance daidai da dacewa cikin shekaru goma.

Yadda na fassara Habr, sashi na 1: trends

Tabbas, na zama sha'awar abin da batutuwa ke jawo ƙarin ayyukan masu karatu. Na lissafta matsakaicin adadin ra'ayoyi, ƙuri'u da sharhi a cikin kowane batu. Ga abin da ya faru:

  • Yawancin batutuwan da ake kallo: arduino, ƙirar gidan yanar gizo, haɓaka gidan yanar gizo, narkewa, hanyoyin haɗin gwiwa, css, html, html5, nginx, algorithms.
  • Abubuwan da aka fi so ": vkontakte, humor, jquery, opera, c, html, ci gaban yanar gizo, html5, css, ƙirar gidan yanar gizo.
  • Mafi yawan batutuwan da aka tattauna: opera, skype, mai zaman kansa, vkontakte, ubuntu, aiki, nokia, nginx, arduino, Firefox.

Af, tunda ina kwatanta batutuwa, zaku iya sanya su ta mita (kuma ku kwatanta sakamakon da irin wannan labarin daga 2013).

  • A duk tsawon shekarun da Habr ya yi, mafi shaharar tags (cikin saukowa) sune google, android, javascript, microsoft, linux, php, apple, java, python, programming, startups, development, ios, startup, social networks.
  • A cikin 2017, mafi mashahuri sune javascript, Python, java, android, development, linux, c++, programming, php, c#, ios, koyon injin, tsaro na bayanai, microsoft, amsawa.

Idan aka kwatanta waɗannan ƙididdiga, mutum zai iya mai da hankali, alal misali, tafiya ta nasara na Python da katsewar php, ko kuma zuwa "faɗuwar rana" na batutuwan farawa da haɓakar koyon injin.

Ba duk alamomin Habré ba ne ke da irin wannan bayyananniyar launin jigo. Misali, a nan akwai alamomi guda goma sha biyu waɗanda suka hadu sau ɗaya kawai, amma sun zama kamar abin ban dariya a gare ni. Don haka: "tunanin shine ƙarfin ci gaba", "boot daga hoton floppy diski", "Jihar Iowa", "wasan kwaikwayo", "superalesh", "injin injin", "abubuwan da za a yi ranar Asabar", "Ina da fox a cikin injin niƙa", "ya zama kamar koyaushe", "ba za mu iya fito da alamun ban dariya ba". Don ƙayyade batun irin waɗannan labaran, alamun ba su isa ba - dole ne ku aiwatar da ƙirar ƙira akan rubutun labaran.

Ƙarin cikakken bincike na abubuwan da ke cikin labaran zai kasance a cikin matsayi na gaba. Na farko, zan gina wani samfuri wanda ke yin hasashen adadin ra'ayoyin shafi na labarin dangane da abubuwan da ke cikinsa. Na biyu, ina so in koyar da hanyar sadarwa ta jijiyoyi don samar da rubutu a cikin salo iri ɗaya da marubutan Habr. Don haka kuyi subscribe 🙂

PS Kuma a nan ne karar murya dataset.

source: www.habr.com

Add a comment