ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಹೊಸ ವರ್ಷದ ಒಲಿವಿಯರ್ ಮುಗಿದಾಗ, ನಾನು ಮಾಡಲು ಏನೂ ಇರಲಿಲ್ಲ, ಮತ್ತು ನನ್ನ ಕಂಪ್ಯೂಟರ್‌ಗೆ ಹಬ್ರಹಾಬ್ (ಮತ್ತು ಸಂಬಂಧಿತ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗಳು) ನಿಂದ ಎಲ್ಲಾ ಲೇಖನಗಳನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಲು ಮತ್ತು ಅನ್ವೇಷಿಸಲು ನಾನು ನಿರ್ಧರಿಸಿದೆ.

ಹಲವಾರು ಆಸಕ್ತಿದಾಯಕ ಕಥೆಗಳು ಇದ್ದವು. ಅವುಗಳಲ್ಲಿ ಮೊದಲನೆಯದು ಸೈಟ್ನ ಅಸ್ತಿತ್ವದ 12 ವರ್ಷಗಳಲ್ಲಿ ಲೇಖನಗಳ ಸ್ವರೂಪ ಮತ್ತು ವಿಷಯಗಳ ಅಭಿವೃದ್ಧಿಯಾಗಿದೆ. ಉದಾಹರಣೆಗೆ, ಕೆಲವು ವಿಷಯಗಳ ಡೈನಾಮಿಕ್ಸ್ ಸಾಕಷ್ಟು ಸೂಚಕವಾಗಿದೆ. ಮುಂದುವರಿಕೆ - ಕಟ್ ಅಡಿಯಲ್ಲಿ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಪಾರ್ಸಿಂಗ್ ಪ್ರಕ್ರಿಯೆ

ಹಬ್ರ್ ಹೇಗೆ ಅಭಿವೃದ್ಧಿ ಹೊಂದಿದ್ದಾನೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ಅವನ ಎಲ್ಲಾ ಲೇಖನಗಳ ಮೂಲಕ ಹೋಗುವುದು ಮತ್ತು ಅವುಗಳಿಂದ ಮೆಟಾ-ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯುವುದು ಅಗತ್ಯವಾಗಿತ್ತು (ಉದಾಹರಣೆಗೆ, ದಿನಾಂಕಗಳು). ಬೈಪಾಸ್ ಸುಲಭವಾಗಿದೆ, ಏಕೆಂದರೆ ಎಲ್ಲಾ ಲೇಖನಗಳಿಗೆ ಲಿಂಕ್‌ಗಳು "habrahabr.ru/post/337722/" ನಂತೆ ಕಾಣುತ್ತವೆ ಮತ್ತು ಸಂಖ್ಯೆಗಳನ್ನು ಕಟ್ಟುನಿಟ್ಟಾಗಿ ಕ್ರಮವಾಗಿ ನೀಡಲಾಗಿದೆ. ಕೊನೆಯ ಪೋಸ್ಟ್ 350 ಸಾವಿರಕ್ಕಿಂತ ಸ್ವಲ್ಪ ಕಡಿಮೆ ಸಂಖ್ಯೆಯನ್ನು ಹೊಂದಿದೆ ಎಂದು ತಿಳಿದುಕೊಂಡು, ನಾನು ಲೂಪ್‌ನಲ್ಲಿ (ಪೈಥಾನ್ ಕೋಡ್) ಸಾಧ್ಯವಿರುವ ಎಲ್ಲಾ ಡಾಕ್ಯುಮೆಂಟ್ ಐಡಿಯನ್ನು ನೋಡಿದೆ:

import numpy as np
from multiprocessing import Pool
with Pool(100) as p:
    docs = p.map(download_document, np.arange(350000))

ಕಾರ್ಯ download_document ಅನುಗುಣವಾದ ಐಡಿಯೊಂದಿಗೆ ಪುಟವನ್ನು ಲೋಡ್ ಮಾಡಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ ಮತ್ತು html ರಚನೆಯಿಂದ ಅರ್ಥಪೂರ್ಣ ಮಾಹಿತಿಯನ್ನು ಹೊರತೆಗೆಯಲು ಪ್ರಯತ್ನಿಸುತ್ತದೆ.

import requests
from bs4 import BeautifulSoup

def download_document(pid):
    """ Download and process a Habr document and its comments """
    # выгрузка документа
    r = requests.get('https://habrahabr.ru/post/' +str(pid) + '/')
    # парсинг документа
    soup = BeautifulSoup(r.text, 'html5lib') # instead of html.parser
    doc = {}
    doc['id'] = pid
    if not soup.find("span", {"class": "post__title-text"}):
        # такое бывает, если статья не существовала или удалена
        doc['status'] = 'title_not_found'
    else:
        doc['status'] = 'ok'
        doc['title'] = soup.find("span", {"class": "post__title-text"}).text
        doc['text'] = soup.find("div", {"class": "post__text"}).text
        doc['time'] = soup.find("span", {"class": "post__time"}).text
        # create other fields: hubs, tags, views, comments, votes, etc.
        # ...
    # сохранение результата в отдельный файл
    fname = r'files/' + str(pid) + '.pkl'
    with open(fname, 'wb') as f:
        pickle.dump(doc, f)

ಪಾರ್ಸಿಂಗ್ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ, ನಾನು ಹಲವಾರು ಹೊಸ ವಿಷಯಗಳನ್ನು ಕಂಡುಹಿಡಿದಿದ್ದೇನೆ.

ಮೊದಲನೆಯದಾಗಿ, ಪ್ರೊಸೆಸರ್‌ನಲ್ಲಿ ಕೋರ್‌ಗಳಿಗಿಂತ ಹೆಚ್ಚಿನ ಪ್ರಕ್ರಿಯೆಗಳನ್ನು ರಚಿಸುವುದು ನಿಷ್ಪ್ರಯೋಜಕವಾಗಿದೆ ಎಂದು ಅವರು ಹೇಳುತ್ತಾರೆ. ಆದರೆ ನನ್ನ ವಿಷಯದಲ್ಲಿ, ಸೀಮಿತಗೊಳಿಸುವ ಸಂಪನ್ಮೂಲವು ಪ್ರೊಸೆಸರ್ ಅಲ್ಲ, ಆದರೆ ನೆಟ್‌ವರ್ಕ್, ಮತ್ತು 100 ಪ್ರಕ್ರಿಯೆಗಳು 4 ಅಥವಾ, 20 ಕ್ಕಿಂತ ವೇಗವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ.

ಎರಡನೆಯದಾಗಿ, ಕೆಲವು ಪೋಸ್ಟ್‌ಗಳಲ್ಲಿ ವಿಶೇಷ ಅಕ್ಷರಗಳ ಸಂಯೋಜನೆಗಳು ಇದ್ದವು - ಉದಾಹರಣೆಗೆ, "%&#@" ನಂತಹ ಸೌಮ್ಯೋಕ್ತಿಗಳು. ಎಂದು ಬದಲಾಯಿತು html.parser, ನಾನು ಮೊದಲು ಬಳಸಿದ, ಸಂಯೋಜನೆಗೆ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತದೆ &# ನೋವಿನಿಂದ, ಇದು html ಘಟಕದ ಆರಂಭವೆಂದು ಪರಿಗಣಿಸಲಾಗಿದೆ. ನಾನು ಈಗಾಗಲೇ ಬ್ಲ್ಯಾಕ್ ಮ್ಯಾಜಿಕ್ ಮಾಡಲು ಹೋಗುತ್ತಿದ್ದೆ, ಆದರೆ ನೀವು ಪಾರ್ಸರ್ ಅನ್ನು ಬದಲಾಯಿಸಬಹುದು ಎಂದು ಫೋರಂ ಸೂಚಿಸಿದೆ.

ಮೂರನೆಯದಾಗಿ, ನಾನು ಮೂರು ಹೊರತುಪಡಿಸಿ ಎಲ್ಲಾ ಪ್ರಕಟಣೆಗಳನ್ನು ಇಳಿಸಲು ನಿರ್ವಹಿಸುತ್ತಿದ್ದೆ. 65927, 162075, ಮತ್ತು 275987 ಸಂಖ್ಯೆಯ ದಾಖಲೆಗಳನ್ನು ನನ್ನ ಆಂಟಿವೈರಸ್‌ನಿಂದ ತಕ್ಷಣವೇ ಅಳಿಸಲಾಗಿದೆ. ಇವುಗಳು ಅನುಕ್ರಮವಾಗಿ, ದುರುದ್ದೇಶಪೂರಿತ pdf ಅನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡುವ ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್ ಸರಣಿ, ಬ್ರೌಸರ್ ಪ್ಲಗಿನ್‌ಗಳ ಗುಂಪಿನ ರೂಪದಲ್ಲಿ SMS ransomware ಮತ್ತು ಐಫೋನ್‌ಗಳನ್ನು ರೀಬೂಟ್‌ಗೆ ಕಳುಹಿಸುವ CrashSafari.com ಸೈಟ್ ಕುರಿತು ಲೇಖನಗಳಾಗಿವೆ. ಆಂಟಿವೈರಸ್ ನಂತರ ಸಿಸ್ಟಮ್ ಸ್ಕ್ಯಾನ್ ಸಮಯದಲ್ಲಿ ಮತ್ತೊಂದು ಲೇಖನವನ್ನು ಕಂಡುಹಿಡಿದಿದೆ: ಕ್ರಿಪ್ಟೋಕರೆನ್ಸಿ ಗಣಿಗಾರಿಕೆ ಮಾಡಲು ಬಳಕೆದಾರರ ಪ್ರೊಸೆಸರ್ ಅನ್ನು ಬಳಸುವ ಪೆಟ್ ಸ್ಟೋರ್ ವೆಬ್‌ಸೈಟ್‌ನಲ್ಲಿನ ಸ್ಕ್ರಿಪ್ಟ್‌ಗಳ ಕುರಿತು ಪೋಸ್ಟ್ 338586. ಆದ್ದರಿಂದ ನಾವು ಆಂಟಿವೈರಸ್ನ ಕೆಲಸವು ಸಾಕಷ್ಟು ಸಾಕಾಗುತ್ತದೆ ಎಂದು ಪರಿಗಣಿಸಬಹುದು.

"ಲೈವ್" ಲೇಖನಗಳು ಸಂಭಾವ್ಯ ಗರಿಷ್ಠ ಅರ್ಧದಷ್ಟು ಮಾತ್ರ ಹೊರಹೊಮ್ಮಿದವು - 166307 ತುಣುಕುಗಳು. ಉಳಿದವುಗಳ ಬಗ್ಗೆ, Habr ಆಯ್ಕೆಗಳನ್ನು ನೀಡುತ್ತದೆ "ಪುಟವು ಹಳೆಯದಾಗಿದೆ, ಅಳಿಸಲಾಗಿದೆ ಅಥವಾ ಅಸ್ತಿತ್ವದಲ್ಲಿಲ್ಲ." ಸರಿ, ಏನು ಬೇಕಾದರೂ ಆಗಬಹುದು.

ಲೇಖನಗಳ ಅಪ್‌ಲೋಡ್ ಅನ್ನು ತಾಂತ್ರಿಕ ಕೆಲಸದಿಂದ ಅನುಸರಿಸಲಾಯಿತು: ಉದಾಹರಣೆಗೆ, ಪ್ರಕಟಣೆಯ ದಿನಾಂಕಗಳನ್ನು "'21 ಡಿಸೆಂಬರ್ 2006 ಕ್ಕೆ 10:47 am" ಫಾರ್ಮ್ಯಾಟ್‌ನಿಂದ ಪ್ರಮಾಣಿತಕ್ಕೆ ಪರಿವರ್ತಿಸಬೇಕಾಗಿತ್ತು. datetime, ಮತ್ತು "12,8k" ವೀಕ್ಷಣೆಗಳು - 12800 ರಲ್ಲಿ. ಈ ಹಂತದಲ್ಲಿ, ಇನ್ನೂ ಕೆಲವು ಘಟನೆಗಳು ಹೊರಬಂದವು. ಅತ್ಯಂತ ತಮಾಷೆಯೆಂದರೆ ಮತ ಎಣಿಕೆಗಳು ಮತ್ತು ಡೇಟಾ ಪ್ರಕಾರಗಳೊಂದಿಗೆ: ಕೆಲವು ಹಳೆಯ ಪೋಸ್ಟ್‌ಗಳು ಇಂಟ್ ಓವರ್‌ಫ್ಲೋ ಅನ್ನು ಹೊಂದಿದ್ದವು ಮತ್ತು ಪ್ರತಿಯೊಂದೂ 65535 ಮತಗಳನ್ನು ಪಡೆದಿವೆ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಪರಿಣಾಮವಾಗಿ, ಲೇಖನಗಳ ಪಠ್ಯಗಳು (ಚಿತ್ರಗಳಿಲ್ಲದೆ) ನನಗೆ 1.5 ಗಿಗಾಬೈಟ್‌ಗಳು, ಮೆಟಾ-ಮಾಹಿತಿಯೊಂದಿಗೆ ಕಾಮೆಂಟ್‌ಗಳು - ಇನ್ನೊಂದು 3, ಮತ್ತು ಸುಮಾರು ನೂರು ಮೆಗಾಬೈಟ್‌ಗಳು - ಲೇಖನಗಳ ಬಗ್ಗೆ ಮೆಟಾ-ಮಾಹಿತಿ. ಇದನ್ನು ಸಂಪೂರ್ಣವಾಗಿ RAM ನಲ್ಲಿ ಇರಿಸಬಹುದು, ಇದು ನನಗೆ ಆಹ್ಲಾದಕರ ಆಶ್ಚರ್ಯಕರವಾಗಿತ್ತು.

ನಾನು ಲೇಖನಗಳ ವಿಶ್ಲೇಷಣೆಯನ್ನು ಪಠ್ಯಗಳಿಂದ ಅಲ್ಲ, ಆದರೆ ಮೆಟಾ-ಮಾಹಿತಿಯಿಂದ ಪ್ರಾರಂಭಿಸಿದೆ: ದಿನಾಂಕಗಳು, ಟ್ಯಾಗ್‌ಗಳು, ಕೇಂದ್ರಗಳು, ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ಇಷ್ಟಗಳು. ಅವಳು ಬಹಳಷ್ಟು ಹೇಳಬಲ್ಲಳು ಎಂದು ಬದಲಾಯಿತು.

ಹಬ್ರಹಬರ್ ಅಭಿವೃದ್ಧಿ ಪ್ರವೃತ್ತಿಗಳು

ಸೈಟ್‌ನಲ್ಲಿನ ಲೇಖನಗಳನ್ನು 2006 ರಿಂದ ಪ್ರಕಟಿಸಲಾಗಿದೆ; ಅತ್ಯಂತ ತೀವ್ರವಾಗಿ - 2008-2016ರಲ್ಲಿ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಈ ಲೇಖನಗಳನ್ನು ವಿವಿಧ ಸಮಯಗಳಲ್ಲಿ ಎಷ್ಟು ಸಕ್ರಿಯವಾಗಿ ಓದಲಾಗಿದೆ ಎಂಬುದನ್ನು ನಿರ್ಣಯಿಸುವುದು ಅಷ್ಟು ಸುಲಭವಲ್ಲ. 2012 ಮತ್ತು ಕಿರಿಯ ಪಠ್ಯಗಳು ಹೆಚ್ಚಿನ ಕಾಮೆಂಟ್‌ಗಳು ಮತ್ತು ರೇಟಿಂಗ್‌ಗಳನ್ನು ಪಡೆದಿವೆ, ಆದರೆ ಹೊಸ ಪಠ್ಯಗಳು ಹೆಚ್ಚಿನ ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ಬುಕ್‌ಮಾರ್ಕ್‌ಗಳನ್ನು ಹೊಂದಿವೆ. ಈ ಮೆಟ್ರಿಕ್‌ಗಳು 2015 ರಲ್ಲಿ ಒಂದೇ ಬಾರಿ (ಅರ್ಧಕಡಿತ) ಒಂದೇ ರೀತಿಯಲ್ಲಿ ವರ್ತಿಸಿದವು. ಬಹುಶಃ, ಆರ್ಥಿಕ ಮತ್ತು ರಾಜಕೀಯ ಬಿಕ್ಕಟ್ಟಿನ ಪರಿಸ್ಥಿತಿಯಲ್ಲಿ, ಓದುಗರ ಗಮನವು ಐಟಿ ಬ್ಲಾಗ್‌ಗಳಿಂದ ಹೆಚ್ಚು ನೋವಿನ ಸಮಸ್ಯೆಗಳಿಗೆ ಸ್ಥಳಾಂತರಗೊಂಡಿದೆ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಲೇಖನಗಳ ಜೊತೆಗೆ, ನಾನು ಅವರಿಗೆ ಹೆಚ್ಚಿನ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿದ್ದೇನೆ. 6 ಮಿಲಿಯನ್ ಕಾಮೆಂಟ್‌ಗಳು ಇದ್ದವು, ಆದಾಗ್ಯೂ, ಅವುಗಳಲ್ಲಿ 240 ಸಾವಿರವನ್ನು ನಿಷೇಧಿಸಲಾಗಿದೆ ("ಯುಎಫ್‌ಒ ಹಾರಿಹೋಯಿತು ಮತ್ತು ಈ ಶಾಸನವನ್ನು ಇಲ್ಲಿ ಪ್ರಕಟಿಸಿದೆ"). ಕಾಮೆಂಟ್‌ಗಳ ಉಪಯುಕ್ತ ಗುಣಲಕ್ಷಣವೆಂದರೆ ಅವರು ಸಮಯ ಸ್ಟ್ಯಾಂಪ್ ಅನ್ನು ಹೊಂದಿದ್ದಾರೆ. ಕಾಮೆಂಟ್‌ಗಳ ಸಮಯವನ್ನು ಅಧ್ಯಯನ ಮಾಡುವ ಮೂಲಕ, ಲೇಖನಗಳನ್ನು ಓದಿದಾಗ ನೀವು ಸ್ಥೂಲವಾಗಿ ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಹುದು.

ಹೆಚ್ಚಿನ ಲೇಖನಗಳನ್ನು ಬೆಳಿಗ್ಗೆ 10 ರಿಂದ ರಾತ್ರಿ 20 ರವರೆಗೆ ಎಲ್ಲೋ ಬರೆಯಲಾಗಿದೆ ಮತ್ತು ಕಾಮೆಂಟ್ ಮಾಡಲಾಗಿದೆ, ಅಂದರೆ. ಮಾಸ್ಕೋದ ಸಾಮಾನ್ಯ ಕೆಲಸದ ದಿನದಂದು. ವೃತ್ತಿಪರ ಉದ್ದೇಶಗಳಿಗಾಗಿ Habr ಅನ್ನು ಓದಲಾಗುತ್ತದೆ ಮತ್ತು ಕೆಲಸದಲ್ಲಿ ಮುಂದೂಡಲು ಇದು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ ಎಂದು ಇದು ಅರ್ಥೈಸಬಹುದು. ಮೂಲಕ, ದಿನದ ಸಮಯದ ಈ ವಿತರಣೆಯು ಹಬರ್ನ ಅಡಿಪಾಯದಿಂದ ಇಂದಿನವರೆಗೆ ಸ್ಥಿರವಾಗಿದೆ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಆದಾಗ್ಯೂ, ಕಾಮೆಂಟ್ ಟೈಮ್‌ಸ್ಟ್ಯಾಂಪ್‌ನ ಮುಖ್ಯ ಪ್ರಯೋಜನವೆಂದರೆ ದಿನದ ಸಮಯವಲ್ಲ, ಆದರೆ ಲೇಖನದ "ಸಕ್ರಿಯ ಜೀವನ" ಅವಧಿ. ಲೇಖನದ ಪ್ರಕಟಣೆಯಿಂದ ಅದರ ಕಾಮೆಂಟ್ಗೆ ಸಮಯವನ್ನು ಹೇಗೆ ವಿತರಿಸಲಾಗುತ್ತದೆ ಎಂದು ನಾನು ಲೆಕ್ಕ ಹಾಕಿದೆ. ಈಗ ಸರಾಸರಿ ಕಾಮೆಂಟ್ (ಹಸಿರು ರೇಖೆ) ಸುಮಾರು 20 ಗಂಟೆಗಳಲ್ಲಿ ಬರುತ್ತದೆ ಎಂದು ಅದು ಬದಲಾಯಿತು, ಅಂದರೆ. ಪ್ರಕಟಣೆಯ ನಂತರದ ಮೊದಲ ದಿನದಲ್ಲಿ, ಸರಾಸರಿ, ಲೇಖನದ ಮೇಲಿನ ಎಲ್ಲಾ ಕಾಮೆಂಟ್‌ಗಳಲ್ಲಿ ಅರ್ಧಕ್ಕಿಂತ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಉಳಿದಿದೆ. ಮತ್ತು ಎರಡು ದಿನಗಳಲ್ಲಿ ಅವರು ಎಲ್ಲಾ ಕಾಮೆಂಟ್‌ಗಳಲ್ಲಿ 75% ಅನ್ನು ಬಿಡುತ್ತಾರೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಹಿಂದಿನ ಲೇಖನಗಳನ್ನು ಇನ್ನಷ್ಟು ವೇಗವಾಗಿ ಓದಲಾಯಿತು - ಉದಾಹರಣೆಗೆ, 2010 ರಲ್ಲಿ, ಅರ್ಧದಷ್ಟು ಕಾಮೆಂಟ್‌ಗಳು ಮೊದಲ 6 ಗಂಟೆಗಳಲ್ಲಿ ಬಂದವು.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಕಾಮೆಂಟ್‌ಗಳು ಉದ್ದವಾಗುತ್ತಿರುವುದು ನನಗೆ ಆಶ್ಚರ್ಯವನ್ನುಂಟು ಮಾಡಿದೆ: ಕಾಮೆಂಟ್‌ನಲ್ಲಿನ ಸರಾಸರಿ ಅಕ್ಷರಗಳ ಸಂಖ್ಯೆಯು ಹಬ್ರ್‌ನ ಜೀವಿತಾವಧಿಯಲ್ಲಿ ದ್ವಿಗುಣಗೊಂಡಿದೆ!

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಕಾಮೆಂಟ್‌ಗಳಿಗಿಂತ ಸುಲಭವಾದ ಪ್ರತಿಕ್ರಿಯೆ ಮತಗಳು. ಅನೇಕ ಇತರ ಸಂಪನ್ಮೂಲಗಳಿಗಿಂತ ಭಿನ್ನವಾಗಿ, ಹ್ಯಾಬ್ರೆಯಲ್ಲಿ ನೀವು ಪ್ಲಸಸ್ ಅನ್ನು ಮಾತ್ರ ಹಾಕಬಹುದು, ಆದರೆ ಮೈನಸಸ್ಗಳನ್ನು ಸಹ ಹಾಕಬಹುದು. ಆದಾಗ್ಯೂ, ಓದುಗರು ಕೊನೆಯ ಅವಕಾಶವನ್ನು ಆಗಾಗ್ಗೆ ಬಳಸುವುದಿಲ್ಲ: ಪ್ರಸ್ತುತ ಇಷ್ಟಪಡದಿರುವಿಕೆಗಳ ಪಾಲು ಎಲ್ಲಾ ಮತಗಳಲ್ಲಿ ಸುಮಾರು 15% ಆಗಿದೆ. ಹೆಚ್ಚು ಇತ್ತು, ಆದರೆ ಕಾಲಾನಂತರದಲ್ಲಿ, ಓದುಗರು ದಯೆ ತೋರಿದ್ದಾರೆ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಕಾಲಕ್ಕೆ ತಕ್ಕಂತೆ ಪಠ್ಯಗಳೇ ಬದಲಾಗಿವೆ. ಉದಾಹರಣೆಗೆ, ಬಿಕ್ಕಟ್ಟುಗಳ ಹೊರತಾಗಿಯೂ, ಪಠ್ಯದ ವಿಶಿಷ್ಟ ಉದ್ದವು ಸೈಟ್ನ ಪ್ರಾರಂಭದಿಂದ ಸ್ಥಿರವಾಗಿ ಬೆಳೆಯುವುದನ್ನು ನಿಲ್ಲಿಸುವುದಿಲ್ಲ. ಒಂದು ದಶಕದಲ್ಲಿ, ಪಠ್ಯಗಳು ಸುಮಾರು ಹತ್ತು ಪಟ್ಟು ಉದ್ದವಾಗಿವೆ!

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಪಠ್ಯಗಳ ಶೈಲಿಯೂ (ಮೊದಲ ಅಂದಾಜಿಗೆ) ಬದಲಾಯಿತು. ಹಬರ್ ಅಸ್ತಿತ್ವದ ಮೊದಲ ವರ್ಷಗಳಲ್ಲಿ, ಉದಾಹರಣೆಗೆ, ಪಠ್ಯಗಳಲ್ಲಿ ಕೋಡ್ ಮತ್ತು ಸಂಖ್ಯೆಗಳ ಪಾಲು ಹೆಚ್ಚಾಯಿತು:

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಸೈಟ್ನ ಒಟ್ಟಾರೆ ಡೈನಾಮಿಕ್ಸ್ ಅನ್ನು ಅರ್ಥಮಾಡಿಕೊಂಡ ನಂತರ, ವಿವಿಧ ವಿಷಯಗಳ ಜನಪ್ರಿಯತೆಯು ಹೇಗೆ ಬದಲಾಗಿದೆ ಎಂಬುದನ್ನು ಅಳೆಯಲು ನಾನು ನಿರ್ಧರಿಸಿದೆ. ಪಠ್ಯಗಳಿಂದ ವಿಷಯಗಳನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಆಯ್ಕೆ ಮಾಡಬಹುದು, ಆದರೆ ಆರಂಭಿಕರಿಗಾಗಿ, ನೀವು ಚಕ್ರವನ್ನು ಮರುಶೋಧಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಆದರೆ ಪ್ರತಿ ಲೇಖನದ ಲೇಖಕರು ಅಂಟಿಸಿದ ರೆಡಿಮೇಡ್ ಟ್ಯಾಗ್ಗಳನ್ನು ಬಳಸಿ. ನಾನು ಚಾರ್ಟ್‌ನಲ್ಲಿ ನಾಲ್ಕು ವಿಶಿಷ್ಟ ಪ್ರವೃತ್ತಿಗಳನ್ನು ಚಿತ್ರಿಸಿದ್ದೇನೆ. "ಗೂಗಲ್" ಥೀಮ್ ಆರಂಭದಲ್ಲಿ ಪ್ರಾಬಲ್ಯ ಹೊಂದಿತ್ತು (ಬಹುಶಃ ಮುಖ್ಯವಾಗಿ SEO ಕಾರಣದಿಂದಾಗಿ), ಆದರೆ ವರ್ಷಗಳಲ್ಲಿ ತೂಕವನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತಿದೆ. ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್ ಜನಪ್ರಿಯ ವಿಷಯವಾಗಿದೆ ಮತ್ತು ನಿಧಾನವಾಗಿ ಬೆಳೆಯುತ್ತಿದೆ, ಆದರೆ ಇತ್ತೀಚಿನ ವರ್ಷಗಳಲ್ಲಿ ಮಾತ್ರ ಯಂತ್ರ ಕಲಿಕೆಯು ವೇಗವಾಗಿ ಜನಪ್ರಿಯತೆಯನ್ನು ಗಳಿಸಲು ಪ್ರಾರಂಭಿಸಿದೆ. ಲಿನಕ್ಸ್, ಮತ್ತೊಂದೆಡೆ, ದಶಕದುದ್ದಕ್ಕೂ ಸಮಾನವಾಗಿ ಪ್ರಸ್ತುತವಾಗಿದೆ.

ನಾನು Habr ಅನ್ನು ಹೇಗೆ ಪಾರ್ಸ್ ಮಾಡಿದ್ದೇನೆ, ಭಾಗ 1: ಪ್ರವೃತ್ತಿಗಳು

ಸಹಜವಾಗಿ, ಯಾವ ವಿಷಯಗಳು ಹೆಚ್ಚು ಓದುಗರ ಚಟುವಟಿಕೆಯನ್ನು ಆಕರ್ಷಿಸುತ್ತವೆ ಎಂಬುದರ ಬಗ್ಗೆ ನಾನು ಆಸಕ್ತಿ ಹೊಂದಿದ್ದೇನೆ. ನಾನು ಪ್ರತಿ ವಿಷಯದ ವೀಕ್ಷಣೆಗಳು, ಮತಗಳು ಮತ್ತು ಕಾಮೆಂಟ್‌ಗಳ ಸರಾಸರಿ ಸಂಖ್ಯೆಯನ್ನು ಲೆಕ್ಕ ಹಾಕಿದ್ದೇನೆ. ಏನಾಯಿತು ಎಂಬುದು ಇಲ್ಲಿದೆ:

  • ಹೆಚ್ಚು ವೀಕ್ಷಿಸಿದ ವಿಷಯಗಳು: arduino, ವೆಬ್ ವಿನ್ಯಾಸ, ವೆಬ್ ಅಭಿವೃದ್ಧಿ, ಡೈಜೆಸ್ಟ್, ಲಿಂಕ್‌ಗಳು, css, html, html5, nginx, ಅಲ್ಗಾರಿದಮ್‌ಗಳು.
  • ಹೆಚ್ಚು "ಇಷ್ಟಪಟ್ಟ" ವಿಷಯಗಳು: vkontakte, ಹಾಸ್ಯ, jquery, opera, c, html, ವೆಬ್ ಅಭಿವೃದ್ಧಿ, html5, css, ವೆಬ್ ವಿನ್ಯಾಸ.
  • ಹೆಚ್ಚು ಚರ್ಚಿಸಿದ ವಿಷಯಗಳು: ಒಪೆರಾ, ಸ್ಕೈಪ್, ಸ್ವತಂತ್ರ, vkontakte, ubuntu, ಕೆಲಸ, nokia, nginx, arduino, firefox.

ಅಂದಹಾಗೆ, ನಾನು ವಿಷಯಗಳನ್ನು ಹೋಲಿಕೆ ಮಾಡುತ್ತಿರುವುದರಿಂದ, ನೀವು ಅವುಗಳನ್ನು ಆವರ್ತನದ ಮೂಲಕ ಶ್ರೇಣೀಕರಿಸಬಹುದು (ಮತ್ತು ಫಲಿತಾಂಶಗಳನ್ನು ಹೋಲಿಕೆ ಮಾಡಿ 2013 ರಿಂದ ಇದೇ ರೀತಿಯ ಲೇಖನ).

  • Habr ಅಸ್ತಿತ್ವದ ಎಲ್ಲಾ ವರ್ಷಗಳವರೆಗೆ, ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಟ್ಯಾಗ್‌ಗಳು (ಅವರೋಹಣ ಕ್ರಮದಲ್ಲಿ) google, Android, javascript, microsoft, linux, php, apple, java, python, programming, startups, development, ios, startup, social networks
  • 2017 ರಲ್ಲಿ, ಜಾವಾಸ್ಕ್ರಿಪ್ಟ್, ಪೈಥಾನ್, ಜಾವಾ, ಆಂಡ್ರಾಯ್ಡ್, ಡೆವಲಪ್ಮೆಂಟ್, ಲಿನಕ್ಸ್, ಸಿ++, ಪ್ರೋಗ್ರಾಮಿಂಗ್, ಪಿಎಚ್ಪಿ, ಸಿ#, ಐಒಎಸ್, ಮೆಷಿನ್ ಲರ್ನಿಂಗ್, ಮಾಹಿತಿ ಭದ್ರತೆ, ಮೈಕ್ರೋಸಾಫ್ಟ್, ರಿಯಾಕ್ಟ್ ಹೆಚ್ಚು ಜನಪ್ರಿಯವಾಗಿವೆ.

ಈ ರೇಟಿಂಗ್‌ಗಳನ್ನು ಹೋಲಿಸಿದಾಗ, ಒಬ್ಬರು ಗಮನ ಕೊಡಬಹುದು, ಉದಾಹರಣೆಗೆ, ಪೈಥಾನ್‌ನ ವಿಜಯಶಾಲಿ ಮೆರವಣಿಗೆ ಮತ್ತು php ನ ಅಳಿವಿನ ಬಗ್ಗೆ ಅಥವಾ ಆರಂಭಿಕ ವಿಷಯಗಳ "ಸೂರ್ಯಾಸ್ತ" ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯ ಏರಿಕೆಗೆ.

ಹ್ಯಾಬ್ರೆಯಲ್ಲಿನ ಎಲ್ಲಾ ಟ್ಯಾಗ್‌ಗಳು ಅಂತಹ ಸ್ಪಷ್ಟವಾದ ವಿಷಯಾಧಾರಿತ ಬಣ್ಣವನ್ನು ಹೊಂದಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಒಮ್ಮೆ ಮಾತ್ರ ಭೇಟಿಯಾದ ಡಜನ್ ಟ್ಯಾಗ್‌ಗಳು ಇಲ್ಲಿವೆ, ಆದರೆ ನನಗೆ ತಮಾಷೆಯಾಗಿ ಕಂಡುಬಂದಿದೆ. ಆದ್ದರಿಂದ: "ಕಲ್ಪನೆಯು ಪ್ರಗತಿಯ ಪ್ರೇರಕ ಶಕ್ತಿ", "ಫ್ಲಾಪಿ ಡಿಸ್ಕ್ ಇಮೇಜ್‌ನಿಂದ ಬೂಟ್ ಮಾಡಿ", "ಅಯೋವಾ ಸ್ಟೇಟ್", "ಡ್ರಾಮಾ", "ಸೂಪರಲೇಶ್", "ಸ್ಟೀಮ್ ಇಂಜಿನ್", "ಶನಿವಾರ ಮಾಡಬೇಕಾದ ಕೆಲಸಗಳು", "ನನ್ನ ಬಳಿ ಇದೆ ಮಾಂಸ ಬೀಸುವ ಯಂತ್ರದಲ್ಲಿ ನರಿ", "ಇದು ಎಂದಿನಂತೆ ಹೊರಹೊಮ್ಮಿತು", "ನಾವು ತಮಾಷೆಯ ಟ್ಯಾಗ್‌ಗಳೊಂದಿಗೆ ಬರಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ". ಅಂತಹ ಲೇಖನಗಳ ವಿಷಯವನ್ನು ನಿರ್ಧರಿಸಲು, ಟ್ಯಾಗ್‌ಗಳು ಸಾಕಾಗುವುದಿಲ್ಲ - ನೀವು ಲೇಖನಗಳ ಪಠ್ಯಗಳ ಮೇಲೆ ವಿಷಯಾಧಾರಿತ ಮಾಡೆಲಿಂಗ್ ಅನ್ನು ಕೈಗೊಳ್ಳಬೇಕಾಗುತ್ತದೆ.

ಲೇಖನಗಳ ವಿಷಯದ ಬಗ್ಗೆ ಹೆಚ್ಚು ವಿವರವಾದ ವಿಶ್ಲೇಷಣೆ ಮುಂದಿನ ಪೋಸ್ಟ್‌ನಲ್ಲಿ ಇರುತ್ತದೆ. ಮೊದಲಿಗೆ, ನಾನು ಅದರ ವಿಷಯವನ್ನು ಆಧರಿಸಿ ಲೇಖನದ ಪುಟ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಊಹಿಸುವ ಮಾದರಿಯನ್ನು ನಿರ್ಮಿಸಲಿದ್ದೇನೆ. ಎರಡನೆಯದಾಗಿ, ಹಬ್ರ್ ಲೇಖಕರಂತೆಯೇ ಅದೇ ಶೈಲಿಯಲ್ಲಿ ಪಠ್ಯಗಳನ್ನು ರಚಿಸಲು ನಾನು ನರಮಂಡಲವನ್ನು ಕಲಿಸಲು ಬಯಸುತ್ತೇನೆ. ಆದ್ದರಿಂದ ಚಂದಾದಾರರಾಗಿ 🙂

PS ಮತ್ತು ಇಲ್ಲಿ ಬೀಪ್ ಆಗಿದೆ ಡೇಟಾಸೆಟ್.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ