Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ಹೇ ಹಬ್ರ್.

В ಹಿಂದಿನ ಭಾಗ ಲೇಖನಗಳ ಸಂಖ್ಯೆ, ಅವುಗಳ ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ರೇಟಿಂಗ್‌ಗಳು - ಮುಖ್ಯ ನಿಯತಾಂಕಗಳ ಪ್ರಕಾರ Habr ದಟ್ಟಣೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಸೈಟ್ ವಿಭಾಗಗಳ ಜನಪ್ರಿಯತೆಯ ಸಮಸ್ಯೆಯು ಪರೀಕ್ಷಿಸದೆ ಉಳಿಯಿತು. ಇದನ್ನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ನೋಡಲು ಮತ್ತು ಹೆಚ್ಚು ಜನಪ್ರಿಯ ಮತ್ತು ಹೆಚ್ಚು ಜನಪ್ರಿಯವಲ್ಲದ ಕೇಂದ್ರಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಆಸಕ್ತಿದಾಯಕವಾಯಿತು. ಅಂತಿಮವಾಗಿ, ನಾನು ಗೀಕ್‌ಟೈಮ್ಸ್ ಪರಿಣಾಮವನ್ನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ನೋಡುತ್ತೇನೆ, ಹೊಸ ಶ್ರೇಯಾಂಕಗಳ ಆಧಾರದ ಮೇಲೆ ಉತ್ತಮ ಲೇಖನಗಳ ಹೊಸ ಆಯ್ಕೆಯೊಂದಿಗೆ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ.

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ಏನಾಯಿತು ಎಂಬುದರ ಬಗ್ಗೆ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರಿಗೆ, ಮುಂದುವರಿಕೆ ಕಟ್ ಅಡಿಯಲ್ಲಿದೆ.

ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ರೇಟಿಂಗ್‌ಗಳು ಅಧಿಕೃತವಲ್ಲ, ನನ್ನ ಬಳಿ ಯಾವುದೇ ಆಂತರಿಕ ಮಾಹಿತಿ ಇಲ್ಲ ಎಂದು ಮತ್ತೊಮ್ಮೆ ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ. ನಾನು ಎಲ್ಲೋ ತಪ್ಪು ಮಾಡಿಲ್ಲ ಅಥವಾ ಏನಾದರೂ ತಪ್ಪಿಸಿಕೊಂಡಿದ್ದೇನೆ ಎಂಬ ಭರವಸೆಯೂ ಇಲ್ಲ. ಆದರೆ ಇನ್ನೂ, ಇದು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ. ನಾವು ಮೊದಲು ಕೋಡ್‌ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ; ಇದರಲ್ಲಿ ಆಸಕ್ತಿಯಿಲ್ಲದವರು ಮೊದಲ ವಿಭಾಗಗಳನ್ನು ಬಿಟ್ಟುಬಿಡಬಹುದು.

ಮಾಹಿತಿ ಸಂಗ್ರಹ

ಪಾರ್ಸರ್‌ನ ಮೊದಲ ಆವೃತ್ತಿಯಲ್ಲಿ, ವೀಕ್ಷಣೆಗಳು, ಕಾಮೆಂಟ್‌ಗಳು ಮತ್ತು ಲೇಖನ ರೇಟಿಂಗ್‌ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಮಾತ್ರ ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ಇದು ಈಗಾಗಲೇ ಉತ್ತಮವಾಗಿದೆ, ಆದರೆ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದ ಪ್ರಶ್ನೆಗಳನ್ನು ಮಾಡಲು ಇದು ನಿಮಗೆ ಅನುಮತಿಸುವುದಿಲ್ಲ. ಸೈಟ್‌ನ ವಿಷಯಾಧಾರಿತ ವಿಭಾಗಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಸಮಯ ಇದು; ಇದು ನಿಮಗೆ ಸಾಕಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ಸಂಶೋಧನೆ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, "C ++" ವಿಭಾಗದ ಜನಪ್ರಿಯತೆಯು ಹಲವಾರು ವರ್ಷಗಳಿಂದ ಹೇಗೆ ಬದಲಾಗಿದೆ ಎಂಬುದನ್ನು ನೋಡಿ.

ಲೇಖನ ಪಾರ್ಸರ್ ಅನ್ನು ಸುಧಾರಿಸಲಾಗಿದೆ, ಈಗ ಅದು ಲೇಖನವು ಸೇರಿರುವ ಕೇಂದ್ರಗಳನ್ನು ಹಿಂದಿರುಗಿಸುತ್ತದೆ, ಹಾಗೆಯೇ ಲೇಖಕರ ಅಡ್ಡಹೆಸರು ಮತ್ತು ಅವರ ರೇಟಿಂಗ್ (ಇಲ್ಲಿ ಬಹಳಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ವಿಷಯಗಳನ್ನು ಸಹ ಮಾಡಬಹುದು, ಆದರೆ ಅದು ನಂತರ ಬರುತ್ತದೆ). ಡೇಟಾವನ್ನು csv ಫೈಲ್‌ನಲ್ಲಿ ಉಳಿಸಲಾಗಿದೆ ಅದು ಈ ರೀತಿ ಕಾಣುತ್ತದೆ:

2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...

ಸೈಟ್ನ ಮುಖ್ಯ ವಿಷಯಾಧಾರಿತ ಕೇಂದ್ರಗಳ ಪಟ್ಟಿಯನ್ನು ನಾವು ಸ್ವೀಕರಿಸುತ್ತೇವೆ.

def get_as_str(link: str) -> Str:
    try:
        r = requests.get(link)
        return Str(r.text)
    except Exception as e:
        return Str("")

def get_hubs():
    hubs = []
    for p in range(1, 12):
        page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
        # page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p)  # Geektimes
        # page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p)  # Develop
        # page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p)  # Admin
        for hub in page_html.split("media-obj media-obj_hub"):
            info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags') 
            if "*</span>" in info:
                hub_name = info.find_between('/', '/"')
                if len(hub_name) > 0 and len(hub_name) < 32:
                    hubs.append(hub_name)
    print(hubs)

Find_between ಕಾರ್ಯ ಮತ್ತು Str ವರ್ಗವು ಎರಡು ಟ್ಯಾಗ್‌ಗಳ ನಡುವೆ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ, ನಾನು ಅವುಗಳನ್ನು ಬಳಸಿದ್ದೇನೆ ಮೊದಲು. ವಿಷಯಾಧಾರಿತ ಹಬ್‌ಗಳನ್ನು "*" ಎಂದು ಗುರುತಿಸಲಾಗಿದೆ ಆದ್ದರಿಂದ ಅವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೈಲೈಟ್ ಮಾಡಬಹುದು ಮತ್ತು ಇತರ ವರ್ಗಗಳ ವಿಭಾಗಗಳನ್ನು ಪಡೆಯಲು ನೀವು ಅನುಗುಣವಾದ ಸಾಲುಗಳನ್ನು ಸಹ ಅನ್‌ಕಾಮೆಂಟ್ ಮಾಡಬಹುದು.

get_hubs ಫಂಕ್ಷನ್‌ನ ಔಟ್‌ಪುಟ್ ಸಾಕಷ್ಟು ಪ್ರಭಾವಶಾಲಿ ಪಟ್ಟಿಯಾಗಿದೆ, ಅದನ್ನು ನಾವು ನಿಘಂಟಿನಂತೆ ಉಳಿಸುತ್ತೇವೆ. ನಾನು ನಿರ್ದಿಷ್ಟವಾಗಿ ಪಟ್ಟಿಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪ್ರಸ್ತುತಪಡಿಸುತ್ತಿದ್ದೇನೆ ಇದರಿಂದ ನೀವು ಅದರ ಪರಿಮಾಣವನ್ನು ಅಂದಾಜು ಮಾಡಬಹುದು.

hubs_profile = {'infosecurity', 'programming', 'webdev', 'python', 'sys_admin', 'it-infrastructure', 'devops', 'javascript', 'open_source', 'network_technologies', 'gamedev', 'cpp', 'machine_learning', 'pm', 'hr_management', 'linux', 'analysis_design', 'ui', 'net', 'hi', 'maths', 'mobile_dev', 'productpm', 'win_dev', 'it_testing', 'dev_management', 'algorithms', 'go', 'php', 'csharp', 'nix', 'data_visualization', 'web_testing', 's_admin', 'crazydev', 'data_mining', 'bigdata', 'c', 'java', 'usability', 'instant_messaging', 'gtd', 'system_programming', 'ios_dev', 'oop', 'nginx', 'kubernetes', 'sql', '3d_graphics', 'css', 'geo', 'image_processing', 'controllers', 'game_design', 'html5', 'community_management', 'electronics', 'android_dev', 'crypto', 'netdev', 'cisconetworks', 'db_admins', 'funcprog', 'wireless', 'dwh', 'linux_dev', 'assembler', 'reactjs', 'sales', 'microservices', 'search_technologies', 'compilers', 'virtualization', 'client_side_optimization', 'distributed_systems', 'api', 'media_management', 'complete_code', 'typescript', 'postgresql', 'rust', 'agile', 'refactoring', 'parallel_programming', 'mssql', 'game_promotion', 'robo_dev', 'reverse-engineering', 'web_analytics', 'unity', 'symfony', 'build_automation', 'swift', 'raspberrypi', 'web_design', 'kotlin', 'debug', 'pay_system', 'apps_design', 'git', 'shells', 'laravel', 'mobile_testing', 'openstreetmap', 'lua', 'vs', 'yii', 'sport_programming', 'service_desk', 'itstandarts', 'nodejs', 'data_warehouse', 'ctf', 'erp', 'video', 'mobileanalytics', 'ipv6', 'virus', 'crm', 'backup', 'mesh_networking', 'cad_cam', 'patents', 'cloud_computing', 'growthhacking', 'iot_dev', 'server_side_optimization', 'latex', 'natural_language_processing', 'scala', 'unreal_engine', 'mongodb', 'delphi',  'industrial_control_system', 'r', 'fpga', 'oracle', 'arduino', 'magento', 'ruby', 'nosql', 'flutter', 'xml', 'apache', 'sveltejs', 'devmail', 'ecommerce_development', 'opendata', 'Hadoop', 'yandex_api', 'game_monetization', 'ror', 'graph_design', 'scada', 'mobile_monetization', 'sqlite', 'accessibility', 'saas', 'helpdesk', 'matlab', 'julia', 'aws', 'data_recovery', 'erlang', 'angular', 'osx_dev', 'dns', 'dart', 'vector_graphics', 'asp', 'domains', 'cvs', 'asterisk', 'iis', 'it_monetization', 'localization', 'objectivec', 'IPFS', 'jquery', 'lisp', 'arvrdev', 'powershell', 'd', 'conversion', 'animation', 'webgl', 'wordpress', 'elm', 'qt_software', 'google_api', 'groovy_grails', 'Sailfish_dev', 'Atlassian', 'desktop_environment', 'game_testing', 'mysql', 'ecm', 'cms', 'Xamarin', 'haskell', 'prototyping', 'sw', 'django', 'gradle', 'billing', 'tdd', 'openshift', 'canvas', 'map_api', 'vuejs', 'data_compression', 'tizen_dev', 'iptv', 'mono', 'labview', 'perl', 'AJAX', 'ms_access', 'gpgpu', 'infolust', 'microformats', 'facebook_api', 'vba', 'twitter_api', 'twisted', 'phalcon', 'joomla', 'action_script', 'flex', 'gtk', 'meteorjs', 'iconoskaz', 'cobol', 'cocoa', 'fortran', 'uml', 'codeigniter', 'prolog', 'mercurial', 'drupal', 'wp_dev', 'smallbasic', 'webassembly', 'cubrid', 'fido', 'bada_dev', 'cgi', 'extjs', 'zend_framework', 'typography', 'UEFI', 'geo_systems', 'vim', 'creative_commons', 'modx', 'derbyjs', 'xcode', 'greasemonkey', 'i2p', 'flash_platform', 'coffeescript', 'fsharp', 'clojure', 'puppet', 'forth', 'processing_lang', 'firebird', 'javame_dev', 'cakephp', 'google_cloud_vision_api', 'kohanaphp', 'elixirphoenix', 'eclipse', 'xslt', 'smalltalk', 'googlecloud', 'gae', 'mootools', 'emacs', 'flask', 'gwt', 'web_monetization', 'circuit-design', 'office365dev', 'haxe', 'doctrine', 'typo3', 'regex', 'solidity', 'brainfuck', 'sphinx', 'san', 'vk_api', 'ecommerce'}

ಹೋಲಿಕೆಗಾಗಿ, ಗೀಕ್ಟೈಮ್ಸ್ ವಿಭಾಗಗಳು ಹೆಚ್ಚು ಸಾಧಾರಣವಾಗಿ ಕಾಣುತ್ತವೆ:

hubs_gt = {'popular_science', 'history', 'soft', 'lifehacks', 'health', 'finance', 'artificial_intelligence', 'itcompanies', 'DIY', 'energy', 'transport', 'gadgets', 'social_networks', 'space', 'futurenow', 'it_bigraphy', 'antikvariat', 'games', 'hardware', 'learning_languages', 'urban', 'brain', 'internet_of_things', 'easyelectronics', 'cellular', 'physics', 'cryptocurrency', 'interviews', 'biotech', 'network_hardware', 'autogadgets', 'lasers', 'sound', 'home_automation', 'smartphones', 'statistics', 'robot', 'cpu', 'video_tech', 'Ecology', 'presentation', 'desktops', 'wearable_electronics', 'quantum', 'notebooks', 'cyberpunk', 'Peripheral', 'demoscene', 'copyright', 'astronomy', 'arvr', 'medgadgets', '3d-printers', 'Chemistry', 'storages', 'sci-fi', 'logic_games', 'office', 'tablets', 'displays', 'video_conferencing', 'videocards', 'photo', 'multicopters', 'supercomputers', 'telemedicine', 'cybersport', 'nano', 'crowdsourcing', 'infographics'}

ಉಳಿದ ಹಬ್‌ಗಳನ್ನು ಅದೇ ರೀತಿಯಲ್ಲಿ ಸಂರಕ್ಷಿಸಲಾಗಿದೆ. ಲೇಖನವು ಗೀಕ್‌ಟೈಮ್‌ಗಳು ಅಥವಾ ಪ್ರೊಫೈಲ್ ಹಬ್‌ಗೆ ಸೇರಿದ್ದರೂ ಫಲಿತಾಂಶವನ್ನು ಹಿಂದಿರುಗಿಸುವ ಕಾರ್ಯವನ್ನು ಬರೆಯುವುದು ಈಗ ಸುಲಭವಾಗಿದೆ.

def is_geektimes(hubs: List) -> bool:
    return len(set(hubs) & hubs_gt) > 0

def is_geektimes_only(hubs: List) -> bool:
    return is_geektimes(hubs) is True and is_profile(hubs) is False

def is_profile(hubs: List) -> bool:
    return len(set(hubs) & hubs_profile) > 0

ಇತರ ವಿಭಾಗಗಳಿಗೆ ("ಅಭಿವೃದ್ಧಿ", "ಆಡಳಿತ", ಇತ್ಯಾದಿ) ಇದೇ ರೀತಿಯ ಕಾರ್ಯಗಳನ್ನು ಮಾಡಲಾಗಿದೆ.

ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲಾಗುತ್ತಿದೆ

ಇದು ವಿಶ್ಲೇಷಣೆಯನ್ನು ಪ್ರಾರಂಭಿಸುವ ಸಮಯ. ನಾವು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಲೋಡ್ ಮಾಡುತ್ತೇವೆ ಮತ್ತು ಹಬ್ ಡೇಟಾವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುತ್ತೇವೆ.

def to_list(s: str) -> List[str]:
    # "user:popular_science+astronomy" => [popular_science, astronomy]
    return s.split(':')[1].split('+')

def to_date(dt: datetime) -> datetime.date:
    return dt.date()

df = pd.read_csv("habr_2019.csv", sep=',', encoding='utf-8', error_bad_lines=True, quotechar='"', comment='#')
dates = pd.to_datetime(df['datetime'], format='%Y-%m-%dT%H:%MZ')
dates += datetime.timedelta(hours=3)
df['date'] = dates.map(to_date, na_action=None)
hubs = df["hubs"].map(to_list, na_action=None)
df['hubs'] = hubs
df['is_profile'] = hubs.map(is_profile, na_action=None)
df['is_geektimes'] = hubs.map(is_geektimes, na_action=None)
df['is_geektimes_only'] = hubs.map(is_geektimes_only, na_action=None)
df['is_admin'] = hubs.map(is_admin, na_action=None)
df['is_develop'] = hubs.map(is_develop, na_action=None)

ಈಗ ನಾವು ದಿನದ ಪ್ರಕಾರ ಡೇಟಾವನ್ನು ಗುಂಪು ಮಾಡಬಹುದು ಮತ್ತು ವಿವಿಧ ಹಬ್‌ಗಳಿಗಾಗಿ ಪ್ರಕಟಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪ್ರದರ್ಶಿಸಬಹುದು.

g = df.groupby(['date'])
days_count = g.size().reset_index(name='counts')
year_days = days_count['date'].values
grouped = g.sum().reset_index()
profile_per_day_avg = grouped['is_profile'].rolling(window=20, min_periods=1).mean()
geektimes_per_day_avg = grouped['is_geektimes'].rolling(window=20, min_periods=1).mean()
geektimesonly_per_day_avg = grouped['is_geektimes_only'].rolling(window=20, min_periods=1).mean()
admin_per_day_avg = grouped['is_admin'].rolling(window=20, min_periods=1).mean()
develop_per_day_avg = grouped['is_develop'].rolling(window=20, min_periods=1).mean()

Matplotlib ಅನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಪ್ರಕಟಿಸಿದ ಲೇಖನಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತೇವೆ:

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ನಾನು ಚಾರ್ಟ್‌ನಲ್ಲಿ "ಗೀಕ್‌ಟೈಮ್‌ಗಳು" ಮತ್ತು "ಗೀಕ್‌ಟೈಮ್ಸ್ ಮಾತ್ರ" ಲೇಖನಗಳನ್ನು ವಿಂಗಡಿಸಿದೆ, ಏಕೆಂದರೆ ಲೇಖನವು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಎರಡೂ ವಿಭಾಗಗಳಿಗೆ ಸೇರಿರಬಹುದು (ಉದಾಹರಣೆಗೆ, "DIY" + "ಮೈಕ್ರೋಕಂಟ್ರೋಲರ್‌ಗಳು" + "C++"). ಸೈಟ್‌ನಲ್ಲಿ ಪ್ರೊಫೈಲ್ ಲೇಖನಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಲು ನಾನು "ಪ್ರೊಫೈಲ್" ಎಂಬ ಪದನಾಮವನ್ನು ಬಳಸಿದ್ದೇನೆ, ಆದರೂ ಬಹುಶಃ ಇಂಗ್ಲಿಷ್ ಪದದ ಪ್ರೊಫೈಲ್ ಸಂಪೂರ್ಣವಾಗಿ ಸರಿಯಾಗಿಲ್ಲ.

ಹಿಂದಿನ ಭಾಗದಲ್ಲಿ ನಾವು ಈ ಬೇಸಿಗೆಯಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುವ ಗೀಕ್‌ಟೈಮ್‌ಗಳ ಲೇಖನಗಳ ಪಾವತಿ ನಿಯಮಗಳ ಬದಲಾವಣೆಯೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದ “ಗೀಕ್‌ಟೈಮ್ಸ್ ಪರಿಣಾಮ” ಕುರಿತು ಕೇಳಿದ್ದೇವೆ. ಗೀಕ್‌ಟೈಮ್ಸ್ ಲೇಖನಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಪ್ರದರ್ಶಿಸೋಣ:

df_gt = df[(df['is_geektimes_only'] == True)]
group_gt = df_gt.groupby(['date'])
days_count_gt = group_gt.size().reset_index(name='counts')
grouped = group_gt.sum().reset_index()
year_days_gt = days_count_gt['date'].values
view_gt_per_day_avg = grouped['views'].rolling(window=20, min_periods=1).mean()

ಫಲಿತಾಂಶವು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ. ಗೀಕ್‌ಟೈಮ್ಸ್ ಲೇಖನಗಳ ವೀಕ್ಷಣೆಗಳ ಅಂದಾಜು ಅನುಪಾತವು ಒಟ್ಟು 1:5 ರಷ್ಟಿದೆ. ಆದರೆ ಒಟ್ಟು ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯು ಗಮನಾರ್ಹವಾಗಿ ಏರುಪೇರಾದಾಗ, "ಮನರಂಜನೆ" ಲೇಖನಗಳ ವೀಕ್ಷಣೆಯು ಸರಿಸುಮಾರು ಅದೇ ಮಟ್ಟದಲ್ಲಿ ಉಳಿಯಿತು.

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ನಿಯಮಗಳನ್ನು ಬದಲಿಸಿದ ನಂತರವೂ "ಗೀಕ್ಟೈಮ್" ವಿಭಾಗದಲ್ಲಿನ ಲೇಖನಗಳ ಒಟ್ಟು ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯು ಇನ್ನೂ ಕುಸಿದಿದೆ ಎಂದು ನೀವು ಗಮನಿಸಬಹುದು, ಆದರೆ "ಕಣ್ಣಿನಿಂದ", ಒಟ್ಟು ಮೌಲ್ಯಗಳ 5% ಕ್ಕಿಂತ ಹೆಚ್ಚಿಲ್ಲ.

ಪ್ರತಿ ಲೇಖನಕ್ಕೆ ಸರಾಸರಿ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ನೋಡಲು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ:

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

"ಮನರಂಜನೆ" ಲೇಖನಗಳಿಗೆ ಇದು ಸರಾಸರಿಗಿಂತ ಸುಮಾರು 40% ಆಗಿದೆ. ಇದು ಬಹುಶಃ ಆಶ್ಚರ್ಯವೇನಿಲ್ಲ. ಏಪ್ರಿಲ್ ಆರಂಭದಲ್ಲಿನ ವೈಫಲ್ಯವು ನನಗೆ ಅಸ್ಪಷ್ಟವಾಗಿದೆ, ಬಹುಶಃ ಅದು ಏನಾಯಿತು, ಅಥವಾ ಇದು ಕೆಲವು ರೀತಿಯ ಪಾರ್ಸಿಂಗ್ ದೋಷ, ಅಥವಾ ಬಹುಶಃ ಗೀಕ್ಟೈಮ್ಸ್ ಲೇಖಕರಲ್ಲಿ ಒಬ್ಬರು ರಜೆಯ ಮೇಲೆ ಹೋಗಿರಬಹುದು;).

ಮೂಲಕ, ಲೇಖನಗಳ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯಲ್ಲಿ ಗ್ರಾಫ್ ಎರಡು ಗಮನಾರ್ಹ ಶಿಖರಗಳನ್ನು ತೋರಿಸುತ್ತದೆ - ಹೊಸ ವರ್ಷ ಮತ್ತು ಮೇ ರಜಾದಿನಗಳು.

ಹಬ್ಸ್

ಹಬ್‌ಗಳ ಭರವಸೆಯ ವಿಶ್ಲೇಷಣೆಗೆ ಹೋಗೋಣ. ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯ ಮೂಲಕ ಅಗ್ರ 20 ಹಬ್‌ಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡೋಣ:

hubs_info = []
for hub_name in hubs_all:
    mask = df['hubs'].apply(lambda x: hub_name in x)
    df_hub = df[mask]

    count, views = df_hub.shape[0], df_hub['views'].sum()
    hubs_info.append((hub_name, count, views))

# Draw hubs
hubs_top = sorted(hubs_info, key=lambda v: v[2], reverse=True)[:20]
top_views = list(map(lambda x: x[2], hubs_top))
top_names = list(map(lambda x: x[0], hubs_top))

plt.rcParams["figure.figsize"] = (8, 6)
plt.bar(range(0, len(top_views)), top_views)
plt.xticks(range(0, len(top_names)), top_names, rotation=90)
plt.ticklabel_format(style='plain', axis='y')
plt.tight_layout()
plt.show()

ಫಲಿತಾಂಶ:

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ಆಶ್ಚರ್ಯಕರವಾಗಿ, ವೀಕ್ಷಣೆಗಳ ವಿಷಯದಲ್ಲಿ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಕೇಂದ್ರವೆಂದರೆ "ಮಾಹಿತಿ ಭದ್ರತೆ"; ಅಗ್ರ 5 ನಾಯಕರು "ಪ್ರೋಗ್ರಾಮಿಂಗ್" ಮತ್ತು "ಜನಪ್ರಿಯ ವಿಜ್ಞಾನ" ಸಹ ಒಳಗೊಂಡಿತ್ತು.

ಆಂಟಿಟಾಪ್ ಜಿಟಿಕೆ ಮತ್ತು ಕೊಕೊವನ್ನು ಆಕ್ರಮಿಸುತ್ತದೆ.

Habrastatistics: ಸೈಟ್‌ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು

ನಾನು ನಿಮಗೆ ಒಂದು ರಹಸ್ಯವನ್ನು ಹೇಳುತ್ತೇನೆ, ಉನ್ನತ ಕೇಂದ್ರಗಳನ್ನು ಸಹ ನೋಡಬಹುದು ಇಲ್ಲಿ, ಆದರೂ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಅಲ್ಲಿ ತೋರಿಸಲಾಗಿಲ್ಲ.

ರೇಟಿಂಗ್

ಮತ್ತು ಅಂತಿಮವಾಗಿ, ಭರವಸೆಯ ರೇಟಿಂಗ್. ಹಬ್ ವಿಶ್ಲೇಷಣೆ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು, ಈ ವರ್ಷದ 2019 ರ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಹಬ್‌ಗಳಿಗಾಗಿ ನಾವು ಹೆಚ್ಚು ಜನಪ್ರಿಯ ಲೇಖನಗಳನ್ನು ಪ್ರದರ್ಶಿಸಬಹುದು.

ಮಾಹಿತಿ ಭದ್ರತೆ

ಪ್ರೋಗ್ರಾಮಿಂಗ್

ಜನಪ್ರಿಯ ವಿಜ್ಞಾನ

ವೃತ್ತಿಜೀವನ

ಐಟಿಯಲ್ಲಿ ಶಾಸನ

ವೆಬ್ ಅಭಿವೃದ್ಧಿ

ಜಿಟಿಕೆ

ಮತ್ತು ಅಂತಿಮವಾಗಿ, ಯಾರೂ ಮನನೊಂದಿಲ್ಲ, ನಾನು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ಹಬ್ "gtk" ನ ರೇಟಿಂಗ್ ಅನ್ನು ನೀಡುತ್ತೇನೆ. ಒಂದು ವರ್ಷದೊಳಗೆ ಅದು ಪ್ರಕಟವಾಯಿತು одна ಲೇಖನವು "ಸ್ವಯಂಚಾಲಿತವಾಗಿ" ರೇಟಿಂಗ್‌ನ ಮೊದಲ ಸಾಲನ್ನು ಆಕ್ರಮಿಸುತ್ತದೆ.

ತೀರ್ಮಾನಕ್ಕೆ

ಯಾವುದೇ ತೀರ್ಮಾನ ಇರುವುದಿಲ್ಲ. ಎಲ್ಲರಿಗೂ ಓದುವ ಸಂತೋಷ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ