Habrastatistics: ಸೈಟ್ನ ಹೆಚ್ಚು ಮತ್ತು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ವಿಭಾಗಗಳನ್ನು ಅನ್ವೇಷಿಸುವುದು
ಹೇ ಹಬ್ರ್.
В ಹಿಂದಿನ ಭಾಗ ಲೇಖನಗಳ ಸಂಖ್ಯೆ, ಅವುಗಳ ವೀಕ್ಷಣೆಗಳು ಮತ್ತು ರೇಟಿಂಗ್ಗಳು - ಮುಖ್ಯ ನಿಯತಾಂಕಗಳ ಪ್ರಕಾರ Habr ದಟ್ಟಣೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲಾಗಿದೆ. ಆದಾಗ್ಯೂ, ಸೈಟ್ ವಿಭಾಗಗಳ ಜನಪ್ರಿಯತೆಯ ಸಮಸ್ಯೆಯು ಪರೀಕ್ಷಿಸದೆ ಉಳಿಯಿತು. ಇದನ್ನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ನೋಡಲು ಮತ್ತು ಹೆಚ್ಚು ಜನಪ್ರಿಯ ಮತ್ತು ಹೆಚ್ಚು ಜನಪ್ರಿಯವಲ್ಲದ ಕೇಂದ್ರಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಆಸಕ್ತಿದಾಯಕವಾಯಿತು. ಅಂತಿಮವಾಗಿ, ನಾನು ಗೀಕ್ಟೈಮ್ಸ್ ಪರಿಣಾಮವನ್ನು ಹೆಚ್ಚು ವಿವರವಾಗಿ ನೋಡುತ್ತೇನೆ, ಹೊಸ ಶ್ರೇಯಾಂಕಗಳ ಆಧಾರದ ಮೇಲೆ ಉತ್ತಮ ಲೇಖನಗಳ ಹೊಸ ಆಯ್ಕೆಯೊಂದಿಗೆ ಕೊನೆಗೊಳ್ಳುತ್ತದೆ.
ಏನಾಯಿತು ಎಂಬುದರ ಬಗ್ಗೆ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರಿಗೆ, ಮುಂದುವರಿಕೆ ಕಟ್ ಅಡಿಯಲ್ಲಿದೆ.
ಅಂಕಿಅಂಶಗಳು ಮತ್ತು ರೇಟಿಂಗ್ಗಳು ಅಧಿಕೃತವಲ್ಲ, ನನ್ನ ಬಳಿ ಯಾವುದೇ ಆಂತರಿಕ ಮಾಹಿತಿ ಇಲ್ಲ ಎಂದು ಮತ್ತೊಮ್ಮೆ ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ. ನಾನು ಎಲ್ಲೋ ತಪ್ಪು ಮಾಡಿಲ್ಲ ಅಥವಾ ಏನಾದರೂ ತಪ್ಪಿಸಿಕೊಂಡಿದ್ದೇನೆ ಎಂಬ ಭರವಸೆಯೂ ಇಲ್ಲ. ಆದರೆ ಇನ್ನೂ, ಇದು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ. ನಾವು ಮೊದಲು ಕೋಡ್ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ; ಇದರಲ್ಲಿ ಆಸಕ್ತಿಯಿಲ್ಲದವರು ಮೊದಲ ವಿಭಾಗಗಳನ್ನು ಬಿಟ್ಟುಬಿಡಬಹುದು.
ಮಾಹಿತಿ ಸಂಗ್ರಹ
ಪಾರ್ಸರ್ನ ಮೊದಲ ಆವೃತ್ತಿಯಲ್ಲಿ, ವೀಕ್ಷಣೆಗಳು, ಕಾಮೆಂಟ್ಗಳು ಮತ್ತು ಲೇಖನ ರೇಟಿಂಗ್ಗಳ ಸಂಖ್ಯೆಯನ್ನು ಮಾತ್ರ ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ಇದು ಈಗಾಗಲೇ ಉತ್ತಮವಾಗಿದೆ, ಆದರೆ ಹೆಚ್ಚು ಸಂಕೀರ್ಣವಾದ ಪ್ರಶ್ನೆಗಳನ್ನು ಮಾಡಲು ಇದು ನಿಮಗೆ ಅನುಮತಿಸುವುದಿಲ್ಲ. ಸೈಟ್ನ ವಿಷಯಾಧಾರಿತ ವಿಭಾಗಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಸಮಯ ಇದು; ಇದು ನಿಮಗೆ ಸಾಕಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ಸಂಶೋಧನೆ ಮಾಡಲು ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ, ಉದಾಹರಣೆಗೆ, "C ++" ವಿಭಾಗದ ಜನಪ್ರಿಯತೆಯು ಹಲವಾರು ವರ್ಷಗಳಿಂದ ಹೇಗೆ ಬದಲಾಗಿದೆ ಎಂಬುದನ್ನು ನೋಡಿ.
ಲೇಖನ ಪಾರ್ಸರ್ ಅನ್ನು ಸುಧಾರಿಸಲಾಗಿದೆ, ಈಗ ಅದು ಲೇಖನವು ಸೇರಿರುವ ಕೇಂದ್ರಗಳನ್ನು ಹಿಂದಿರುಗಿಸುತ್ತದೆ, ಹಾಗೆಯೇ ಲೇಖಕರ ಅಡ್ಡಹೆಸರು ಮತ್ತು ಅವರ ರೇಟಿಂಗ್ (ಇಲ್ಲಿ ಬಹಳಷ್ಟು ಆಸಕ್ತಿದಾಯಕ ವಿಷಯಗಳನ್ನು ಸಹ ಮಾಡಬಹುದು, ಆದರೆ ಅದು ನಂತರ ಬರುತ್ತದೆ). ಡೇಟಾವನ್ನು csv ಫೈಲ್ನಲ್ಲಿ ಉಳಿಸಲಾಗಿದೆ ಅದು ಈ ರೀತಿ ಕಾಣುತ್ತದೆ:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
ಸೈಟ್ನ ಮುಖ್ಯ ವಿಷಯಾಧಾರಿತ ಕೇಂದ್ರಗಳ ಪಟ್ಟಿಯನ್ನು ನಾವು ಸ್ವೀಕರಿಸುತ್ತೇವೆ.
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
Find_between ಕಾರ್ಯ ಮತ್ತು Str ವರ್ಗವು ಎರಡು ಟ್ಯಾಗ್ಗಳ ನಡುವೆ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ, ನಾನು ಅವುಗಳನ್ನು ಬಳಸಿದ್ದೇನೆ ಮೊದಲು. ವಿಷಯಾಧಾರಿತ ಹಬ್ಗಳನ್ನು "*" ಎಂದು ಗುರುತಿಸಲಾಗಿದೆ ಆದ್ದರಿಂದ ಅವುಗಳನ್ನು ಸುಲಭವಾಗಿ ಹೈಲೈಟ್ ಮಾಡಬಹುದು ಮತ್ತು ಇತರ ವರ್ಗಗಳ ವಿಭಾಗಗಳನ್ನು ಪಡೆಯಲು ನೀವು ಅನುಗುಣವಾದ ಸಾಲುಗಳನ್ನು ಸಹ ಅನ್ಕಾಮೆಂಟ್ ಮಾಡಬಹುದು.
get_hubs ಫಂಕ್ಷನ್ನ ಔಟ್ಪುಟ್ ಸಾಕಷ್ಟು ಪ್ರಭಾವಶಾಲಿ ಪಟ್ಟಿಯಾಗಿದೆ, ಅದನ್ನು ನಾವು ನಿಘಂಟಿನಂತೆ ಉಳಿಸುತ್ತೇವೆ. ನಾನು ನಿರ್ದಿಷ್ಟವಾಗಿ ಪಟ್ಟಿಯನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಪ್ರಸ್ತುತಪಡಿಸುತ್ತಿದ್ದೇನೆ ಇದರಿಂದ ನೀವು ಅದರ ಪರಿಮಾಣವನ್ನು ಅಂದಾಜು ಮಾಡಬಹುದು.
ಉಳಿದ ಹಬ್ಗಳನ್ನು ಅದೇ ರೀತಿಯಲ್ಲಿ ಸಂರಕ್ಷಿಸಲಾಗಿದೆ. ಲೇಖನವು ಗೀಕ್ಟೈಮ್ಗಳು ಅಥವಾ ಪ್ರೊಫೈಲ್ ಹಬ್ಗೆ ಸೇರಿದ್ದರೂ ಫಲಿತಾಂಶವನ್ನು ಹಿಂದಿರುಗಿಸುವ ಕಾರ್ಯವನ್ನು ಬರೆಯುವುದು ಈಗ ಸುಲಭವಾಗಿದೆ.
Matplotlib ಅನ್ನು ಬಳಸಿಕೊಂಡು ನಾವು ಪ್ರಕಟಿಸಿದ ಲೇಖನಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತೇವೆ:
ನಾನು ಚಾರ್ಟ್ನಲ್ಲಿ "ಗೀಕ್ಟೈಮ್ಗಳು" ಮತ್ತು "ಗೀಕ್ಟೈಮ್ಸ್ ಮಾತ್ರ" ಲೇಖನಗಳನ್ನು ವಿಂಗಡಿಸಿದೆ, ಏಕೆಂದರೆ ಲೇಖನವು ಒಂದೇ ಸಮಯದಲ್ಲಿ ಎರಡೂ ವಿಭಾಗಗಳಿಗೆ ಸೇರಿರಬಹುದು (ಉದಾಹರಣೆಗೆ, "DIY" + "ಮೈಕ್ರೋಕಂಟ್ರೋಲರ್ಗಳು" + "C++"). ಸೈಟ್ನಲ್ಲಿ ಪ್ರೊಫೈಲ್ ಲೇಖನಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಲು ನಾನು "ಪ್ರೊಫೈಲ್" ಎಂಬ ಪದನಾಮವನ್ನು ಬಳಸಿದ್ದೇನೆ, ಆದರೂ ಬಹುಶಃ ಇಂಗ್ಲಿಷ್ ಪದದ ಪ್ರೊಫೈಲ್ ಸಂಪೂರ್ಣವಾಗಿ ಸರಿಯಾಗಿಲ್ಲ.
ಹಿಂದಿನ ಭಾಗದಲ್ಲಿ ನಾವು ಈ ಬೇಸಿಗೆಯಲ್ಲಿ ಪ್ರಾರಂಭವಾಗುವ ಗೀಕ್ಟೈಮ್ಗಳ ಲೇಖನಗಳ ಪಾವತಿ ನಿಯಮಗಳ ಬದಲಾವಣೆಯೊಂದಿಗೆ ಸಂಬಂಧಿಸಿದ “ಗೀಕ್ಟೈಮ್ಸ್ ಪರಿಣಾಮ” ಕುರಿತು ಕೇಳಿದ್ದೇವೆ. ಗೀಕ್ಟೈಮ್ಸ್ ಲೇಖನಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ಪ್ರದರ್ಶಿಸೋಣ:
ಫಲಿತಾಂಶವು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ. ಗೀಕ್ಟೈಮ್ಸ್ ಲೇಖನಗಳ ವೀಕ್ಷಣೆಗಳ ಅಂದಾಜು ಅನುಪಾತವು ಒಟ್ಟು 1:5 ರಷ್ಟಿದೆ. ಆದರೆ ಒಟ್ಟು ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯು ಗಮನಾರ್ಹವಾಗಿ ಏರುಪೇರಾದಾಗ, "ಮನರಂಜನೆ" ಲೇಖನಗಳ ವೀಕ್ಷಣೆಯು ಸರಿಸುಮಾರು ಅದೇ ಮಟ್ಟದಲ್ಲಿ ಉಳಿಯಿತು.
ನಿಯಮಗಳನ್ನು ಬದಲಿಸಿದ ನಂತರವೂ "ಗೀಕ್ಟೈಮ್" ವಿಭಾಗದಲ್ಲಿನ ಲೇಖನಗಳ ಒಟ್ಟು ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯು ಇನ್ನೂ ಕುಸಿದಿದೆ ಎಂದು ನೀವು ಗಮನಿಸಬಹುದು, ಆದರೆ "ಕಣ್ಣಿನಿಂದ", ಒಟ್ಟು ಮೌಲ್ಯಗಳ 5% ಕ್ಕಿಂತ ಹೆಚ್ಚಿಲ್ಲ.
ಪ್ರತಿ ಲೇಖನಕ್ಕೆ ಸರಾಸರಿ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ನೋಡಲು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ:
"ಮನರಂಜನೆ" ಲೇಖನಗಳಿಗೆ ಇದು ಸರಾಸರಿಗಿಂತ ಸುಮಾರು 40% ಆಗಿದೆ. ಇದು ಬಹುಶಃ ಆಶ್ಚರ್ಯವೇನಿಲ್ಲ. ಏಪ್ರಿಲ್ ಆರಂಭದಲ್ಲಿನ ವೈಫಲ್ಯವು ನನಗೆ ಅಸ್ಪಷ್ಟವಾಗಿದೆ, ಬಹುಶಃ ಅದು ಏನಾಯಿತು, ಅಥವಾ ಇದು ಕೆಲವು ರೀತಿಯ ಪಾರ್ಸಿಂಗ್ ದೋಷ, ಅಥವಾ ಬಹುಶಃ ಗೀಕ್ಟೈಮ್ಸ್ ಲೇಖಕರಲ್ಲಿ ಒಬ್ಬರು ರಜೆಯ ಮೇಲೆ ಹೋಗಿರಬಹುದು;).
ಮೂಲಕ, ಲೇಖನಗಳ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯಲ್ಲಿ ಗ್ರಾಫ್ ಎರಡು ಗಮನಾರ್ಹ ಶಿಖರಗಳನ್ನು ತೋರಿಸುತ್ತದೆ - ಹೊಸ ವರ್ಷ ಮತ್ತು ಮೇ ರಜಾದಿನಗಳು.
ಹಬ್ಸ್
ಹಬ್ಗಳ ಭರವಸೆಯ ವಿಶ್ಲೇಷಣೆಗೆ ಹೋಗೋಣ. ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯ ಮೂಲಕ ಅಗ್ರ 20 ಹಬ್ಗಳನ್ನು ಪಟ್ಟಿ ಮಾಡೋಣ:
ಆಶ್ಚರ್ಯಕರವಾಗಿ, ವೀಕ್ಷಣೆಗಳ ವಿಷಯದಲ್ಲಿ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಕೇಂದ್ರವೆಂದರೆ "ಮಾಹಿತಿ ಭದ್ರತೆ"; ಅಗ್ರ 5 ನಾಯಕರು "ಪ್ರೋಗ್ರಾಮಿಂಗ್" ಮತ್ತು "ಜನಪ್ರಿಯ ವಿಜ್ಞಾನ" ಸಹ ಒಳಗೊಂಡಿತ್ತು.
ಆಂಟಿಟಾಪ್ ಜಿಟಿಕೆ ಮತ್ತು ಕೊಕೊವನ್ನು ಆಕ್ರಮಿಸುತ್ತದೆ.
ನಾನು ನಿಮಗೆ ಒಂದು ರಹಸ್ಯವನ್ನು ಹೇಳುತ್ತೇನೆ, ಉನ್ನತ ಕೇಂದ್ರಗಳನ್ನು ಸಹ ನೋಡಬಹುದು ಇಲ್ಲಿ, ಆದರೂ ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಅಲ್ಲಿ ತೋರಿಸಲಾಗಿಲ್ಲ.
ರೇಟಿಂಗ್
ಮತ್ತು ಅಂತಿಮವಾಗಿ, ಭರವಸೆಯ ರೇಟಿಂಗ್. ಹಬ್ ವಿಶ್ಲೇಷಣೆ ಡೇಟಾವನ್ನು ಬಳಸಿಕೊಂಡು, ಈ ವರ್ಷದ 2019 ರ ಅತ್ಯಂತ ಜನಪ್ರಿಯ ಹಬ್ಗಳಿಗಾಗಿ ನಾವು ಹೆಚ್ಚು ಜನಪ್ರಿಯ ಲೇಖನಗಳನ್ನು ಪ್ರದರ್ಶಿಸಬಹುದು.
ಮತ್ತು ಅಂತಿಮವಾಗಿ, ಯಾರೂ ಮನನೊಂದಿಲ್ಲ, ನಾನು ಕಡಿಮೆ ಭೇಟಿ ನೀಡಿದ ಹಬ್ "gtk" ನ ರೇಟಿಂಗ್ ಅನ್ನು ನೀಡುತ್ತೇನೆ. ಒಂದು ವರ್ಷದೊಳಗೆ ಅದು ಪ್ರಕಟವಾಯಿತು одна ಲೇಖನವು "ಸ್ವಯಂಚಾಲಿತವಾಗಿ" ರೇಟಿಂಗ್ನ ಮೊದಲ ಸಾಲನ್ನು ಆಕ್ರಮಿಸುತ್ತದೆ.