پرو ہوسٹر > بلاگ > انٹرنیٹ کی خبریں > Habrastatistics: سائٹ کے سب سے زیادہ اور کم سے کم دیکھے جانے والے حصوں کی تلاش
Habrastatistics: سائٹ کے سب سے زیادہ اور کم سے کم دیکھے جانے والے حصوں کی تلاش
ارے حبر۔
В پچھلے حصہ Habr کی ٹریفک کا تجزیہ مرکزی پیرامیٹرز کے مطابق کیا گیا - مضامین کی تعداد، ان کے خیالات اور درجہ بندی۔ تاہم، سائٹ کے حصوں کی مقبولیت کا مسئلہ غیر جانچا رہا۔ اس کو مزید تفصیل سے دیکھنا اور سب سے زیادہ مقبول اور سب سے زیادہ غیر مقبول مرکز تلاش کرنا دلچسپ ہو گیا۔ آخر میں، میں geektimes اثر کو مزید تفصیل سے دیکھوں گا، جس کا اختتام نئی درجہ بندی کی بنیاد پر بہترین مضامین کے نئے انتخاب کے ساتھ ہوگا۔
ان لوگوں کے لئے جو اس میں دلچسپی رکھتے ہیں کہ کیا ہوا، تسلسل کٹ کے نیچے ہے۔
میں آپ کو ایک بار پھر یاد دلاتا ہوں کہ اعداد و شمار اور درجہ بندی سرکاری نہیں ہیں، میرے پاس کوئی اندرونی معلومات نہیں ہے۔ یہ بھی گارنٹی نہیں ہے کہ میں نے کہیں غلطی تو نہیں کی یا کچھ چھوٹ گیا۔ لیکن پھر بھی، مجھے لگتا ہے کہ یہ دلچسپ نکلا۔ ہم پہلے کوڈ کے ساتھ شروع کریں گے؛ جو لوگ اس میں دلچسپی نہیں رکھتے وہ پہلے حصے کو چھوڑ سکتے ہیں۔
ڈیٹا اکٹھا کرنا
تجزیہ کار کے پہلے ورژن میں، صرف ملاحظات، تبصروں اور مضمون کی درجہ بندی کو مدنظر رکھا گیا تھا۔ یہ پہلے سے ہی اچھا ہے، لیکن یہ آپ کو زیادہ پیچیدہ سوالات کرنے کی اجازت نہیں دیتا ہے۔ یہ سائٹ کے موضوعاتی حصوں کا تجزیہ کرنے کا وقت ہے؛ یہ آپ کو کافی دلچسپ تحقیق کرنے کی اجازت دے گا، مثال کے طور پر، دیکھیں کہ "C++" سیکشن کی مقبولیت کئی سالوں میں کیسے بدلی ہے۔
مضمون کے تجزیہ کار کو بہتر کر دیا گیا ہے، اب یہ وہ حب واپس کرتا ہے جس سے مضمون کا تعلق ہے، ساتھ ہی مصنف کا عرفی نام اور اس کی درجہ بندی (یہاں بھی بہت سی دلچسپ چیزیں کی جا سکتی ہیں، لیکن یہ بعد میں آئے گی)۔ ڈیٹا کو csv فائل میں محفوظ کیا جاتا ہے جو کچھ اس طرح نظر آتا ہے:
2018-12-18T12:43Z,https://habr.com/ru/post/433550/,"Мессенджер Slack — причины выбора, косяки при внедрении и особенности сервиса, облегчающие жизнь",votes:7,votesplus:8,votesmin:1,bookmarks:32,
views:8300,comments:10,user:ReDisque,karma:5,subscribers:2,hubs:productpm+soft
...
ہمیں سائٹ کے مرکزی موضوعاتی مرکزوں کی فہرست موصول ہوگی۔
def get_as_str(link: str) -> Str:
try:
r = requests.get(link)
return Str(r.text)
except Exception as e:
return Str("")
def get_hubs():
hubs = []
for p in range(1, 12):
page_html = get_as_str("https://habr.com/ru/hubs/page%d/" % p)
# page_html = get_as_str("https://habr.com/ru/hubs/geektimes/page%d/" % p) # Geektimes
# page_html = get_as_str("https://habr.com/ru/hubs/develop/page%d/" % p) # Develop
# page_html = get_as_str("https://habr.com/ru/hubs/admin/page%d" % p) # Admin
for hub in page_html.split("media-obj media-obj_hub"):
info = Str(hub).find_between('"https://habr.com/ru/hub', 'list-snippet__tags')
if "*</span>" in info:
hub_name = info.find_between('/', '/"')
if len(hub_name) > 0 and len(hub_name) < 32:
hubs.append(hub_name)
print(hubs)
find_between فنکشن اور Str کلاس دو ٹیگز کے درمیان ایک سٹرنگ منتخب کرتا ہے، میں نے انہیں استعمال کیا۔ پہلے. موضوعاتی حب کو "*" کے ساتھ نشان زد کیا گیا ہے تاکہ وہ آسانی سے نمایاں ہو سکیں، اور آپ دیگر زمروں کے حصے حاصل کرنے کے لیے متعلقہ لائنوں کو غیر تبصرہ بھی کر سکتے ہیں۔
get_hubs فنکشن کا آؤٹ پٹ کافی متاثر کن فہرست ہے، جسے ہم لغت کے طور پر محفوظ کرتے ہیں۔ میں خاص طور پر اس فہرست کو مکمل طور پر پیش کر رہا ہوں تاکہ آپ اس کے حجم کا اندازہ لگا سکیں۔
ہم Matplotlib کا استعمال کرتے ہوئے شائع شدہ مضامین کی تعداد ظاہر کرتے ہیں:
میں نے چارٹ میں مضامین "geektimes" اور "geektimes صرف" کو تقسیم کیا، کیونکہ ایک مضمون ایک ہی وقت میں دونوں حصوں سے تعلق رکھتا ہے (مثال کے طور پر، "DIY" + "microcontrollers" + "C++")۔ میں نے سائٹ پر پروفائل آرٹیکلز کو نمایاں کرنے کے لیے "پروفائل" کا نام استعمال کیا، حالانکہ شاید اس کے لیے انگریزی اصطلاح پروفائل بالکل درست نہیں ہے۔
پچھلے حصے میں ہم نے اس موسم گرما میں شروع ہونے والے گیک ٹائمز کے مضامین کے لیے ادائیگی کے قواعد میں تبدیلی سے منسلک "geektimes اثر" کے بارے میں پوچھا۔ آئیے گیک ٹائمز کے مضامین کو الگ سے ڈسپلے کریں:
نتیجہ دلچسپ ہے۔ geektimes کے مضامین کے ملاحظات کا تخمینی تناسب کہیں 1:5 کے آس پاس ہے۔ لیکن جب کہ ملاحظات کی کل تعداد میں نمایاں طور پر اتار چڑھاؤ آیا، "تفریحی" مضامین کو دیکھنے کا انداز تقریباً ایک ہی سطح پر رہا۔
آپ یہ بھی دیکھ سکتے ہیں کہ "geektimes" سیکشن میں مضامین کے کل ملاحظات کی تعداد قواعد میں تبدیلی کے بعد بھی گر گئی ہے، لیکن "آنکھوں سے"، کل اقدار کے 5% سے زیادہ نہیں ہے۔
فی مضمون ملاحظات کی اوسط تعداد کو دیکھنا دلچسپ ہے:
"تفریحی" مضامین کے لیے یہ اوسط سے تقریباً 40% زیادہ ہے۔ یہ شاید حیرت کی بات نہیں ہے۔ اپریل کے آغاز میں ناکامی میرے لیے واضح نہیں ہے، ہو سکتا ہے کہ ایسا ہی ہوا ہو، یا یہ کسی قسم کی تجزیہ کی غلطی ہو، یا ہو سکتا ہے کہ گیک ٹائم کے مصنفین میں سے ایک چھٹی پر گیا ہو؛)۔
ویسے، گراف مضامین کے آراء کی تعداد میں دو اور نمایاں چوٹیوں کو دکھاتا ہے - نئے سال اور مئی کی چھٹیاں۔
حبس
آئیے حبس کے وعدے کے مطابق تجزیہ کی طرف چلتے ہیں۔ آئیے ملاحظات کی تعداد کے لحاظ سے سرفہرست 20 مرکزوں کی فہرست بنائیں:
حیرت انگیز طور پر، خیالات کے لحاظ سے سب سے زیادہ مقبول مرکز "انفارمیشن سیکیورٹی" تھا؛ سرفہرست 5 رہنماؤں میں "پروگرامنگ" اور "مقبول سائنس" بھی شامل تھے۔
Antitop Gtk اور Cocoa پر قبضہ کرتا ہے۔
میں آپ کو ایک راز بتاتا ہوں، اوپر والے حبس بھی دیکھے جا سکتے ہیں۔ یہاںاگرچہ ملاحظات کی تعداد وہاں نہیں دکھائی گئی ہے۔
درجہ بندی
اور آخر میں، وعدہ کی درجہ بندی. ہب کے تجزیہ کے اعداد و شمار کا استعمال کرتے ہوئے، ہم اس سال 2019 کے سب سے زیادہ مقبول مرکزوں کے لیے سب سے زیادہ مقبول مضامین ڈسپلے کر سکتے ہیں۔
اور آخر میں، تاکہ کوئی ناراض نہ ہو، میں سب سے کم دیکھے جانے والے مرکز "gtk" کی ریٹنگ دوں گا۔ ایک سال کے اندر یہ شائع ہو گیا۔ ایک مضمون، جو "خود بخود" درجہ بندی کی پہلی سطر پر بھی قابض ہے۔