ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو؟ ڊيٽا گڏ ڪرڻ

ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو؟ ڊيٽا گڏ ڪرڻ
اڄ اتي 100500 ڊيٽا سائنس ڪورسز آهن ۽ اهو ڊگهي عرصي کان معلوم ٿي چڪو آهي ته ڊيٽا سائنس ۾ سڀ کان وڌيڪ پئسا ڊيٽا سائنس ڪورسز ذريعي ڪمائي سگهجن ٿا (ڇو کڄي جڏهن توهان شاول وڪرو ڪري سگهو ٿا؟). انهن ڪورسن جو بنيادي نقصان اهو آهي ته انهن جو حقيقي ڪم سان ڪو به واسطو ناهي: ڪو به توهان کي گهربل فارميٽ ۾ صاف، پروسيس ٿيل ڊيٽا نه ڏيندو. ۽ جڏهن توهان ڪورس کي ڇڏي ڏيو ۽ هڪ حقيقي مسئلو حل ڪرڻ شروع ڪيو، ڪيتريون ئي نونسون نڪرنديون آهن.

تنهن ڪري، اسان نوٽس جو هڪ سلسلو شروع ڪري رهيا آهيون "ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو"، حقيقي واقعن جي بنياد تي جيڪي مون سان، منهنجي ڪامريڊن ۽ ساٿين سان ٿيا. اسان حقيقي مثالن کي استعمال ڪندي عام ڊيٽا سائنس جي ڪمن جو تجزيو ڪنداسين: اهو ڪيئن ٿئي ٿو. اچو ته اڄ شروع ڪريون ڊيٽا گڏ ڪرڻ جي ڪم سان.

۽ پھرين شيءِ جنھن تي ماڻھو ٿڪجي پون ٿا جڏھن اھي حقيقي ڊيٽا سان ڪم ڪرڻ شروع ڪن ٿا اصل ۾ اھو ڊيٽا گڏ ڪري رھيو آھي جيڪو اسان لاءِ تمام گھڻو لاڳاپيل آھي. هن مضمون جو اهم پيغام:

اسان منظم طريقي سان ڊيٽا گڏ ڪرڻ، صاف ڪرڻ ۽ تيار ڪرڻ لاءِ گهربل وقت، وسيلا ۽ ڪوشش کي گھٽ ڪريون ٿا.

۽ سڀ کان اهم، اسان بحث ڪنداسين ته هن کي روڪڻ لاء ڇا ڪجي.

مختلف اندازن جي مطابق، صفائي، تبديلي، ڊيٽا پروسيسنگ، فيچر انجنيئرنگ، وغيره 80-90٪ وقت وٺن ٿا، ۽ 10-20٪ تجزيو، جڏهن ته تقريبا تمام تعليمي مواد خاص طور تي تجزيو تي ڌيان ڏئي ٿو.

اچو ته هڪ سادي تجزياتي مسئلي کي ٽن نسخن ۾ هڪ عام مثال طور ڏسون ۽ ڏسون ته ڪهڙيون ”وڏيون حالتون“ آهن.

۽ مثال طور، ٻيهر، اسين ڊيٽا گڏ ڪرڻ جي ڪم جي ساڳي تبديلين تي غور ڪنداسين ۽ ڪميونٽي جي مقابلي لاء:

  1. ٻه Reddit subreddits
  2. حبر جا ٻه حصا
  3. Odnoklassniki جا ٻه گروپ

نظريي ۾ مشروط انداز

سائيٽ کوليو ۽ مثال پڙھو، جيڪڏھن اھو صاف آھي، پڙھڻ لاءِ ڪجھ ڪلاڪ مقرر ڪريو، مثالن ۽ ڊيبگنگ کي استعمال ڪندي ڪوڊ لاءِ ڪجھ ڪلاڪ. گڏ ڪرڻ لاء ڪجھ ڪلاڪ شامل ڪريو. رزرو ۾ ڪجهه ڪلاڪن ۾ اڇلايو (ٻن سان ضرب ڪريو ۽ اين ڪلاڪ شامل ڪريو).

اهم نقطو: وقت جو تخمينو مفروضن تي ٻڌل آهي ۽ اندازو لڳايو ويو آهي ته اهو ڪيترو وقت وٺندو.

مٿي بيان ڪيل مشروط مسئلي لاءِ هيٺين پيرا ميٽرن جو اندازو لڳائي وقت جو تجزيو شروع ڪرڻ ضروري آهي:

  • ڊيٽا جي سائيز ڇا آهي ۽ ڪيترو ان کي جسماني طور تي گڏ ڪرڻ جي ضرورت آهي (*هيٺ ڏسو*).
  • هڪ رڪارڊ لاءِ گڏ ڪرڻ جو وقت ڇا آهي ۽ ٻيو گڏ ڪرڻ کان پهريان توهان کي ڪيترو انتظار ڪرڻو پوندو؟
  • لکڻ واري ڪوڊ تي غور ڪريو جيڪو رياست کي بچائي ٿو ۽ ٻيهر شروع ٿئي ٿو جڏهن (نه ته) سڀ ڪجهه ناڪام ٿئي ٿو.
  • معلوم ڪريو ته ڇا اسان کي اجازت جي ضرورت آهي ۽ API ذريعي رسائي حاصل ڪرڻ لاءِ وقت مقرر ڪريو.
  • ڊيٽا جي پيچيدگي جي فنڪشن جي طور تي غلطين جو تعداد مقرر ڪريو - ھڪڙي خاص ڪم لاء جائزو وٺو: ساخت، ڪيتريون تبديليون، ڇا ۽ ڪيئن ڪڍڻ لاء.
  • نيٽ ورڪ جي غلطين کي درست ڪريو ۽ غير معياري منصوبي جي رويي سان مسئلا.
  • اندازو لڳايو ته گهربل ڪم دستاويزن ۾ آهن ۽ جيڪڏهن نه، ته پوءِ ڪيئن ۽ ڪيترو ڪم جي ضرورت آهي.

سڀ کان اهم ڳالهه اها آهي ته وقت جو اندازو لڳائڻ لاءِ - توهان کي اصل ۾ وقت ۽ ڪوشش خرچ ڪرڻ جي ضرورت آهي "قوت ۾ تحقيق" - تڏهن ئي توهان جي رٿابندي ڪافي ٿيندي. تنهن ڪري، توهان کي ڪيترو به دٻايو وڃي ته اهو چوڻ لاءِ ”ڊيٽا گڏ ڪرڻ ۾ ڪيترو وقت لڳندو آهي“ - پنهنجو پاڻ کي ابتدائي تجزيي لاءِ ڪجهه وقت خريد ڪريو ۽ بحث ڪيو ته وقت ڪيترو مختلف هوندو مسئلو جي حقيقي پيٽرولن جي لحاظ سان.

۽ ھاڻي اسين ڏيکارينداسين مخصوص مثالن ۾ جتي اھڙيون ماپون تبديل ٿينديون.

اهم نقطو: تخمينو ڪم جي دائري ۽ پيچيدگي تي اثر انداز ڪندڙ اهم عنصر جي تجزيو تي ٻڌل آهي.

اندازي جي بنياد تي اندازو لڳائڻ هڪ سٺو طريقو آهي جڏهن فنڪشنل عناصر ڪافي ننڍا آهن ۽ اهڙا ڪيترائي عنصر نه آهن جيڪي خاص طور تي مسئلي جي ڊيزائن تي اثر انداز ڪري سگهن ٿيون. پر ڊيٽا سائنس جي ڪيترن ئي مسئلن جي صورت ۾، اهڙا عنصر تمام گهڻا بڻجي ويندا آهن ۽ اهڙي طريقي سان غير مناسب ٿي ويندي آهي.

Reddit برادرين جو مقابلو

اچو ته آسان ترين ڪيس سان شروع ڪريو (جيئن ته اهو بعد ۾ ظاهر ٿئي ٿو). عام طور تي، مڪمل طور تي ايماندار هجڻ لاء، اسان وٽ تقريبا مثالي ڪيس آهي، اچو ته اسان جي پيچيدگي جي چڪاس جي جانچ ڪريو:

  • هتي هڪ صاف، صاف ۽ دستاويزي API آهي.
  • اهو انتهائي سادو آهي ۽ سڀ کان اهم، هڪ ٽوڪن خودڪار طريقي سان حاصل ڪيو ويندو آهي.
  • ڪري سگهو ٿا پٿرن جي چادر - ڪيترن ئي مثالن سان.
  • هڪ ڪميونٽي جيڪا reddit تي ڊيٽا جو تجزيو ۽ گڏ ڪري ٿي (جيتوڻيڪ يوٽيوب وڊيوز کي وضاحت ڪري ٿي ته پيٿون ريپر ڪيئن استعمال ڪجي) مثال طور.
  • اهي طريقا جن جي اسان کي ضرورت آهي گهڻو ڪري API ۾ موجود آهن. ان کان علاوه، ڪوڊ ٺهيل ۽ صاف نظر اچي ٿو، هيٺ ڏنل هڪ فنڪشن جو هڪ مثال آهي جيڪو پوسٽ تي تبصرو گڏ ڪري ٿو.

def get_comments(submission_id):
    reddit = Reddit(check_for_updates=False, user_agent=AGENT)
    submission = reddit.submission(id=submission_id)
    more_comments = submission.comments.replace_more()
    if more_comments:
        skipped_comments = sum(x.count for x in more_comments)
        logger.debug('Skipped %d MoreComments (%d comments)',
                     len(more_comments), skipped_comments)
    return submission.comments.list()

کان ورتو ويو هي لفافي لاء آسان افاديت جي چونڊ.

ان حقيقت جي باوجود ته هي بهترين ڪيس آهي، اهو اڃا تائين حقيقي زندگي مان ڪيترن ئي اهم عنصرن تي غور ڪرڻ جي قابل آهي:

  • API حدون - اسان بيچ ۾ ڊيٽا وٺڻ تي مجبور آهيون (درخواستن جي وچ ۾ سمهڻ، وغيره).
  • گڏ ڪرڻ جو وقت - مڪمل تجزيي ۽ مقابلي لاءِ، توھان کي خاص وقت مقرر ڪرڻو پوندو صرف مکڙيءَ جي ذيلي ايڊيٽ ذريعي هلڻ لاءِ.
  • بوٽ کي سرور تي هلڻ گهرجي- توهان صرف ان کي پنهنجي ليپ ٽاپ تي نه هلائي سگهو ٿا، ان کي پنهنجي بيڪ پيڪ ۾ رکو، ۽ توهان جي ڪاروبار بابت وڃو. تنهن ڪري مون هر شي کي وي پي ايس تي هلائي ڇڏيو. استعمال ڪندي پروموشنل ڪوڊ habrahabr10 توهان بچائي سگهو ٿا ٻيو 10% قيمت جو.
  • ڪجھ ڊيٽا جي جسماني رسائي (اھي منتظمين کي نظر اچن ٿا يا گڏ ڪرڻ ڏاڍو ڏکيو آھي) - اھو حساب ۾ رکيو وڃي؛ اصول ۾، سڀ ڊيٽا مناسب وقت ۾ گڏ نه ٿي سگھن.
  • نيٽورڪ غلطيون: نيٽورڪنگ هڪ درد آهي.
  • هي زنده حقيقي ڊيٽا آهي - اهو ڪڏهن به خالص ناهي.

يقينن، اهو ضروري آهي ته انهن nuances کي ترقي ۾ شامل ڪيو وڃي. مخصوص ڪلاڪ/ڏينهن جو دارومدار ترقيءَ جي تجربي يا ساڳي ڪمن تي ڪم ڪرڻ جي تجربي تي هوندو آهي، جڏهن ته، اسان ڏسون ٿا ته هتي ڪم خالص انجنيئرنگ آهي ۽ ان کي حل ڪرڻ لاءِ جسم جي اضافي حرڪتن جي ضرورت نه آهي - هر شيءِ جو چڱيءَ طرح اندازو لڳائي سگهجي ٿو، شيڊول ڪيو وڃي ٿو ۽ ڪيو وڃي ٿو.

حبر حصن جو مقابلو

اچو ته ھبر جي موضوعن ۽/يا حصن جي مقابلي جي ھڪڙي وڌيڪ دلچسپ ۽ غير معمولي معاملي ڏانھن وڃو.

اچو ته اسان جي پيچيدگي جي چيڪلسٽ کي چيڪ ڪريو - هتي، هر نقطي کي سمجهڻ لاء، توهان کي ڪم ۾ ٿورڙو کڙو ڪرڻو پوندو ۽ تجربو ڪرڻو پوندو.

  • پهرين توهان سوچيو ته اتي هڪ API آهي، پر اتي ناهي. ها، ها، هابر وٽ هڪ API آهي، پر اهو صرف استعمال ڪندڙن لاءِ دستياب ناهي (يا شايد اهو ڪم نٿو ڪري).
  • پوءِ توھان صرف html پارس ڪرڻ شروع ڪيو - ”درآمد درخواستون“، ڇا غلط ٿي سگھي ٿو؟
  • ڪنهن به صورت ۾ تجزيو ڪيئن ڪجي؟ سڀ کان سادو ۽ اڪثر استعمال ٿيل طريقو IDs تي ٻيهر ورجائڻ آهي، ياد رکو ته اهو سڀ کان وڌيڪ ڪارائتو نه آهي ۽ مختلف ڪيسن کي سنڀالڻو پوندو - هتي سڀني موجوده IDs جي وچ ۾ حقيقي IDs جي کثافت جو هڪ مثال آهي.

    ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو؟ ڊيٽا گڏ ڪرڻ
    کان ورتو ويو هي مضمون.

  • ويب جي چوٽي تي HTML ۾ ڍڪيل خام ڊيٽا هڪ درد آهي. مثال طور، توهان هڪ آرٽيڪل جي درجه بندي کي گڏ ڪرڻ ۽ محفوظ ڪرڻ چاهيو ٿا: توهان html مان سکور ڪڍي ڇڏيو ۽ ان کي وڌيڪ پروسيسنگ لاءِ نمبر طور محفوظ ڪرڻ جو فيصلو ڪيو: 

    1) int(score) هڪ غلطي اڇلائي ٿو: جيئن ته Habré تي هڪ مائنس آهي، مثال طور، لڪير ۾ "-5" - هي هڪ اين ڊيش آهي، هڪ مائنس نشاني نه آهي (غير متوقع طور تي، صحيح؟)، تنهنڪري تي ڪجهه نقطي مون کي اهڙي خوفناڪ اصلاح سان پارسر کي زندگي ڏانهن وڌائڻو هو.

    try:
          score_txt = post.find(class_="score").text.replace(u"–","-").replace(u"+","+")
          score = int(score_txt)
          if check_date(date):
            post_score += score
    

    هتي ڪا به تاريخ، پلس ۽ مائنس نه ٿي سگھي (جيئن اسان مٿي ڏسو check_date فنڪشن ۾، اهو ٿيو).

    2) اڻڄاتل خاص اکر - اهي ايندا، توهان کي تيار ٿيڻ جي ضرورت آهي.

    3) پوسٽ جي قسم جي بنياد تي ساخت تبديل ٿي.

    4) پراڻن پوسٽن ۾ **عجيب جوڙجڪ** ٿي سگھي ٿي.

  • بنيادي طور تي، غلطي کي سنڀالڻ ۽ ڇا ٿي سگھي ٿو يا نه ٿي سگھي ٿو سنڀالڻو پوندو ۽ توھان پڪ سان اڳڪٿي نٿا ڪري سگھو ته ڇا غلط ٿيندو ۽ ٻيو ڪيئن ٿي سگھي ٿو ڍانچي ۽ ڇا ٿيندو جتي گر ٿيندو - توھان کي صرف ڪوشش ڪرڻي پوندي ۽ حساب ۾ رکڻو پوندو. غلطيون جيڪي پارسر اڇلائي ٿو.
  • پوء توهان محسوس ڪيو ته توهان کي ڪيترن ئي موضوعن ۾ پارس ڪرڻ جي ضرورت آهي، ٻي صورت ۾ هڪ ۾ پارس ڪرڻ ۾ 30+ ڪلاڪ لڳندا (اهو خالص طور تي اڳ ۾ ئي ڪم ڪندڙ سنگل ٿريڊ پارسر جي عمل جو وقت آهي، جيڪو سمهي ٿو ۽ ڪنهن به پابنديء هيٺ نه ٿو اچي). IN هي آرٽيڪل، هي ڪجهه نقطي تي ساڳئي منصوبي ڏانهن ويو:

ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو؟ ڊيٽا گڏ ڪرڻ

پيچيدگي جي لحاظ کان ڪل چيڪ لسٽ:

  • نيٽ ورڪ سان ڪم ڪري رهيو آهي ۽ html parsing سان iteration ۽ ڳولا ID ذريعي.
  • heterogeneous ساخت جا دستاويز.
  • ڪيتريون ئي جڳھون آھن جتي ڪوڊ آساني سان گر ٿي سگھي ٿو.
  • لکڻ ضروري آهي || ڪوڊ.
  • ضروري دستاويز، ڪوڊ جا مثال، ۽/يا ڪميونٽي غائب آهن.

هن ڪم لاءِ اندازي مطابق وقت 3-5 ڀيرا وڌيڪ هوندو Reddit کان ڊيٽا گڏ ڪرڻ کان.

Odnoklassniki گروپن جو مقابلو

اچو ته بيان ڪيل سڀ کان وڌيڪ ٽيڪنالاجي طور تي دلچسپ ڪيس ڏانهن وڃو. منهنجي لاءِ، اهو خاص طور تي دلچسپ هو، ڇاڪاڻ ته پهرين نظر ۾، اهو تمام ٿورڙو نظر اچي ٿو، پر اهو بلڪل به نه ٿو لڳي - جيئن ئي توهان ان تي لٺ ڇڪيندا آهيو.

اچو ته اسان جي مشڪل چيڪلسٽ سان شروع ڪريو ۽ ياد رکو ته انهن مان گھڻا وڌيڪ مشڪل ٿي ويندا ان کان وڌيڪ جيڪي اهي پهرين نظر اچن ٿا:

  • اتي ھڪڙو API آھي، پر اھو تقريبا مڪمل طور تي ضروري ڪمن جو فقدان آھي.
  • ڪجهه ڪمن لاءِ توهان کي ميل ذريعي رسائي جي درخواست ڪرڻ جي ضرورت آهي، اهو آهي، رسائي جي فراهمي فوري ناهي.
  • اھو بھترين طور تي دستاويز ٿيل آھي (شروع ڪرڻ لاءِ، روسي ۽ انگريزي اصطلاحن کي ھر جڳھ تي ملايو ويو آھي، ۽ مڪمل طور تي متضاد طور تي - ڪڏھن توھان کي رڳو اھو اندازو لڳائڻو پوندو آھي ته اھي توھان کان ڪٿي چاھين ٿا) ۽، ان کان علاوه، ڊزائن ڊيٽا حاصل ڪرڻ لاءِ موزون نه آھي، مثال طور. , اسان کي گهربل فنڪشن.
  • دستاويزن ۾ هڪ سيشن جي ضرورت آهي، پر اصل ۾ ان کي استعمال نه ڪندو آهي - ۽ API طريقن جي سڀني پيچيدگين کي سمجهڻ جو ڪو به طريقو ناهي سواء چوڌاري پوکڻ ۽ اميد آهي ته ڪجهه ڪم ڪندو.
  • نه ڪي مثال آهن ۽ نه ڪو ڪميونٽي؛ معلومات گڏ ڪرڻ ۾ مدد جو واحد نقطو ننڍڙو آهي چادر پٿون ۾ (استعمال جي ڪيترن ئي مثالن کان سواء).
  • Selenium لڳي ٿو سڀ کان وڌيڪ قابل عمل اختيار، ڇاڪاڻ ته ڪيترائي ضروري ڊيٽا بند ٿيل آهن.
    1) اهو آهي، اختيار هڪ جعلي استعمال ڪندڙ (۽ هٿ سان رجسٽريشن) جي ذريعي ٿيندي آهي.

    2) تنهن هوندي به، Selenium سان صحيح ۽ ورجائي ڪم جي ڪا به ضمانت نه آهي (گهٽ ۾ گهٽ ok.ru جي صورت ۾ پڪ سان).

    3) Ok.ru ويب سائيٽ جاوا اسڪرپٽ جي غلطين تي مشتمل آهي ۽ ڪڏهن ڪڏهن عجيب ۽ متضاد طريقي سان ڪم ڪري ٿي.

    4) توهان کي ڪرڻ جي ضرورت آهي صفحو، لوڊشيڊنگ عناصر، وغيره ...

    5) API غلطيون جيڪي ريپر ڏئي ٿو انهن کي بيچيني سان سنڀالڻو پوندو، مثال طور، هي (تجرباتي ڪوڊ جو هڪ ٽڪرو):

    def get_comments(args, context, discussions):
        pause = 1
        if args.extract_comments:
            all_comments = set()
    #makes sense to keep track of already processed discussions
            for discussion in tqdm(discussions): 
                try:
                    comments = get_comments_from_discussion_via_api(context, discussion)
                except odnoklassniki.api.OdnoklassnikiError as e:
                    if "NOT_FOUND" in str(e):
                        comments = set()
                    else:
                        print(e)
                        bp()
                        pass
                all_comments |= comments
                time.sleep(pause)
            return all_comments
    

    منهنجي پسنديده غلطي هئي:

    OdnoklassnikiError("Error(code: 'None', description: 'HTTP error', method: 'discussions.getComments', params: …)”)

    6) بالآخر، Selenium + API نظر اچي ٿو سڀ کان وڌيڪ منطقي اختيار.

  • اهو ضروري آهي ته رياست کي بچائڻ ۽ سسٽم کي ٻيهر شروع ڪرڻ، ڪيترن ئي غلطين کي سنڀالڻ، بشمول سائيٽ جي غير مطابقت واري رويي سميت - ۽ انهن غلطين کي تصور ڪرڻ تمام ڏکيو آهي (جيستائين توهان ماهرن کي پروفيسر نه لکندا، يقينا).

ھن ڪم لاءِ مشروط وقت جو اندازو ھبر کان ڊيٽا گڏ ڪرڻ جي ڀيٽ ۾ 3-5 ڀيرا وڌيڪ ھوندو. ان حقيقت جي باوجود ته حبر جي صورت ۾ اسان HTML پارسنگ سان سامهون واري طريقي کي استعمال ڪريون ٿا، ۽ ٺيڪ جي صورت ۾ اسان نازڪ هنڌن تي API سان ڪم ڪري سگهون ٿا.

پهچڻ

ڪابه پرواه ناهي ته توهان کي ڪيتري حد تائين "جڳه تي" (اسان اڄ منصوبابندي ڪري رهيا آهيون!) هڪ وڏي ڊيٽا پروسيسنگ پائپ لائن ماڊل جي آخري حدن جو اندازو لڳائڻ جي ضرورت آهي، عمل جي وقت تقريبا ڪڏهن به ممڪن ناهي ته ٽاسڪ پيٽرولر جي تجزيو ڪرڻ کان سواء به قابليت جو اندازو لڳائڻ.

ٿورڙي وڌيڪ فلسفياڻي نوٽ تي، چست اندازي واريون حڪمت عمليون انجنيئرنگ جي ڪمن لاءِ چڱيءَ طرح ڪم ڪن ٿيون، پر اهي مسئلا جيڪي وڌيڪ تجرباتي آهن ۽ هڪ لحاظ کان، ”تخليقي“ ۽ تحقيقي، يعني گهٽ اڳڪٿي ڪري سگهجن ٿيون، مشڪلاتون آهن، جيئن ته ساڳين موضوعن جي مثالن ۾، جنهن تي اسان هتي بحث ڪيو آهي.

يقينا، ڊيٽا گڏ ڪرڻ صرف هڪ عظيم مثال آهي - اهو عام طور تي هڪ ناقابل اعتماد حد تائين سادو ۽ ٽيڪنيڪل طور تي غير پيچيده ڪم آهي، ۽ شيطان اڪثر تفصيل ۾ هوندو آهي. ۽ اهو خاص طور تي هن ڪم تي آهي ته اسان ممڪن اختيارن جي مڪمل حد ڏيکاري سگهون ٿا ته ڇا غلط ٿي سگهي ٿو ۽ اهو ڪم ڪيترو وقت وٺي سگهي ٿو.

جيڪڏهن توهان اضافي تجربن کان سواءِ ڪم جي خاصيتن تي نظر وجهو ٿا، ته پوءِ Reddit ۽ OK هڪجهڙا نظر اچن ٿا: اتي هڪ API آهي، هڪ پٿون ريپر، پر ذات ۾، فرق تمام وڏو آهي. انهن پيرا ميٽرن جي حساب سان، هيبر جا پارس ٺيڪ کان وڌيڪ پيچيده نظر اچن ٿا - پر عملي طور تي اهو بلڪل برعڪس آهي، ۽ اهو بلڪل اهو آهي جيڪو مسئلي جي پيرا ميٽرز جو تجزيو ڪرڻ لاءِ سادي تجربن ذريعي معلوم ڪري سگهجي ٿو.

منهنجي تجربي ۾، سڀ کان وڌيڪ اثرائتو طريقو اهو آهي ته ان وقت جو اندازو لڳايو جيڪو توهان کي گهربل هوندو ابتدائي تجزيي لاءِ پاڻ ۽ سادي پهرين تجربن لاءِ، دستاويز کي پڙهو - اهي توهان کي پوري ڪم لاءِ صحيح تخمينو ڏيڻ جي اجازت ڏيندا. مشهور چست طريقي جي اصطلاحن ۾، مان توهان کان پڇان ٿو ته "انداز ڪرڻ واري ٽاسڪ پيرا ميٽرز" لاءِ هڪ ٽڪيٽ ٺاهيو، جنهن جي بنياد تي مان اندازو لڳائي سگهان ٿو ته "اسپرنٽ" ۾ ڇا ٿي سگهي ٿو ۽ هر هڪ لاءِ وڌيڪ صحيح تخمينو ڏيو. ڪم.

تنهن ڪري، سڀ کان وڌيڪ اثرائتو دليل اهو لڳي ٿو ته هڪ "غير ٽيڪنيڪل" ماهر ڏيکاريندو ته ڪيترو وقت ۽ وسيلا مختلف هوندا انهن جي پيٽرولن جي بنياد تي جن جو اڃا تائين جائزو ورتو ويو آهي.

ڊيٽا سائنس سان ڇا غلط ٿي سگهي ٿو؟ ڊيٽا گڏ ڪرڻ

جو ذريعو: www.habr.com

تبصرو شامل ڪريو