د مال پیرودونکو ډیټاسیټ - د پلورنځي لیدونکو معلومات: ID، جندر، عمر، عاید، د لګښت درجه. ((د غوښتنلیک اختیار:د ماشین زده کړې سره د پیرودونکي برخې کولو پروژه )د ایریس ډیټاسیټ - د پیل کونکو لپاره ډیټا سیټ چې د مختلف ګلونو لپاره د سیپلونو او ګلانو اندازه لري.د MNIST ډیټاسیټ - د لاس لیکل شوي شمیرو ډیټاسیټ. 60 د روزنې انځورونه او 000 د ازموینې انځورونه.د بوسټن هاؤسنګ ډیټاسیټ د نمونې پیژندنې لپاره یو مشهور ډیټا سیټ دی. په بوسټن کې د کورونو په اړه معلومات لري: د اپارتمانونو شمیر، د کرایې نرخونه، د جرم شاخص.د جعلي خبرونو کشف ډیټاسیټ - د خبرونو نښه کولو سره 7796 ننوتنې لري: ریښتیا یا غلط. ((په Python کې د سرچینې کوډ سره د غوښتنلیک اختیار:د جعلي خبرونو کشف Python پروژه )د شرابو کیفیت ډیټاسیټ - د شرابو په اړه معلومات لري: د 4898 پیرامیټونو سره 14 ریکارډونه.د SOCR ډیټا - د قد او وزن ډیټاسیټ - د پیل کولو لپاره یو ښه اختیار. د 25 کلنو خلکو د قد او وزن 000 ریکارډونه لري.
مقاله د EDISON سافټویر په ملاتړ ژباړل شوې ، کوم چېد سویلي چین څخه امرونه "په ښه توګه" پوره کوي او همدارنګهویب غوښتنلیکونه او ویب پاڼې رامینځته کوي .د پارکینسن ډیټاسیټ - د پارکینسن ناروغۍ سره د ناروغانو 195 ریکارډونه، د 25 تحلیل پیرامیټونو سره. د ناروغ او صحتمند خلکو ترمینځ د توپیر لومړنۍ ارزونې لپاره کارول کیدی شي. ((په Python کې د سرچینې کوډ سره د غوښتنلیک اختیار:د پارکینسن ناروغۍ کشف کولو په اړه د ماشین زده کړې پروژه )د تایټانیک ډیټاسیټ - د مسافرینو په اړه معلومات لري (عمر، جنس، په الوتکه کې خپلوان، او نور) د روزنې په سیټ کې 891 او د ټیسټ سیټ کې 418.د Uber Pickups ډیټاسیټ - په 4.5 کې اوبر کې د 2014 ملیون سفرونو او په 14 کې 2015 ملیون سفرونو په اړه معلومات. ((په R کې د سرچینې کوډ سره د غوښتنلیک اختیار:په R کې د Uber ډیټا تحلیل پروژه )د Chars74k ډیټاسیټ - د 64 ټولګیو د برتانوي او کاناډا سمبولونو انځورونه لري: 0-9، A-Z، a-z. 7700 7.7k طبیعي انځورونه، 3400k لاسي لیکل شوي، 62000 کمپیوټر ترکیب شوي فونټونه.د کریډیټ کارت درغلۍ کشف ډیټاسیټ - د جوړ شوي کریډیټ کارتونو معاملو په اړه معلومات لري. ((د سرچینې سره د غوښتنلیک اختیار:د کریډیټ کارت درغلۍ کشف ماشین زده کړې پروژه )د Chatbot ارادې ډیټاسیټ - د JSON فایل چې مختلف ټاګونه لري: سلامونه ، الوداع ، روغتون_ لټون ، درملتون_ لټون ، او داسې نور. د پوښتنې ځواب ټیمپلیټونه لري. ((په Python کې د سرچینې کوډ سره د غوښتنلیک اختیار:په Python کې د Chatbot پروژه )د اینرون بریښنالیک ډیټاسیټ - د اینرون د 150 مدیرانو نیم ملیون لیکونه لري.د Yelp ډیټاسیټ - د 1,2 ملیون سازمانونو په اړه د 1,6 ملیون کاروونکو څخه 1,2 ملیون وړاندیزونه لري.د خطر ډیټاسیټ - د مشهور تلویزیون لوبې څخه له 200 څخه ډیر د پوښتنو او ځوابونو ریکارډونه.د وړاندیز کونکي سیسټم ډیټاسیټ - د UCSD پوهنتون څخه د ډیټاسیټونو ټولګه سره یو پورټل. په مشهور سایټونو (Goodreads، Amazon) کې د بیاکتنې ریکارډونه لري. د وړاندیز کونکي سیسټمونو رامینځته کولو لپاره عالي. ((په R کې د سرچینې کوډ سره د غوښتنلیک اختیار:د فلم د سپارښتنې سیسټم پروژه په R )د UCI سپیمبیس ډیټاسیټ - د سپیم کشف لپاره د روزنې ډیټاسیټ. د 4601 میټاډاټا پیرامیټونو سره 57 لیکونه لري.د فلکر 30k ډیټاسیټ - له 30 څخه ډیر عکسونه او سرلیکونه. (د فلکر 8k ډیټاسیټ - 8000 انځورونه د Python سرچینه پروژه:د انځور سرلیک جنراتور Python پروژه )د IMDB بیاکتنې - 25 فلم بیاکتنې په ټریننګ سیټ کې او 000 په ټیسټ سیټ کې. ((په R کې د سرچینې کوډ سره د غوښتنلیک اختیار:د احساس تحلیل ډیټا ساینس پروژه )د MS COCO ډیټاسیټ - 1,5 ملیون ټګ شوي عکسونه.CIFAR-10 او CIFAR-100 ډیټاسیټ - CIFAR-10 60,000 کوچني عکسونه لري چې د 32*32 پکسلونو شمیر 0-9 لري. CIFAR-100 - په ترتیب سره، 0-100.GTSRB (د آلمان د ترافیک نښه پیژندنې بنچمارک) ډیټاسیټ - د سړک د 50 نښو 000 انځورونه. ((په Python کې د سرچینې کوډ سره د غوښتنلیک اختیار:د ترافیکي نښو پیژندنې پایتون پروژه )ImageNet ډیټاسیټ - په هره جمله کې له 100 څخه ډیر جملې او شاوخوا 000 عکسونه لري.د سینې هسټوپیتولوژي عکسونو ډیټاسیټ - ډیټاسیټ د سینې سرطان نمونې انځورونه لري. ((د سرچینې کوډ سره د غوښتنلیک اختیارد سینې سرطان طبقه بندي Python پروژه )د ښار سکیپ ډیټاسیټ - په بیلابیلو ښارونو کې د سړکونو ویډیو ترتیبونو لوړ کیفیت تشریحات لري.کایناتیک ډیټاسیټ - د شاوخوا 6,5 ملیون لوړ کیفیت ویډیوګانو لپاره د URL لینک لري.د MPII انساني پوز ډیټاسیټ - ډیټاسیټ د ګډو تشریحاتو سره د انسان پوز 25 عکسونه لري.20BN-something-something dataset v2 - د لوړ کیفیت ویډیوګانو سیټ چې ښیې چې یو کس څنګه یو څه عمل ترسره کوي.اعتراض 365 ډیټاسیټ - د لوړ کیفیت لرونکي عکسونو ډیټاسیټ د څیز پابند بکسونو سره.د عکس سکیچ کولو ډیټاسیټ - له 1000 څخه ډیر عکسونه د دوی د نقشې نقاشیو سره لري.د CQ500 ډیټاسیټ - ډیټاسیټ د سر 491 CT سکینونه لري چې 193 ټوټې لري.د IMDB-ویکي ډیټاسیټ - یو ډیټا سیټ چې د 5 ملیون څخه ډیر د مخونو عکسونو سره د جنسیت او عمر لخوا په نښه شوي. ((د سرچینې کوډ سره د غوښتنلیک اختیارد جنډر او عمر کشف Python پروژه )د یوټیوب 8M ډیټاسیټ - یو لیبل شوی ویډیو ډیټاسیټ چې 6,1 ملیون یوټیوب ویډیو IDs لريد ښاري غږ 8K ډیټاسیټ - د ښاري غږ ډیټا سیټ (د 8732 ټولګیو څخه 10 ښاري غږونه لري).د LSUN ډیټاسیټ - د صحنو او شیانو ملیونونو رنګ عکسونو ډیټاسیټ (شاوخوا 59 ملیون عکسونه ، 10 مختلف صحنې کټګورۍ او 20 مختلف څیز کټګورۍ).د RAVDESS ډیټاسیټ - د احساساتي وینا غږیز ډیټابیس. ((د سرچینې کوډ سره د غوښتنلیک اختیارد وینا د احساساتو پیژندنې پایتون پروژه )Librispeech Dataset - ډیټاسیټ د 1000 ساعتونو انګلیسي وینا لري د مختلف تلفظونو سره.Baidu Apolloscape Dataset - د ځان چلولو ټیکنالوژیو پراختیا لپاره ډیټاسیټ.د Quandl ډیټا پورټل - د اقتصادي او مالي معلوماتو ذخیره (د وړیا او تادیه شوي مینځپانګې شتون لري).نړیوال بانک د ډیټا پورټل خلاصوي - مخ پر ودې هیوادونو ته د نړیوال بانک لخوا صادر شوي پورونو په اړه معلومات.د IMF ډیټا پورټل د پیسو نړیوال صندوق پورټل دی چې د نړیوالو مالیاتو، پورونو نرخونو، پانګونې، د بهرنیو اسعارو زیرمو او اجناسو په اړه معلومات خپروي.د امریکا اقتصادي ټولنه (AEA) ډیټا پورټل - د متحده ایالاتو لوی اقتصاد ډیټا لټون لپاره یوه سرچینه.د ګوګل د رجحاناتو ډیټا پورټل - د ګوګل رجحان ډیټا د لید لید او تحلیل کولو لپاره کارول کیدی شي.د فایننشل ټایمز بازار ډیټا پورټل د نړۍ له ګوټ ګوټ څخه د مالي بازارونو په اړه د تازه معلوماتو لپاره یوه سرچینه ده.Data.gov پورټل - د متحده ایالاتو حکومت د معلوماتو پورټل خلاصوي (کرنه، روغتیا، اقلیم، تعلیم، انرژي، مالیه، ساینس او څیړنې، او نور).د ډیټا پورټل: د حکومت ډیټا خلاص (هند) د هند د خلاص حکومت ډیټا پلیټ فارم دی.د خوړو چاپیریال اطلس ډیټا پورټل - په متحده ایالاتو کې د تغذیې په اړه د څیړنې ډاټا لري.د روغتیا ډیټا پورټل د متحده ایالاتو د روغتیا او بشري خدماتو څانګې پورټل دی.د ناروغیو د کنټرول او مخنیوي مرکزونه ډیټا پورټل - د روغتیا اړوند ډیټا پراخه لړۍ لري.د لندن ډیټاسټور پورټل - په لندن کې د خلکو د ژوند په اړه معلومات.د کاناډا حکومت د ډیټا پورټل خلاصوي - د کاناډایانو په اړه د خلاص معلوماتو پورټل (کرنه، هنر، موسیقۍ، تعلیم، حکومت، روغتیا پاملرنې، او نور)
نور یی ولوله
د ډیټا ساینس مهارتونو ته وده ورکولو لپاره 14 خلاصې سرچینې پروژې (اسانه ، نورمال ، سخت) د فرنټ پای دوجو: د پراختیا کونکي مهارتونو روزلو لپاره پروژې (5 نوي + 43 زاړه) غوره 12 خورا په زړه پوري IT متحرک انفوګرافیک
سرچینه: www.habr.com