モール顧客データセット — 来店者のデータ: ID、性別、年齢、収入、支出評価。 (アプリケーションオプション:機械学習を使用した顧客セグメンテーション プロジェクト )アイリスデータセット — さまざまな花のがく片と花びらのサイズを含む初心者向けのデータセット。MNIST データセット — 手書きの数字のデータセット。 60 枚のトレーニング画像と 000 枚のテスト画像。ボストンの住宅データセット はパターン認識用の人気のあるデータセットです。 ボストンの住宅に関する情報 (アパートの数、賃貸価格、犯罪指数) が含まれています。フェイクニュース検出データセット — ニュース マーク (true または false) が付けられた 7796 エントリが含まれています。 (Python のソース コードを含むアプリケーション オプション:フェイクニュース検出 Python プロジェクト )ワインの品質データセット — ワインに関する情報が含まれています: 4898 のパラメーターを含む 14 レコード。SOCR データ – 身長と体重のデータセット - 最初に始めるのに良い選択肢です。 25 歳の身長と体重に関する 000 件の記録が含まれています。
この記事は EDISON Software のサポートを受けて翻訳されました。中国南部からの注文を「見事に」満たす とWeb アプリケーションと Web サイトを開発します .パーキンソン病データセット — 195 の分析パラメーターを備えたパーキンソン病患者の 25 件の記録。 病気の人と健康な人の違いを事前に評価するために使用できます。 (Python のソース コードを含むアプリケーション オプション:パーキンソン病の検出に関する機械学習プロジェクト )タイタニックデータセット — 乗客に関する情報(年齢、性別、乗車中の親族など)が含まれています。トレーニング セットでは 891 件、テスト セットでは 418 件です。Uber ピックアップ データセット — 4.5 年には Uber で 2014 万件、14 年には 2015 万件の乗車に関する情報。 (R のソース コードを使用したアプリケーション オプション:R の Uber データ分析プロジェクト )Chars74k データセット — 64 クラス (0 ~ 9、AZ、AZ) のイギリスとカナダのシンボルの画像が含まれています。 7700 個の 7.7k 自然画像、3400 個の手書きフォント、62000 個のコンピューター合成フォント。クレジット カード不正検出データセット — 侵害されたクレジット カードの取引に関する情報が含まれています。 (ソース付きアプリケーション オプション:クレジットカード不正検知機械学習プロジェクト )チャットボットのインテント データセット — さまざまなタグを含む JSON ファイル: 挨拶、さよなら、病院検索、薬局検索など。 一連の質問と回答のテンプレートが含まれています。 (Python のソース コードを含むアプリケーション オプション:Python でのチャットボット プロジェクト )エンロン電子メール データセット — 150人のエンロンマネージャーからのXNUMX万通の手紙が含まれています。Yelp データセット — 1,2万の組織、1,6万人のユーザーからの1,2万件の推奨事項が含まれています。危険なデータセット — 人気のテレビ ゲームからの 200 を超える質疑応答の記録。レコメンダー システム データセット — UCSD 大学のデータセットのコレクションを備えたポータル。 人気サイト (Goodreads、Amazon) のレビューの記録が含まれています。 レコメンダー システムの作成に最適です。 (R のソース コードを使用したアプリケーション オプション:Rの映画推薦システムプロジェクト )UCI スパムベース データセット — スパム検出用のトレーニング データセット。 4601 のメタデータ パラメーターを含む 57 文字が含まれます。Flickr 30kデータセット — 30,000 を超える画像とキャプション。 (Flickr 8kデータセット — 8000 枚の画像。 Python ソース プロジェクト:画像キャプション ジェネレーター Python プロジェクト )IMDB レビュー — トレーニング セットでは 25 件の映画レビュー、テスト セットでは 000 件の映画レビュー。 (R のソース コードを使用したアプリケーション オプション:感情分析データサイエンスプロジェクト )MS COCO データセット — 1,5 万枚のタグ付き画像。CIFAR-10 および CIFAR-100 データセット — CIFAR-10 には、60,000*32 ピクセル番号 32 ~ 0 の小さな画像が 9 個含まれています。 CIFAR-100 - それぞれ 0 ~ 100。GTSRB (ドイツの交通標識認識ベンチマーク) データセット — 50 の道路標識の 000 枚の画像。 (Python のソース コードを含むアプリケーション オプション:交通標識認識 Python プロジェクト )ImageNetデータセット — 100 を超えるフレーズと、フレーズごとに約 000 の画像が含まれています。乳房の組織病理学画像データセット — データセットには乳がんサンプルの画像が含まれています。 (ソースコードをオンにしたアプリケーションオプション乳がん分類 Python プロジェクト )Cityscapesデータセット — さまざまな都市の通りのビデオ シーケンスの高品質の注釈が含まれています。動態データセット - 約 6,5 万本の高品質ビデオへの URL リンクが含まれています。MPII 人間のポーズ データセット — データセットには、関節の注釈が付いた人間のポーズの 25 枚の画像が含まれています。20BN なんとかデータセット v2 - 人が何らかのアクションを実行する様子を示す一連の高品質ビデオ。オブジェクト 365 データセット — オブジェクト境界ボックスを含む高品質画像のデータセット。写真スケッチ データセット — 1000 を超える画像とその輪郭図が含まれています。CQ500 データセット — データセットには、491 のスライスを持つ頭部の 193 CT スキャンが含まれています。IMDB-Wiki データセット — 性別と年齢でマークされた 5 万を超える顔の画像を含むデータセット。 (ソースコードをオンにしたアプリケーションオプション性別と年齢の検出 Python プロジェクト )Youtube 8M データセット - 6,1 万の YouTube ビデオ ID を含むラベル付きビデオ データセットアーバンサウンド 8K データセット — 都市音データのセット (8732 クラスからの 10 の都市音を含む)。LSUN データセット - シーンとオブジェクトの何百万ものカラー画像のデータセット (約 59 万の画像、10 の異なるシーン カテゴリと 20 の異なるオブジェクト カテゴリ)。RAVDESS データセット — 感情的なスピーチの視聴覚データベース。 (ソースコードをオンにしたアプリケーションオプション音声感情認識 Python プロジェクト )Librispeech データセット — データセットには、さまざまなアクセントを持つ 1000 時間の英語音声が含まれています。Baidu Apolloscape データセット — 自動運転技術開発のためのデータセット。クワンドル データ ポータル — 経済および金融データのリポジトリ (無料コンテンツと有料コンテンツがあります)。世界銀行オープンデータポータル — 世界銀行が開発途上国に発行した融資に関する情報。IMFデータポータル は、国際金融、債務金利、投資、外貨準備、商品に関するデータを公開する国際通貨基金ポータルです。米国経済協会 (AEA) データ ポータル - 米国のマクロ経済データを検索するためのリソース。Google トレンド データ ポータル - Google トレンド データを使用して、データを視覚的に探索および分析できます。フィナンシャル・タイムズ市場データポータル は、世界中の金融市場に関する最新情報のリソースです。Data.gov ポータル - 米国政府のオープン データ ポータル (農業、健康、気候、教育、エネルギー、金融、科学、研究など)。データポータル: オープン政府データ (インド) はインドのオープンな政府データ プラットフォームです。食環境 アトラス データ ポータル — 米国の栄養に関する研究データが含まれています。ヘルスデータポータル は米国保健福祉省のポータルです。疾病管理予防センター データ ポータル - 健康関連の幅広いデータが含まれています。ロンドン データストア ポータル - ロンドンの人々の生活に関するデータ。カナダ政府オープンデータポータル - カナダ人に関するオープンデータのポータル (農業、芸術、音楽、教育、政府、医療など)
続きを読む
データ サイエンスのスキルを向上させるための 14 のオープンソース プロジェクト (イージー、ノーマル、ハード) フロントエンド道場: 開発者のスキルを訓練するプロジェクト (新規 5 件 + 旧来 43 件) 最も興味深い IT ダイナミック インフォグラフィック トップ 12
出所: habr.com