14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Khoa học dữ liệu cho người mới bắt đầu

1. Sentiment Analysis (Phân tích tình cảm qua văn bản)

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Kiểm tra quá trình triển khai dự án Khoa học dữ liệu hoàn chỉnh bằng mã nguồn - Dự án phân tích tình cảm trong R.

Phân tích tình cảm là phân tích các từ để xác định tình cảm và ý kiến, có thể tích cực hoặc tiêu cực. Đây là kiểu phân loại trong đó các lớp có thể là nhị phân (tích cực và tiêu cực) hoặc số nhiều (vui, tức giận, buồn, khó chịu...). Chúng tôi sẽ triển khai dự án Khoa học dữ liệu này trong R và sẽ sử dụng tập dữ liệu trong gói "janeaustenR". Chúng tôi sẽ sử dụng các từ điển có mục đích chung như AFINN, bing và loughran, thực hiện phép nối bên trong và cuối cùng, chúng tôi sẽ tạo một đám mây từ để hiển thị kết quả.

Lưỡi: R
Tập dữ liệu/Gói: janeaustenR

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Bài viết được dịch với sự hỗ trợ của EDISON Software, công ty tạo phòng thử đồ ảo cho các cửa hàng đa thương hiệuphần mềm kiểm tra.

2. Phát hiện tin giả

Đưa kỹ năng của bạn lên một tầm cao mới bằng cách thực hiện dự án Khoa học dữ liệu dành cho người mới bắt đầu - phát hiện tin giả bằng Python.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Tin giả là thông tin sai sự thật được lan truyền qua mạng xã hội và các phương tiện truyền thông trực tuyến khác nhằm đạt được mục tiêu chính trị. Trong ý tưởng dự án Khoa học dữ liệu này, chúng tôi sẽ sử dụng Python để xây dựng một mô hình có thể xác định chính xác xem một câu chuyện tin tức là thật hay giả. Chúng tôi sẽ tạo TfidfVectorizer và sử dụng PassiveAggressiveClassifier để phân loại tin tức thành “thật” và “giả”. Chúng tôi sẽ sử dụng tập dữ liệu có hình dạng 7796×4 và chạy mọi thứ trong Jupyter Lab.

Lưỡi: Python

Tập dữ liệu/Gói: tin tức.csv

3. Phát hiện bệnh Parkinson

Tiến về phía trước với Ý tưởng Dự án Khoa học Dữ liệu của bạn - phát hiện bệnh Parkinson bằng XGBoost.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Chúng tôi đã bắt đầu sử dụng Khoa học dữ liệu để cải thiện dịch vụ và chăm sóc sức khỏe - nếu chúng tôi có thể dự đoán bệnh ở giai đoạn đầu thì chúng tôi sẽ có nhiều lợi thế. Vì vậy, trong ý tưởng dự án Khoa học dữ liệu này, chúng ta sẽ tìm hiểu cách phát hiện bệnh Parkinson bằng Python. Đây là một bệnh thoái hóa thần kinh tiến triển của hệ thần kinh trung ương, ảnh hưởng đến vận động và gây run và cứng khớp. Nó ảnh hưởng đến các tế bào thần kinh sản xuất dopamine trong não và mỗi năm, nó ảnh hưởng đến hơn 1 triệu người ở Ấn Độ.

Lưỡi: Python

Tập dữ liệu/Gói: Bộ dữ liệu UCI ML Parkinsons

Dự án Khoa học dữ liệu có độ phức tạp trung bình

4. Nhận dạng cảm xúc lời nói

Kiểm tra việc triển khai đầy đủ dự án ví dụ Khoa học dữ liệu - nhận dạng giọng nói bằng Librosa.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Bây giờ chúng ta hãy tìm hiểu cách sử dụng các thư viện khác nhau. Dự án Khoa học dữ liệu này sử dụng librosa để nhận dạng giọng nói. SER là quá trình xác định cảm xúc và trạng thái tình cảm của con người từ lời nói. Vì chúng ta sử dụng âm sắc và cao độ để thể hiện cảm xúc bằng giọng nói của mình nên SER rất phù hợp. Nhưng vì cảm xúc là chủ quan nên việc chú thích bằng âm thanh là một nhiệm vụ đầy thách thức. Chúng tôi sẽ sử dụng các hàm mfcc, chroma và mel cũng như sử dụng bộ dữ liệu RAVDESS để nhận dạng cảm xúc. Chúng tôi sẽ tạo một bộ phân loại MLPC cho mô hình này.

Lưỡi: Python

Tập dữ liệu/Gói: Tập dữ liệu RAVDESS

5. Phát hiện giới tính và độ tuổi

Gây ấn tượng với nhà tuyển dụng bằng dự án Khoa học dữ liệu mới nhất - xác định giới tính và độ tuổi bằng OpenCV.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Đây là một Khoa học dữ liệu thú vị với Python. Chỉ sử dụng một hình ảnh, bạn sẽ học cách dự đoán giới tính và tuổi tác của một người. Trong phần này, chúng tôi sẽ giới thiệu cho bạn về Thị giác máy tính và các nguyên tắc của nó. Chúng tôi sẽ xây dựng mạng lưới thần kinh tích chập và sẽ sử dụng các mô hình do Tal Hassner và Gil Levy đào tạo trên tập dữ liệu Adience. Trong quá trình này, chúng tôi sẽ sử dụng một số tệp .pb, .pbtxt, .prototxt và .caffemodel.

Lưỡi: Python

Tập dữ liệu/Gói: kiên nhẫn

6. Phân tích dữ liệu Uber

Kiểm tra quá trình triển khai dự án Khoa học dữ liệu hoàn chỉnh với mã nguồn - Dự án phân tích dữ liệu Uber ở R.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Đây là một dự án trực quan hóa dữ liệu với ggplot2, trong đó chúng tôi sẽ sử dụng R và các thư viện của nó cũng như phân tích các tham số khác nhau. Chúng tôi sẽ sử dụng bộ dữ liệu của Uber Pickups Thành phố New York và tạo hình ảnh trực quan cho các khung thời gian khác nhau trong năm. Điều này cho chúng tôi biết thời gian tác động như thế nào đến việc đi lại của khách hàng.

Lưỡi: R

Tập dữ liệu/Gói: Bộ dữ liệu của Uber Pickups ở Thành phố New York

7. Phát hiện tình trạng buồn ngủ của tài xế

Cải thiện kỹ năng của bạn bằng cách làm việc trong Dự án khoa học dữ liệu hàng đầu - hệ thống phát hiện buồn ngủ với OpenCV & Keras.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Lái xe buồn ngủ là cực kỳ nguy hiểm và gần một nghìn vụ tai nạn xảy ra mỗi năm do tài xế ngủ gật khi lái xe. Trong dự án Python này, chúng tôi sẽ tạo ra một hệ thống có thể phát hiện những người lái xe buồn ngủ và cũng cảnh báo họ bằng tín hiệu âm thanh.

Dự án này được triển khai bằng Keras và OpenCV. Chúng tôi sẽ sử dụng OpenCV để nhận diện khuôn mặt và mắt và với Keras, chúng tôi sẽ phân loại trạng thái mắt (Mở hoặc Đóng) bằng cách sử dụng các kỹ thuật mạng lưới thần kinh sâu.

8. Trò chuyện

Tạo Chatbot bằng Python và tiến một bước trong sự nghiệp của bạn - Chatbot với NLTK & Keras.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Chatbots là một phần không thể thiếu trong kinh doanh. Nhiều doanh nghiệp phải cung cấp dịch vụ cho khách hàng và phải tốn rất nhiều nhân lực, thời gian và công sức để phục vụ họ. Chatbots có thể tự động hóa phần lớn tương tác với khách hàng của bạn bằng cách trả lời một số câu hỏi phổ biến mà khách hàng hỏi. Về cơ bản có hai loại chatbot: Tên miền cụ thể và Tên miền mở. Chatbot dành riêng cho từng miền thường được sử dụng để giải quyết một vấn đề cụ thể. Vì vậy, bạn cần tùy chỉnh nó để hoạt động hiệu quả trong lĩnh vực của mình. Các chatbot miền mở có thể được hỏi bất kỳ câu hỏi nào, vì vậy việc đào tạo chúng đòi hỏi một lượng dữ liệu khổng lồ.

Tập dữ liệu: Tệp json ý định

Lưỡi: Python

Dự án Khoa học dữ liệu nâng cao

9. Trình tạo chú thích hình ảnh

Kiểm tra quá trình triển khai hoàn chỉnh của dự án bằng mã nguồn - Trình tạo chú thích hình ảnh với CNN & LSTM.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Việc mô tả những gì có trong một bức ảnh là một công việc dễ dàng đối với con người, nhưng đối với máy tính, một bức ảnh chỉ đơn giản là một dãy số biểu thị giá trị màu sắc của từng pixel. Đây là một nhiệm vụ khó khăn đối với máy tính. Hiểu nội dung trong hình ảnh và sau đó tạo mô tả bằng ngôn ngữ tự nhiên (chẳng hạn như tiếng Anh) là một nhiệm vụ khó khăn khác. Dự án này sử dụng các kỹ thuật học sâu trong đó chúng tôi triển khai Mạng thần kinh chuyển đổi (CNN) với Mạng thần kinh tái phát (LSTM) để tạo trình tạo mô tả hình ảnh.

Tập dữ liệu: Flickr 8K

Lưỡi: Python

Khung: Máy ảnh

10. Phát hiện gian lận thẻ tín dụng

Cố gắng hết sức khi thực hiện ý tưởng dự án Khoa học dữ liệu của bạn - phát hiện gian lận thẻ tín dụng bằng cách sử dụng máy học.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Đến bây giờ bạn đã bắt đầu hiểu các kỹ thuật và khái niệm. Hãy chuyển sang một số dự án khoa học dữ liệu nâng cao. Trong dự án này chúng ta sẽ sử dụng ngôn ngữ R với các thuật toán như cây quyết định, hồi quy logistic, mạng lưới thần kinh nhân tạo và phân loại tăng cường độ dốc. Chúng tôi sẽ sử dụng tập dữ liệu về các giao dịch thẻ để phân loại các giao dịch thẻ tín dụng là gian lận hoặc thực sự. Chúng tôi sẽ chọn các mô hình khác nhau cho chúng và xây dựng các đường cong hiệu suất.

Lưỡi: R

Tập dữ liệu/Gói: Tập dữ liệu Giao dịch thẻ

11. Hệ thống đề xuất phim

Nghiên cứu triển khai dự án Khoa học dữ liệu tốt nhất với Mã nguồn - Hệ thống đề xuất phim bằng ngôn ngữ R

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Trong dự án Khoa học dữ liệu này, chúng tôi sẽ sử dụng R để triển khai các đề xuất của phim thông qua học máy. Hệ thống đề xuất sẽ gửi đề xuất tới người dùng thông qua quy trình lọc dựa trên sở thích và lịch sử duyệt web của người dùng khác. Nếu A và B thích Ở nhà một mình và B thích Những cô gái xấu tính thì bạn có thể đề xuất A - họ cũng có thể thích điều đó. Điều này cho phép khách hàng tương tác với nền tảng.

Lưỡi: R

Tập dữ liệu/Gói: Tập dữ liệu MovieLens

12. Phân khúc khách hàng

Gây ấn tượng với nhà tuyển dụng bằng dự án Khoa học dữ liệu (bao gồm mã nguồn) - Phân khúc khách hàng bằng machine learning.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Phân khúc người mua là một ứng dụng phổ biến học tập không giám sát. Bằng cách sử dụng phân cụm, các công ty xác định các phân khúc khách hàng để nhắm mục tiêu đến cơ sở người dùng tiềm năng. Họ chia khách hàng thành các nhóm theo những đặc điểm chung như giới tính, độ tuổi, sở thích và thói quen chi tiêu để có thể tiếp thị sản phẩm của mình đến từng nhóm một cách hiệu quả. Chúng tôi sẽ sử dụng K-có nghĩa là phân cụm, cũng như trực quan hóa sự phân bổ theo giới tính và độ tuổi. Sau đó chúng tôi sẽ phân tích mức thu nhập và chi phí hàng năm của họ.

Lưỡi: R

Tập dữ liệu/Gói: Tập dữ liệu Mall_Customers

13. Phân loại ung thư vú

Kiểm tra quá trình triển khai đầy đủ dự án Khoa học dữ liệu bằng Python - Phân loại ung thư vú bằng deep learning.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Quay trở lại với đóng góp y tế của khoa học dữ liệu, hãy cùng tìm hiểu cách phát hiện ung thư vú bằng Python. Chúng tôi sẽ sử dụng tập dữ liệu IDC_regular để xác định ung thư biểu mô ống xâm lấn, dạng ung thư vú phổ biến nhất. Nó phát triển trong ống dẫn sữa, chui vào mô vú dạng sợi hoặc mỡ bên ngoài ống dẫn sữa. Trong ý tưởng dự án khoa học thu thập dữ liệu này, chúng tôi sẽ sử dụng Học kĩ càng và thư viện Keras để phân loại.

Lưỡi: Python

Tập dữ liệu/Gói: IDC_regular

14. Nhận biết biển báo giao thông

Đạt được độ chính xác trong công nghệ xe tự lái với dự án Khoa học dữ liệu nhận dạng biển báo giao thông bằng CNN mã nguồn mở.

14 dự án nguồn mở để cải thiện kỹ năng Khoa học dữ liệu (dễ, bình thường, khó)

Biển báo đường và luật lệ giao thông rất quan trọng đối với mỗi người lái xe để tránh tai nạn. Để tuân theo quy tắc, trước tiên bạn cần hiểu biển báo đường bộ trông như thế nào. Một người phải học tất cả các biển báo trên đường trước khi được cấp bằng lái bất kỳ phương tiện nào. Nhưng hiện nay số lượng phương tiện tự lái ngày càng tăng và trong tương lai gần, con người sẽ không còn tự lái ô tô nữa. Trong dự án Nhận dạng biển báo đường, bạn sẽ tìm hiểu cách một chương trình có thể nhận dạng loại biển báo đường bằng cách lấy hình ảnh làm đầu vào. Bộ dữ liệu Điểm chuẩn nhận dạng biển báo giao thông của Đức (GTSRB) được sử dụng để xây dựng mạng lưới thần kinh sâu nhằm nhận ra lớp mà biển báo giao thông thuộc về. Chúng tôi cũng tạo một GUI đơn giản để tương tác với ứng dụng.

Lưỡi: Python

Tập dữ liệu: GTSRB (Tiêu chuẩn nhận dạng biển báo giao thông của Đức)

Đọc thêm

Nguồn: www.habr.com

Thêm một lời nhận xét