Phân tích tình cảm là phân tích các từ để xác định tình cảm và ý kiến, có thể tích cực hoặc tiêu cực. Đây là kiểu phân loại trong đó các lớp có thể là nhị phân (tích cực và tiêu cực) hoặc số nhiều (vui, tức giận, buồn, khó chịu...). Chúng tôi sẽ triển khai dự án Khoa học dữ liệu này trong R và sẽ sử dụng tập dữ liệu trong gói "janeaustenR". Chúng tôi sẽ sử dụng các từ điển có mục đích chung như AFINN, bing và loughran, thực hiện phép nối bên trong và cuối cùng, chúng tôi sẽ tạo một đám mây từ để hiển thị kết quả.
Đưa kỹ năng của bạn lên một tầm cao mới bằng cách thực hiện dự án Khoa học dữ liệu dành cho người mới bắt đầu - phát hiện tin giả bằng Python.
Tin giả là thông tin sai sự thật được lan truyền qua mạng xã hội và các phương tiện truyền thông trực tuyến khác nhằm đạt được mục tiêu chính trị. Trong ý tưởng dự án Khoa học dữ liệu này, chúng tôi sẽ sử dụng Python để xây dựng một mô hình có thể xác định chính xác xem một câu chuyện tin tức là thật hay giả. Chúng tôi sẽ tạo TfidfVectorizer và sử dụng PassiveAggressiveClassifier để phân loại tin tức thành “thật” và “giả”. Chúng tôi sẽ sử dụng tập dữ liệu có hình dạng 7796×4 và chạy mọi thứ trong Jupyter Lab.
Chúng tôi đã bắt đầu sử dụng Khoa học dữ liệu để cải thiện dịch vụ và chăm sóc sức khỏe - nếu chúng tôi có thể dự đoán bệnh ở giai đoạn đầu thì chúng tôi sẽ có nhiều lợi thế. Vì vậy, trong ý tưởng dự án Khoa học dữ liệu này, chúng ta sẽ tìm hiểu cách phát hiện bệnh Parkinson bằng Python. Đây là một bệnh thoái hóa thần kinh tiến triển của hệ thần kinh trung ương, ảnh hưởng đến vận động và gây run và cứng khớp. Nó ảnh hưởng đến các tế bào thần kinh sản xuất dopamine trong não và mỗi năm, nó ảnh hưởng đến hơn 1 triệu người ở Ấn Độ.
Bây giờ chúng ta hãy tìm hiểu cách sử dụng các thư viện khác nhau. Dự án Khoa học dữ liệu này sử dụng librosa để nhận dạng giọng nói. SER là quá trình xác định cảm xúc và trạng thái tình cảm của con người từ lời nói. Vì chúng ta sử dụng âm sắc và cao độ để thể hiện cảm xúc bằng giọng nói của mình nên SER rất phù hợp. Nhưng vì cảm xúc là chủ quan nên việc chú thích bằng âm thanh là một nhiệm vụ đầy thách thức. Chúng tôi sẽ sử dụng các hàm mfcc, chroma và mel cũng như sử dụng bộ dữ liệu RAVDESS để nhận dạng cảm xúc. Chúng tôi sẽ tạo một bộ phân loại MLPC cho mô hình này.
Đây là một Khoa học dữ liệu thú vị với Python. Chỉ sử dụng một hình ảnh, bạn sẽ học cách dự đoán giới tính và tuổi tác của một người. Trong phần này, chúng tôi sẽ giới thiệu cho bạn về Thị giác máy tính và các nguyên tắc của nó. Chúng tôi sẽ xây dựng mạng lưới thần kinh tích chập và sẽ sử dụng các mô hình do Tal Hassner và Gil Levy đào tạo trên tập dữ liệu Adience. Trong quá trình này, chúng tôi sẽ sử dụng một số tệp .pb, .pbtxt, .prototxt và .caffemodel.
Đây là một dự án trực quan hóa dữ liệu với ggplot2, trong đó chúng tôi sẽ sử dụng R và các thư viện của nó cũng như phân tích các tham số khác nhau. Chúng tôi sẽ sử dụng bộ dữ liệu của Uber Pickups Thành phố New York và tạo hình ảnh trực quan cho các khung thời gian khác nhau trong năm. Điều này cho chúng tôi biết thời gian tác động như thế nào đến việc đi lại của khách hàng.
Lưỡi: R
Tập dữ liệu/Gói: Bộ dữ liệu của Uber Pickups ở Thành phố New York
Lái xe buồn ngủ là cực kỳ nguy hiểm và gần một nghìn vụ tai nạn xảy ra mỗi năm do tài xế ngủ gật khi lái xe. Trong dự án Python này, chúng tôi sẽ tạo ra một hệ thống có thể phát hiện những người lái xe buồn ngủ và cũng cảnh báo họ bằng tín hiệu âm thanh.
Dự án này được triển khai bằng Keras và OpenCV. Chúng tôi sẽ sử dụng OpenCV để nhận diện khuôn mặt và mắt và với Keras, chúng tôi sẽ phân loại trạng thái mắt (Mở hoặc Đóng) bằng cách sử dụng các kỹ thuật mạng lưới thần kinh sâu.
Chatbots là một phần không thể thiếu trong kinh doanh. Nhiều doanh nghiệp phải cung cấp dịch vụ cho khách hàng và phải tốn rất nhiều nhân lực, thời gian và công sức để phục vụ họ. Chatbots có thể tự động hóa phần lớn tương tác với khách hàng của bạn bằng cách trả lời một số câu hỏi phổ biến mà khách hàng hỏi. Về cơ bản có hai loại chatbot: Tên miền cụ thể và Tên miền mở. Chatbot dành riêng cho từng miền thường được sử dụng để giải quyết một vấn đề cụ thể. Vì vậy, bạn cần tùy chỉnh nó để hoạt động hiệu quả trong lĩnh vực của mình. Các chatbot miền mở có thể được hỏi bất kỳ câu hỏi nào, vì vậy việc đào tạo chúng đòi hỏi một lượng dữ liệu khổng lồ.
Việc mô tả những gì có trong một bức ảnh là một công việc dễ dàng đối với con người, nhưng đối với máy tính, một bức ảnh chỉ đơn giản là một dãy số biểu thị giá trị màu sắc của từng pixel. Đây là một nhiệm vụ khó khăn đối với máy tính. Hiểu nội dung trong hình ảnh và sau đó tạo mô tả bằng ngôn ngữ tự nhiên (chẳng hạn như tiếng Anh) là một nhiệm vụ khó khăn khác. Dự án này sử dụng các kỹ thuật học sâu trong đó chúng tôi triển khai Mạng thần kinh chuyển đổi (CNN) với Mạng thần kinh tái phát (LSTM) để tạo trình tạo mô tả hình ảnh.
Đến bây giờ bạn đã bắt đầu hiểu các kỹ thuật và khái niệm. Hãy chuyển sang một số dự án khoa học dữ liệu nâng cao. Trong dự án này chúng ta sẽ sử dụng ngôn ngữ R với các thuật toán như cây quyết định, hồi quy logistic, mạng lưới thần kinh nhân tạo và phân loại tăng cường độ dốc. Chúng tôi sẽ sử dụng tập dữ liệu về các giao dịch thẻ để phân loại các giao dịch thẻ tín dụng là gian lận hoặc thực sự. Chúng tôi sẽ chọn các mô hình khác nhau cho chúng và xây dựng các đường cong hiệu suất.
Trong dự án Khoa học dữ liệu này, chúng tôi sẽ sử dụng R để triển khai các đề xuất của phim thông qua học máy. Hệ thống đề xuất sẽ gửi đề xuất tới người dùng thông qua quy trình lọc dựa trên sở thích và lịch sử duyệt web của người dùng khác. Nếu A và B thích Ở nhà một mình và B thích Những cô gái xấu tính thì bạn có thể đề xuất A - họ cũng có thể thích điều đó. Điều này cho phép khách hàng tương tác với nền tảng.
Phân khúc người mua là một ứng dụng phổ biến học tập không giám sát. Bằng cách sử dụng phân cụm, các công ty xác định các phân khúc khách hàng để nhắm mục tiêu đến cơ sở người dùng tiềm năng. Họ chia khách hàng thành các nhóm theo những đặc điểm chung như giới tính, độ tuổi, sở thích và thói quen chi tiêu để có thể tiếp thị sản phẩm của mình đến từng nhóm một cách hiệu quả. Chúng tôi sẽ sử dụng K-có nghĩa là phân cụm, cũng như trực quan hóa sự phân bổ theo giới tính và độ tuổi. Sau đó chúng tôi sẽ phân tích mức thu nhập và chi phí hàng năm của họ.
Quay trở lại với đóng góp y tế của khoa học dữ liệu, hãy cùng tìm hiểu cách phát hiện ung thư vú bằng Python. Chúng tôi sẽ sử dụng tập dữ liệu IDC_regular để xác định ung thư biểu mô ống xâm lấn, dạng ung thư vú phổ biến nhất. Nó phát triển trong ống dẫn sữa, chui vào mô vú dạng sợi hoặc mỡ bên ngoài ống dẫn sữa. Trong ý tưởng dự án khoa học thu thập dữ liệu này, chúng tôi sẽ sử dụng Học kĩ càng và thư viện Keras để phân loại.
Biển báo đường và luật lệ giao thông rất quan trọng đối với mỗi người lái xe để tránh tai nạn. Để tuân theo quy tắc, trước tiên bạn cần hiểu biển báo đường bộ trông như thế nào. Một người phải học tất cả các biển báo trên đường trước khi được cấp bằng lái bất kỳ phương tiện nào. Nhưng hiện nay số lượng phương tiện tự lái ngày càng tăng và trong tương lai gần, con người sẽ không còn tự lái ô tô nữa. Trong dự án Nhận dạng biển báo đường, bạn sẽ tìm hiểu cách một chương trình có thể nhận dạng loại biển báo đường bằng cách lấy hình ảnh làm đầu vào. Bộ dữ liệu Điểm chuẩn nhận dạng biển báo giao thông của Đức (GTSRB) được sử dụng để xây dựng mạng lưới thần kinh sâu nhằm nhận ra lớp mà biển báo giao thông thuộc về. Chúng tôi cũng tạo một GUI đơn giản để tương tác với ứng dụng.
Lưỡi: Python
Tập dữ liệu: GTSRB (Tiêu chuẩn nhận dạng biển báo giao thông của Đức)