14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Nauka o danych dla początkujących

1. Analiza sentymentów (analiza sentymentów poprzez tekst)

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Sprawdź pełną implementację projektu Data Science przy użyciu kodu źródłowego − Projekt analizy nastrojów w R.

Analiza nastrojów to analiza słów w celu określenia nastrojów i opinii, które mogą być pozytywne lub negatywne. Jest to rodzaj klasyfikacji, w którym klasy mogą być binarne (pozytywne i negatywne) lub mnogie (szczęśliwy, zły, smutny, paskudny...). Ten projekt Data Science będziemy realizować w R i będziemy korzystać ze zbioru danych w pakiecie „janeaustenR”. Będziemy korzystać ze słowników ogólnego przeznaczenia, takich jak AFINN, bing i loughran, wykonamy złączenie wewnętrzne, a na koniec utworzymy chmurę słów, aby wyświetlić wynik.

Język: R
Zbiór danych/pakiet: janeausten R

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Artykuł został przetłumaczony przy wsparciu firmy EDISON Software, która tworzy wirtualne przymierzalnie dla sklepów multibrandowycha także testuje oprogramowanie.

2. Wykrywanie fałszywych wiadomości

Przenieś swoje umiejętności na wyższy poziom, pracując nad projektem Data Science dla początkujących - wykrywanie fałszywych wiadomości za pomocą Pythona.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Fałszywe wiadomości to fałszywe informacje rozpowszechniane za pośrednictwem mediów społecznościowych i innych mediów internetowych w celu osiągnięcia celów politycznych. W tym pomyśle na projekt Data Science użyjemy Pythona do zbudowania modelu, który będzie w stanie dokładnie określić, czy wiadomość jest prawdziwa, czy fałszywa. Stworzymy TfidfVectorizer i użyjemy PassiveAggressiveClassifier do sklasyfikowania wiadomości na „prawdziwe” i „fałszywe”. Wykorzystamy zbiór danych o kształcie 7796×4 i uruchomimy wszystko w Jupyter Lab.

Język: Python

Zbiór danych/pakiet: news.csv

3. Wykrywanie choroby Parkinsona

Ruszaj dalej ze swoim pomysłem na projekt związany z nauką o danych — wykrywanie choroby Parkinsona za pomocą XGBoost.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Zaczęliśmy wykorzystywać Data Science do ulepszania opieki zdrowotnej i usług – jeśli potrafimy przewidzieć chorobę na wczesnym etapie, będziemy mieli wiele korzyści. Zatem w ramach tego pomysłu na projekt Data Science nauczymy się wykrywać chorobę Parkinsona za pomocą Pythona. Jest to neurodegeneracyjna, postępująca choroba ośrodkowego układu nerwowego, która utrudnia poruszanie się, powodując drżenie i sztywność. Wpływa na neurony mózgu wytwarzające dopaminę i co roku dotyka ponad milion osób w Indiach.

Język: Python

Zbiór danych/pakiet: Zbiór danych UCI ML Parkinsona

Projekty Data Science o średniej złożoności

4. Rozpoznawanie emocji w mowie

Sprawdź pełną implementację przykładowego projektu Data Science − rozpoznawanie mowy za pomocą Librosy.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Nauczmy się teraz, jak korzystać z różnych bibliotek. Ten projekt Data Science wykorzystuje librosę do rozpoznawania mowy. SER to proces rozpoznawania ludzkich emocji i stanów afektywnych na podstawie mowy. Ponieważ używamy tonu i wysokości, aby wyrazić emocje za pomocą naszych głosów, SER jest istotny. Ponieważ jednak emocje są subiektywne, adnotacja dźwiękowa jest trudnym zadaniem. Wykorzystamy funkcje mfcc, chroma i mel oraz wykorzystamy zbiór danych RAVDESS do rozpoznawania emocji. Dla tego modelu utworzymy klasyfikator MLPC.

Język: Python

Zbiór danych/pakiet: Zbiór danych RAVDESS

5. Wykrywanie płci i wieku

Zaimponuj pracodawcom najnowszym projektem Data Science - określenie płci i wieku za pomocą OpenCV.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

To interesująca nauka o danych z Pythonem. Używając tylko jednego obrazu, nauczysz się przewidywać płeć i wiek danej osoby. W tym artykule przedstawimy Ci wizję komputerową i jej zasady. Będziemy budować konwolucyjna sieć neuronowa i użyje modeli wyszkolonych przez Tala Hassnera i Gila Levy'ego na zbiorze danych Adience. Po drodze będziemy używać plików .pb, .pbtxt, .prototxt i .caffemodel.

Język: Python

Zbiór danych/pakiet: adience

6. Analiza danych Ubera

Sprawdź pełną implementację projektu Data Science wraz z kodem źródłowym − Projekt analizy danych Ubera w R.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

To projekt wizualizacji danych za pomocą ggplot2, w którym wykorzystamy R i jego biblioteki oraz przeanalizujemy różne parametry. Wykorzystamy zbiór danych Uber Pickups New York City i utworzymy wizualizacje dla różnych przedziałów czasowych w roku. To mówi nam, jak czas wpływa na podróż klienta.

Język: R

Zbiór danych/pakiet: Odbiory Ubera w zbiorze danych miasta Nowy Jork

7. Wykrywanie senności kierowcy

Podnieś swoje umiejętności pracując nad projektem Top Data Science - system wykrywania senności z OpenCV i Keras.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Senna jazda jest niezwykle niebezpieczna, a każdego roku dochodzi do prawie tysiąca wypadków spowodowanych zasypianiem kierowców podczas jazdy. W tym projekcie w Pythonie stworzymy system, który będzie w stanie wykryć sennych kierowców i ostrzec ich sygnałem dźwiękowym.

Projekt ten jest realizowany przy użyciu Keras i OpenCV. Wykorzystamy OpenCV do wykrywania twarzy i oczu, a za pomocą Keras będziemy klasyfikować stan oczu (otwarte lub zamknięte) przy użyciu technik głębokich sieci neuronowych.

8. Chatbota

Stwórz Chatbota w Pythonie i zrób krok do przodu w swojej karierze - Chatbot z NLTK i Keras.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Chatboty są integralną częścią biznesu. Wiele firm musi oferować usługi swoim klientom, a obsługa ich wymaga dużo siły roboczej, czasu i wysiłku. Chatboty mogą zautomatyzować większość interakcji z klientami, odpowiadając na niektóre częste pytania zadawane przez klientów. Zasadniczo istnieją dwa typy chatbotów: specyficzne dla domeny i domeny otwarte. Chatbot specyficzny dla domeny jest często używany do rozwiązania konkretnego problemu. Musisz więc dostosować go, aby skutecznie działał w Twojej dziedzinie. Chatbotom działającym w domenie otwartej można zadawać dowolne pytania, dlatego ich przeszkolenie wymaga ogromnej ilości danych.

Zbiór danych: Intencje pliku json

Język: Python

Zaawansowane projekty Data Science

9. Generator podpisów obrazów

Sprawdź pełną realizację projektu wraz z kodem źródłowym − Generator podpisów obrazów z CNN i LSTM.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Opisanie tego, co znajduje się na obrazie, jest łatwym zadaniem dla człowieka, ale dla komputerów obraz to po prostu ciąg liczb reprezentujących wartość koloru każdego piksela. To trudne zadanie dla komputerów. Zrozumienie tego, co jest na obrazie, a następnie stworzenie opisu w języku naturalnym (np. angielskim) to kolejne trudne zadanie. Projekt ten wykorzystuje techniki głębokiego uczenia się, w których implementujemy konwolucyjną sieć neuronową (CNN) z rekurencyjną siecią neuronową (LSTM) w celu stworzenia generatora opisu obrazu.

Zbiór danych: Flickr 8K

Język: Python

Struktura: Keras

10. Wykrywanie oszustw związanych z kartami kredytowymi

Daj z siebie wszystko, pracując nad pomysłem na projekt Data Science − wykrywać oszustwa związane z kartami kredytowymi za pomocą uczenia maszynowego.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Do tej pory zacząłeś rozumieć techniki i koncepcje. Przejdźmy do kilku zaawansowanych projektów związanych z analityką danych. W tym projekcie będziemy używać języka R z algorytmami takimi jak drzewa decyzyjne, regresja logistyczna, sztuczne sieci neuronowe i klasyfikator wzmacniający gradient. Wykorzystamy zbiór danych dotyczących transakcji kartowych, aby sklasyfikować transakcje kartą kredytową jako fałszywe lub autentyczne. Wybierzemy dla nich różne modele i zbudujemy krzywe wydajności.

Język: R

Zbiór danych/pakiet: Zbiór danych transakcji kartowych

11. System rekomendacji filmów

Przestudiuj wdrożenie najlepszego projektu Data Science z kodem źródłowym - System rekomendacji filmów w języku R

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

W tym projekcie Data Science użyjemy języka R do wdrożenia rekomendacji filmu za pomocą uczenia maszynowego. System rekomendacji wysyła sugestie do użytkowników poprzez proces filtrowania w oparciu o preferencje innych użytkowników i historię przeglądania. Jeśli A i B lubią Kevin sam w domu, a B lubi Wredne dziewczyny, możesz zasugerować A – im też może się to spodobać. Dzięki temu klienci mogą wchodzić w interakcję z platformą.

Język: R

Zbiór danych/pakiet: Zbiór danych MovieLens

12. Segmentacja klientów

Zaimponuj pracodawcom projektem Data Science (w tym kodem źródłowym) - Segmentacja klientów z wykorzystaniem uczenia maszynowego.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Segmentacja kupujących jest popularną aplikacją uczenie się bez nadzoru. Korzystając z klastrowania, firmy identyfikują segmenty klientów, aby dotrzeć do potencjalnej bazy użytkowników. Dzielą klientów na grupy według wspólnych cech, takich jak płeć, wiek, zainteresowania i zwyczaje związane z wydatkami, aby mogli skutecznie promować swoje produkty każdej grupie. Użyjemy Grupowanie K-średnich, a także wizualizację rozkładu według płci i wieku. Następnie przeanalizujemy ich roczny poziom dochodów i wydatków.

Język: R

Zbiór danych/pakiet: Zbiór danych Mall_Customers

13. Klasyfikacja raka piersi

Sprawdź pełną implementację projektu Data Science w Pythonie − Klasyfikacja raka piersi przy użyciu głębokiego uczenia się.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Wracając do medycznego wkładu nauki o danych, nauczmy się, jak wykryć raka piersi za pomocą Pythona. Wykorzystamy zbiór danych IDC_regular do identyfikacji inwazyjnego raka przewodowego, najczęstszej postaci raka piersi. Rozwija się w przewodach mlecznych, wnikając w włóknistą lub tłuszczową tkankę piersi na zewnątrz przewodu. W tym projekcie naukowym dotyczącym gromadzenia danych wykorzystamy pomysł głęboki Learning oraz biblioteka Keras do klasyfikacji.

Język: Python

Zbiór danych/pakiet: IDC_regular

14. Rozpoznawanie znaków drogowych

Osiągnięcie precyzji w technologii pojazdów autonomicznych dzięki projektowi Data Science rozpoznawanie znaków drogowych za pomocą CNN otwarte źródło.

14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)

Znaki drogowe i zasady ruchu drogowego są bardzo ważne dla każdego kierowcy, aby uniknąć wypadków. Aby zastosować się do tej zasady, musisz najpierw zrozumieć, jak wygląda znak drogowy. Osoba musi nauczyć się wszystkich znaków drogowych, zanim otrzyma prawo jazdy jakimkolwiek pojazdem. Ale teraz liczba pojazdów autonomicznych rośnie i w najbliższej przyszłości człowiek nie będzie już samodzielnie prowadził samochodu. W projekcie Rozpoznawanie znaków drogowych dowiesz się, jak program może rozpoznać typ znaków drogowych na podstawie obrazu jako danych wejściowych. Zbiór danych niemieckiego wzorca rozpoznawania znaków drogowych (GTSRB) służy do budowy głębokiej sieci neuronowej w celu rozpoznania klasy, do której należy znak drogowy. Tworzymy również prosty GUI do interakcji z aplikacją.

Język: Python

Zbiór danych: GTSRB (niemiecki test wzorcowy rozpoznawania znaków drogowych)

Czytaj więcej

Źródło: www.habr.com

Dodaj komentarz