ProHoster > Blog > wiadomości internetowe > 14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)
14 projektów open source, które poprawią Twoje umiejętności w zakresie analityki danych (łatwe, normalne, trudne)
Nauka o danych dla początkujących
1. Analiza sentymentów (analiza sentymentów poprzez tekst)
Analiza nastrojów to analiza słów w celu określenia nastrojów i opinii, które mogą być pozytywne lub negatywne. Jest to rodzaj klasyfikacji, w którym klasy mogą być binarne (pozytywne i negatywne) lub mnogie (szczęśliwy, zły, smutny, paskudny...). Ten projekt Data Science będziemy realizować w R i będziemy korzystać ze zbioru danych w pakiecie „janeaustenR”. Będziemy korzystać ze słowników ogólnego przeznaczenia, takich jak AFINN, bing i loughran, wykonamy złączenie wewnętrzne, a na koniec utworzymy chmurę słów, aby wyświetlić wynik.
Fałszywe wiadomości to fałszywe informacje rozpowszechniane za pośrednictwem mediów społecznościowych i innych mediów internetowych w celu osiągnięcia celów politycznych. W tym pomyśle na projekt Data Science użyjemy Pythona do zbudowania modelu, który będzie w stanie dokładnie określić, czy wiadomość jest prawdziwa, czy fałszywa. Stworzymy TfidfVectorizer i użyjemy PassiveAggressiveClassifier do sklasyfikowania wiadomości na „prawdziwe” i „fałszywe”. Wykorzystamy zbiór danych o kształcie 7796×4 i uruchomimy wszystko w Jupyter Lab.
Zaczęliśmy wykorzystywać Data Science do ulepszania opieki zdrowotnej i usług – jeśli potrafimy przewidzieć chorobę na wczesnym etapie, będziemy mieli wiele korzyści. Zatem w ramach tego pomysłu na projekt Data Science nauczymy się wykrywać chorobę Parkinsona za pomocą Pythona. Jest to neurodegeneracyjna, postępująca choroba ośrodkowego układu nerwowego, która utrudnia poruszanie się, powodując drżenie i sztywność. Wpływa na neurony mózgu wytwarzające dopaminę i co roku dotyka ponad milion osób w Indiach.
Język: Python
Zbiór danych/pakiet: Zbiór danych UCI ML Parkinsona
Nauczmy się teraz, jak korzystać z różnych bibliotek. Ten projekt Data Science wykorzystuje librosę do rozpoznawania mowy. SER to proces rozpoznawania ludzkich emocji i stanów afektywnych na podstawie mowy. Ponieważ używamy tonu i wysokości, aby wyrazić emocje za pomocą naszych głosów, SER jest istotny. Ponieważ jednak emocje są subiektywne, adnotacja dźwiękowa jest trudnym zadaniem. Wykorzystamy funkcje mfcc, chroma i mel oraz wykorzystamy zbiór danych RAVDESS do rozpoznawania emocji. Dla tego modelu utworzymy klasyfikator MLPC.
To interesująca nauka o danych z Pythonem. Używając tylko jednego obrazu, nauczysz się przewidywać płeć i wiek danej osoby. W tym artykule przedstawimy Ci wizję komputerową i jej zasady. Będziemy budować konwolucyjna sieć neuronowa i użyje modeli wyszkolonych przez Tala Hassnera i Gila Levy'ego na zbiorze danych Adience. Po drodze będziemy używać plików .pb, .pbtxt, .prototxt i .caffemodel.
To projekt wizualizacji danych za pomocą ggplot2, w którym wykorzystamy R i jego biblioteki oraz przeanalizujemy różne parametry. Wykorzystamy zbiór danych Uber Pickups New York City i utworzymy wizualizacje dla różnych przedziałów czasowych w roku. To mówi nam, jak czas wpływa na podróż klienta.
Język: R
Zbiór danych/pakiet: Odbiory Ubera w zbiorze danych miasta Nowy Jork
Senna jazda jest niezwykle niebezpieczna, a każdego roku dochodzi do prawie tysiąca wypadków spowodowanych zasypianiem kierowców podczas jazdy. W tym projekcie w Pythonie stworzymy system, który będzie w stanie wykryć sennych kierowców i ostrzec ich sygnałem dźwiękowym.
Projekt ten jest realizowany przy użyciu Keras i OpenCV. Wykorzystamy OpenCV do wykrywania twarzy i oczu, a za pomocą Keras będziemy klasyfikować stan oczu (otwarte lub zamknięte) przy użyciu technik głębokich sieci neuronowych.
8. Chatbota
Stwórz Chatbota w Pythonie i zrób krok do przodu w swojej karierze - Chatbot z NLTK i Keras.
Chatboty są integralną częścią biznesu. Wiele firm musi oferować usługi swoim klientom, a obsługa ich wymaga dużo siły roboczej, czasu i wysiłku. Chatboty mogą zautomatyzować większość interakcji z klientami, odpowiadając na niektóre częste pytania zadawane przez klientów. Zasadniczo istnieją dwa typy chatbotów: specyficzne dla domeny i domeny otwarte. Chatbot specyficzny dla domeny jest często używany do rozwiązania konkretnego problemu. Musisz więc dostosować go, aby skutecznie działał w Twojej dziedzinie. Chatbotom działającym w domenie otwartej można zadawać dowolne pytania, dlatego ich przeszkolenie wymaga ogromnej ilości danych.
Opisanie tego, co znajduje się na obrazie, jest łatwym zadaniem dla człowieka, ale dla komputerów obraz to po prostu ciąg liczb reprezentujących wartość koloru każdego piksela. To trudne zadanie dla komputerów. Zrozumienie tego, co jest na obrazie, a następnie stworzenie opisu w języku naturalnym (np. angielskim) to kolejne trudne zadanie. Projekt ten wykorzystuje techniki głębokiego uczenia się, w których implementujemy konwolucyjną sieć neuronową (CNN) z rekurencyjną siecią neuronową (LSTM) w celu stworzenia generatora opisu obrazu.
Zbiór danych: Flickr 8K
Język: Python
Struktura: Keras
10. Wykrywanie oszustw związanych z kartami kredytowymi
Do tej pory zacząłeś rozumieć techniki i koncepcje. Przejdźmy do kilku zaawansowanych projektów związanych z analityką danych. W tym projekcie będziemy używać języka R z algorytmami takimi jak drzewa decyzyjne, regresja logistyczna, sztuczne sieci neuronowe i klasyfikator wzmacniający gradient. Wykorzystamy zbiór danych dotyczących transakcji kartowych, aby sklasyfikować transakcje kartą kredytową jako fałszywe lub autentyczne. Wybierzemy dla nich różne modele i zbudujemy krzywe wydajności.
Język: R
Zbiór danych/pakiet: Zbiór danych transakcji kartowych
W tym projekcie Data Science użyjemy języka R do wdrożenia rekomendacji filmu za pomocą uczenia maszynowego. System rekomendacji wysyła sugestie do użytkowników poprzez proces filtrowania w oparciu o preferencje innych użytkowników i historię przeglądania. Jeśli A i B lubią Kevin sam w domu, a B lubi Wredne dziewczyny, możesz zasugerować A – im też może się to spodobać. Dzięki temu klienci mogą wchodzić w interakcję z platformą.
Segmentacja kupujących jest popularną aplikacją uczenie się bez nadzoru. Korzystając z klastrowania, firmy identyfikują segmenty klientów, aby dotrzeć do potencjalnej bazy użytkowników. Dzielą klientów na grupy według wspólnych cech, takich jak płeć, wiek, zainteresowania i zwyczaje związane z wydatkami, aby mogli skutecznie promować swoje produkty każdej grupie. Użyjemy Grupowanie K-średnich, a także wizualizację rozkładu według płci i wieku. Następnie przeanalizujemy ich roczny poziom dochodów i wydatków.
Wracając do medycznego wkładu nauki o danych, nauczmy się, jak wykryć raka piersi za pomocą Pythona. Wykorzystamy zbiór danych IDC_regular do identyfikacji inwazyjnego raka przewodowego, najczęstszej postaci raka piersi. Rozwija się w przewodach mlecznych, wnikając w włóknistą lub tłuszczową tkankę piersi na zewnątrz przewodu. W tym projekcie naukowym dotyczącym gromadzenia danych wykorzystamy pomysł głęboki Learning oraz biblioteka Keras do klasyfikacji.
Znaki drogowe i zasady ruchu drogowego są bardzo ważne dla każdego kierowcy, aby uniknąć wypadków. Aby zastosować się do tej zasady, musisz najpierw zrozumieć, jak wygląda znak drogowy. Osoba musi nauczyć się wszystkich znaków drogowych, zanim otrzyma prawo jazdy jakimkolwiek pojazdem. Ale teraz liczba pojazdów autonomicznych rośnie i w najbliższej przyszłości człowiek nie będzie już samodzielnie prowadził samochodu. W projekcie Rozpoznawanie znaków drogowych dowiesz się, jak program może rozpoznać typ znaków drogowych na podstawie obrazu jako danych wejściowych. Zbiór danych niemieckiego wzorca rozpoznawania znaków drogowych (GTSRB) służy do budowy głębokiej sieci neuronowej w celu rozpoznania klasy, do której należy znak drogowy. Tworzymy również prosty GUI do interakcji z aplikacją.
Język: Python
Zbiór danych: GTSRB (niemiecki test wzorcowy rozpoznawania znaków drogowych)