14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

วิทยาศาสตร์ข้อมูลสำหรับผู้เริ่มต้น

1. การวิเคราะห์ความรู้สึก (การวิเคราะห์ความรู้สึกผ่านข้อความ)

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ตรวจสอบการดำเนินโครงการ Data Science ที่สมบูรณ์โดยใช้ซอร์สโค้ด - โครงการวิเคราะห์ความรู้สึกในร.

การวิเคราะห์ความรู้สึก คือ การวิเคราะห์คำเพื่อกำหนดความรู้สึกและความคิดเห็น ซึ่งอาจเป็นบวกหรือลบก็ได้ นี่คือการจำแนกประเภทหนึ่งซึ่งคลาสต่างๆ อาจเป็นไบนารี่ (บวกและลบ) หรือพหูพจน์ (สุข โกรธ เศร้า น่ารังเกียจ...) เราจะดำเนินโครงการ Data Science นี้ใน R และจะใช้ชุดข้อมูลในแพ็คเกจ "janeaustenR" เราจะใช้พจนานุกรมสำหรับวัตถุประสงค์ทั่วไป เช่น AFIN, bing และ loughran ดำเนินการรวมภายใน และในตอนท้ายเราจะสร้างกลุ่มคำเพื่อแสดงผลลัพธ์

ภาษา: R
ชุดข้อมูล/แพ็คเกจ: janeaustenR

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

บทความนี้ได้รับการแปลโดยได้รับการสนับสนุนจาก EDISON Software ซึ่ง สร้างห้องลองเสื้อผ้าเสมือนจริงสำหรับร้านค้าหลายแบรนด์และ ซอฟต์แวร์ทดสอบ.

2. การตรวจจับข่าวปลอม

ยกระดับทักษะของคุณไปอีกระดับด้วยการทำงานในโครงการ Data Science สำหรับผู้เริ่มต้น - การตรวจจับข่าวปลอมด้วย Python.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ข่าวปลอมคือข้อมูลเท็จที่แพร่กระจายผ่านโซเชียลมีเดียและสื่อออนไลน์อื่น ๆ เพื่อบรรลุเป้าหมายทางการเมือง ในแนวคิดโครงการ Data Science นี้ เราจะใช้ Python เพื่อสร้างแบบจำลองที่สามารถระบุได้อย่างแม่นยำว่าข่าวนั้นเป็นเรื่องจริงหรือเรื่องปลอม เราจะสร้าง TfidfVectorizer และใช้ PassiveAggressiveClassifier เพื่อจัดประเภทข่าวเป็น "จริง" และ "ปลอม" เราจะใช้ชุดข้อมูลที่มีรูปร่าง 7796×4 และรันทุกอย่างใน Jupyter Lab

ภาษา: หลาม

ชุดข้อมูล/แพ็คเกจ: ข่าว.csv

3. การตรวจหาโรคพาร์กินสัน

ก้าวไปข้างหน้าด้วยแนวคิดโครงการวิทยาศาสตร์ข้อมูลของคุณ - การตรวจหาโรคพาร์กินสันโดยใช้ XGBoost.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

เราได้เริ่มใช้ Data Science เพื่อปรับปรุงการดูแลสุขภาพและบริการ หากเราสามารถคาดการณ์โรคได้ตั้งแต่เนิ่นๆ เราก็จะมีข้อดีหลายประการ ดังนั้น ในแนวคิดโครงงาน Data Science นี้ เราจะได้เรียนรู้วิธีตรวจหาโรคพาร์กินสันโดยใช้ Python เป็นโรคที่เกิดจากความเสื่อมของระบบประสาทและลุกลามของระบบประสาทส่วนกลางที่ส่งผลต่อการเคลื่อนไหวและทำให้เกิดอาการสั่นและตึง มันส่งผลกระทบต่อเซลล์ประสาทที่ผลิตโดปามีนในสมอง และทุกๆ ปีจะส่งผลกระทบต่อผู้คนมากกว่า 1 ล้านคนในอินเดีย

ภาษา: หลาม

ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล UCI ML Parkinsons

โครงการวิทยาศาสตร์ข้อมูลที่มีความซับซ้อนปานกลาง

4. การรับรู้อารมณ์คำพูด

ตรวจสอบการดำเนินการที่สมบูรณ์ของโครงการตัวอย่าง Data Science - การรู้จำเสียงพูดโดยใช้ Librosa.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ตอนนี้เรามาเรียนรู้วิธีการใช้ไลบรารี่ต่างๆ กัน โครงงาน Data Science นี้ใช้ librosa สำหรับการรู้จำเสียง SER เป็นกระบวนการในการระบุอารมณ์และสภาวะทางอารมณ์ของมนุษย์จากคำพูด เนื่องจากเราใช้น้ำเสียงและระดับเสียงเพื่อแสดงอารมณ์ด้วยเสียงของเรา SER จึงมีความเกี่ยวข้อง แต่เนื่องจากอารมณ์เป็นเรื่องส่วนตัว การบรรยายด้วยเสียงจึงเป็นงานที่ท้าทาย เราจะใช้ฟังก์ชัน mfcc, chroma และ mel และใช้ชุดข้อมูล RAVDESS สำหรับการจดจำอารมณ์ เราจะสร้างตัวแยกประเภท MLPC สำหรับโมเดลนี้

ภาษา: หลาม

ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล RAVDESS

5. การตรวจจับเพศและอายุ

สร้างความประทับใจให้นายจ้างด้วยโครงการ Data Science ล่าสุด - การกำหนดเพศและอายุโดยใช้ OpenCV.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

นี่คือ Data Science ที่น่าสนใจด้วย Python คุณจะได้เรียนรู้การทำนายเพศและอายุของบุคคลโดยใช้รูปภาพเพียงรูปเดียว ในนี้เราจะแนะนำให้คุณรู้จักกับคอมพิวเตอร์วิทัศน์และหลักการของมัน เราจะสร้าง โครงข่ายประสาทเทียมแบบหมุนวน และจะใช้แบบจำลองที่ได้รับการฝึกอบรมโดย Tal Hassner และ Gil Levy บนชุดข้อมูล Adience ในระหว่างนี้ เราจะใช้ไฟล์ .pb, .pbtxt, .prototxt และ .caffemodel

ภาษา: หลาม

ชุดข้อมูล/แพ็คเกจ: อด

6. การวิเคราะห์ข้อมูล Uber

ตรวจสอบการดำเนินการโครงการ Data Science ที่สมบูรณ์ด้วยซอร์สโค้ด - โครงการวิเคราะห์ข้อมูล Uber ใน R.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

นี่คือโครงการสร้างภาพข้อมูลด้วย ggplot2 ซึ่งเราจะใช้ R และไลบรารีของมัน และวิเคราะห์พารามิเตอร์ต่างๆ เราจะใช้ชุดข้อมูล Uber Pickups New York City และสร้างการแสดงภาพสำหรับกรอบเวลาต่างๆ ของปี สิ่งนี้บอกเราว่าเวลาส่งผลต่อการเดินทางของลูกค้าอย่างไร

ภาษา: R

ชุดข้อมูล/แพ็คเกจ: Uber Pickups ในชุดข้อมูลนิวยอร์กซิตี้

7. การตรวจจับอาการง่วงนอนของผู้ขับขี่

พัฒนาทักษะของคุณด้วยการทำงานใน Top Data Science Project - ระบบตรวจจับอาการง่วงนอนด้วย OpenCV & Keras.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

การขับรถโดยง่วงถือเป็นอันตรายอย่างยิ่ง และเกิดอุบัติเหตุเกือบพันครั้งทุกปีเนื่องจากการหลับในขณะขับรถ ในโครงการ Python นี้ เราจะสร้างระบบที่สามารถตรวจจับไดรเวอร์ที่ง่วงนอนและแจ้งเตือนพวกเขาด้วยสัญญาณเสียง

โครงการนี้ดำเนินการโดยใช้ Keras และ OpenCV เราจะใช้ OpenCV สำหรับการตรวจจับใบหน้าและดวงตา และด้วย Keras เราจะจำแนกสถานะดวงตา (เปิดหรือปิด) โดยใช้เทคนิคโครงข่ายประสาทเทียมระดับลึก

8. แชทบอท

สร้าง Chatbot ด้วย Python และก้าวไปข้างหน้าในอาชีพของคุณ - แชทบอทกับ NLTK และ Keras.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

Chatbots เป็นส่วนสำคัญของธุรกิจ ธุรกิจจำนวนมากต้องให้บริการแก่ลูกค้า และต้องใช้กำลังคน เวลา และความพยายามอย่างมากในการให้บริการ Chatbots สามารถทำให้การโต้ตอบกับลูกค้าของคุณเป็นไปโดยอัตโนมัติโดยการตอบคำถามทั่วไปที่ลูกค้าถาม โดยพื้นฐานแล้วแชทบอตมีสองประเภท: เฉพาะโดเมนและโดเมนแบบเปิด แชทบอทเฉพาะโดเมนมักใช้เพื่อแก้ไขปัญหาเฉพาะ ดังนั้นคุณต้องปรับแต่งให้ทำงานได้อย่างมีประสิทธิภาพในสาขาของคุณ คุณสามารถถามคำถามใดๆ กับแชทบอทแบบโดเมนเปิดได้ ดังนั้นการฝึกอบรมแชทบอทเหล่านั้นจึงต้องใช้ข้อมูลจำนวนมาก

ชุดข้อมูล: ไฟล์ Intent json

ภาษา: หลาม

โครงการวิทยาศาสตร์ข้อมูลขั้นสูง

9. เครื่องกำเนิดคำบรรยายภาพ

ตรวจสอบการดำเนินการที่สมบูรณ์ของโครงการด้วยซอร์สโค้ด - เครื่องสร้างคำบรรยายภาพด้วย CNN & LSTM.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

การอธิบายสิ่งที่อยู่ในภาพเป็นเรื่องง่ายสำหรับมนุษย์ แต่สำหรับคอมพิวเตอร์ รูปภาพเป็นเพียงชุดตัวเลขที่แสดงค่าสีของแต่ละพิกเซล นี่เป็นงานที่ยากสำหรับคอมพิวเตอร์ การทำความเข้าใจสิ่งที่อยู่ในภาพแล้วสร้างคำอธิบายในภาษาธรรมชาติ (เช่น ภาษาอังกฤษ) ถือเป็นงานที่ยากอีกงานหนึ่ง โปรเจ็กต์นี้ใช้เทคนิคการเรียนรู้เชิงลึกซึ่งเราใช้ Convolutional Neural Network (CNN) กับ Recurrent Neural Network (LSTM) เพื่อสร้างเครื่องกำเนิดคำอธิบายรูปภาพ

ชุดข้อมูล: ฟลิคเกอร์ 8K

ภาษา: หลาม

กรอบ: Keras

10. การตรวจจับการฉ้อโกงบัตรเครดิต

พยายามอย่างเต็มที่ในขณะที่ทำงานในแนวคิดโครงการ Data Science ของคุณ - ตรวจจับการฉ้อโกงบัตรเครดิตโดยใช้การเรียนรู้ของเครื่อง.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ตอนนี้คุณเริ่มเข้าใจเทคนิคและแนวคิดแล้ว มาดูโครงการวิทยาศาสตร์ข้อมูลขั้นสูงกันดีกว่า ในโครงการนี้เราจะใช้ภาษา R กับอัลกอริธึมเช่น ต้นไม้การตัดสินใจการถดถอยโลจิสติก โครงข่ายประสาทเทียม และตัวจําแนกการเร่งการไล่ระดับสี เราจะใช้ชุดข้อมูลธุรกรรมบัตรเพื่อจำแนกธุรกรรมบัตรเครดิตว่าเป็นการฉ้อโกงหรือเป็นของแท้ เราจะเลือกรุ่นที่แตกต่างกันสำหรับพวกเขาและสร้างเส้นโค้งประสิทธิภาพ

ภาษา: R

ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูลธุรกรรมบัตร

11. ระบบแนะนำภาพยนตร์

ศึกษาการดำเนินการโครงการ Data Science ที่ดีที่สุดพร้อมซอร์สโค้ด - ระบบแนะนำภาพยนตร์ในภาษา R

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ในโครงการ Data Science นี้ เราจะใช้ R เพื่อนำคำแนะนำของภาพยนตร์ไปใช้ผ่านการเรียนรู้ของเครื่อง ระบบการแนะนำจะส่งข้อเสนอแนะไปยังผู้ใช้ผ่านกระบวนการกรองตามความต้องการของผู้ใช้รายอื่นและประวัติการเข้าชม หาก A และ B ชอบ Home Alone และ B ชอบ Mean Girls คุณสามารถแนะนำ A ได้ พวกเขาก็อาจจะชอบเหมือนกัน ช่วยให้ลูกค้าสามารถโต้ตอบกับแพลตฟอร์มได้

ภาษา: R

ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล MovieLens

12. การแบ่งส่วนลูกค้า

สร้างความประทับใจให้นายจ้างด้วยโครงการ Data Science (รวมถึงซอร์สโค้ด) - การแบ่งส่วนลูกค้าโดยใช้การเรียนรู้ของเครื่อง.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

การแบ่งส่วนผู้ซื้อเป็นแอปพลิเคชันยอดนิยม การเรียนรู้แบบไม่มีผู้ดูแล. เมื่อใช้การทำคลัสเตอร์ บริษัทจะระบุกลุ่มลูกค้าเพื่อกำหนดเป้าหมายฐานผู้ใช้ที่มีศักยภาพ โดยแบ่งลูกค้าออกเป็นกลุ่มตามลักษณะทั่วไป เช่น เพศ อายุ ความสนใจ และพฤติกรรมการใช้จ่าย เพื่อให้ทำการตลาดผลิตภัณฑ์ไปยังแต่ละกลุ่มได้อย่างมีประสิทธิภาพ เราจะใช้ K-หมายถึงการจัดกลุ่มพร้อมทั้งแสดงภาพการกระจายตามเพศและอายุ จากนั้นเราจะวิเคราะห์ระดับรายได้และค่าใช้จ่ายต่อปีของพวกเขา

ภาษา: R

ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล Mall_Customers

13. การจำแนกประเภทของมะเร็งเต้านม

ตรวจสอบการใช้งานโครงการ Data Science ใน Python อย่างสมบูรณ์ การจำแนกมะเร็งเต้านมโดยใช้การเรียนรู้เชิงลึก.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

กลับมาที่การมีส่วนร่วมทางการแพทย์ของวิทยาศาสตร์ข้อมูล มาเรียนรู้วิธีตรวจหามะเร็งเต้านมโดยใช้ Python กันดีกว่า เราจะใช้ชุดข้อมูล IDC_regular เพื่อระบุมะเร็งท่อนำไข่ที่ลุกลาม ซึ่งเป็นมะเร็งเต้านมรูปแบบที่พบบ่อยที่สุด มันพัฒนาในท่อน้ำนม โดยเจาะเข้าไปในเนื้อเยื่อเต้านมที่มีเส้นใยหรือไขมันอยู่นอกท่อ เราจะใช้แนวคิดโครงงานวิทยาศาสตร์ในการรวบรวมข้อมูลนี้ การเรียนรู้ลึก ๆ และไลบรารี Keras สำหรับการจำแนกประเภท

ภาษา: หลาม

ชุดข้อมูล/แพ็คเกจ: IDC_ปกติ

14. การรับรู้สัญญาณจราจร

บรรลุความแม่นยำในเทคโนโลยีการขับขี่ด้วยตนเองด้วยโครงการ Data Science การจดจำป้ายจราจรโดยใช้ CNN โอเพ่นซอร์ส.

14 โครงการโอเพ่นซอร์สเพื่อพัฒนาทักษะวิทยาศาสตร์ข้อมูลของคุณ (ง่าย ปกติ ยาก)

ป้ายถนนและกฎจราจรมีความสำคัญมากสำหรับผู้ขับขี่ทุกคนในการหลีกเลี่ยงอุบัติเหตุ หากต้องการปฏิบัติตามกฎ ก่อนอื่นคุณต้องเข้าใจว่าป้ายจราจรมีลักษณะอย่างไร บุคคลต้องเรียนรู้ป้ายจราจรทั้งหมดก่อนจึงจะได้รับใบอนุญาตขับขี่ยานพาหนะใดๆ แต่ปัจจุบันจำนวนยานยนต์ไร้คนขับกำลังเพิ่มมากขึ้น และในอนาคตอันใกล้นี้ ผู้คนจะเลิกขับรถอย่างอิสระอีกต่อไป ในโครงการการจดจำป้ายจราจร คุณจะได้เรียนรู้วิธีที่โปรแกรมสามารถจดจำประเภทของป้ายจราจรโดยการถ่ายภาพเป็นข้อมูลเข้า ชุดข้อมูล German Traffic Sign Recognition Benchmark (GTSRB) ใช้เพื่อสร้างโครงข่ายประสาทเทียมเชิงลึกเพื่อจดจำคลาสที่มีป้ายจราจรอยู่ นอกจากนี้เรายังสร้าง GUI แบบง่ายเพื่อโต้ตอบกับแอปพลิเคชัน

ภาษา: หลาม

ชุดข้อมูล: GTSRB (เกณฑ์มาตรฐานการรับรู้ป้ายจราจรของเยอรมัน)

อ่านเพิ่มเติม

ที่มา: will.com

เพิ่มความคิดเห็น