วิทยาศาสตร์ข้อมูลสำหรับผู้เริ่มต้น
1. การวิเคราะห์ความรู้สึก (การวิเคราะห์ความรู้สึกผ่านข้อความ)
ตรวจสอบการดำเนินโครงการ Data Science ที่สมบูรณ์โดยใช้ซอร์สโค้ด -
การวิเคราะห์ความรู้สึก คือ การวิเคราะห์คำเพื่อกำหนดความรู้สึกและความคิดเห็น ซึ่งอาจเป็นบวกหรือลบก็ได้ นี่คือการจำแนกประเภทหนึ่งซึ่งคลาสต่างๆ อาจเป็นไบนารี่ (บวกและลบ) หรือพหูพจน์ (สุข โกรธ เศร้า น่ารังเกียจ...) เราจะดำเนินโครงการ Data Science นี้ใน R และจะใช้ชุดข้อมูลในแพ็คเกจ "janeaustenR" เราจะใช้พจนานุกรมสำหรับวัตถุประสงค์ทั่วไป เช่น AFIN, bing และ loughran ดำเนินการรวมภายใน และในตอนท้ายเราจะสร้างกลุ่มคำเพื่อแสดงผลลัพธ์
ภาษา: R
ชุดข้อมูล/แพ็คเกจ: janeaustenR
บทความนี้ได้รับการแปลโดยได้รับการสนับสนุนจาก EDISON Software ซึ่งสร้างห้องลองเสื้อผ้าเสมือนจริงสำหรับร้านค้าหลายแบรนด์ และซอฟต์แวร์ทดสอบ .
2. การตรวจจับข่าวปลอม
ยกระดับทักษะของคุณไปอีกระดับด้วยการทำงานในโครงการ Data Science สำหรับผู้เริ่มต้น -
ข่าวปลอมคือข้อมูลเท็จที่แพร่กระจายผ่านโซเชียลมีเดียและสื่อออนไลน์อื่น ๆ เพื่อบรรลุเป้าหมายทางการเมือง ในแนวคิดโครงการ Data Science นี้ เราจะใช้ Python เพื่อสร้างแบบจำลองที่สามารถระบุได้อย่างแม่นยำว่าข่าวนั้นเป็นเรื่องจริงหรือเรื่องปลอม เราจะสร้าง TfidfVectorizer และใช้ PassiveAggressiveClassifier เพื่อจัดประเภทข่าวเป็น "จริง" และ "ปลอม" เราจะใช้ชุดข้อมูลที่มีรูปร่าง 7796×4 และรันทุกอย่างใน Jupyter Lab
ภาษา: หลาม
ชุดข้อมูล/แพ็คเกจ: ข่าว.csv
3. การตรวจหาโรคพาร์กินสัน
ก้าวไปข้างหน้าด้วยแนวคิดโครงการวิทยาศาสตร์ข้อมูลของคุณ -
เราได้เริ่มใช้ Data Science เพื่อปรับปรุงการดูแลสุขภาพและบริการ หากเราสามารถคาดการณ์โรคได้ตั้งแต่เนิ่นๆ เราก็จะมีข้อดีหลายประการ ดังนั้น ในแนวคิดโครงงาน Data Science นี้ เราจะได้เรียนรู้วิธีตรวจหาโรคพาร์กินสันโดยใช้ Python เป็นโรคที่เกิดจากความเสื่อมของระบบประสาทและลุกลามของระบบประสาทส่วนกลางที่ส่งผลต่อการเคลื่อนไหวและทำให้เกิดอาการสั่นและตึง มันส่งผลกระทบต่อเซลล์ประสาทที่ผลิตโดปามีนในสมอง และทุกๆ ปีจะส่งผลกระทบต่อผู้คนมากกว่า 1 ล้านคนในอินเดีย
ภาษา: หลาม
ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล UCI ML Parkinsons
โครงการวิทยาศาสตร์ข้อมูลที่มีความซับซ้อนปานกลาง
4. การรับรู้อารมณ์คำพูด
ตรวจสอบการดำเนินการที่สมบูรณ์ของโครงการตัวอย่าง Data Science -
ตอนนี้เรามาเรียนรู้วิธีการใช้ไลบรารี่ต่างๆ กัน โครงงาน Data Science นี้ใช้ librosa สำหรับการรู้จำเสียง SER เป็นกระบวนการในการระบุอารมณ์และสภาวะทางอารมณ์ของมนุษย์จากคำพูด เนื่องจากเราใช้น้ำเสียงและระดับเสียงเพื่อแสดงอารมณ์ด้วยเสียงของเรา SER จึงมีความเกี่ยวข้อง แต่เนื่องจากอารมณ์เป็นเรื่องส่วนตัว การบรรยายด้วยเสียงจึงเป็นงานที่ท้าทาย เราจะใช้ฟังก์ชัน mfcc, chroma และ mel และใช้ชุดข้อมูล RAVDESS สำหรับการจดจำอารมณ์ เราจะสร้างตัวแยกประเภท MLPC สำหรับโมเดลนี้
ภาษา: หลาม
ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล RAVDESS
5. การตรวจจับเพศและอายุ
สร้างความประทับใจให้นายจ้างด้วยโครงการ Data Science ล่าสุด -
นี่คือ Data Science ที่น่าสนใจด้วย Python คุณจะได้เรียนรู้การทำนายเพศและอายุของบุคคลโดยใช้รูปภาพเพียงรูปเดียว ในนี้เราจะแนะนำให้คุณรู้จักกับคอมพิวเตอร์วิทัศน์และหลักการของมัน เราจะสร้าง
ภาษา: หลาม
ชุดข้อมูล/แพ็คเกจ: อด
6. การวิเคราะห์ข้อมูล Uber
ตรวจสอบการดำเนินการโครงการ Data Science ที่สมบูรณ์ด้วยซอร์สโค้ด -
นี่คือโครงการสร้างภาพข้อมูลด้วย ggplot2 ซึ่งเราจะใช้ R และไลบรารีของมัน และวิเคราะห์พารามิเตอร์ต่างๆ เราจะใช้ชุดข้อมูล Uber Pickups New York City และสร้างการแสดงภาพสำหรับกรอบเวลาต่างๆ ของปี สิ่งนี้บอกเราว่าเวลาส่งผลต่อการเดินทางของลูกค้าอย่างไร
ภาษา: R
ชุดข้อมูล/แพ็คเกจ: Uber Pickups ในชุดข้อมูลนิวยอร์กซิตี้
7. การตรวจจับอาการง่วงนอนของผู้ขับขี่
พัฒนาทักษะของคุณด้วยการทำงานใน Top Data Science Project -
การขับรถโดยง่วงถือเป็นอันตรายอย่างยิ่ง และเกิดอุบัติเหตุเกือบพันครั้งทุกปีเนื่องจากการหลับในขณะขับรถ ในโครงการ Python นี้ เราจะสร้างระบบที่สามารถตรวจจับไดรเวอร์ที่ง่วงนอนและแจ้งเตือนพวกเขาด้วยสัญญาณเสียง
โครงการนี้ดำเนินการโดยใช้ Keras และ OpenCV เราจะใช้ OpenCV สำหรับการตรวจจับใบหน้าและดวงตา และด้วย Keras เราจะจำแนกสถานะดวงตา (เปิดหรือปิด) โดยใช้เทคนิคโครงข่ายประสาทเทียมระดับลึก
8. แชทบอท
สร้าง Chatbot ด้วย Python และก้าวไปข้างหน้าในอาชีพของคุณ -
Chatbots เป็นส่วนสำคัญของธุรกิจ ธุรกิจจำนวนมากต้องให้บริการแก่ลูกค้า และต้องใช้กำลังคน เวลา และความพยายามอย่างมากในการให้บริการ Chatbots สามารถทำให้การโต้ตอบกับลูกค้าของคุณเป็นไปโดยอัตโนมัติโดยการตอบคำถามทั่วไปที่ลูกค้าถาม โดยพื้นฐานแล้วแชทบอตมีสองประเภท: เฉพาะโดเมนและโดเมนแบบเปิด แชทบอทเฉพาะโดเมนมักใช้เพื่อแก้ไขปัญหาเฉพาะ ดังนั้นคุณต้องปรับแต่งให้ทำงานได้อย่างมีประสิทธิภาพในสาขาของคุณ คุณสามารถถามคำถามใดๆ กับแชทบอทแบบโดเมนเปิดได้ ดังนั้นการฝึกอบรมแชทบอทเหล่านั้นจึงต้องใช้ข้อมูลจำนวนมาก
ชุดข้อมูล: ไฟล์ Intent json
ภาษา: หลาม
โครงการวิทยาศาสตร์ข้อมูลขั้นสูง
9. เครื่องกำเนิดคำบรรยายภาพ
ตรวจสอบการดำเนินการที่สมบูรณ์ของโครงการด้วยซอร์สโค้ด -
การอธิบายสิ่งที่อยู่ในภาพเป็นเรื่องง่ายสำหรับมนุษย์ แต่สำหรับคอมพิวเตอร์ รูปภาพเป็นเพียงชุดตัวเลขที่แสดงค่าสีของแต่ละพิกเซล นี่เป็นงานที่ยากสำหรับคอมพิวเตอร์ การทำความเข้าใจสิ่งที่อยู่ในภาพแล้วสร้างคำอธิบายในภาษาธรรมชาติ (เช่น ภาษาอังกฤษ) ถือเป็นงานที่ยากอีกงานหนึ่ง โปรเจ็กต์นี้ใช้เทคนิคการเรียนรู้เชิงลึกซึ่งเราใช้ Convolutional Neural Network (CNN) กับ Recurrent Neural Network (LSTM) เพื่อสร้างเครื่องกำเนิดคำอธิบายรูปภาพ
ชุดข้อมูล: ฟลิคเกอร์ 8K
ภาษา: หลาม
กรอบ: Keras
10. การตรวจจับการฉ้อโกงบัตรเครดิต
พยายามอย่างเต็มที่ในขณะที่ทำงานในแนวคิดโครงการ Data Science ของคุณ -
ตอนนี้คุณเริ่มเข้าใจเทคนิคและแนวคิดแล้ว มาดูโครงการวิทยาศาสตร์ข้อมูลขั้นสูงกันดีกว่า ในโครงการนี้เราจะใช้ภาษา R กับอัลกอริธึมเช่น
ภาษา: R
ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูลธุรกรรมบัตร
11. ระบบแนะนำภาพยนตร์
ศึกษาการดำเนินการโครงการ Data Science ที่ดีที่สุดพร้อมซอร์สโค้ด -
ในโครงการ Data Science นี้ เราจะใช้ R เพื่อนำคำแนะนำของภาพยนตร์ไปใช้ผ่านการเรียนรู้ของเครื่อง ระบบการแนะนำจะส่งข้อเสนอแนะไปยังผู้ใช้ผ่านกระบวนการกรองตามความต้องการของผู้ใช้รายอื่นและประวัติการเข้าชม หาก A และ B ชอบ Home Alone และ B ชอบ Mean Girls คุณสามารถแนะนำ A ได้ พวกเขาก็อาจจะชอบเหมือนกัน ช่วยให้ลูกค้าสามารถโต้ตอบกับแพลตฟอร์มได้
ภาษา: R
ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล MovieLens
12. การแบ่งส่วนลูกค้า
สร้างความประทับใจให้นายจ้างด้วยโครงการ Data Science (รวมถึงซอร์สโค้ด) -
การแบ่งส่วนผู้ซื้อเป็นแอปพลิเคชันยอดนิยม
ภาษา: R
ชุดข้อมูล/แพ็คเกจ: ชุดข้อมูล Mall_Customers
13. การจำแนกประเภทของมะเร็งเต้านม
ตรวจสอบการใช้งานโครงการ Data Science ใน Python อย่างสมบูรณ์
กลับมาที่การมีส่วนร่วมทางการแพทย์ของวิทยาศาสตร์ข้อมูล มาเรียนรู้วิธีตรวจหามะเร็งเต้านมโดยใช้ Python กันดีกว่า เราจะใช้ชุดข้อมูล IDC_regular เพื่อระบุมะเร็งท่อนำไข่ที่ลุกลาม ซึ่งเป็นมะเร็งเต้านมรูปแบบที่พบบ่อยที่สุด มันพัฒนาในท่อน้ำนม โดยเจาะเข้าไปในเนื้อเยื่อเต้านมที่มีเส้นใยหรือไขมันอยู่นอกท่อ เราจะใช้แนวคิดโครงงานวิทยาศาสตร์ในการรวบรวมข้อมูลนี้
ภาษา: หลาม
ชุดข้อมูล/แพ็คเกจ: IDC_ปกติ
14. การรับรู้สัญญาณจราจร
บรรลุความแม่นยำในเทคโนโลยีการขับขี่ด้วยตนเองด้วยโครงการ Data Science
ป้ายถนนและกฎจราจรมีความสำคัญมากสำหรับผู้ขับขี่ทุกคนในการหลีกเลี่ยงอุบัติเหตุ หากต้องการปฏิบัติตามกฎ ก่อนอื่นคุณต้องเข้าใจว่าป้ายจราจรมีลักษณะอย่างไร บุคคลต้องเรียนรู้ป้ายจราจรทั้งหมดก่อนจึงจะได้รับใบอนุญาตขับขี่ยานพาหนะใดๆ แต่ปัจจุบันจำนวนยานยนต์ไร้คนขับกำลังเพิ่มมากขึ้น และในอนาคตอันใกล้นี้ ผู้คนจะเลิกขับรถอย่างอิสระอีกต่อไป ในโครงการการจดจำป้ายจราจร คุณจะได้เรียนรู้วิธีที่โปรแกรมสามารถจดจำประเภทของป้ายจราจรโดยการถ่ายภาพเป็นข้อมูลเข้า ชุดข้อมูล German Traffic Sign Recognition Benchmark (GTSRB) ใช้เพื่อสร้างโครงข่ายประสาทเทียมเชิงลึกเพื่อจดจำคลาสที่มีป้ายจราจรอยู่ นอกจากนี้เรายังสร้าง GUI แบบง่ายเพื่อโต้ตอบกับแอปพลิเคชัน
ภาษา: หลาม
ชุดข้อมูล: GTSRB (เกณฑ์มาตรฐานการรับรู้ป้ายจราจรของเยอรมัน)
อ่านเพิ่มเติม
ชุดข้อมูล 52 ชุดสำหรับโครงการฝึกอบรม โดโจส่วนหน้า: โครงการเพื่อฝึกฝนทักษะของนักพัฒนา (5 ใหม่ + 43 เก่า) อินโฟกราฟิกไดนามิกไอทีที่น่าสนใจที่สุด 12 อันดับแรก
ที่มา: will.com