ආරම්භකයින් සඳහා දත්ත විද්යාව
1. හැඟීම් විශ්ලේෂණය (පෙළ හරහා හැඟීම් විශ්ලේෂණය)
මූලාශ්ර කේතය - භාවිතා කරමින් සම්පූර්ණ දත්ත විද්යා ව්යාපෘති ක්රියාත්මක කිරීම පරීක්ෂා කරන්න
හැඟීම් විශ්ලේෂණය යනු ධනාත්මක හෝ සෘණාත්මක විය හැකි හැඟීම් සහ අදහස් තීරණය කිරීම සඳහා වචන විශ්ලේෂණය කිරීමයි. මෙය පන්ති ද්විමය (ධනාත්මක සහ සෘණ) හෝ බහු වචන (සතුටු, කෝපය, දුක, නපුරු...) විය හැකි වර්ගීකරණයකි. අපි මෙම දත්ත විද්යා ව්යාපෘතිය R හි ක්රියාත්මක කරන අතර "janeaustenR" පැකේජයේ ඇති දත්ත කට්ටලය භාවිතා කරන්නෙමු. අපි AFINN, bing සහ loughran වැනි සාමාන්ය අරමුණු ශබ්දකෝෂ භාවිතා කර, අභ්යන්තර සම්බන්ධයක් සිදු කරන්නෙමු, අවසානයේ ප්රතිඵලය පෙන්වීමට අපි වචන වලාකුළක් සාදන්නෙමු.
භාෂා: R
දත්ත කට්ටලය/පැකේජය: janeaustenR
ලිපිය පරිවර්තනය කරන ලද්දේ EDISON මෘදුකාංගයේ සහය ඇතිවයබහු-සන්නාම ගබඩා සඳහා අථත්ය සවි කාමර සාදයි , මෙන්මපරීක්ෂණ මෘදුකාංග .
2. ව්යාජ පුවත් හඳුනාගැනීම
ආරම්භකයින් සඳහා දත්ත විද්යා ව්යාපෘතියක වැඩ කිරීමෙන් ඔබේ කුසලතා ඊළඟ මට්ටමට ගෙන යන්න -
ව්යාජ පුවත් යනු දේශපාලන අරමුණු සාක්ෂාත් කර ගැනීම සඳහා සමාජ මාධ්ය සහ වෙනත් අන්තර්ජාල මාධ්ය හරහා ප්රචාරය කරන අසත්ය තොරතුරු වේ. මෙම දත්ත විද්යා ව්යාපෘති අදහස තුළ, ප්රවෘත්තියක් සත්ය ද ව්යාජ ද යන්න නිවැරදිව තීරණය කළ හැකි ආකෘතියක් ගොඩනැගීමට අපි පයිතන් භාවිතා කරමු. අපි TfidfVectorizer එකක් නිර්මාණය කර "සැබෑ" සහ "ව්යාජ" ලෙස ප්රවෘත්ති වර්ගීකරණය කිරීමට PassiveAggressive Classifier භාවිතා කරන්නෙමු. අපි 7796×4 හැඩයේ දත්ත කට්ටලයක් භාවිතා කර Jupyter Lab හි සියල්ල ධාවනය කරන්නෙමු.
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය/පැකේජය: news.csv
3. පාකින්සන් රෝගය හඳුනා ගැනීම
ඔබේ දත්ත විද්යා ව්යාපෘති අදහස සමඟ ඉදිරියට යන්න -
සෞඛ්ය සේවා සහ සේවා වැඩිදියුණු කිරීම සඳහා අපි දත්ත විද්යාව භාවිතා කිරීමට පටන් ගෙන ඇත - අපට රෝගයක් මුල් අවධියේදී පුරෝකථනය කළ හැකි නම්, අපට බොහෝ වාසි ඇත. ඉතින්, මෙම දත්ත විද්යා ව්යාපෘති අදහස තුළ, අපි පයිතන් භාවිතයෙන් පාකින්සන් රෝගය හඳුනා ගන්නේ කෙසේදැයි ඉගෙන ගනිමු. එය චලනය බලපාන අතර වෙව්ලීම සහ තද ගතිය ඇති කරන මධ්යම ස්නායු පද්ධතියේ ස්නායු විකෘති, ප්රගතිශීලී රෝගයකි. එය මොළයේ ඩොපමයින් නිපදවන නියුරෝන වලට බලපාන අතර සෑම වසරකම එය ඉන්දියාවේ මිලියනයකට වඩා වැඩි පිරිසකට බලපායි.
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය/පැකේජය: UCI ML පාකින්සන් දත්ත කට්ටලය
මධ්යම සංකීර්ණ දත්ත විද්යා ව්යාපෘති
4. කථන හැඟීම් හඳුනාගැනීම
දත්ත විද්යා උදාහරණ ව්යාපෘතියේ සම්පූර්ණ ක්රියාත්මක කිරීම පරීක්ෂා කරන්න −
දැන් අපි විවිධ පුස්තකාල භාවිතා කරන්නේ කෙසේදැයි ඉගෙන ගනිමු. මෙම දත්ත විද්යා ව්යාපෘතිය කථන හඳුනාගැනීම සඳහා ලිබ්රෝසා භාවිතා කරයි. SER යනු කථනයෙන් මානව හැඟීම් සහ බලපෑම්කාරී තත්ත්වයන් හඳුනාගැනීමේ ක්රියාවලියයි. අපගේ කටහඬින් හැඟීම් ප්රකාශ කිරීමට අපි ස්වරය සහ තාරතාව භාවිත කරන බැවින්, SER අදාළ වේ. නමුත් හැඟීම් ආත්මීය බැවින්, ශ්රව්ය විවරණය අභියෝගාත්මක කාර්යයකි. අපි mfcc, chroma සහ mel ශ්රිත භාවිත කරන අතර හැඟීම් හඳුනාගැනීම සඳහා RAVDESS දත්ත කට්ටලය භාවිත කරන්නෙමු. අපි මෙම ආකෘතිය සඳහා MLPC වර්ගීකාරකයක් සාදන්නෙමු.
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය/පැකේජය: RAVDESS දත්ත කට්ටලය
5. ස්ත්රී පුරුෂ භාවය සහ වයස හඳුනාගැනීම
නවතම දත්ත විද්යා ව්යාපෘතිය සමඟ සේවා යෝජකයන් විශ්මයට පත් කරන්න -
මෙය පයිතන් සමඟ රසවත් දත්ත විද්යාවකි. එක් රූපයක් පමණක් භාවිතා කරමින්, පුද්ගලයෙකුගේ ලිංගභේදය සහ වයස පුරෝකථනය කිරීමට ඔබ ඉගෙන ගනු ඇත. මෙයින් අපි ඔබට පරිගණක දැක්ම සහ එහි මූලධර්ම හඳුන්වා දෙන්නෙමු. අපි ගොඩනඟන්නෙමු
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය/පැකේජය: ප්රේක්ෂකයින්
6. Uber දත්ත විශ්ලේෂණය
මූලාශ්ර කේතය සමඟ සම්පූර්ණ දත්ත විද්යා ව්යාපෘතිය ක්රියාත්මක කිරීම පරීක්ෂා කරන්න -
මෙය ggplot2 සමඟ දත්ත දෘශ්යකරණ ව්යාපෘතියක් වන අතර එහිදී අපි R සහ එහි පුස්තකාල භාවිතා කර විවිධ පරාමිති විශ්ලේෂණය කරන්නෙමු. අපි Uber Pickups New York City දත්ත කට්ටලය භාවිත කර වසරේ විවිධ කාල රාමු සඳහා දෘශ්යකරණයන් සාදන්නෙමු. කාලය පාරිභෝගික ගමනට බලපාන ආකාරය මෙය අපට කියයි.
භාෂා: R
දත්ත කට්ටලය/පැකේජය: නිව් යෝර්ක් නගරයේ Uber Pickups දත්ත කට්ටලය
7. රියදුරු නිදිමත හඳුනා ගැනීම
ඉහළම දත්ත විද්යා ව්යාපෘතියේ වැඩ කිරීමෙන් ඔබේ කුසලතා වැඩි දියුණු කරන්න -
නිදිමත රිය පැදවීම අතිශයින්ම භයානක වන අතර රියදුරන් රිය පැදවීමේදී නින්දට යාම හේතුවෙන් වසරකට අනතුරු දහසකට ආසන්න ප්රමාණයක් සිදුවේ. මෙම Python ව්යාපෘතියේදී, අපි නිදිමත රියදුරන් හඳුනා ගැනීමට සහ ශ්රව්ය සංඥාවකින් ඔවුන්ට අනතුරු ඇඟවීමට හැකි පද්ධතියක් නිර්මාණය කරමු.
මෙම ව්යාපෘතිය Keras සහ OpenCV භාවිතයෙන් ක්රියාත්මක වේ. අපි මුහුණ සහ ඇස් හඳුනාගැනීම සඳහා OpenCV භාවිතා කරන අතර Keras සමඟ අපි ගැඹුරු ස්නායුක ජාල ශිල්පීය ක්රම භාවිතයෙන් අක්ෂි තත්ත්වය (විවෘත හෝ සංවෘත) වර්ගීකරණය කරන්නෙමු.
8. චැට්බෝට්
පයිතන් සමඟ චැට්බෝට් එකක් සාදා ඔබේ වෘත්තියේ ඉදිරි පියවරක් තබන්න -
Chatbots ව්යාපාරයේ අනිවාර්ය අංගයකි. බොහෝ ව්යාපාරවලට තම ගනුදෙනුකරුවන්ට සේවා සැපයීමට සිදු වන අතර ඔවුන්ට සේවය කිරීමට විශාල ශ්රම ශක්තියක්, කාලය සහ ශ්රමය වැය වේ. ගනුදෙනුකරුවන් අසන සමහර පොදු ප්රශ්නවලට පිළිතුරු දීමෙන් Chatbots හට ඔබේ පාරිභෝගික අන්තර්ක්රියා බොහොමයක් ස්වයංක්රීය කළ හැක. මූලික වශයෙන් චැට්බොට් වර්ග දෙකක් තිබේ: වසම-විශේෂිත සහ විවෘත වසම. විශේෂිත ගැටළුවක් විසඳීම සඳහා වසම-විශේෂිත chatbot බොහෝ විට භාවිතා වේ. එබැවින්, ඔබේ ක්ෂේත්රයේ ඵලදායී ලෙස වැඩ කිරීමට ඔබ එය අභිරුචිකරණය කළ යුතුය. Open-domain chatbots හට ඕනෑම ප්රශ්නයක් ඇසිය හැක, එබැවින් ඒවා පුහුණු කිරීම සඳහා විශාල දත්ත ප්රමාණයක් අවශ්ය වේ.
දත්ත කට්ටලය: Intents json ගොනුව
භාෂා: Python මීට උදාහරණ
උසස් දත්ත විද්යා ව්යාපෘති
9. Image Caption Generator
මූලාශ්ර කේතය - සමඟ ව්යාපෘතිය සම්පූර්ණයෙන් ක්රියාත්මක කිරීම පරීක්ෂා කරන්න
රූපයක ඇති දේ විස්තර කිරීම මිනිසුන්ට පහසු කාර්යයකි, නමුත් පරිගණක සඳහා රූපයක් යනු එක් එක් පික්සලයේ වර්ණ අගය නියෝජනය කරන සංඛ්යා මාලාවකි. මෙය පරිගණක සඳහා දුෂ්කර කාර්යයකි. රූපයක ඇති දේ තේරුම් ගෙන ස්වභාවික භාෂාවෙන් (ඉංග්රීසි වැනි) විස්තරයක් නිර්මාණය කිරීම තවත් දුෂ්කර කාර්යයකි. මෙම ව්යාපෘතිය රූප විස්තර උත්පාදක යන්ත්රයක් සෑදීම සඳහා පුනරාවර්තන ස්නායුක ජාලයක් (LSTM) සමඟ Convolutional Neural Network (CNN) ක්රියාත්මක කරන ගැඹුරු ඉගෙනුම් ශිල්පීය ක්රම භාවිතා කරයි.
දත්ත කට්ටලය: Flickr 8K
භාෂා: Python මීට උදාහරණ
රාමුව: කෙරස්
10. ක්රෙඩිට් කාඩ් වංචා හඳුනාගැනීම
ඔබේ දත්ත විද්යා ව්යාපෘති අදහස මත වැඩ කරන අතරතුර ඔබේ උපරිමය කරන්න -
මේ වන විට ඔබ ශිල්පීය ක්රම සහ සංකල්ප තේරුම් ගැනීමට පටන් ගෙන ඇත. අපි දියුණු දත්ත විද්යා ව්යාපෘති කිහිපයක් වෙත යමු. මෙම ව්යාපෘතියේදී අපි R භාෂාව වැනි ඇල්ගොරිතම සමඟ භාවිතා කරමු
භාෂා: R
දත්ත කට්ටලය/පැකේජය: කාඩ්පත් ගනුදෙනු දත්ත කට්ටලය
11. චිත්රපට නිර්දේශ පද්ධතිය
මූලාශ්ර කේතය සමඟ හොඳම දත්ත විද්යා ව්යාපෘතිය ක්රියාත්මක කිරීම අධ්යයනය කරන්න -
මෙම දත්ත විද්යා ව්යාපෘතියේදී, අපි යන්ත්ර ඉගෙනීම හරහා චිත්රපටයේ නිර්දේශ ක්රියාත්මක කිරීමට R භාවිතා කරමු. නිර්දේශ පද්ධතිය වෙනත් පරිශීලකයින්ගේ මනාපයන් සහ බ්රවුසින් ඉතිහාසය මත පදනම්ව පෙරීමේ ක්රියාවලියක් හරහා පරිශීලකයින්ට යෝජනා යවයි. A සහ B Home Alone වලට කැමති නම් සහ B මධ්යස්ථ ගැහැණු ළමයින්ට කැමති නම්, ඔබට A යෝජනා කළ හැක - ඔවුන්ද එයට කැමති විය හැක. මෙය පාරිභෝගිකයින්ට වේදිකාව සමඟ අන්තර් ක්රියා කිරීමට ඉඩ සලසයි.
භාෂා: R
දත්ත කට්ටලය/පැකේජය: MovieLens දත්ත කට්ටලය
12. පාරිභෝගික ඛණ්ඩනය
දත්ත විද්යා ව්යාපෘතියක් සමඟ සේවා යෝජකයන් විශ්මයට පත් කරන්න (මූලාශ්ර කේතය ඇතුළුව) -
ගැනුම්කරු ඛණ්ඩනය ජනප්රිය යෙදුමකි
භාෂා: R
දත්ත කට්ටලය/පැකේජය: Mall_Customers දත්ත කට්ටලය
13. පියයුරු පිළිකා වර්ගීකරණය
Python − හි දත්ත විද්යා ව්යාපෘතියක් සම්පූර්ණයෙන් ක්රියාත්මක කිරීම පරීක්ෂා කරන්න
දත්ත විද්යාවේ වෛද්ය දායකත්වය වෙත නැවත පැමිණෙමින්, පයිතන් භාවිතයෙන් පියයුරු පිළිකා හඳුනා ගන්නේ කෙසේදැයි ඉගෙන ගනිමු. පියයුරු පිළිකාවේ වඩාත් සුලභ ආකාරය වන ආක්රමණශීලී නාලිකා පිළිකා හඳුනා ගැනීමට අපි IDC_regular දත්ත කට්ටලය භාවිතා කරන්නෙමු. එය කිරි නාල වල වර්ධනය වන අතර, නාලයෙන් පිටත තන්තුමය හෝ මේද පියයුරු පටක තුලට වළලනු ලැබේ. මෙම දත්ත එකතු කිරීමේ විද්යා ව්යාපෘති අදහස අප භාවිතා කරනු ඇත
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය/පැකේජය: IDC_regular
14. රථවාහන සංඥා හඳුනාගැනීම
දත්ත විද්යා ව්යාපෘතිය සමඟ ස්වයං-රිය පැදවීමේ තාක්ෂණයේ නිරවද්යතාවය සාක්ෂාත් කර ගැනීම
සෑම රියදුරෙකුටම අනතුරු වළක්වා ගැනීම සඳහා මාර්ග සංඥා සහ මාර්ග නීති ඉතා වැදගත් වේ. රීතිය අනුගමනය කිරීම සඳහා, ඔබ මුලින්ම මාර්ග සංඥාවක් පෙනෙන්නේ කෙසේද යන්න තේරුම් ගත යුතුය. පුද්ගලයෙකු ඕනෑම වාහනයක් පැදවීමට බලපත්රය ලබා දීමට පෙර සියලුම මාර්ග සංඥා ඉගෙන ගත යුතුය. නමුත් දැන් ස්වයංක්රීය වාහන සංඛ්යාව වර්ධනය වෙමින් පවතින අතර නුදුරු අනාගතයේ දී පුද්ගලයෙකු තවදුරටත් ස්වාධීනව මෝටර් රථයක් ධාවනය නොකරනු ඇත. මාර්ග සංඥා හඳුනාගැනීමේ ව්යාපෘතියේදී, රූපයක් ආදානය ලෙස ගැනීමෙන් මාර්ග සංඥා වර්ගය හඳුනා ගැනීමට වැඩසටහනකට හැකි ආකාරය ඔබ ඉගෙන ගනු ඇත. ජර්මානු රථවාහන සංඥා හඳුනාගැනීමේ බෙන්ච්මාර්ක් (GTSRB) දත්ත කට්ටලය මාර්ග සංඥාවක් අයත් වන පන්තිය හඳුනා ගැනීම සඳහා ගැඹුරු ස්නායුක ජාලයක් ගොඩනැගීමට භාවිතා කරයි. යෙදුම සමඟ අන්තර් ක්රියා කිරීමට අපි සරල GUI එකක් ද නිර්මාණය කරමු.
භාෂා: Python මීට උදාහරණ
දත්ත කට්ටලය: GTSRB (ජර්මානු රථවාහන සංඥා හඳුනාගැනීමේ මිණුම් ලකුණ)
තවත් කියවන්න
පුහුණු ව්යාපෘති සඳහා දත්ත කට්ටල 52ක් Front-end dojo: සංවර්ධක කුසලතා පුහුණු කිරීමේ ව්යාපෘති (නව 5 + 43 පැරණි) ඉහළම රසවත් තොරතුරු තාක්ෂණ ගතික තොරතුරු 12
මූලාශ්රය: www.habr.com