RedPajama ప్రాజెక్ట్ కృత్రిమ మేధస్సు వ్యవస్థల కోసం ఓపెన్ డేటాసెట్‌ను అభివృద్ధి చేస్తుంది

చాట్‌జిపిటి వంటి వాణిజ్య ఉత్పత్తులతో పోటీపడే ఇంటెలిజెంట్ అసిస్టెంట్‌లను రూపొందించడానికి ఉపయోగించే ఓపెన్ మెషిన్ లెర్నింగ్ మోడల్‌లు మరియు దానితో పాటు శిక్షణ ఇన్‌పుట్‌లను రూపొందించడానికి రెడ్‌పజామా సహకార ప్రాజెక్ట్ అందించబడింది. ఓపెన్ సోర్స్ డేటా మరియు పెద్ద భాషా నమూనాల ఉనికి మెషీన్ లెర్నింగ్ రంగంలో పరిశోధనలో నిమగ్నమైన స్వతంత్ర బృందాల పరిమితులను తొలగిస్తుందని మరియు ప్రత్యేక సంభాషణ వ్యవస్థల సృష్టిని సులభతరం చేస్తుందని భావిస్తున్నారు. టుగెదర్, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research మరియు MILA Québec AI ఇన్స్టిట్యూట్ వంటి సంస్థలు మరియు సంఘాలు ఈ ప్రాజెక్ట్‌లో పనిలో చేరాయి.

సంభాషణ నమూనాల శిక్షణ కోసం 1 ట్రిలియన్ టోకెన్ రెడ్‌పజమా-డేటా-1.2T డేటాసెట్‌ను ప్రచురించడం మొదటి దశ. RedPajama సెట్ దాని LAMA మోడల్‌ను (మొత్తం 1.25 ట్రిలియన్ టోకెన్‌లు) రూపొందించడానికి Facebook ఉపయోగించే పబ్లిక్ సోర్స్‌ల నుండి డేటాను పునరుత్పత్తి చేస్తుంది, కానీ వినియోగ పరిధిని పరిమితం చేయని ఓపెన్ లైసెన్స్‌తో సరఫరా చేయబడుతుంది (LLaMA డేటా మరియు మోడల్‌లు ప్రత్యేకంగా పరిశోధకులకు మాత్రమే సరఫరా చేయబడ్డాయి. వాణిజ్యేతర ఉపయోగం కోసం అభ్యర్థన). డౌన్‌లోడ్ చేయదగిన RedPajama-Data-1T సెట్ 2.67 TB మరియు కామన్ క్రాల్ ఇండెక్స్డ్ వెబ్ పేజీలు, వికీపీడియా ఆర్కైవ్‌లు, GitHub నుండి సోర్స్ కోడ్, Gutenberg లైబ్రరీ నుండి పబ్లిక్ పుస్తకాలు, ArXiv ఆర్కైవ్ నుండి శాస్త్రీయ కథనాలు మరియు స్టాక్ ఓవర్‌ఫ్లో మరియు ఇతర వాటితో చర్చల నుండి సమాచారాన్ని కలిగి ఉంటుంది. స్టాక్ ఎక్స్ఛేంజ్ సైట్లు.

ఆల్పాకా మరియు ఓపెన్‌చాట్‌కిట్ ప్రాజెక్ట్‌ల నుండి సూచన-ఎగ్జిక్యూషన్ రూపంలో డైలాగ్‌ల యొక్క రెడీమేడ్ ఉదాహరణలను ఉపయోగించి, సిద్ధం చేయబడిన డేటాసెట్ ఆధారంగా శిక్షణ పొందిన మరియు ఆప్టిమైజ్ చేయబడిన రెడీమేడ్ మోడల్‌లు రాబోయే కొద్ది వారాల్లో రూపొందించడానికి ప్లాన్ చేయబడ్డాయి. ఇలాంటి భాషా నమూనా కార్యక్రమాలలో పాక్షికంగా ఓపెన్ సోర్స్ ప్రాజెక్ట్‌లు LAMA, Alpaca, Vicuna మరియు Koala, అలాగే పూర్తిగా ఓపెన్ సోర్స్ కార్యక్రమాలు Pythia, OpenChatKit, Open Assistant మరియు డాలీ ఉన్నాయి.

అదనంగా, మెషిన్ లెర్నింగ్‌కు సంబంధించి అనేక కొత్త ప్రాజెక్ట్‌లు ఉన్నాయి:

  • MiniGPT-4 - దృశ్యమాన సమాచారాన్ని పరిగణనలోకి తీసుకునే సామర్థ్యాలతో సాంప్రదాయ సంభాషణ చాట్‌బాట్‌లను విస్తరిస్తుంది, ఇది చిత్రాలను విశ్లేషించడానికి మరియు సిస్టమ్‌తో పరస్పర చర్య చేసే ప్రక్రియలో చేతితో రాసిన వచనాన్ని పరిగణనలోకి తీసుకోవడానికి మిమ్మల్ని అనుమతిస్తుంది (ఉదాహరణకు, మీరు ఏ రకమైన వస్తువు చూపబడుతుందో అడగవచ్చు. చిత్రంలో, ఫోటోలో చూపబడిన దాని ఆధారంగా కథనాన్ని వ్రాయమని బోట్‌ని అడగండి లేదా స్కీమాటిక్ స్కెచ్ ఆధారంగా, వెబ్‌సైట్‌ని సృష్టించమని అడగండి). MiniGPT-4 అమలు పైథాన్‌లో వ్రాయబడింది మరియు BSD లైసెన్స్ క్రింద పంపిణీ చేయబడింది.
  • Facebook టూల్‌కిట్ మరియు స్వీయ-అభ్యాసన (SSL, స్వీయ-పర్యవేక్షించిన అభ్యాసం, మానవ-తయారు చేసిన లేబుల్‌లు మరియు ఉల్లేఖనాలను ఉపయోగించదు) DINOv2 మెషిన్ విజన్ మోడల్‌ను సాధారణీకరించిన దృశ్య డేటా ప్రాసెసింగ్ (చిత్రాల వర్గీకరణ, వస్తువుల గురించి సమాచారాన్ని సేకరించడం) యొక్క సమస్యలను పరిష్కరించడానికి అనువైనది. చిత్రాలు, వీడియోలో ఏమి జరుగుతుందో అర్థం చేసుకోవడం) మరియు పిక్సెల్ స్థాయిలో మానిప్యులేషన్‌లు (డెప్త్ ప్రిడిక్షన్, సెగ్మెంటేషన్). మోడల్ 142 మిలియన్ చిత్రాల సేకరణపై శిక్షణ పొందింది. అమలు పైథాన్‌లో వ్రాయబడింది మరియు వాణిజ్యేతర వినియోగాన్ని అనుమతించే క్రియేటివ్ కామన్స్ అట్రిబ్యూషన్-నాన్ కమర్షియల్ 4.0 లైసెన్స్ క్రింద పంపిణీ చేయబడుతుంది.
  • GPT4All అనేది వారి స్వంత హార్డ్‌వేర్‌పై స్టాండ్-అలోన్ చాట్‌బాట్‌లను త్వరగా ప్రారంభించే టూల్‌కిట్ (అవి బాహ్య సేవలను యాక్సెస్ చేయవు మరియు అమలు చేయడానికి AVX2 మద్దతుతో CPUలను ఉపయోగిస్తాయి). GPT-J మరియు LLaMa ఆధారంగా పెద్ద భాషా నమూనాలను కనెక్ట్ చేయడానికి మద్దతు ఉంది. కోడ్ పైథాన్‌లో వ్రాయబడింది మరియు MIT లైసెన్స్ క్రింద పంపిణీ చేయబడింది.

మూలం: opennet.ru

ఒక వ్యాఖ్యను జోడించండి