కానానికల్, మైనాను ఆవిష్కరించింది, ఇది స్థానిక స్పీచ్-టు-టెక్స్ట్ సిస్టమ్. Ubuntu డెస్క్టాప్

కానానికల్ ఈ ప్రాజెక్ట్‌ను సమర్పించింది మైనా కొత్త స్పీచ్-టు-టెక్స్ట్ మార్పిడి వ్యవస్థ Ubuntu డెస్క్‌టాప్. ఈ ప్రాజెక్ట్ సమీకృత డిక్టేషన్‌ను అందించడమే లక్ష్యంగా పెట్టుకుంది: వినియోగదారు ఒక హాట్‌కీని నొక్కి, మాట్లాడగానే, గుర్తించబడిన టెక్స్ట్ యాక్టివ్ అప్లికేషన్‌లో కనిపిస్తుంది. మైనా డెస్క్‌టాప్‌లో ఒక సహజమైన భాగంగా అనిపించాలని ఈ ప్రకటన నొక్కి చెబుతోంది. Ubuntu మరియు అదే సమయంలో వినియోగదారుడి గోప్యతను దృష్టిలో ఉంచుకుని పనిచేయడం. ప్రచురణ సమయంలో మద్దతు ఉన్న ఇన్‌పుట్ భాషల జాబితాను ప్రకటించలేదు.

ప్రాజెక్ట్ యొక్క మొదటి లక్ష్యం Ubuntu 26.10ఈ దశలో, కానానికల్ ఒక పూర్తిస్థాయి వాయిస్ అసిస్టెంట్‌ను గానీ లేదా వాయిస్ ఆధారిత డెస్క్‌టాప్ మేనేజ్‌మెంట్ సిస్టమ్‌ను గానీ అభివృద్ధి చేయడానికి ప్రయత్నించడం లేదు. డెవలపర్లు మొదటి వెర్షన్ పరిధిని ఉద్దేశపూర్వకంగానే ప్రాథమిక, నమ్మకమైన డిక్టేషన్‌కు పరిమితం చేశారు: అంటే, ఒక కీ కాంబినేషన్‌ను నొక్కడం, టెక్స్ట్ మాట్లాడటం, మరియు ఫలితాన్ని ప్రస్తుత ఇన్‌పుట్ ఫీల్డ్‌లో స్వీకరించడం. పరీక్షించబడుతున్న ప్రాథమిక వాతావరణం Ubuntu GNOME తో Wayland పై డెస్క్‌టాప్, కానీ భవిష్యత్తులో ఇతర వాతావరణాలకు మద్దతు ఇచ్చేలా ఆర్కిటెక్చర్‌ను తగినంతగా ఓపెన్‌గా ఉంచాలని ప్రణాళిక చేయబడింది.

మైనా స్థానిక ప్రసంగ గుర్తింపు కోసం రూపొందించబడింది. అవసరమైన మోడల్‌లను ఇన్‌స్టాల్ చేసిన తర్వాత, డిక్టేషన్‌కు ఇంటర్నెట్ కనెక్షన్ అవసరం లేదు. వినియోగదారు స్పష్టంగా యాక్టివేట్ చేసిన తర్వాత మాత్రమే మైక్రోఫోన్‌ను ఉపయోగించాలి. ఆడియో మెమరీలో ప్రాసెస్ చేయబడి, ఆపై తొలగించబడుతుంది మరియు రికార్డింగ్‌లు బాహ్య సేవలకు పంపబడవు. డిఫాల్ట్‌గా ఆడియోను నిల్వ చేయడాన్ని ఈ సొల్యూషన్ నివారించాలని మరియు క్లౌడ్ సేవకు సజావుగా మారకూడదని కూడా డిజైన్ స్పెసిఫికేషన్ నిర్దేశిస్తుంది.

మైనా కోడ్ మరియు డాక్యుమెంటేషన్ కానానికల్ రిపోజిటరీలో ప్రచురించబడ్డాయి. గ్యాలరీలుఈ ప్రాజెక్ట్‌ను తేలికపాటి స్పీచ్-టు-టెక్స్ట్ అప్లికేషన్‌గా వర్ణించారు. Ubuntu ఇది డెస్క్‌టాప్ వెర్షన్ మరియు GPL-3.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది. అయితే, ఈ ప్రాజెక్ట్ ఇంకా ప్రారంభ దశలోనే ఉంది: రిపోజిటరీలో ఇంకా ఏ విడుదలలూ ప్రచురించబడలేదు, మరియు దీని ఆర్కిటెక్చరల్ స్పెసిఫికేషన్ 'ప్రతిపాదితం'గా జాబితా చేయబడింది.

మైనా యొక్క ముఖ్య లక్షణాలు మరియు విధులు

  • పుష్-టు-టాక్ డిక్టేషన్. వినియోగదారుడు కాన్ఫిగర్ చేయగల హాట్‌కీని నొక్కి పట్టుకుని మాట్లాడినప్పుడు, సిస్టమ్ గుర్తించిన టెక్స్ట్‌ను ఎంచుకున్న ఇన్‌పుట్ ఫీల్డ్‌లో చేరుస్తుంది. కీని విడుదల చేసినప్పుడు డిక్టేషన్ ముగుస్తుంది.

  • స్థానిక ప్రసంగ గుర్తింపు. వినియోగదారుడి మెషీన్‌లో స్థానిక ఇన్ఫరెన్స్ స్టాక్ ద్వారా గుర్తింపు ప్రక్రియ నిర్వహించబడుతుంది. ఇది క్లౌడ్‌పై ఆధారపడటాన్ని తగ్గిస్తుంది మరియు మోడల్ ఇన్‌స్టాలేషన్ తర్వాత ఆఫ్‌లైన్ ఆపరేషన్‌కు వీలు కల్పిస్తుంది.

  • ప్రైవేట్ ఆడియో ప్రాసెసింగ్. వినియోగదారుడి డిక్టేషన్ సెషన్ సమయంలో మాత్రమే మైక్రోఫోన్ యాక్టివేట్ అవుతుంది. డిఫాల్ట్‌గా ఆడియో డిస్క్‌లో వ్రాయబడదు; దానికి బదులుగా పరిమిత మెమరీ బఫర్ ఉపయోగించబడుతుంది, సెషన్ ముగిసిన తర్వాత అది ఖాళీ చేయబడుతుంది.

  • దృశ్య కార్యకలాప సూచిక. రికార్డింగ్ మరియు ట్రాన్స్‌క్రిప్షన్ సమయంలో, వినియోగదారు స్పష్టమైన స్టేటస్ ఇండికేటర్‌ను చూడాలి. స్పెసిఫికేషన్‌లో రికార్డింగ్, ట్రాన్స్‌క్రైబింగ్, ఫైనలైజింగ్ మరియు ఎర్రర్ వంటి స్టేట్‌లు పేర్కొనబడ్డాయి.

  • స్థిరమైన వచనాన్ని మాత్రమే చేర్చండి. మొదటి అమలులో, మధ్యంతర గుర్తింపు అంచనాలను నేరుగా అప్లికేషన్‌లో నమోదు చేయకూడదు. ధృవీకరించబడిన తుది టెక్స్ట్ మాత్రమే లక్ష్య ఫీల్డ్‌కు పంపబడుతుంది.

  • టెక్స్ట్ యొక్క పోస్ట్-ప్రాసెసింగ్. ముడి ప్రతిలేఖనం సాధారణీకరణ, విరామ చిహ్నాలు, పెద్ద అక్షరాలు, ఫార్మాటింగ్ మరియు మాట్లాడే రూపాలను వ్రాత రూపాలుగా మార్చడం వంటి ప్రక్రియలకు లోనవ్వవచ్చు, ఉదాహరణకు “ఇరవై రెండు” → “22”.

  • డిక్టేషన్ భాషను ఎంచుకోవడం. సిస్టమ్ తప్పనిసరిగా ఒక కస్టమ్ డిక్టేషన్ భాషకు మద్దతు ఇవ్వాలి, దానికి తగిన మోడల్ అందుబాటులో ఉంటే డిఫాల్ట్‌గా యూజర్ ఇంటర్‌ఫేస్ భాషను ఉపయోగించాలి.

  • మోడల్ నాణ్యత ప్రొఫైల్స్. ఈ స్పెసిఫికేషన్‌లో వివిధ మోడల్ ప్రొఫైల్‌లు ఉన్నాయి: తక్కువ వనరుల వినియోగంతో కూడిన తేలికపాటి వెర్షన్, సమతుల్య డిఫాల్ట్ ప్రొఫైల్ మరియు అధిక నాణ్యత గల కానీ బరువైన వెర్షన్.

  • ఇన్‌పుట్ ఫోకస్‌తో సురక్షితమైన పని. సెషన్ ప్రారంభంలో టెక్స్ట్ చేర్చవలసిన ప్రదేశం ఎంపిక చేయబడుతుంది. డిక్టేషన్ సమయంలో విండో ఫోకస్ మారినట్లయితే, సిస్టమ్ ఆ టెక్స్ట్‌ను నిశ్శబ్దంగా మరో అప్లికేషన్‌కు పంపకూడదు.

  • రక్షిత ఫీల్డ్‌లలో నిరోధించడం. అప్లికేషన్ లేదా టూల్‌కిట్ దీనిని నిర్ధారించడానికి అనుమతిస్తే, పాస్‌వర్డ్ ఫీల్డ్‌లు, ప్రమాణీకరణ విండోలు మరియు ఇతర సురక్షిత ప్రాంతాలలో డిక్టేషన్‌ను నిరోధించాలి.

  • వేలాండ్/గ్నోమ్‌తో అనుసంధానం. మొదటి వెర్షన్ వేలాండ్ మరియు గ్నోమ్‌లను లక్ష్యంగా చేసుకుంది. ప్రాథమిక టెక్స్ట్ చేర్పు కోసం ఐబస్ (IBus) ను పరిగణిస్తున్నారు, మరియు భవిష్యత్తులో ఇన్‌పుట్-మెథడ్/టెక్స్ట్-ఇన్‌పుట్ ప్రోటోకాల్స్ ద్వారా మరింత స్థానిక వేలాండ్ విధానాన్ని ప్లాన్ చేస్తున్నారు.

  • వినియోగదారు సెట్టింగ్‌లు. ప్రణాళికాబద్ధమైన సెట్టింగ్స్ ఇంటర్‌ఫేస్‌లో STTని ఎనేబుల్/డిసేబుల్ చేయడం, హాట్‌కీని ఎంచుకోవడం, డిక్టేషన్ భాష, మైక్రోఫోన్, మోడల్ ప్రొఫైల్, పోస్ట్-ప్రాసెసింగ్ పారామీటర్లు మరియు యాక్టివిటీ ఇండికేటర్ వంటివి ఉండాలి.

ప్రాజెక్ట్ యొక్క మొదటి వెర్షన్‌లో కీలక పదబంధంపై మేల్కొనడం, నిరంతర బ్యాక్‌గ్రౌండ్ లిజనింగ్, క్లౌడ్ రికగ్నిషన్, వాయిస్ అసిస్టెంట్, వాయిస్ కమాండ్‌లు, డెస్క్‌టాప్ మేనేజ్‌మెంట్, స్పీచ్ ట్రాన్స్‌లేషన్, స్పీకర్ డిటెక్షన్, ఆటోమేటిక్ లాంగ్వేజ్ డిటెక్షన్ మరియు డిక్టేషన్ హిస్టరీ వంటివి లేవు. మరో మాటలో చెప్పాలంటే, కానానికల్ ఒక "AI అసిస్టెంట్"తో కాకుండా, మరింత వాస్తవికమైన ఫీచర్‌తో ప్రారంభిస్తోంది: అదే సాధారణ యాప్‌లలోని టెక్స్ట్ కోసం లోకల్ వాయిస్ ఇన్‌పుట్. Ubuntu.

మూలం: linux.org.ru

DDoS రక్షణ, VPS VDS సర్వర్‌లతో సైట్‌ల కోసం నమ్మకమైన హోస్టింగ్‌ను కొనుగోలు చేయండి 🔥 DDoS రక్షణతో కూడిన నమ్మకమైన వెబ్‌సైట్ హోస్టింగ్, VPS VDS సర్వర్‌లను కొనండి | ProHoster