
కానానికల్ ఈ ప్రాజెక్ట్ను సమర్పించింది మైనా కొత్త స్పీచ్-టు-టెక్స్ట్ మార్పిడి వ్యవస్థ Ubuntu డెస్క్టాప్. ఈ ప్రాజెక్ట్ సమీకృత డిక్టేషన్ను అందించడమే లక్ష్యంగా పెట్టుకుంది: వినియోగదారు ఒక హాట్కీని నొక్కి, మాట్లాడగానే, గుర్తించబడిన టెక్స్ట్ యాక్టివ్ అప్లికేషన్లో కనిపిస్తుంది. మైనా డెస్క్టాప్లో ఒక సహజమైన భాగంగా అనిపించాలని ఈ ప్రకటన నొక్కి చెబుతోంది. Ubuntu మరియు అదే సమయంలో వినియోగదారుడి గోప్యతను దృష్టిలో ఉంచుకుని పనిచేయడం. ప్రచురణ సమయంలో మద్దతు ఉన్న ఇన్పుట్ భాషల జాబితాను ప్రకటించలేదు.
ప్రాజెక్ట్ యొక్క మొదటి లక్ష్యం Ubuntu 26.10ఈ దశలో, కానానికల్ ఒక పూర్తిస్థాయి వాయిస్ అసిస్టెంట్ను గానీ లేదా వాయిస్ ఆధారిత డెస్క్టాప్ మేనేజ్మెంట్ సిస్టమ్ను గానీ అభివృద్ధి చేయడానికి ప్రయత్నించడం లేదు. డెవలపర్లు మొదటి వెర్షన్ పరిధిని ఉద్దేశపూర్వకంగానే ప్రాథమిక, నమ్మకమైన డిక్టేషన్కు పరిమితం చేశారు: అంటే, ఒక కీ కాంబినేషన్ను నొక్కడం, టెక్స్ట్ మాట్లాడటం, మరియు ఫలితాన్ని ప్రస్తుత ఇన్పుట్ ఫీల్డ్లో స్వీకరించడం. పరీక్షించబడుతున్న ప్రాథమిక వాతావరణం Ubuntu GNOME తో Wayland పై డెస్క్టాప్, కానీ భవిష్యత్తులో ఇతర వాతావరణాలకు మద్దతు ఇచ్చేలా ఆర్కిటెక్చర్ను తగినంతగా ఓపెన్గా ఉంచాలని ప్రణాళిక చేయబడింది.
మైనా స్థానిక ప్రసంగ గుర్తింపు కోసం రూపొందించబడింది. అవసరమైన మోడల్లను ఇన్స్టాల్ చేసిన తర్వాత, డిక్టేషన్కు ఇంటర్నెట్ కనెక్షన్ అవసరం లేదు. వినియోగదారు స్పష్టంగా యాక్టివేట్ చేసిన తర్వాత మాత్రమే మైక్రోఫోన్ను ఉపయోగించాలి. ఆడియో మెమరీలో ప్రాసెస్ చేయబడి, ఆపై తొలగించబడుతుంది మరియు రికార్డింగ్లు బాహ్య సేవలకు పంపబడవు. డిఫాల్ట్గా ఆడియోను నిల్వ చేయడాన్ని ఈ సొల్యూషన్ నివారించాలని మరియు క్లౌడ్ సేవకు సజావుగా మారకూడదని కూడా డిజైన్ స్పెసిఫికేషన్ నిర్దేశిస్తుంది.
మైనా కోడ్ మరియు డాక్యుమెంటేషన్ కానానికల్ రిపోజిటరీలో ప్రచురించబడ్డాయి. గ్యాలరీలుఈ ప్రాజెక్ట్ను తేలికపాటి స్పీచ్-టు-టెక్స్ట్ అప్లికేషన్గా వర్ణించారు. Ubuntu ఇది డెస్క్టాప్ వెర్షన్ మరియు GPL-3.0 లైసెన్స్ క్రింద పంపిణీ చేయబడింది. అయితే, ఈ ప్రాజెక్ట్ ఇంకా ప్రారంభ దశలోనే ఉంది: రిపోజిటరీలో ఇంకా ఏ విడుదలలూ ప్రచురించబడలేదు, మరియు దీని ఆర్కిటెక్చరల్ స్పెసిఫికేషన్ 'ప్రతిపాదితం'గా జాబితా చేయబడింది.
మైనా యొక్క ముఖ్య లక్షణాలు మరియు విధులు
పుష్-టు-టాక్ డిక్టేషన్. వినియోగదారుడు కాన్ఫిగర్ చేయగల హాట్కీని నొక్కి పట్టుకుని మాట్లాడినప్పుడు, సిస్టమ్ గుర్తించిన టెక్స్ట్ను ఎంచుకున్న ఇన్పుట్ ఫీల్డ్లో చేరుస్తుంది. కీని విడుదల చేసినప్పుడు డిక్టేషన్ ముగుస్తుంది.
స్థానిక ప్రసంగ గుర్తింపు. వినియోగదారుడి మెషీన్లో స్థానిక ఇన్ఫరెన్స్ స్టాక్ ద్వారా గుర్తింపు ప్రక్రియ నిర్వహించబడుతుంది. ఇది క్లౌడ్పై ఆధారపడటాన్ని తగ్గిస్తుంది మరియు మోడల్ ఇన్స్టాలేషన్ తర్వాత ఆఫ్లైన్ ఆపరేషన్కు వీలు కల్పిస్తుంది.
ప్రైవేట్ ఆడియో ప్రాసెసింగ్. వినియోగదారుడి డిక్టేషన్ సెషన్ సమయంలో మాత్రమే మైక్రోఫోన్ యాక్టివేట్ అవుతుంది. డిఫాల్ట్గా ఆడియో డిస్క్లో వ్రాయబడదు; దానికి బదులుగా పరిమిత మెమరీ బఫర్ ఉపయోగించబడుతుంది, సెషన్ ముగిసిన తర్వాత అది ఖాళీ చేయబడుతుంది.
దృశ్య కార్యకలాప సూచిక. రికార్డింగ్ మరియు ట్రాన్స్క్రిప్షన్ సమయంలో, వినియోగదారు స్పష్టమైన స్టేటస్ ఇండికేటర్ను చూడాలి. స్పెసిఫికేషన్లో రికార్డింగ్, ట్రాన్స్క్రైబింగ్, ఫైనలైజింగ్ మరియు ఎర్రర్ వంటి స్టేట్లు పేర్కొనబడ్డాయి.
స్థిరమైన వచనాన్ని మాత్రమే చేర్చండి. మొదటి అమలులో, మధ్యంతర గుర్తింపు అంచనాలను నేరుగా అప్లికేషన్లో నమోదు చేయకూడదు. ధృవీకరించబడిన తుది టెక్స్ట్ మాత్రమే లక్ష్య ఫీల్డ్కు పంపబడుతుంది.
టెక్స్ట్ యొక్క పోస్ట్-ప్రాసెసింగ్. ముడి ప్రతిలేఖనం సాధారణీకరణ, విరామ చిహ్నాలు, పెద్ద అక్షరాలు, ఫార్మాటింగ్ మరియు మాట్లాడే రూపాలను వ్రాత రూపాలుగా మార్చడం వంటి ప్రక్రియలకు లోనవ్వవచ్చు, ఉదాహరణకు “ఇరవై రెండు” → “22”.
డిక్టేషన్ భాషను ఎంచుకోవడం. సిస్టమ్ తప్పనిసరిగా ఒక కస్టమ్ డిక్టేషన్ భాషకు మద్దతు ఇవ్వాలి, దానికి తగిన మోడల్ అందుబాటులో ఉంటే డిఫాల్ట్గా యూజర్ ఇంటర్ఫేస్ భాషను ఉపయోగించాలి.
మోడల్ నాణ్యత ప్రొఫైల్స్. ఈ స్పెసిఫికేషన్లో వివిధ మోడల్ ప్రొఫైల్లు ఉన్నాయి: తక్కువ వనరుల వినియోగంతో కూడిన తేలికపాటి వెర్షన్, సమతుల్య డిఫాల్ట్ ప్రొఫైల్ మరియు అధిక నాణ్యత గల కానీ బరువైన వెర్షన్.
ఇన్పుట్ ఫోకస్తో సురక్షితమైన పని. సెషన్ ప్రారంభంలో టెక్స్ట్ చేర్చవలసిన ప్రదేశం ఎంపిక చేయబడుతుంది. డిక్టేషన్ సమయంలో విండో ఫోకస్ మారినట్లయితే, సిస్టమ్ ఆ టెక్స్ట్ను నిశ్శబ్దంగా మరో అప్లికేషన్కు పంపకూడదు.
రక్షిత ఫీల్డ్లలో నిరోధించడం. అప్లికేషన్ లేదా టూల్కిట్ దీనిని నిర్ధారించడానికి అనుమతిస్తే, పాస్వర్డ్ ఫీల్డ్లు, ప్రమాణీకరణ విండోలు మరియు ఇతర సురక్షిత ప్రాంతాలలో డిక్టేషన్ను నిరోధించాలి.
వేలాండ్/గ్నోమ్తో అనుసంధానం. మొదటి వెర్షన్ వేలాండ్ మరియు గ్నోమ్లను లక్ష్యంగా చేసుకుంది. ప్రాథమిక టెక్స్ట్ చేర్పు కోసం ఐబస్ (IBus) ను పరిగణిస్తున్నారు, మరియు భవిష్యత్తులో ఇన్పుట్-మెథడ్/టెక్స్ట్-ఇన్పుట్ ప్రోటోకాల్స్ ద్వారా మరింత స్థానిక వేలాండ్ విధానాన్ని ప్లాన్ చేస్తున్నారు.
వినియోగదారు సెట్టింగ్లు. ప్రణాళికాబద్ధమైన సెట్టింగ్స్ ఇంటర్ఫేస్లో STTని ఎనేబుల్/డిసేబుల్ చేయడం, హాట్కీని ఎంచుకోవడం, డిక్టేషన్ భాష, మైక్రోఫోన్, మోడల్ ప్రొఫైల్, పోస్ట్-ప్రాసెసింగ్ పారామీటర్లు మరియు యాక్టివిటీ ఇండికేటర్ వంటివి ఉండాలి.
ప్రాజెక్ట్ యొక్క మొదటి వెర్షన్లో కీలక పదబంధంపై మేల్కొనడం, నిరంతర బ్యాక్గ్రౌండ్ లిజనింగ్, క్లౌడ్ రికగ్నిషన్, వాయిస్ అసిస్టెంట్, వాయిస్ కమాండ్లు, డెస్క్టాప్ మేనేజ్మెంట్, స్పీచ్ ట్రాన్స్లేషన్, స్పీకర్ డిటెక్షన్, ఆటోమేటిక్ లాంగ్వేజ్ డిటెక్షన్ మరియు డిక్టేషన్ హిస్టరీ వంటివి లేవు. మరో మాటలో చెప్పాలంటే, కానానికల్ ఒక "AI అసిస్టెంట్"తో కాకుండా, మరింత వాస్తవికమైన ఫీచర్తో ప్రారంభిస్తోంది: అదే సాధారణ యాప్లలోని టెక్స్ట్ కోసం లోకల్ వాయిస్ ఇన్పుట్. Ubuntu.
మూలం: linux.org.ru
