ಡೆವಲಪರ್‌ಗಳಿಗಾಗಿ ಡೀಪ್‌ಪಾವ್ಲೋವ್: #1 NLP ಪರಿಕರಗಳು ಮತ್ತು ಚಾಟ್‌ಬಾಟ್ ರಚನೆ

ಎಲ್ಲರಿಗು ನಮಸ್ಖರ! ನಾವು ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆಗೆ ಸಂಬಂಧಿಸಿದ ಪ್ರಾಯೋಗಿಕ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಮೀಸಲಾದ ಲೇಖನಗಳ ಸರಣಿಯನ್ನು ತೆರೆಯುತ್ತಿದ್ದೇವೆ (ನೈಸರ್ಗಿಕ ಭಾಷಾ ಸಂಸ್ಕರಣೆ ಅಥವಾ ಸರಳವಾಗಿ NLP) ಮತ್ತು ಓಪನ್ ಸೋರ್ಸ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಡೈಲಾಗ್ ಏಜೆಂಟ್‌ಗಳನ್ನು (ಚಾಟ್‌ಬಾಟ್‌ಗಳು) ರಚಿಸುತ್ತಿದ್ದೇವೆ. ಡೀಪ್ ಪಾವ್ಲೋವ್, ಇದನ್ನು MIPT ಲ್ಯಾಬೊರೇಟರಿ ಆಫ್ ನ್ಯೂರಲ್ ಸಿಸ್ಟಮ್ಸ್ ಮತ್ತು ಡೀಪ್ ಲರ್ನಿಂಗ್‌ನಲ್ಲಿ ನಮ್ಮ ತಂಡವು ಅಭಿವೃದ್ಧಿಪಡಿಸುತ್ತಿದೆ. ಸರಣಿಯ ಮುಖ್ಯ ಗುರಿಯು ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಅನ್ನು ವ್ಯಾಪಕ ಶ್ರೇಣಿಯ ಡೆವಲಪರ್‌ಗಳಿಗೆ ಪರಿಚಯಿಸುವುದು ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಗಣಿತಶಾಸ್ತ್ರದಲ್ಲಿ ಪಿಎಚ್‌ಡಿಯಲ್ಲಿ ಆಳವಾದ ಜ್ಞಾನವಿಲ್ಲದೆ ಅನ್ವಯಿಕ NLP ಸಮಸ್ಯೆಗಳನ್ನು ನೀವು ಹೇಗೆ ಪರಿಹರಿಸಬಹುದು ಎಂಬುದನ್ನು ತೋರಿಸುವುದು.

ಎನ್‌ಎಲ್‌ಪಿ ಕಾರ್ಯಗಳಲ್ಲಿ ಪಠ್ಯದ ಭಾವನೆಯನ್ನು ನಿರ್ಧರಿಸುವುದು, ಹೆಸರಿಸಲಾದ ಘಟಕಗಳನ್ನು ಪಾರ್ಸಿಂಗ್ ಮಾಡುವುದು, ನಿಮ್ಮ ಬೋಟ್‌ನಿಂದ ಸಂವಾದಕನು ಏನನ್ನು ಬಯಸುತ್ತಾನೆ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸುವುದು: ಪಿಜ್ಜಾವನ್ನು ಆರ್ಡರ್ ಮಾಡಿ ಅಥವಾ ಹಿನ್ನೆಲೆ ಮಾಹಿತಿಯನ್ನು ಪಡೆಯಿರಿ ಮತ್ತು ಇನ್ನೂ ಹೆಚ್ಚಿನದನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ. ನೀವು NLP ಕಾರ್ಯಗಳು ಮತ್ತು ವಿಧಾನಗಳ ಬಗ್ಗೆ ಇನ್ನಷ್ಟು ಓದಬಹುದು ಇಲ್ಲಿ.

ಈ ಲೇಖನದಲ್ಲಿ, ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ NLP ಮಾದರಿಗಳೊಂದಿಗೆ REST ಸರ್ವರ್ ಅನ್ನು ಹೇಗೆ ರನ್ ಮಾಡುವುದು ಎಂಬುದನ್ನು ನಾವು ನಿಮಗೆ ತೋರಿಸುತ್ತೇವೆ, ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ಕಾನ್ಫಿಗರೇಶನ್ ಅಥವಾ ತರಬೇತಿ ಇಲ್ಲದೆ ಬಳಸಲು ಸಿದ್ಧವಾಗಿದೆ.

ಡೆವಲಪರ್‌ಗಳಿಗಾಗಿ ಡೀಪ್‌ಪಾವ್ಲೋವ್: #1 NLP ಪರಿಕರಗಳು ಮತ್ತು ಚಾಟ್‌ಬಾಟ್ ರಚನೆ

ಡೀಪ್ಪಾವ್ಲೋವ್ನ ಸ್ಥಾಪನೆ

ಇಲ್ಲಿ ಮತ್ತು ಕೆಳಗೆ, Linux ಗಾಗಿ ಸೂಚನೆಗಳನ್ನು ನೀಡಲಾಗುವುದು. ವಿಂಡೋಸ್‌ಗಾಗಿ, ನಮ್ಮ ನೋಡಿ ದಸ್ತಾವೇಜನ್ನು

  • ಪೈಥಾನ್‌ನ ಪ್ರಸ್ತುತ ಬೆಂಬಲಿತ ಆವೃತ್ತಿಯೊಂದಿಗೆ ವರ್ಚುವಲ್ ಪರಿಸರವನ್ನು ರಚಿಸಿ ಮತ್ತು ಸಕ್ರಿಯಗೊಳಿಸಿ:
    virtualelnv env -p python3.7
    source env/bin/activate
  • ವರ್ಚುವಲ್ ಪರಿಸರದಲ್ಲಿ ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಅನ್ನು ಸ್ಥಾಪಿಸಿ:
    pip install deeppavlov
    

DeepPavlov ಮಾದರಿಯೊಂದಿಗೆ REST ಸರ್ವರ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸಲಾಗುತ್ತಿದೆ

ನಾವು ಮೊದಲ ಬಾರಿಗೆ ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಮಾದರಿಯೊಂದಿಗೆ ಸರ್ವರ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸುವ ಮೊದಲು, ಗ್ರಂಥಾಲಯದ ವಾಸ್ತುಶಿಲ್ಪದ ಕೆಲವು ವೈಶಿಷ್ಟ್ಯಗಳ ಬಗ್ಗೆ ಮಾತನಾಡಲು ಇದು ಉಪಯುಕ್ತವಾಗಿರುತ್ತದೆ.

DP ಯಲ್ಲಿನ ಯಾವುದೇ ಮಾದರಿಯು ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ:

  • ಪೈಥಾನ್ ಕೋಡ್;
  • ಡೌನ್‌ಲೋಡ್ ಮಾಡಬಹುದಾದ ಘಟಕಗಳು - ನಿರ್ದಿಷ್ಟ ಡೇಟಾದ ಮೇಲೆ ಸರಣಿ ತರಬೇತಿ ಫಲಿತಾಂಶಗಳು (ಎಂಬೆಡ್ಡಿಂಗ್‌ಗಳು, ನರಮಂಡಲದ ತೂಕ, ಇತ್ಯಾದಿ);
  • ಒಂದು ಕಾನ್ಫಿಗರೇಶನ್ ಫೈಲ್ (ಇನ್ನು ಮುಂದೆ ಕಾನ್ಫಿಗರ್ ಎಂದು ಉಲ್ಲೇಖಿಸಲಾಗುತ್ತದೆ), ಇದು ಮಾದರಿಯಿಂದ ಬಳಸಲಾಗುವ ವರ್ಗಗಳ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಡೌನ್‌ಲೋಡ್ ಮಾಡಲಾದ ಘಟಕಗಳ URL ಗಳು, ಪೈಥಾನ್ ಅವಲಂಬನೆಗಳು, ಇತ್ಯಾದಿ.

ಕೆಳಗಿನ ಲೇಖನಗಳಲ್ಲಿ ಡೀಪ್‌ಪಾವ್ಲೋವ್‌ನ ಹುಡ್ ಅಡಿಯಲ್ಲಿ ಏನಿದೆ ಎಂಬುದರ ಕುರಿತು ನಾವು ನಿಮಗೆ ಇನ್ನಷ್ಟು ಹೇಳುತ್ತೇವೆ, ಇದೀಗ ಅದನ್ನು ತಿಳಿದುಕೊಳ್ಳಲು ನಮಗೆ ಸಾಕು:

  • ಡೀಪ್‌ಪಾವ್ಲೋವ್‌ನಲ್ಲಿನ ಯಾವುದೇ ಮಾದರಿಯನ್ನು ಅದರ ಸಂರಚನೆಯ ಹೆಸರಿನಿಂದ ಗುರುತಿಸಲಾಗುತ್ತದೆ;
  • ಮಾದರಿಯನ್ನು ಚಲಾಯಿಸಲು, ನೀವು ಅದರ ಘಟಕಗಳನ್ನು ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಸರ್ವರ್‌ಗಳಿಂದ ಡೌನ್‌ಲೋಡ್ ಮಾಡಬೇಕಾಗುತ್ತದೆ;
  • ಅಲ್ಲದೆ, ಮಾದರಿಯನ್ನು ಚಲಾಯಿಸಲು, ನೀವು ಅದನ್ನು ಬಳಸುವ ಪೈಥಾನ್ ಲೈಬ್ರರಿಗಳನ್ನು ಸ್ಥಾಪಿಸಬೇಕಾಗುತ್ತದೆ.

ನಾವು ಪ್ರಾರಂಭಿಸುವ ಮೊದಲ ಮಾದರಿಯು ಬಹುಭಾಷಾ ಹೆಸರಿನ ಎಂಟಿಟಿ ರೆಕಗ್ನಿಷನ್ (NER) ಆಗಿರುತ್ತದೆ. ಮಾದರಿಯು ಪಠ್ಯ ಪದಗಳನ್ನು ಅವು ಸೇರಿರುವ ಹೆಸರಿಸಲಾದ ಘಟಕಗಳ ಪ್ರಕಾರವನ್ನು ವರ್ಗೀಕರಿಸುತ್ತದೆ (ಸರಿಯಾದ ಹೆಸರುಗಳು, ಭೌಗೋಳಿಕ ಹೆಸರುಗಳು, ಕರೆನ್ಸಿಗಳ ಹೆಸರುಗಳು ಮತ್ತು ಇತರರು). NER ನ ಪ್ರಸ್ತುತ ಇತ್ತೀಚಿನ ಆವೃತ್ತಿಗೆ ಸಂರಚನಾ ಹೆಸರು:

ner_ontonotes_bert_mult

ನಾವು ಮಾದರಿಯೊಂದಿಗೆ REST ಸರ್ವರ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ:

  1. ಅದರ ಸಂರಚನೆಯಲ್ಲಿ ನಿರ್ದಿಷ್ಟಪಡಿಸಿದ ಮಾದರಿ ಅವಲಂಬನೆಗಳನ್ನು ನಾವು ಸಕ್ರಿಯ ವರ್ಚುವಲ್ ಪರಿಸರಕ್ಕೆ ಸ್ಥಾಪಿಸುತ್ತೇವೆ:
    python -m deeppavlov install ner_ontonotes_bert_mult
    
  2. ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಸರ್ವರ್‌ಗಳಿಂದ ಸರಣಿ ಮಾದರಿ ಘಟಕಗಳನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡಿ:
    python -m deeppavlov download ner_ontonotes_bert_mult
    

    ಸೀರಿಯಲ್ ಮಾಡಲಾದ ಘಟಕಗಳನ್ನು ಡೀಫಾಲ್ಟ್ ಆಗಿ ಇರುವ ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಹೋಮ್ ಡೈರೆಕ್ಟರಿಗೆ ಡೌನ್‌ಲೋಡ್ ಮಾಡಲಾಗುತ್ತದೆ

    ~/.deeppavlov

    ಡೌನ್‌ಲೋಡ್ ಮಾಡುವಾಗ, ಈಗಾಗಲೇ ಡೌನ್‌ಲೋಡ್ ಮಾಡಲಾದ ಘಟಕಗಳ ಹ್ಯಾಶ್ ಅನ್ನು ಸರ್ವರ್‌ನಲ್ಲಿರುವ ಘಟಕಗಳ ಹ್ಯಾಶ್‌ಗಳ ವಿರುದ್ಧ ಪರಿಶೀಲಿಸಲಾಗುತ್ತದೆ. ಹೊಂದಾಣಿಕೆಯಿದ್ದರೆ, ಡೌನ್‌ಲೋಡ್ ಅನ್ನು ಬಿಟ್ಟುಬಿಡಲಾಗುತ್ತದೆ ಮತ್ತು ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಫೈಲ್‌ಗಳನ್ನು ಬಳಸಲಾಗುತ್ತದೆ. ಡೌನ್‌ಲೋಡ್ ಮಾಡಲಾದ ಘಟಕಗಳ ಗಾತ್ರಗಳು ಸರಾಸರಿ 0.5 ರಿಂದ 8 Gb ವರೆಗೆ ಬದಲಾಗಬಹುದು, ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ಅನ್ಜಿಪ್ ಮಾಡಿದ ನಂತರ 20 Gb ತಲುಪುತ್ತದೆ.

  3. ನಾವು ಮಾದರಿಯೊಂದಿಗೆ REST ಸರ್ವರ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ:
    python -m deeppavlov riseapi ner_ontonotes_bert_mult -p 5005
    

ಈ ಆಜ್ಞೆಯನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುವ ಪರಿಣಾಮವಾಗಿ, ಹೋಸ್ಟ್ ಯಂತ್ರದ ಪೋರ್ಟ್ 5005 ನಲ್ಲಿ ಮಾದರಿಯೊಂದಿಗೆ REST ಸರ್ವರ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸಲಾಗುತ್ತದೆ (ಡೀಫಾಲ್ಟ್ ಪೋರ್ಟ್ 5000).

ಮಾದರಿಯನ್ನು ಪ್ರಾರಂಭಿಸಿದ ನಂತರ, API ದಾಖಲಾತಿಯೊಂದಿಗೆ ಸ್ವಾಗರ್ ಮತ್ತು ಪರೀಕ್ಷಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು URL ನಲ್ಲಿ ಕಾಣಬಹುದು http://127.0.0.1:5005. ಅಂತಿಮ ಬಿಂದುವಿಗೆ ಕಳುಹಿಸುವ ಮೂಲಕ ಮಾದರಿಯನ್ನು ಪರೀಕ್ಷಿಸೋಣ http://127.0.0.1:5005/model ಕೆಳಗಿನ JSON ವಿಷಯದೊಂದಿಗೆ ಪೋಸ್ಟ್ ವಿನಂತಿ:

{
  "x": [
    "В МФТИ можно добраться на электричке с Савёловского Вокзала.",
    "В юго-западной Руси стог жита оценен в 15 гривен"
  ]
}

ಪ್ರತಿಕ್ರಿಯೆಯಾಗಿ ನಾವು ಈ ಕೆಳಗಿನ JSON ಅನ್ನು ಸ್ವೀಕರಿಸಬೇಕು:

[
  [
    ["В", "МФТИ", "можно", "добраться", "на", "электричке", "с", "Савёловского", "Вокзала", "."],
    ["O", "B-FAC", "O", "O", "O", "O", "O", "B-FAC", "I-FAC", "O"]
  ],
  [
    ["В", "юго", "-", "западной", "Руси", "стог", "жита", "оценен", "в", "15", "гривен"],
    ["O", "B-LOC", "I-LOC", "I-LOC", "I-LOC", "O", "O", "O", "O", "B-MONEY", "I-MONEY"]
  ]
]

ಈ ಉದಾಹರಣೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ನಾವು DeepPavlov REST API ಅನ್ನು ವಿಶ್ಲೇಷಿಸುತ್ತೇವೆ.

API ಡೀಪ್ಪಾವ್ಲೋವ್

ಪ್ರತಿ ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಮಾದರಿಯು ಕನಿಷ್ಠ ಒಂದು ಇನ್‌ಪುಟ್ ಆರ್ಗ್ಯುಮೆಂಟ್ ಅನ್ನು ಹೊಂದಿದೆ. REST API ನಲ್ಲಿ, ಆರ್ಗ್ಯುಮೆಂಟ್‌ಗಳನ್ನು ಹೆಸರಿಸಲಾಗಿದೆ, ಅವುಗಳ ಹೆಸರುಗಳು ಒಳಬರುವ ನಿಘಂಟಿನ ಕೀಗಳಾಗಿವೆ. ಹೆಚ್ಚಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ, ವಾದವು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಬೇಕಾದ ಪಠ್ಯವಾಗಿದೆ. ಮಾದರಿಗಳಿಂದ ಹಿಂತಿರುಗಿಸಲಾದ ವಾದಗಳು ಮತ್ತು ಮೌಲ್ಯಗಳ ಕುರಿತು ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ದಸ್ತಾವೇಜನ್ನು ಮಾದರಿಗಳ ವಿಭಾಗದಲ್ಲಿ ಕಾಣಬಹುದು ಡೀಪ್ ಪಾವ್ಲೋವ್

ಉದಾಹರಣೆಯಲ್ಲಿ, ಎರಡು ತಂತಿಗಳ ಪಟ್ಟಿಯನ್ನು ಆರ್ಗ್ಯುಮೆಂಟ್ x ಗೆ ರವಾನಿಸಲಾಗಿದೆ, ಪ್ರತಿಯೊಂದಕ್ಕೂ ಪ್ರತ್ಯೇಕ ಮಾರ್ಕ್ಅಪ್ ನೀಡಲಾಗಿದೆ. DeepPavlov ನಲ್ಲಿ, ಎಲ್ಲಾ ಮಾದರಿಗಳು ಸ್ವತಂತ್ರವಾಗಿ ಸಂಸ್ಕರಿಸಿದ ಮೌಲ್ಯಗಳ ಪಟ್ಟಿಯನ್ನು (ಬ್ಯಾಚ್) ಇನ್ಪುಟ್ ಆಗಿ ತೆಗೆದುಕೊಳ್ಳುತ್ತವೆ.

"ಬ್ಯಾಚ್" ಎಂಬ ಪದವು ಯಂತ್ರ ಕಲಿಕೆಯ ಕ್ಷೇತ್ರವನ್ನು ಸೂಚಿಸುತ್ತದೆ ಮತ್ತು ಅಲ್ಗಾರಿದಮ್ ಅಥವಾ ನ್ಯೂರಲ್ ನೆಟ್‌ವರ್ಕ್‌ನಿಂದ ಏಕಕಾಲದಲ್ಲಿ ಸಂಸ್ಕರಿಸಿದ ಸ್ವತಂತ್ರ ಇನ್‌ಪುಟ್ ಮೌಲ್ಯಗಳ ಬ್ಯಾಚ್ ಅನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಇನ್‌ಪುಟ್‌ಗೆ ಪ್ರತ್ಯೇಕವಾಗಿ ರವಾನಿಸಲಾದ ಅದೇ ಮೌಲ್ಯಕ್ಕೆ ಹೋಲಿಸಿದರೆ ಮಾದರಿಯು ಬ್ಯಾಚ್‌ನ ಒಂದು ಅಂಶವನ್ನು ಪ್ರಕ್ರಿಯೆಗೊಳಿಸುವ ಸಮಯವನ್ನು ಕಡಿಮೆ ಮಾಡಲು (ಸಾಮಾನ್ಯವಾಗಿ ಗಮನಾರ್ಹವಾಗಿ) ಈ ವಿಧಾನವು ನಿಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಆದರೆ ಎಲ್ಲಾ ಅಂಶಗಳನ್ನು ಸಂಸ್ಕರಿಸಿದ ನಂತರವೇ ಸಂಸ್ಕರಣಾ ಫಲಿತಾಂಶವನ್ನು ನೀಡಲಾಗುತ್ತದೆ. ಆದ್ದರಿಂದ, ಒಳಬರುವ ಬ್ಯಾಚ್ ಅನ್ನು ರಚಿಸುವಾಗ, ಮಾದರಿಯ ವೇಗ ಮತ್ತು ಅದರ ಪ್ರತಿಯೊಂದು ಪ್ರತ್ಯೇಕ ಅಂಶಗಳಿಗೆ ಅಗತ್ಯವಾದ ಸಂಸ್ಕರಣಾ ಸಮಯವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವುದು ಅಗತ್ಯವಾಗಿರುತ್ತದೆ.

ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಮಾದರಿಗೆ ಹಲವಾರು ವಾದಗಳಿದ್ದರೆ, ಅವುಗಳಲ್ಲಿ ಪ್ರತಿಯೊಂದೂ ತನ್ನದೇ ಆದ ಮೌಲ್ಯಗಳನ್ನು ಪಡೆಯುತ್ತದೆ ಮತ್ತು ಔಟ್‌ಪುಟ್‌ನಲ್ಲಿ ಮಾದರಿಯು ಯಾವಾಗಲೂ ಒಂದು ಬ್ಯಾಚ್ ಉತ್ತರಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ. ಹೊರಹೋಗುವ ಬ್ಯಾಚ್‌ನ ಅಂಶಗಳು ಒಳಬರುವ ಬ್ಯಾಚ್‌ಗಳ ಅಂಶಗಳನ್ನು ಒಂದೇ ಸೂಚ್ಯಂಕದೊಂದಿಗೆ ಸಂಸ್ಕರಿಸುವ ಫಲಿತಾಂಶಗಳಾಗಿವೆ.

ಮೇಲಿನ ಉದಾಹರಣೆಯಲ್ಲಿ, ಮಾದರಿಯ ಫಲಿತಾಂಶವು ಪ್ರತಿ ಸ್ಟ್ರಿಂಗ್ ಅನ್ನು ಟೋಕನ್‌ಗಳಾಗಿ (ಪದಗಳು ಮತ್ತು ವಿರಾಮ ಚಿಹ್ನೆಗಳು) ವಿಭಜಿಸುವುದು ಮತ್ತು ಅದು ಪ್ರತಿನಿಧಿಸುವ ಹೆಸರಿಸಲಾದ ಘಟಕಕ್ಕೆ (ಸಂಸ್ಥೆಯ ಹೆಸರು, ಕರೆನ್ಸಿ) ಸಂಬಂಧಿಸಿದಂತೆ ಟೋಕನ್ ಅನ್ನು ವರ್ಗೀಕರಿಸುವುದು. ಪ್ರಸ್ತುತ ಮಾದರಿ ner_ontonotes_bert_mult ಹೆಸರಿಸಲಾದ 18 ವಿಧದ ಘಟಕಗಳನ್ನು ಗುರುತಿಸುವ ಸಾಮರ್ಥ್ಯವನ್ನು ಹೊಂದಿದೆ, ವಿವರವಾದ ವಿವರಣೆಯನ್ನು ಕಾಣಬಹುದು ಇಲ್ಲಿ.

ಡೀಪ್‌ಪಾವ್ಲೋವ್‌ನ ಇತರ ಔಟ್-ಆಫ್-ಬಾಕ್ಸ್ ಮಾದರಿಗಳು

NER ಜೊತೆಗೆ, ಕೆಳಗಿನ ಔಟ್-ಆಫ್-ಬಾಕ್ಸ್ ಮಾದರಿಗಳು ಬರೆಯುವ ಸಮಯದಲ್ಲಿ ಡೀಪ್ಪಾವ್ಲೋವ್ನಲ್ಲಿ ಲಭ್ಯವಿದೆ:

ಪಠ್ಯ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸುವುದು

ಈ ಪಠ್ಯದ ಒಂದು ಭಾಗದೊಂದಿಗೆ ಪಠ್ಯಕ್ಕೆ ಪ್ರಶ್ನೆಗೆ ಉತ್ತರಿಸಿ. ಮಾದರಿ ಸಂರಚನೆ: squad_ru_bert_infer

ಉದಾಹರಣೆ ವಿನಂತಿ:

{
  "context_raw": [
    "DeepPavlov разрабатывается лабораторией МФТИ.",
    "В юго-западной Руси стог жита оценен в 15 гривен."
  ],
  "question_raw": [
    "Кем разрабатывается DeepPavlov?",
    "Сколько стоил стог жита на Руси?"
  ]
}

ಫಲಿತಾಂಶ:

[
  ["лабораторией МФТИ", 27, 31042.484375],
  ["15 гривен", 39, 1049.598876953125]
]

ಅವಮಾನ ಪತ್ತೆ

ಪಠ್ಯವನ್ನು ಉದ್ದೇಶಿಸಿರುವ ವ್ಯಕ್ತಿಗೆ ಅವಮಾನದ ಉಪಸ್ಥಿತಿಯನ್ನು ಪತ್ತೆಹಚ್ಚುವುದು (ಬರೆಯುವ ಸಮಯದಲ್ಲಿ - ಇಂಗ್ಲಿಷ್ಗೆ ಮಾತ್ರ). ಮಾದರಿ ಸಂರಚನೆ: insults_kaggle_conv_bert

ಉದಾಹರಣೆ ವಿನಂತಿ:


{
  "x": [
    "Money talks, bullshit walks.",
    "You are not the brightest one."
  ]
}

ಫಲಿತಾಂಶ:

[
  ["Not Insult"],
  ["Insult"]
]

ಭಾವನೆ ವಿಶ್ಲೇಷಣೆ

ಪಠ್ಯ ಭಾವನೆಯ ವರ್ಗೀಕರಣ (ಧನಾತ್ಮಕ, ತಟಸ್ಥ, ಋಣಾತ್ಮಕ). ಮಾದರಿ ಸಂರಚನೆ: rusentiment_elmo_twitter_cnn

ಉದಾಹರಣೆ ವಿನಂತಿ:

{
  "x": [
    "Мне нравится библиотека DeepPavlov.",
    "Я слышал о библиотеке DeepPavlov.",
    "Меня бесят тролли и анонимусы."
  ]
}

ಫಲಿತಾಂಶ:

[
  ["positive"],
  ["neutral"],
  ["negative"]
]

ಪ್ಯಾರಾಫ್ರೇಸ್ ಪತ್ತೆ

ಎರಡು ವಿಭಿನ್ನ ಪಠ್ಯಗಳು ಒಂದೇ ಅರ್ಥವನ್ನು ಹೊಂದಿದೆಯೇ ಎಂದು ನಿರ್ಧರಿಸುವುದು. ಮಾದರಿ ಸಂರಚನೆ: ಸ್ಟ್ಯಾಂಡ್_ಪ್ಯಾರಾಫ್ರೇಸರ್_ರು

ವಿನಂತಿ:

{
  "text_a": [
    "Город погружается в сон, просыпается Мафия.",
    "Президент США пригрозил расторжением договора с Германией."
  ],
  "text_b": [
    "Наступает ночь, все жители города пошли спать, а преступники проснулись.",
    "Германия не собирается поддаваться угрозам со стороны США."
  ]
}

ಫಲಿತಾಂಶ:

[
  [1],
  [0]
]

ಎಲ್ಲಾ ಔಟ್-ಆಫ್-ಬಾಕ್ಸ್ ಡೀಪ್ಪಾವ್ಲೋವ್ ಮಾದರಿಗಳ ಪ್ರಸ್ತುತ ಪಟ್ಟಿಯನ್ನು ಯಾವಾಗಲೂ ಕಾಣಬಹುದು ಇಲ್ಲಿ.

ತೀರ್ಮಾನಕ್ಕೆ

ಈ ಲೇಖನದಲ್ಲಿ, ನಾವು DeepPavlov API ಮತ್ತು ಲೈಬ್ರರಿಯ ಕೆಲವು ಪಠ್ಯ ಸಂಸ್ಕರಣಾ ಸಾಮರ್ಥ್ಯಗಳೊಂದಿಗೆ ಪರಿಚಯ ಮಾಡಿಕೊಂಡಿದ್ದೇವೆ. ಯಾವುದೇ ಎನ್‌ಎಲ್‌ಪಿ ಕಾರ್ಯಕ್ಕಾಗಿ, ಕಾರ್ಯದ ವಿಷಯದ ಪ್ರದೇಶಕ್ಕೆ (ಡೊಮೇನ್) ಅನುಗುಣವಾದ ಡೇಟಾ ಸೆಟ್‌ನಲ್ಲಿ ಮಾದರಿಯನ್ನು ತರಬೇತಿ ಮಾಡುವಾಗ ಉತ್ತಮ ಫಲಿತಾಂಶವನ್ನು ಸಾಧಿಸಲಾಗುತ್ತದೆ ಎಂದು ಮನಸ್ಸಿನಲ್ಲಿಟ್ಟುಕೊಳ್ಳಬೇಕು. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಇನ್ನೂ ಹೆಚ್ಚಿನ ಮಾದರಿಗಳು, ತಾತ್ವಿಕವಾಗಿ, ಎಲ್ಲಾ ಸಂದರ್ಭಗಳಲ್ಲಿ ತರಬೇತಿ ನೀಡಲಾಗುವುದಿಲ್ಲ.

ಕೆಳಗಿನ ಲೇಖನಗಳಲ್ಲಿ ನಾವು ಲೈಬ್ರರಿಯ ಹೆಚ್ಚುವರಿ ಸೆಟ್ಟಿಂಗ್‌ಗಳನ್ನು ನೋಡುತ್ತೇವೆ, ಡಾಕರ್‌ನಿಂದ ಡೀಪ್‌ಪಾವ್ಲೋವ್ ಅನ್ನು ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ ಮತ್ತು ನಂತರ ನಾವು ತರಬೇತಿ ಮಾದರಿಗಳಿಗೆ ಹೋಗುತ್ತೇವೆ. ಮತ್ತು DeepPavlov ಹೊಂದಿದೆ ಎಂಬುದನ್ನು ಮರೆಯಬೇಡಿ ವೇದಿಕೆ - ಲೈಬ್ರರಿ ಮತ್ತು ಮಾದರಿಗಳ ಬಗ್ಗೆ ನಿಮ್ಮ ಪ್ರಶ್ನೆಗಳನ್ನು ಕೇಳಿ. ನಿಮ್ಮ ಗಮನಕ್ಕೆ ಧನ್ಯವಾದಗಳು!

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ