שחרור מערכת זיהוי הטקסט Tesseract 4.1

מוּכָן שחרור מערכת זיהוי טקסט אופטית Tesseract 4.1, תומך בזיהוי של תווים וטקסטים של UTF-8 ביותר מ-100 שפות, כולל רוסית, קזחית, בלארוסית ואוקראינית. ניתן לשמור את התוצאה בטקסט רגיל או בפורמטים HTML (hOCR), ALTO (XML), PDF ו-TSV. המערכת נוצרה במקור בשנים 1985-1995 במעבדת Hewlett Packard; בשנת 2005, הקוד נפתח תחת רישיון Apache ופותח בהמשך בהשתתפות עובדי גוגל. מקורות הפרויקט התפשטות מורשה תחת Apache 2.0.

Tesseract כוללת כלי עזר למסוף ואת ספריית libtesseract להטמעת פונקציונליות OCR באפליקציות אחרות. מצדדים שלישיים שתומכים ב-Tesseract ממשקי GUI אתה יכול לשים לב gImageReader, VietOCR и YAGF. מוצעים שני מנועי זיהוי: אחד קלאסי המזהה טקסט ברמת תבניות תווים בודדות, וחדש המבוסס על שימוש במערכת למידת מכונה המבוססת על רשת נוירונים חוזרת LSTM, מותאמת לזיהוי מחרוזות שלמות ומאפשרת עלייה משמעותית ברמת הדיוק. מודלים מאומנים מוכנים מתפרסמים עבור 123 שפות. כדי לייעל את הביצועים, מוצעים מודולים המשתמשים בהוראות OpenMP ו-AVX2, AVX או SSE4.1 SIMD.

העיקרי שיפורים ב-Tesseract 4.1:

  • נוספה יכולת פלט בפורמט XML גבוה (פריסה מנותחת ואובייקט טקסט). כדי להשתמש בפורמט זה, עליך להפעיל את היישום בתור "tessaract image_name alto output_dir";
  • נוספו מודולי רינדור חדשים LSTMBox ו-WordStrBox, מפשטים את הדרכת המנוע;
  • נוספה תמיכה בפסוודוגרפיה בפלט hOCR (HTML);
  • נוספו סקריפטים חלופיים שנכתבו ב-Python לאימון המנוע המבוסס על למידת מכונה;
  • אופטימיזציות מורחבות באמצעות הוראות AVX, AVX2 ו-SSE;
  • תמיכת OpenMP מושבתת כברירת מחדל עקב проблем עם פרודוקטיביות;
  • נוספה תמיכה ברשימות לבנות ושחורות במנוע LSTM;
  • סקריפטים לבנות משופרים המבוססים על Cmake.

מקור: OpenNet.ru

הוספת תגובה