שחרור מערכת זיהוי טקסט אופטית , תומך בזיהוי של תווים וטקסטים של UTF-8 ביותר מ-100 שפות, כולל רוסית, קזחית, בלארוסית ואוקראינית. ניתן לשמור את התוצאה בטקסט רגיל או בפורמטים HTML (hOCR), ALTO (XML), PDF ו-TSV. המערכת נוצרה במקור בשנים 1985-1995 במעבדת Hewlett Packard; בשנת 2005, הקוד נפתח תחת רישיון Apache ופותח בהמשך בהשתתפות עובדי גוגל. מקורות הפרויקט מורשה תחת Apache 2.0.
Tesseract כוללת כלי עזר למסוף ואת ספריית libtesseract להטמעת פונקציונליות OCR באפליקציות אחרות. מצדדים שלישיים שתומכים ב-Tesseract אתה יכול לשים לב , и . מוצעים שני מנועי זיהוי: אחד קלאסי המזהה טקסט ברמת תבניות תווים בודדות, וחדש המבוסס על שימוש במערכת למידת מכונה המבוססת על רשת נוירונים חוזרת LSTM, מותאמת לזיהוי מחרוזות שלמות ומאפשרת עלייה משמעותית ברמת הדיוק. מודלים מאומנים מוכנים מתפרסמים עבור . כדי לייעל את הביצועים, מוצעים מודולים המשתמשים בהוראות OpenMP ו-AVX2, AVX או SSE4.1 SIMD.
העיקרי ב-Tesseract 4.1:
- נוספה יכולת פלט בפורמט XML (פריסה מנותחת ואובייקט טקסט). כדי להשתמש בפורמט זה, עליך להפעיל את היישום בתור "tessaract image_name alto output_dir";
- נוספו מודולי רינדור חדשים LSTMBox ו-WordStrBox, מפשטים את הדרכת המנוע;
- נוספה תמיכה בפסוודוגרפיה בפלט hOCR (HTML);
- נוספו סקריפטים חלופיים שנכתבו ב-Python לאימון המנוע המבוסס על למידת מכונה;
- אופטימיזציות מורחבות באמצעות הוראות AVX, AVX2 ו-SSE;
- תמיכת OpenMP מושבתת כברירת מחדל עקב עם פרודוקטיביות;
- נוספה תמיכה ברשימות לבנות ושחורות במנוע LSTM;
- סקריפטים לבנות משופרים המבוססים על Cmake.
מקור: OpenNet.ru
