Utjefte fan it tekstherkenningssysteem Tesseract 4.1
Tariede frijlitting fan optysk tekstherkenningssysteem Tesseract 4.1, stipet erkenning fan UTF-8-karakters en teksten yn mear as 100 talen, ynklusyf Russysk, Kazachsk, Wyt-Russysk en Oekraynsk. It resultaat kin wurde bewarre yn platte tekst of yn HTML (hOCR), ALTO (XML), PDF en TSV formaten. It systeem waard oarspronklik makke yn 1985-1995 yn it Hewlett Packard laboratoarium; yn 2005 waard de koade iepene ûnder de Apache-lisinsje en waard fierder ûntwikkele mei de dielname fan Google-meiwurkers. Projekt boarnen fersprieding lisinsje ûnder Apache 2.0.
Tesseract omfettet in konsole-hulpprogramma en de libtesseract-bibleteek foar it ynbêdzjen fan OCR-funksjonaliteit yn oare applikaasjes. Fan tredden dy't Tesseract stypje GUI ynterfaces do kinst notearje gImageReader, VietOCR и YAGF. Twa herkenningsmotoren wurde oanbean: in klassiker dy't tekst herkent op it nivo fan yndividuele karakterpatroanen, en in nije basearre op it brûken fan in masine-learsysteem basearre op in LSTM weromkommend neural netwurk, optimalisearre foar it werkennen fan heule snaren en it tastean fan in signifikante tanimming fan krektens. Ready-made oplaat modellen wurde publisearre foar 123 talen. Om de prestaasjes te optimalisearjen wurde modules oanbean mei OpenMP en AVX2, AVX of SSE4.1 SIMD ynstruksjes.
Tafoege de mooglikheid om útfier yn XML-formaat ALTO (Analysearde yndieling en tekstobjekt). Om dit formaat te brûken, moatte jo de applikaasje útfiere as "tessaract image_name alto output_dir";
Added nije rendering modules LSTMBox en WordStrBox, ferienfâldigjen motor training;
Stipe tafoege foar pseudografy yn hOCR (HTML) útfier;
Added alternative skripts skreaun yn Python foar training fan de motor basearre op masine learen;
Utwreide optimisaasjes mei AVX, AVX2 en SSE ynstruksjes;
OpenMP-stipe is standert útskeakele fanwegen problemen mei produktiviteit;
Stipe tafoege foar wite en swarte listen yn 'e LSTM-motor;