Utjefte fan it tekstherkenningssysteem Tesseract 4.1

Tariede frijlitting fan optysk tekstherkenningssysteem Tesseract 4.1, stipet erkenning fan UTF-8-karakters en teksten yn mear as 100 talen, ynklusyf Russysk, Kazachsk, Wyt-Russysk en Oekraynsk. It resultaat kin wurde bewarre yn platte tekst of yn HTML (hOCR), ALTO (XML), PDF en TSV formaten. It systeem waard oarspronklik makke yn 1985-1995 yn it Hewlett Packard laboratoarium; yn 2005 waard de koade iepene ûnder de Apache-lisinsje en waard fierder ûntwikkele mei de dielname fan Google-meiwurkers. Projekt boarnen fersprieding lisinsje ûnder Apache 2.0.

Tesseract omfettet in konsole-hulpprogramma en de libtesseract-bibleteek foar it ynbêdzjen fan OCR-funksjonaliteit yn oare applikaasjes. Fan tredden dy't Tesseract stypje GUI ynterfaces do kinst notearje gImageReader, VietOCR и YAGF. Twa herkenningsmotoren wurde oanbean: in klassiker dy't tekst herkent op it nivo fan yndividuele karakterpatroanen, en in nije basearre op it brûken fan in masine-learsysteem basearre op in LSTM weromkommend neural netwurk, optimalisearre foar it werkennen fan heule snaren en it tastean fan in signifikante tanimming fan krektens. Ready-made oplaat modellen wurde publisearre foar 123 talen. Om de prestaasjes te optimalisearjen wurde modules oanbean mei OpenMP en AVX2, AVX of SSE4.1 SIMD ynstruksjes.

haad ferbetterings yn Tesseract 4.1:

  • Tafoege de mooglikheid om útfier yn XML-formaat ALTO (Analysearde yndieling en tekstobjekt). Om dit formaat te brûken, moatte jo de applikaasje útfiere as "tessaract image_name alto output_dir";
  • Added nije rendering modules LSTMBox en WordStrBox, ferienfâldigjen motor training;
  • Stipe tafoege foar pseudografy yn hOCR (HTML) útfier;
  • Added alternative skripts skreaun yn Python foar training fan de motor basearre op masine learen;
  • Utwreide optimisaasjes mei AVX, AVX2 en SSE ynstruksjes;
  • OpenMP-stipe is standert útskeakele fanwegen problemen mei produktiviteit;
  • Stipe tafoege foar wite en swarte listen yn 'e LSTM-motor;
  • Ferbettere build skripts basearre op Cmake.

Boarne: opennet.ru

Add a comment