Vrystelling van die teksherkenningstelsel Tesseract 4.1

Voorbereid vrystelling van optiese teksherkenningstelsel Tesseract 4.1, wat herkenning van UTF-8-karakters en -tekste in meer as 100 tale ondersteun, insluitend Russies, Kazaks, Wit-Russies en Oekraïens. Die resultaat kan in gewone teks of in HTML (hOCR), ALTO (XML), PDF en TSV formate gestoor word. Die stelsel is oorspronklik in 1985-1995 in die Hewlett Packard-laboratorium geskep; in 2005 is die kode onder die Apache-lisensie geopen en is verder ontwikkel met die deelname van Google-werknemers. Projek bronne versprei gelisensieer onder Apache 2.0.

Tesseract bevat 'n konsole-hulpmiddel en die libtesseract-biblioteek om OCR-funksies in ander toepassings in te sluit. Van derde partye wat Tesseract ondersteun GUI koppelvlakke jy kan opmerk gImageReader, VietOCR и YAGF. Twee herkenningsenjins word aangebied: 'n klassieke een wat teks op die vlak van individuele karakterpatrone herken, en 'n nuwe een gebaseer op die gebruik van 'n masjienleerstelsel gebaseer op 'n LSTM herhalende neurale netwerk, geoptimaliseer vir die herkenning van hele stringe en voorsiening te maak vir 'n aansienlike toename in akkuraatheid. Klaargemaakte opgeleide modelle word gepubliseer vir 123 tale. Om werkverrigting te optimaliseer, word modules wat OpenMP en AVX2, AVX of SSE4.1 SIMD-instruksies gebruik, aangebied.

Die belangrikste verbeterings in Tesseract 4.1:

  • Bygevoeg die vermoë om uit te voer in XML-formaat HIGH (Analiseerde uitleg en teksobjek). Om hierdie formaat te gebruik, moet jy die toepassing as "tessaract image_name alto output_dir" laat loop;
  • Bygevoeg nuwe weergawe modules LSTMBox en WordStrBox, vereenvoudig enjin opleiding;
  • Bygevoeg ondersteuning vir pseudografiese in hOCR (HTML) uitvoer;
  • Bygevoeg alternatiewe skrifte geskryf in Python vir die opleiding van die enjin gebaseer op masjienleer;
  • Uitgebreide optimalisering deur AVX-, AVX2- en SSE-instruksies;
  • OpenMP-ondersteuning is by verstek gedeaktiveer as gevolg van probleme met produktiwiteit;
  • Bygevoeg ondersteuning vir wit en swart lyste in die LSTM enjin;
  • Verbeterde bouskrifte gebaseer op Cmake.

Bron: opennet.ru

Voeg 'n opmerking