A Tesseract szövegfelismerő rendszer kiadása 5.0

Megjelent a Tesseract 4.1 optikai szövegfelismerő rendszer kiadása, amely támogatja az UTF-8 karakterek és szövegek felismerését több mint 100 nyelven, köztük orosz, kazah, fehérorosz és ukrán nyelven. Az eredmény elmenthető egyszerű szövegben vagy HTML (hOCR), ALTO (XML), PDF és TSV formátumban. A rendszert eredetileg 1985-1995-ben hozták létre a Hewlett Packard laboratóriumában, majd 2005-ben az Apache licenc alatt megnyílt a kód, és a Google munkatársainak közreműködésével továbbfejlesztették. A projekt forráskódja az Apache 2.0 licenc alatt kerül terjesztésre.

A Tesseract tartalmaz egy konzol segédprogramot és a libtesseract könyvtárat az OCR funkciók más alkalmazásokba való beágyazásához. A Tesseractot támogató, harmadik féltől származó grafikus felhasználói felületek közé tartozik a gImageReader, a VietOCR és a YAGF. Két felismerő motort kínálnak: egy klasszikust, amely egyedi karakterminták szintjén ismeri fel a szöveget, és egy újat, amely egy LSTM ismétlődő neurális hálózaton alapuló gépi tanulási rendszeren alapul, amely teljes karakterláncok felismerésére van optimalizálva, és lehetővé teszi a a pontosság jelentős növekedése. Kész, betanított modelleket tettek közzé 123 nyelvre. A teljesítmény optimalizálása érdekében OpenMP és SIMD utasításokat használó modulokat kínálnak: AVX2, AVX, NEON vagy SSE4.1.

A Tesseract 5.0 főbb fejlesztései:

  • A verziószám jelentős változása az API-n végrehajtott, a kompatibilitást megsértő módosításoknak köszönhető. A nyilvánosan elérhető libtesseract API már nem kapcsolódik a védett GenericVector és STRING adattípusokhoz, az std::string és std::vector javára.
  • A forrásszöveg fa átszervezésre került. A nyilvános fejlécfájlok átkerültek az include/tesseract könyvtárba.
  • A memóriakezelést újratervezték, minden malloc és ingyenes hívást C++ kódra cseréltek. Megtörtént a kódex általános korszerűsítése.
  • Hozzáadott optimalizálás az ARM és ARM64 architektúrákhoz; ARM NEON utasításokat használnak a számítások felgyorsítására. Az összes architektúrára jellemző teljesítményoptimalizálást elvégezték.
  • A lebegőpontos számítások használatán alapuló oktatási modellek és szövegfelismerés új módjai kerültek megvalósításra. Az új módok nagyobb teljesítményt és alacsonyabb memóriafogyasztást kínálnak. Az LSTM motorban a float32 gyors mód alapértelmezés szerint engedélyezve van.
  • Átállás történt a Unicode normalizálás használatára az NFC (Normalization Form Canonical) űrlap használatával.
  • Egy lehetőség hozzáadva a naplórészletezés (--naplószint) konfigurálásához.
  • Az Autotools alapú összeállítási rendszert újratervezték, és nem rekurzív módra váltották.
  • A "mester" ágat a Gitben átnevezték "main"-ra.
  • Támogatás hozzáadva a macOS és az Apple rendszerek új kiadásaihoz, amelyek az M1 chipen alapulnak.

    Forrás: opennet.ru

Hozzászólás