Liberigo de la tekstrekonosistemo Tesseract 5.3.4

La liberigo de la Tesseract 5.3.4 optika tekstrekona sistemo estis publikigita, apogante rekonon de UTF-8-signoj kaj tekstoj en pli ol 100 lingvoj, inkluzive de rusa, kazaĥa, belorusa kaj ukraina. La rezulto povas esti konservita en simpla teksto aŭ en HTML (hOCR), ALTO (XML), PDF kaj TSV formatoj. La sistemo estis origine kreita en 1985-1995 en la Hewlett Packard-laboratorio; en 2005, la kodo estis malfermita sub la Apache-licenco kaj estis plue evoluigita kun la partopreno de Google-dungitoj. La fontkodo de la projekto estas distribuita sub la permesilo Apache 2.0.

Tesseract inkluzivas konzolan utilecon kaj la libtesseract-bibliotekon por enigi OCR-funkciecon en aliajn aplikojn. Triaj GUI-interfacoj kiuj subtenas Tesseract inkluzivas gImageReader, VietOCR kaj YAGF. Du rekonmotoroj estas ofertitaj: klasika kiu rekonas tekston je la nivelo de individuaj signopadronoj, kaj nova bazita sur la uzo de maŝinlernado sistemo bazita sur LSTM ripetiĝanta neŭrala reto, optimumigita por rekoni tutajn ŝnurojn kaj ebligante signifa pliiĝo en precizeco. Pretaj trejnitaj modeloj estis publikigitaj por 123 lingvoj. Por optimumigi rendimenton, moduloj uzantaj OpenMP kaj SIMD-instrukciojn AVX2, AVX, AVX512F, NEON aŭ SSE4.1 estas ofertitaj.

Ĉefaj plibonigoj:

  • Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
  • В сервере ScrollView в качестве приоритетного протокола задействован TCP.
  • При использовании команды «combine_tessdata -d» обеспечен вывод в поток stdout вместо stderr.
  • Устранены проблемы со сборкой при использовании autoconf и clang.

fonto: opennet.ru

Aldoni komenton