Hoʻokuʻu ʻia o ka ʻōnaehana ʻike kikokikona Tesseract 4.1

Hoʻomākaukau ʻia hoʻokuʻu ʻana i ka ʻōnaehana ʻike kikokikona ʻO Tesseract 4.1, kākoʻo i ka ʻike ʻana i nā huaʻōlelo UTF-8 a me nā kikokikona ma mua o 100 mau ʻōlelo, me ka Lūkini, Kazakh, Belarusian a me Ukrainian. Hiki ke mālama ʻia ka hopena ma ka kikokikona maʻamau a i ʻole HTML (hOCR), ALTO (XML), PDF a me nā palapala TSV. Ua hoʻokumu mua ʻia ka ʻōnaehana ma 1985-1995 i ka hale hana Hewlett Packard; ma 2005, ua wehe ʻia ke code ma lalo o ka laikini Apache a ua hoʻomohala hou ʻia me ke komo ʻana o nā limahana Google. Nā kumu papahana pālahalaha aku laikini ma lalo o Apache 2.0.

Loaʻa iā Tesseract kahi mea hoʻohana console a me ka waihona libtesseract no ka hoʻopili ʻana i ka hana OCR i nā noi ʻē aʻe. Mai nā ʻaoʻao ʻekolu e kākoʻo ana iā Tesseract Nā pilina GUI hiki iā ʻoe ke hoʻomaopopo gImageReader, VietOCR и YAGF. Hāʻawi ʻia ʻelua ʻenekini hoʻomaopopo: ʻo kahi mea maʻamau e ʻike i ke kikokikona ma ke ʻano o nā ʻano hiʻohiʻona o kēlā me kēia kanaka, a me kahi mea hou e pili ana i ka hoʻohana ʻana i kahi ʻōnaehana aʻo mīkini e pili ana i kahi LSTM recurrent neural network, i hoʻopaʻa ʻia no ka ʻike ʻana i nā kaula holoʻokoʻa a hiki i kahi. piʻi nui i ka pololei. Hoʻopuka ʻia nā kumu hoʻohālike i mākaukau mākaukau no 123 mau ʻōlelo. No ka hoʻomaikaʻi ʻana i ka hana, hāʻawi ʻia nā modules e hoʻohana ana i OpenMP a me AVX2, AVX a i ʻole SSE4.1 SIMD kuhikuhi.

ka papa kuhikuhiE nā hoʻomaikaʻi ma Tesseract 4.1:

  • Hoʻohui i ka hiki ke hoʻopuka ma ka format XML Kahiki (Analyzed Layout and Text Object). No ka hoʻohana ʻana i kēia ʻano, pono ʻoe e holo i ka noi e like me "tessarac image_name alto output_dir";
  • Hoʻohui i nā modula hoʻololi hou LSTMBox a me WordStrBox, e hoʻomaʻamaʻa i ka hoʻomaʻamaʻa ʻenehana;
  • Hoʻohui i ke kākoʻo no nā pseudographics ma ka hoʻopuka hOCR (HTML);
  • Hoʻohui ʻia nā palapala ʻē aʻe i kākau ʻia ma Python no ka hoʻomaʻamaʻa ʻana i ka mīkini e pili ana i ke aʻo ʻana i ka mīkini;
  • Hoʻonui ʻia ka hoʻohana ʻana i nā ʻōlelo kuhikuhi AVX, AVX2 a me SSE;
  • Ua pio ke kākoʻo OpenMP ma muli o nā pilikia me ka huahua;
  • Hoʻohui i ke kākoʻo no nā papa inoa keʻokeʻo a ʻeleʻele i ka mīkini LSTM;
  • Hoʻomaikaʻi ʻia nā palapala kūkulu ma muli o Cmake.

Source: opennet.ru

Pākuʻi i ka manaʻo hoʻopuka