Տեքստի ճանաչման համակարգի թողարկում Tesseract 5.1

Հրապարակվել է Tesseract 5.1 օպտիկական տեքստի ճանաչման համակարգի թողարկումը, որն աջակցում է UTF-8 նիշերի և տեքստերի ճանաչմանը ավելի քան 100 լեզուներով, այդ թվում՝ ռուսերեն, ղազախերեն, բելառուսերեն և ուկրաիներեն: Արդյունքը կարող է պահպանվել պարզ տեքստով կամ HTML (hOCR), ALTO (XML), PDF և TSV ձևաչափերով: Համակարգն ի սկզբանե ստեղծվել է 1985-1995 թվականներին Hewlett Packard լաբորատորիայում, 2005 թվականին կոդը բացվել է Apache լիցենզիայի ներքո և հետագայում մշակվել Google-ի աշխատակիցների մասնակցությամբ։ Նախագծի սկզբնական կոդը տարածվում է Apache 2.0 լիցենզիայի ներքո:

Tesseract-ը ներառում է կոնսոլային կոմունալ ծրագիր և libtesseract գրադարան՝ OCR ֆունկցիոնալությունը այլ հավելվածներում ներկառուցելու համար: Երրորդ կողմի GUI միջերեսները, որոնք աջակցում են Tesseract-ին, ներառում են gImageReader, VietOCR և YAGF: Առաջարկվում են երկու ճանաչման շարժիչներ. դասականը, որը ճանաչում է տեքստը առանձին նիշերի օրինաչափությունների մակարդակով, և նորը, որը հիմնված է LSTM պարբերական նեյրոնային ցանցի վրա հիմնված մեքենայական ուսուցման համակարգի օգտագործման վրա, որը օպտիմիզացված է ամբողջ տողերը ճանաչելու և թույլ տալու համար: ճշգրտության զգալի աճ: Պատրաստի վարժեցված մոդելները հրատարակվել են 123 լեզուների համար։ Գործողությունը օպտիմալացնելու համար առաջարկվում են OpenMP և SIMD հրահանգներ AVX2, AVX, NEON կամ SSE4.1 օգտագործող մոդուլներ:

Tesseract 5.1-ի հիմնական բարելավումները.

  • Իրականացվել է ALTO, hOCR և տեքստային ձևաչափերով ելքավորման ժամանակ պատկերներով և գծերով տարածքները մշակելու հնարավորությունը:
  • Ավելացվեց curl_timeout lkz curl_easy_setop նոր պարամետր:
  • Բարելավված կառուցման համակարգ:
  • Աշխատանքներ են տարվել չօգտագործված ծածկագիրը հեռացնելու ուղղությամբ
  • Ուղղվել են PageIterator::Orientation դասի զրոյական ցուցիչների սխալ մշակման հետևանքով առաջացած խափանումները:

Source: opennet.ru

Добавить комментарий