EasyOCR мәтінді тану жаңа оптикалық жүйесі

жоба EasyOCR Ағылшын, неміс, француз, жапон, қытай, корей, өзбек, әзірбайжан және литва тілдерін қоса алғанда, 40-тан астам тілге қолдау көрсететін жаңа оптикалық мәтінді тану жүйесі әзірленуде. Кириллицаға негізделген тілдерге әлі қолдау көрсетілмейді, бірақ олар жоспарлар тізіміне қосылып жатыр. Код Python тілінде фреймворк арқылы жазылған PyTorch и таралады Apache 2.0 бойынша лицензияланған. Жүктеу үшін қамтамасыз етілген латын әліпбиі мен иероглифтеріне негізделген тілдерге арналған дайын үлгілер.

Кескіндегі мәтінді анықтау және тану үшін машиналық оқыту әдістері қолданылады. Мәтінді анықтау үшін машиналық оқыту алгоритмі қолданылады CRAFT (мәтін үшін кейіпкер-аймақ хабардарлығы) жылы жүзеге асыру PyTorch үшін, ерікті нысандардағы мәтінді, соның ішінде белгілерді, ақпараттық белгілерді және жол белгілерін бөлектеуге қабілетті. Символдар тізбегін тану үшін конволюциялық қайталанатын нейрондық желі қолданылады CRNN (Convolutional Recurrent Neural Network, DCNN және RNN комбинациясы) және алгоритм CTC BeamSearch CTC BeamSearch (Connectionist Temporal Classification) нейрондық желі шығысын мәтіндік көрініске декодтау үшін.

Ақпарат көзі: opennet.ru

пікір қалдыру