|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
17.04.2020, 14:44 | #1 |
Пользователь
Регистрация: 26.12.2010
Сообщений: 13
|
Как обучить Tesseract 4 (из Windows)
Всем привет!
Tesseract одно из самый популярных решений для распознавания текста, но инфы по обучению крайне мало, в общем разобраться мне так и не получилось.. Вот официальная документация. Мне надо обучить Tesseract 4 определённому шрифту с использованием своих словарей. Получить в итоге файл rus.traineddata. Готовые файлы .traineddata не устраивают не по скорости, не по точности распознавания. По этому надо обучить.. 1. Я установил Tesseract 4 для Windows. 2. Создал BOX файл (rus.font.exp0.box) с картинкой PNG (rus.font.exp0.png), в котором описаны координаты букв на картинке. 3. Составил словарь распространённых слов. 4. Скопировал все файлы из репозитория tesseract-ocr / langdata_lstm / rus, также скопировал Cyrillic.unicharset (он вроде необходим). Какие команды мне надо выполнить в терминале (cmd.exe) чтобы всё собралось в rus.traineddata ? Запускать обучение из программы планирую таким кодом. Код:
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
OCR Tesseract | mirvam | Perl | 12 | 07.08.2018 14:35 |
Ошибка delete[] Basic example tesseract-ocr | Boltina | Общие вопросы C/C++ | 1 | 29.11.2015 22:30 |
Tesseract, изменить путь к tessdata | Xenon_x | Общие вопросы C/C++ | 6 | 26.07.2015 11:41 |
Распознавание используя tesseract-ocr | cardon | Win Api | 2 | 05.11.2012 18:38 |
Нужно обучить. | Gradarius | Фриланс | 9 | 10.05.2011 03:15 |