Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Delphi программирование > Общие вопросы Delphi
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 17.04.2020, 14:44   #1
Nockola
Пользователь
 
Регистрация: 26.12.2010
Сообщений: 13
Стрелка Как обучить Tesseract 4 (из Windows)

Всем привет!
Tesseract одно из самый популярных решений для распознавания текста, но инфы по обучению крайне мало, в общем разобраться мне так и не получилось.. Вот официальная документация.

Мне надо обучить Tesseract 4 определённому шрифту с использованием своих словарей. Получить в итоге файл rus.traineddata. Готовые файлы .traineddata не устраивают не по скорости, не по точности распознавания. По этому надо обучить..

1. Я установил Tesseract 4 для Windows.
2. Создал BOX файл (rus.font.exp0.box) с картинкой PNG (rus.font.exp0.png), в котором описаны координаты букв на картинке.
3. Составил словарь распространённых слов.
4. Скопировал все файлы из репозитория tesseract-ocr / langdata_lstm / rus, также скопировал Cyrillic.unicharset (он вроде необходим).

Какие команды мне надо выполнить в терминале (cmd.exe) чтобы всё собралось в rus.traineddata ?

Запускать обучение из программы планирую таким кодом.
Код:
procedure TForm1.Button8Click(Sender: TObject);
var
  SPar: string;
begin
  SPar := '/K combine_tessdata "Result/rus."';
  ShellExecute(Handle, nil, 'cmd.exe', PChar(SPar), nil, SW_SHOW);
end;
P.S. Программа jTessBoxEditor собирает всё это в .traineddata но не подхватывает словари. В итоге распознавание происходит с ошибками. И вообще в описании к ней, сказано что она не поддерживает Tesseract 4, только 3.
Nockola вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
OCR Tesseract mirvam Perl 12 07.08.2018 14:35
Ошибка delete[] Basic example tesseract-ocr Boltina Общие вопросы C/C++ 1 29.11.2015 22:30
Tesseract, изменить путь к tessdata Xenon_x Общие вопросы C/C++ 6 26.07.2015 11:41
Распознавание используя tesseract-ocr cardon Win Api 2 05.11.2012 18:38
Нужно обучить. Gradarius Фриланс 9 10.05.2011 03:15