|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
11.11.2014, 16:20 | #1 |
Новичок
Джуниор
Регистрация: 11.11.2014
Сообщений: 2
|
распознание текста из командной строки
Извините, новичок на форуме - наверное, выбрал не совсем подходящий раздел. Мне нужна помощь в следующем:
Имеется ~ 500000 отсканированных изображений (TIF), имена файлов картинок содержатся в таблице БД. Все картинки - это изображение документов, под названием "Заявление о..... ". Недавно выяснилось, что заявлений было 3 различных вида. Стоит задача каждому файлу приписать признак, определяющий вид заявления. С помощью программы CUNEIFORM для примера распознал несколько картинок, превратил их в текстовые файлы и с помощью поиска ключевых слов выяснил, какие это заявления. Как все это автоматизировать? нужно запускать CUNEIFORM из командной строки, указывая имена файлов как параметры. Нигде не могу найти, есть ли такая возможность для этой программы и каков вид параметров в этом случае. Или есть другая OCR программа для запуска из командной строки? |
11.11.2014, 17:34 | #2 |
Старожил
Регистрация: 30.12.2009
Сообщений: 11,426
|
FineReader есть ещё. Обычно в справке к программе идет описание параметров командной строки.
|
11.11.2014, 18:05 | #3 |
Цифровой кот
Старожил
Регистрация: 29.08.2014
Сообщений: 7,629
|
круто, интересная задача.
дай посмотреть несколько тифов. Расскажу я вам, дружочки, как выращивать грибочки: нужно в поле утром рано сдвинуть два куска урана...
|
11.11.2014, 18:25 | #4 |
Старожил
Регистрация: 12.01.2011
Сообщений: 19,500
|
В Файнридере скорее всего нельзя через командную строку и прочую автоматизацию без покупки более дорогих SDK.
Tesseract https://code.google.com/p/tesseract-ocr/
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом. |
11.11.2014, 19:08 | #5 | |
Белик Виталий :)
Старожил
Регистрация: 23.07.2007
Сообщений: 57,097
|
Цитата:
Потом точно так же с другими. Вообще у меня когда то була работа похожая - каталогизация чертежей. Я анписал небольшую программку, которая открывает файл TIFF, показывает только его определенную часть. Я вижу что это за файл (всмысле к чему относится) и нажимаю на цифровой клавиатуре клавишу. Программа реагирует и в зависимости от того что я нажал помещает файл в ту или иную папку. Это будет быстрее и надежнее чем распознавать.
I'm learning to live...
|
|
11.11.2014, 19:23 | #6 | |
Старожил
Регистрация: 17.11.2010
Сообщений: 18,922
|
Цитата:
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
|
|
11.11.2014, 19:26 | #7 | |
Старожил
Регистрация: 09.01.2008
Сообщений: 26,229
|
Цитата:
поясню, пусть у оператора на обработку одного скана уходит 1 секунда. тогда 60 сканов в минуту. 500000/60 = 8333 минут = 138 часов ~ 17 дней... я бы всё таки смотрел в сторону FineReader... как минимум, посмотрите сюда - DjvuOCR 2.0 final - раздел "Работа с FineReader в пакетном режиме" (правда, пакет документов нужно создать руками, но, возможно, что и это можно автоматизировать) Последний раз редактировалось Serge_Bliznykov; 11.11.2014 в 19:30. |
|
11.11.2014, 19:41 | #8 |
Цифровой кот
Старожил
Регистрация: 29.08.2014
Сообщений: 7,629
|
а как используются отсканированные документы на практике?
и кто ж их столько насканировал? Расскажу я вам, дружочки, как выращивать грибочки: нужно в поле утром рано сдвинуть два куска урана...
|
12.11.2014, 11:56 | #9 |
Новичок
Джуниор
Регистрация: 11.11.2014
Сообщений: 2
|
Господа! Речь идет о негосударственном пенсионном фонде, отсканированы заявления застрахованных лиц - заявление о переводе накопительной части пенсии из ПФ РФ в негосударственный НПФ, заявление о назначении правопреемников (наследников) и заявление о вступлении в программу дополнительного страхования. По 152 ФЗ я не имею права распространять персональные данные, поэтому просьбу min@y™ о передаче примеров файлов выполнить не могу. Сканы документов делались многими операторами фонда и их реально около полумилииона. Используются эти сканы в АСУ НПФ , например, в конфликтных ситуациях: застрахованное лицо утверждает, что не давало распоряжения о назначении правопреемников (случай из жизни!) , а отсканированный документ с его подписью есть, и его можно просмотреть
Кстати, я нашел на каком-то старом сайте (~ 2008 г) описание командной строки: cuneiform [-l languagename -f format --dotmatrix --fax -o result_file] imagefile , но проблема в том, что версия CUNIEFORM (CUNIEFORM v.12 Master), которую скачал, вообще не имеет такого eхe-файла, а имеющиеся exe-файлы для этого описания не подходят. |
12.11.2014, 12:29 | #10 | |
Заблокирован
Регистрация: 12.11.2014
Сообщений: 1
|
Цитата:
Я уже построел свои славарь программой в пять этапов "18 часов" славарь размером 3мб, "7z формате будет 1.5 меньше" почти 300000 значении, мои клустер "cluster", я как только напишу покожу. |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Имитация командной строки | bestnicer | Помощь студентам | 0 | 17.01.2013 04:57 |
аргументы командной строки | ololo-schoolboy | Общие вопросы C/C++ | 2 | 19.05.2011 22:50 |
распознание текста на картинке (не OCR) | Xsires | Общие вопросы Delphi | 18 | 19.01.2011 18:18 |
Параметры из командной строки | ProGg | Паскаль, Turbo Pascal, PascalABC.NET | 5 | 13.02.2009 00:17 |
Распознание текста | DOLBY | Общие вопросы Delphi | 13 | 14.02.2008 13:31 |