Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Операционные системы > Софт
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 11.11.2014, 16:20   #1
Igozaram
Новичок
Джуниор
 
Регистрация: 11.11.2014
Сообщений: 2
По умолчанию распознание текста из командной строки

Извините, новичок на форуме - наверное, выбрал не совсем подходящий раздел. Мне нужна помощь в следующем:
Имеется ~ 500000 отсканированных изображений (TIF), имена файлов картинок содержатся в таблице БД. Все картинки - это изображение документов, под названием "Заявление о..... ". Недавно выяснилось, что заявлений было 3 различных вида. Стоит задача каждому файлу приписать признак, определяющий вид заявления. С помощью программы CUNEIFORM
для примера распознал несколько картинок, превратил их в текстовые файлы и с помощью поиска ключевых слов выяснил, какие это заявления.
Как все это автоматизировать? нужно запускать CUNEIFORM из командной строки, указывая имена файлов как параметры. Нигде не могу найти, есть ли такая возможность для этой программы и каков вид параметров в этом случае. Или есть другая OCR программа для запуска из командной строки?
Igozaram вне форума Ответить с цитированием
Старый 11.11.2014, 17:34   #2
Человек_Борща
Старожил
 
Аватар для Человек_Борща
 
Регистрация: 30.12.2009
Сообщений: 11,426
По умолчанию

FineReader есть ещё. Обычно в справке к программе идет описание параметров командной строки.
Человек_Борща вне форума Ответить с цитированием
Старый 11.11.2014, 18:05   #3
min@y™
Цифровой кот
Старожил
 
Аватар для min@y™
 
Регистрация: 29.08.2014
Сообщений: 7,629
По умолчанию

круто, интересная задача.
дай посмотреть несколько тифов.
Расскажу я вам, дружочки, как выращивать грибочки: нужно в поле утром рано сдвинуть два куска урана...
min@y™ вне форума Ответить с цитированием
Старый 11.11.2014, 18:25   #4
Alex11223
Старожил
 
Аватар для Alex11223
 
Регистрация: 12.01.2011
Сообщений: 19,500
По умолчанию

В Файнридере скорее всего нельзя через командную строку и прочую автоматизацию без покупки более дорогих SDK.

Tesseract https://code.google.com/p/tesseract-ocr/
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом.
Alex11223 вне форума Ответить с цитированием
Старый 11.11.2014, 19:08   #5
Stilet
Белик Виталий :)
Старожил
 
Аватар для Stilet
 
Регистрация: 23.07.2007
Сообщений: 57,097
По умолчанию

Цитата:
Имеется ~ 500000 отсканированных изображений
Я бы сделал так: В Айсидиси или подобном крутом просмотрщике попросматривал, пометив сначала те, что первого вида. Потом бы помеченное скинул в другой каталог.
Потом точно так же с другими.
Вообще у меня когда то була работа похожая - каталогизация чертежей. Я анписал небольшую программку, которая открывает файл TIFF, показывает только его определенную часть. Я вижу что это за файл (всмысле к чему относится) и нажимаю на цифровой клавиатуре клавишу. Программа реагирует и в зависимости от того что я нажал помещает файл в ту или иную папку. Это будет быстрее и надежнее чем распознавать.
I'm learning to live...
Stilet вне форума Ответить с цитированием
Старый 11.11.2014, 19:23   #6
Аватар
Старожил
 
Аватар для Аватар
 
Регистрация: 17.11.2010
Сообщений: 18,922
По умолчанию

Цитата:
Это будет быстрее и надежнее чем распознавать.
500000 визуального распознавания? Быстрей не будет, надежней тоже, пол лимона все таки, а не 500 или 1000
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
Аватар вне форума Ответить с цитированием
Старый 11.11.2014, 19:26   #7
Serge_Bliznykov
Старожил
 
Регистрация: 09.01.2008
Сообщений: 26,229
По умолчанию

Цитата:
Я вижу что это за файл (всмысле к чему относится) и нажимаю на цифровой клавиатуре клавишу.
Виталий, если у него реально 500000 файлов, тогда это не выход.
поясню, пусть у оператора на обработку одного скана уходит 1 секунда.
тогда 60 сканов в минуту.
500000/60 = 8333 минут = 138 часов ~ 17 дней...

я бы всё таки смотрел в сторону FineReader...
как минимум, посмотрите сюда - DjvuOCR 2.0 final - раздел "Работа с FineReader в пакетном режиме"
(правда, пакет документов нужно создать руками, но, возможно, что и это можно автоматизировать)

Последний раз редактировалось Serge_Bliznykov; 11.11.2014 в 19:30.
Serge_Bliznykov вне форума Ответить с цитированием
Старый 11.11.2014, 19:41   #8
min@y™
Цифровой кот
Старожил
 
Аватар для min@y™
 
Регистрация: 29.08.2014
Сообщений: 7,629
По умолчанию

а как используются отсканированные документы на практике?
и кто ж их столько насканировал?
Расскажу я вам, дружочки, как выращивать грибочки: нужно в поле утром рано сдвинуть два куска урана...
min@y™ вне форума Ответить с цитированием
Старый 12.11.2014, 11:56   #9
Igozaram
Новичок
Джуниор
 
Регистрация: 11.11.2014
Сообщений: 2
По умолчанию

Господа! Речь идет о негосударственном пенсионном фонде, отсканированы заявления застрахованных лиц - заявление о переводе накопительной части пенсии из ПФ РФ в негосударственный НПФ, заявление о назначении правопреемников (наследников) и заявление о вступлении в программу дополнительного страхования. По 152 ФЗ я не имею права распространять персональные данные, поэтому просьбу min@y™ о передаче примеров файлов выполнить не могу. Сканы документов делались многими операторами фонда и их реально около полумилииона. Используются эти сканы в АСУ НПФ , например, в конфликтных ситуациях: застрахованное лицо утверждает, что не давало распоряжения о назначении правопреемников (случай из жизни!) , а отсканированный документ с его подписью есть, и его можно просмотреть

Кстати, я нашел на каком-то старом сайте (~ 2008 г) описание командной строки:

cuneiform [-l languagename -f format --dotmatrix --fax -o result_file] imagefile

, но проблема в том, что версия CUNIEFORM (CUNIEFORM v.12 Master), которую скачал, вообще не имеет такого eхe-файла, а имеющиеся exe-файлы для этого описания не подходят.
Igozaram вне форума Ответить с цитированием
Старый 12.11.2014, 12:29   #10
stresver
Заблокирован
 
Регистрация: 12.11.2014
Сообщений: 1
По умолчанию

Цитата:
Сообщение от Stilet Посмотреть сообщение
Я бы сделал так: В Айсидиси или подобном крутом просмотрщике попросматривал, пометив сначала те, что первого вида. Потом бы помеченное скинул в другой каталог.
Потом точно так же с другими.
Вообще у меня когда то була работа похожая - каталогизация чертежей. Я анписал небольшую программку, которая открывает файл TIFF, показывает только его определенную часть. Я вижу что это за файл (всмысле к чему относится) и нажимаю на цифровой клавиатуре клавишу. Программа реагирует и в зависимости от того что я нажал помещает файл в ту или иную папку. Это будет быстрее и надежнее чем распознавать.
я с тобой согласен, только нужна начала построить список,
Я уже построел свои славарь программой в пять этапов "18 часов" славарь размером 3мб, "7z формате будет 1.5 меньше" почти 300000 значении, мои клустер "cluster", я как только напишу покожу.
stresver вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Имитация командной строки bestnicer Помощь студентам 0 17.01.2013 04:57
аргументы командной строки ololo-schoolboy Общие вопросы C/C++ 2 19.05.2011 22:50
распознание текста на картинке (не OCR) Xsires Общие вопросы Delphi 18 19.01.2011 18:18
Параметры из командной строки ProGg Паскаль, Turbo Pascal, PascalABC.NET 5 13.02.2009 00:17
Распознание текста DOLBY Общие вопросы Delphi 13 14.02.2008 13:31