Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Microsoft Office и VBA программирование > Microsoft Office Excel
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 20.01.2012, 11:30   #1
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию Автоматизация ввода данных об исходных документах

При подготовке своих документов, мы разумеется используем исходные документы. Данные о них заносится в таблицу. Часть исходных документов имеет стандартный вид (паспорта и пр.), "более-менее" стандартный вид (постановления, решения и пр.), и не стандартные вид. На все документы есть сканы.

Встал вопрос: можно ли хотя бы частично автоматизировать ввод данных об исходных документов? Разумеется с использованием всяких распознавателей текста.

Кто нибудь занимался подобными вещами? С чего лучше начать?
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 20.01.2012, 11:42   #2
IgorGO
Новичок
СтарожилДжуниор
 
Аватар для IgorGO
 
Регистрация: 05.02.2008
Сообщений: 9,487
По умолчанию

Цитата:
С чего лучше начать?
С поиска специалиста, договориться о стоимости и сроках выполнения работ.
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете

Последний раз редактировалось IgorGO; 20.01.2012 в 12:21.
IgorGO вне форума Ответить с цитированием
Старый 20.01.2012, 12:33   #3
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от IgorGO Посмотреть сообщение
С поиска специалиста, договорится о стоимости и сроках выполнения работ.
Нее... так не пойдет, мне интересно самому. :))
"С танка, с самолета - это не спортивно." (с) :)
С поиском специалиста, я буду решать ориентировочно через полгода.

Задача не сверх сложная, распознаванием текста по шаблону я занимался раньше. Но тогда были известны координаты размещения текста, до пикселя. Теперь же я вижу работы в таком порядке:
1. Определить ориентацию листа: книжная, альбомная, разворота на 180гр. (автомат/оператор).
2. Определить содержание листа (автомат/оператор). На одном листе может быть два документа, например две страницы паспорта.
3. Выровнять содержание по горизонтали (автомат).
4. Определить координаты рабочей области, отсекаем все лишнее (автомат).
5.1. (для строгих документов) Уточняем положение рабочих элементов - что нужно распознавать (автомат). Возможны незначительные смещения, по разным причинам.
5.2. (для плавающих документов) Уточняем положение рабочих элементов - что нужно распознавать (автомат). Могут быть несколько общих схем размещения, так же можно попробовать распознать все, и найти нужные поля по содержанию.
5.3. (для произвольных документов). Уточняем положение рабочих элементов - что нужно распознавать (автомат/оператор). Заранее схем расположений полей нет, но можно попробовать найти по содержанию.
6. Распознаем (автомат).
7. Проверяем корректность распознавания (автомат). Мы же знаем чего ждем, например номер паспорта, дата документа.
8. Предаем в программу (автомат).

Все конечно просто на бумаге... Но вот как это сделать программно пока в голове не укладывается.
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 20.01.2012, 13:37   #4
IgorGO
Новичок
СтарожилДжуниор
 
Аватар для IgorGO
 
Регистрация: 05.02.2008
Сообщений: 9,487
По умолчанию

видите-ли, Алексей,
похоже, что все, что попадает в поле зрения Вашего пытливого ума, потом попадает сюда на правку специалистам.
я предположил, что из цепочки от идеи до реализации можно исключить одно звено. извините, смотрите на это исключительно, как на частное мнение, что, собственно, и является таковым.

удачи!
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете
IgorGO вне форума Ответить с цитированием
Старый 20.01.2012, 14:27   #5
EducatedFool
Программист VBA
СуперМодератор
 
Аватар для EducatedFool
 
Регистрация: 13.07.2008
Сообщений: 6,856
По умолчанию

Цитата:
Задача не сверх сложная
Задача очень даже сложная.
Более того, в общем случае нерешаемая (без искусственного интеллекта)

Вот даже если взять файл в формате Excel неизвестной структуры - вроде текст всех ячеек доступен, а проанализировать структуру данных - нужна очень сложная программа.
А в вашем случае ошибки распознавания текста (программы OCR ещё весьма несовершенны) погубят затею на корню.
EducatedFool вне форума Ответить с цитированием
Старый 20.01.2012, 14:58   #6
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Задача очень даже сложная.
Более того, в общем случае нерешаемая (без искусственного интеллекта)
Согласен что на 100% результат не достижим. Но я пока свожу задачу к аналогу обработки заполненных бланков. Это проще, и есть уже примера реализации.
Цитата:
Сообщение от EducatedFool Посмотреть сообщение
Вот даже если взять файл в формате Excel неизвестной структуры - вроде текст всех ячеек доступен, а проанализировать структуру данных - нужна очень сложная программа.
Если брать все документы за 100%, то я хочу автоматизировать 20-30%. Не более. Первое что я хочу сделать это работу с паспортами.
Цитата:
Сообщение от EducatedFool Посмотреть сообщение
А в вашем случае ошибки распознавания текста (программы OCR ещё весьма несовершенны) погубят затею на корню.
Согласен, но мой опыт показывает, если исходный материал приемлемого качества (очень часто исходный материал отвратительного качества), результат терпимый и с ним можно работать.
С уважением, Алексей.

Последний раз редактировалось tae1980; 20.01.2012 в 15:19.
tae1980 вне форума Ответить с цитированием
Старый 20.01.2012, 15:16   #7
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от IgorGO Посмотреть сообщение
видите-ли, Алексей,
похоже, что все, что попадает в поле зрения Вашего пытливого ума, потом попадает сюда на правку специалистам.
Как ни парадоксально 90%, процентов из-то что я спрашиваю, я реализовываю. Может не так как планировал в начале (всегда есть поиск путей решения), и как правило лучше чем хотел в начале. Это не сложно выяснить проанализировав мою переписку на сайте.
Цитата:
Сообщение от IgorGO Посмотреть сообщение
я предположил, что из цепочки от идеи до реализации можно исключить одно звено. извините, смотрите на это исключительно, как на частное мнение, что, собственно, и является таковым.
Честное мнение всегда лучше. Я не профессиональны программист, ни когда не был, ни когда не буду и не хочу быть. Мои программы, может не столь совершенны и я их дольше пишу - но они во много раз эффективнее чем программы от профессионалов.
Я говорю о своей специальности.
Это реально, и утверждаю это на основе анализа работы в разных конторах на разных программах. Конечно мне далеко до коллектива разработчиков CREDO и прочего, но за такие огромные проекты я ни когда не возьмусь. Мой удел - небольшие прикладные программы. Вот здесь я готов дать фору почти любому.
Все это из-за того что я детально знаю, свою работу, знаю где есть подводные камни, как их нужно обходить и прочее. То есть знаю где подстелить соломинку, с точки зрения специальности, на уровне исполнителя. Чего не знает профессиональный программист, и что самое главное, он этого ни когда не поймет - так же как я не пойму глубин программирования.
Вот поэтому приходиться писать свои рабочие программы самому. На 90% того что есть на рынке без слез не взглянешь, а оставшиеся 10% хорошо бы под шаманить то здесь, то там. А не получается.
С уважением, Алексей.

Последний раз редактировалось tae1980; 20.01.2012 в 15:19.
tae1980 вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Копирование диаграммы с перемещением исходных данных Skreaper777 Microsoft Office Excel 2 29.08.2011 12:21
На основе исходных данных, расположенных во входном файле, найти описанные выше матрицы bonzzzo Помощь студентам 0 27.04.2011 13:02
Разработка программы для расчета Д при исходных данных PrADa67 Помощь студентам 4 11.10.2010 02:08
Автоматизация ввода данных Ol_Bak Microsoft Office Access 2 10.02.2010 10:20
вопрос оБ исходных данных giggles Помощь студентам 0 21.11.2009 22:40