|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
20.01.2012, 11:30 | #1 |
Форумчанин
Регистрация: 02.02.2009
Сообщений: 842
|
Автоматизация ввода данных об исходных документах
При подготовке своих документов, мы разумеется используем исходные документы. Данные о них заносится в таблицу. Часть исходных документов имеет стандартный вид (паспорта и пр.), "более-менее" стандартный вид (постановления, решения и пр.), и не стандартные вид. На все документы есть сканы.
Встал вопрос: можно ли хотя бы частично автоматизировать ввод данных об исходных документов? Разумеется с использованием всяких распознавателей текста. Кто нибудь занимался подобными вещами? С чего лучше начать?
С уважением, Алексей.
|
20.01.2012, 11:42 | #2 | |
Новичок
СтарожилДжуниор
Регистрация: 05.02.2008
Сообщений: 9,487
|
Цитата:
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете
Последний раз редактировалось IgorGO; 20.01.2012 в 12:21. |
|
20.01.2012, 12:33 | #3 | |
Форумчанин
Регистрация: 02.02.2009
Сообщений: 842
|
Цитата:
"С танка, с самолета - это не спортивно." (с) :) С поиском специалиста, я буду решать ориентировочно через полгода. Задача не сверх сложная, распознаванием текста по шаблону я занимался раньше. Но тогда были известны координаты размещения текста, до пикселя. Теперь же я вижу работы в таком порядке: 1. Определить ориентацию листа: книжная, альбомная, разворота на 180гр. (автомат/оператор). 2. Определить содержание листа (автомат/оператор). На одном листе может быть два документа, например две страницы паспорта. 3. Выровнять содержание по горизонтали (автомат). 4. Определить координаты рабочей области, отсекаем все лишнее (автомат). 5.1. (для строгих документов) Уточняем положение рабочих элементов - что нужно распознавать (автомат). Возможны незначительные смещения, по разным причинам. 5.2. (для плавающих документов) Уточняем положение рабочих элементов - что нужно распознавать (автомат). Могут быть несколько общих схем размещения, так же можно попробовать распознать все, и найти нужные поля по содержанию. 5.3. (для произвольных документов). Уточняем положение рабочих элементов - что нужно распознавать (автомат/оператор). Заранее схем расположений полей нет, но можно попробовать найти по содержанию. 6. Распознаем (автомат). 7. Проверяем корректность распознавания (автомат). Мы же знаем чего ждем, например номер паспорта, дата документа. 8. Предаем в программу (автомат). Все конечно просто на бумаге... Но вот как это сделать программно пока в голове не укладывается.
С уважением, Алексей.
|
|
20.01.2012, 13:37 | #4 |
Новичок
СтарожилДжуниор
Регистрация: 05.02.2008
Сообщений: 9,487
|
видите-ли, Алексей,
похоже, что все, что попадает в поле зрения Вашего пытливого ума, потом попадает сюда на правку специалистам. я предположил, что из цепочки от идеи до реализации можно исключить одно звено. извините, смотрите на это исключительно, как на частное мнение, что, собственно, и является таковым. удачи!
Программисты - это люди, решающие проблемы, о существовании которых Вы не подозревали, методами, которых Вы не понимаете
|
20.01.2012, 14:27 | #5 | |
Программист VBA
СуперМодератор
Регистрация: 13.07.2008
Сообщений: 6,856
|
Цитата:
Более того, в общем случае нерешаемая (без искусственного интеллекта) Вот даже если взять файл в формате Excel неизвестной структуры - вроде текст всех ячеек доступен, а проанализировать структуру данных - нужна очень сложная программа. А в вашем случае ошибки распознавания текста (программы OCR ещё весьма несовершенны) погубят затею на корню. |
|
20.01.2012, 14:58 | #6 | ||
Форумчанин
Регистрация: 02.02.2009
Сообщений: 842
|
Цитата:
Цитата:
Согласен, но мой опыт показывает, если исходный материал приемлемого качества (очень часто исходный материал отвратительного качества), результат терпимый и с ним можно работать.
С уважением, Алексей.
Последний раз редактировалось tae1980; 20.01.2012 в 15:19. |
||
20.01.2012, 15:16 | #7 | ||
Форумчанин
Регистрация: 02.02.2009
Сообщений: 842
|
Цитата:
Цитата:
Я говорю о своей специальности. Это реально, и утверждаю это на основе анализа работы в разных конторах на разных программах. Конечно мне далеко до коллектива разработчиков CREDO и прочего, но за такие огромные проекты я ни когда не возьмусь. Мой удел - небольшие прикладные программы. Вот здесь я готов дать фору почти любому. Все это из-за того что я детально знаю, свою работу, знаю где есть подводные камни, как их нужно обходить и прочее. То есть знаю где подстелить соломинку, с точки зрения специальности, на уровне исполнителя. Чего не знает профессиональный программист, и что самое главное, он этого ни когда не поймет - так же как я не пойму глубин программирования. Вот поэтому приходиться писать свои рабочие программы самому. На 90% того что есть на рынке без слез не взглянешь, а оставшиеся 10% хорошо бы под шаманить то здесь, то там. А не получается.
С уважением, Алексей.
Последний раз редактировалось tae1980; 20.01.2012 в 15:19. |
||
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Копирование диаграммы с перемещением исходных данных | Skreaper777 | Microsoft Office Excel | 2 | 29.08.2011 12:21 |
На основе исходных данных, расположенных во входном файле, найти описанные выше матрицы | bonzzzo | Помощь студентам | 0 | 27.04.2011 13:02 |
Разработка программы для расчета Д при исходных данных | PrADa67 | Помощь студентам | 4 | 11.10.2010 02:08 |
Автоматизация ввода данных | Ol_Bak | Microsoft Office Access | 2 | 10.02.2010 10:20 |
вопрос оБ исходных данных | giggles | Помощь студентам | 0 | 21.11.2009 22:40 |