Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Общие вопросы по программированию, компьютерный форум
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 24.02.2018, 09:38   #1
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию Распознование скана паспорта

По работе нам часто нужно вводить паспортные данные. При этом в большинстве случаев у нас есть скан паспорта. Вот подумалось, а почему нельзя распознать данные со скана? Тем самым уменьшить человеческий труд.
Вопрос:
1. Существуют ли реализации такой возможности где либо? Нужно как минимум для образца.
2. Может есть уже созданные алгоритмы. И можно получить да же исходный код или хотя бы описание. (а вдруг).
3. Может будут советы и рекомендации по теме. Как и чем это лучше осуществить, как и что использовать и т.п.
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 24.02.2018, 10:05   #2
Cuprum5
Форумчанин
 
Регистрация: 09.05.2017
Сообщений: 729
По умолчанию

Ну машинописный текст же можно уже давно распознавать - ABBYY FineReader. А какой текст-то вообще: машинописный или от руки? Да и ручной текст тоже можно разобрать - см. стандартную программу в Windows.

Последний раз редактировалось Cuprum5; 24.02.2018 в 10:08. Причина: Добавил про ручной текст.
Cuprum5 вне форума Ответить с цитированием
Старый 24.02.2018, 11:14   #3
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

tae1980
https://sohabr.net/post/219535/
https://habrahabr.ru/company/abbyy/blog/174539/
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 24.02.2018, 11:14   #4
Alex11223
Старожил
 
Аватар для Alex11223
 
Регистрация: 12.01.2011
Сообщений: 19,500
По умолчанию

Цитата:
Сообщение от Cuprum5 Посмотреть сообщение
ABBYY FineReader.
У них есть отдельный продукт для паспортов.
Ушел с форума, https://www.programmersforum.rocks, alex.pantec@gmail.com, https://github.com/AlexP11223
ЛС отключены Аларом.
Alex11223 вне форума Ответить с цитированием
Старый 24.02.2018, 11:17   #5
digitalis
Старожил
 
Аватар для digitalis
 
Регистрация: 04.02.2011
Сообщений: 4,536
По умолчанию

Смотря что нужно разобрать. Если фотоморду по базе данных злодеев - то это к ФСБ. Если текст, действительно, FineReader - на раз. А если только инд. номер - не знаю, как у вас, у нас в РБ он пробит точками по краю листа паспорта, его даже без сканера можно, создав простейшую считку. Я предлагал такую хрень при разработке системы для голосования - сказали: Нэ нада !
Pavia - очень познавательная инфа. Не знал.

Последний раз редактировалось digitalis; 24.02.2018 в 11:20.
digitalis вне форума Ответить с цитированием
Старый 24.02.2018, 12:38   #6
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от digitalis Посмотреть сообщение
Смотря что нужно разобрать.
В данном случае нужно распознать текст. Распознать сам текст не проблема, как минимум печатный. НО ИМХО проблема как подготовить скан к распознаванию, так не известно в каком месте листа будет паспорт, угол его поворота, две или одна страница на листе.
ИМХО самое сложное.
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 24.02.2018, 14:00   #7
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Цитата:
Сообщение от tae1980 Посмотреть сообщение
В данном случае нужно распознать текст. Распознать сам текст не проблема, как минимум печатный. НО ИМХО проблема как подготовить скан к распознаванию, так не известно в каком месте листа будет паспорт, угол его поворота, две или одна страница на листе.
ИМХО самое сложное.
Ищещь на фото текст и углы и границы. Потом берёшь минимум и максимум признаков получается у тебя квадрат. Обрезаешь по найденным признакам.
И так же с поворотом классифицируешь буквы на значение поворота.
С двумя так же классифицируешь по буквам и размеру текста.

База(dataset) из 10 000 сканов паспортов надеюсь имеется?
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 24.02.2018, 14:16   #8
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от Pavia Посмотреть сообщение
Спасибо! Очень интересно! Только боюсь всё платное )
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 24.02.2018, 14:21   #9
tae1980
Форумчанин
 
Регистрация: 02.02.2009
Сообщений: 842
По умолчанию

Цитата:
Сообщение от Pavia Посмотреть сообщение
Ищещь на фото текст и углы и границы. Потом берёшь минимум и максимум признаков получается у тебя квадрат. Обрезаешь по найденным признакам.
И так же с поворотом классифицируешь буквы на значение поворота.
С двумя так же классифицируешь по буквам и размеру текста.
Так вот как "искать" я то как раз и не знаю... Да алгоритмы поворота и вырезки и т.д ещё нужны. С графикой работал только через ImageMagick.

Цитата:
Сообщение от Pavia Посмотреть сообщение
База(dataset) из 10 000 сканов паспортов надеюсь имеется?
Есть старых старых договор ) Но не столько к сожалению.
С уважением, Алексей.
tae1980 вне форума Ответить с цитированием
Старый 24.02.2018, 17:28   #10
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

tae1980
Тогда проще как в сбере проработать интерфейс ввода паспортных данных.
Контекстная справка значительно ускоряет ввод. У меня оператор паспортные данные ввёл секунд за 20. Когда как со сканером у вас будет столько же если не больше, пока оператор повернётся до сканера пока отсканирует это 10-15 секунд, а потом ещё распознавание 3-5 и проверка данных. Причем проверку должен делать человек, а это 3-60 секунд. А ещё не забывайте, что паспортные данные нужно обновлять.

Плюс качество распознавания. Текстовые документы они имеют стандартный шифр, поворот размер там качество высокое 99٫95% вернее 5 на 10000 символов. А тут нет стандартов нет однородных символов, всё разнородно. Поэтому не несомненно качество ниже может 2 из 1000, а может и того хуже 3 из 100.

Цитата:
Сообщение от tae1980 Посмотреть сообщение
Да алгоритмы поворота и вырезки и т.д. ещё нужны.
В любой нормальной библиотеке есть такие функции. А вот
Цитата:
Сообщение от tae1980 Посмотреть сообщение
Так вот как "искать" я то как раз и не знаю
Тут только направления. А вот алгоритмы надо прорабатывать искать думать самому.
И обязательно идеи проверять на наборе заранее подготовленных данных - датасете. Потому что работает на 1 фотографии не обязано работать на других. А если на одной плохо работает зато набору можно разделить на 2 класса и уже снизить процент не удач.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Распознавание паспорта РФ Ципихович Эндрю Фриланс 2 10.04.2017 09:47
Заказчик просит выслать ему скан паспорта TwiX Свободное общение 22 03.11.2011 18:54
Возможен ли отлов ошибок "чужих" программ без скана экрана на предмет окон-ошибок? Человек_Борща Общие вопросы Delphi 4 21.04.2011 00:18
Распознование номера паспорта. Herly Общие вопросы Delphi 4 31.08.2010 09:36
Распознование пятен Yusya Помощь студентам 1 04.03.2009 16:27