|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
17.04.2018, 12:58 | #1 |
Старожил
Регистрация: 25.08.2011
Сообщений: 2,841
|
Разбор PDF
Здравствуйте.
Возникла задача написать простенький разборщик PDF файлов для получения определенных частей файла. Файлы выходят из одной системы. всегда стандартизированы по содержащейся информации. Библиотеки для разбора PDF ругаются что кривой заголовок файла. Поэтому решил по быстрому разобраться сам. В общем достал все объекты. Потоки расшифровал и получил размещение элементов на страницу. Но вот с раскодирование русских слов возникла какая то беда. В параметрах файла есть данные что используеться кодировка WinAnsiEncoding. Никаких карт преобразования символов я не нашел. Помогите разобраться с этой кодировкой. Вот записи: Код:
Skype - wmaster_s E-Mail - WorldMasters@gmail.com
Работаем по 3 критериям - быстро, качественно, недорого. Заказчик выбирает любые два. |
17.04.2018, 13:25 | #2 |
Дружите с Linq ;)
Форумчанин
Регистрация: 15.10.2008
Сообщений: 822
|
Пример файла есть?
Не давай организму поблажки, каждый день тренируй его в шашки..
|
17.04.2018, 13:38 | #3 |
Старожил
Регистрация: 25.08.2011
Сообщений: 2,841
|
Да есть .. но тут медицинские данные о заболеваниях .. меня повесят если я его сюда выкину.
Я могу все заголовки показать где нету данных это поможет?
Skype - wmaster_s E-Mail - WorldMasters@gmail.com
Работаем по 3 критериям - быстро, качественно, недорого. Заказчик выбирает любые два. |
17.04.2018, 13:47 | #4 |
Дружите с Linq ;)
Форумчанин
Регистрация: 15.10.2008
Сообщений: 822
|
На безрыбье и рак рыба, но я бы все же попробовал сделать тестовый файл. Например, на нового больного, которого нет и никогда не будет. Но если этого нельзя , то давай заголовки.
Не давай организму поблажки, каждый день тренируй его в шашки..
|
17.04.2018, 13:56 | #5 |
Старожил
Регистрация: 25.08.2011
Сообщений: 2,841
|
В общем надеюсь это поможет.
Тут всего 5 страниц. Я удалил объекты содержащие текстовые данные. Вся остальная структура осталась. Видимо в этой структуре может быть есть описание преобразования текста. Вообще странно вроде WinAnsi это однобайтовая кодировка ... по крайней мере C# переводит строки в 1 байт на символ.
Skype - wmaster_s E-Mail - WorldMasters@gmail.com
Работаем по 3 критериям - быстро, качественно, недорого. Заказчик выбирает любые два. |
17.04.2018, 14:09 | #6 |
Старожил
Регистрация: 17.11.2010
Сообщений: 18,922
|
0219+0228=0441
020d+0228=0435 0218+0228=0440 0210+0228=0438 0227+0228=044f получилась серия в юникоде что за код с таким смещением не знаю ))
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
|
17.04.2018, 14:16 | #7 | |
Старожил
Регистрация: 25.08.2011
Сообщений: 2,841
|
Цитата:
Есть там еще текст "020b 0216 020c 0208 0003" это значит "года "
Skype - wmaster_s E-Mail - WorldMasters@gmail.com
Работаем по 3 критериям - быстро, качественно, недорого. Заказчик выбирает любые два. |
|
17.04.2018, 15:06 | #8 |
Дружите с Linq ;)
Форумчанин
Регистрация: 15.10.2008
Сообщений: 822
|
Странно, но реально, как и сказал Аватар какие-то странные смещения присутствуют, но где они в заголовках описаны надо читать либо в спеке, либо опытным путем, найдя смещение искать в заголовках такое же число.
Не давай организму поблажки, каждый день тренируй его в шашки..
|
17.04.2018, 15:15 | #9 | |
Старожил
Регистрация: 25.08.2011
Сообщений: 2,841
|
Цитата:
Число тоже искал в файлу 0х228 ни его там нету. Как Foxit ридер видит русский не понятно. Эх ..
Skype - wmaster_s E-Mail - WorldMasters@gmail.com
Работаем по 3 критериям - быстро, качественно, недорого. Заказчик выбирает любые два. |
|
17.04.2018, 15:21 | #10 |
Дружите с Linq ;)
Форумчанин
Регистрация: 15.10.2008
Сообщений: 822
|
А в десятичном? Хотя, и это уже проверил, наверно.
Не давай организму поблажки, каждый день тренируй его в шашки..
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Скрипт по конвертированию pdf (ebook) в po4a, и --> new pdf | patsev.anton | Фриланс | 2 | 05.12.2014 08:16 |
Разбор видеопотока | Фантом | Фриланс | 1 | 14.11.2014 08:37 |
Работа с pdf в Cairo. Какая функция создает, какая начинает вторую страницу pdf? | KATbIK | Общие вопросы C/C++ | 1 | 02.08.2011 21:07 |
как в PhotoShop два файла скеить в один pdf файл? Допустим я нарисовал 2 страницы книги и мне их нужно объединить в один pdf | N!ckeL | Моделирование, изометрия, photoshop, 3d редакторы | 2 | 15.05.2008 19:34 |