|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
16.03.2011, 17:49 | #1 |
Форумчанин
Регистрация: 26.04.2010
Сообщений: 105
|
Кодировки HTML страниц.
Здравствуйте! Знаю, что тема избитая, знаю, что много материала, поиском как тут так и в Google уже пользовался, поэтому прошу ни туда ни туда не направлять.
У меня проблема при парсинге страниц. Проблема с кодировкой. Я должен парсить 10 страниц (каждый раз эти страницы разные) и брать оттуда Title и Meta Keywords, проблема в том, как распознавать кодировку на странице и получать все, как есть на самом деле, а не ??? и крякозябры. Прошу помочь, буду рад любой ссылке или любой стоящей функции. (Посмотрел вот это, не понял как использовать, если подскажете - будет шикарно) . P.S. Просьба не бить, тухлые помидоры не кидать и не направлять в поиск. |
21.03.2011, 17:38 | #2 |
Новичок
Джуниор
Регистрация: 09.12.2010
Сообщений: 1
|
в основном при написании или формировании страниц указывается их кодировка перед заглавием страницы
например Код:
соответственно можно таким образом перекодировать в нужный формат Последний раз редактировалось fd_coder; 21.03.2011 в 17:42. |
21.03.2011, 21:55 | #3 |
Форумчанин
Регистрация: 29.09.2009
Сообщений: 228
|
совершенно верно, пример mail.ru который в произвольном порядке меняет кодировку. я например анализирую наличие charset=UTF-8 и если присутсвует, то декодирую. Вариантов больше нет. Можно конечно читать хидер но там фигня - и как обычно приоритет тег meta.
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Парсинг html страниц | bulldog5293 | Работа с сетью в Delphi | 10 | 18.12.2010 01:20 |
Проблемы кодировки при создании .CFM страниц в Dreamweaver CS3 | bp-alex | Софт | 1 | 01.05.2010 17:51 |
Нумерация страниц в HTML | Killer_djon | JavaScript, Ajax | 20 | 04.02.2009 04:09 |
Сэйв HTML страниц... | Black DeviL | Общие вопросы Delphi | 3 | 21.02.2008 21:45 |
Редактор html страниц | Sanek_ntsk | Софт | 14 | 13.02.2008 08:15 |