Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Delphi программирование > Работа с сетью в Delphi
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 16.03.2011, 17:49   #1
kardinal94
Форумчанин
 
Аватар для kardinal94
 
Регистрация: 26.04.2010
Сообщений: 105
По умолчанию Кодировки HTML страниц.

Здравствуйте! Знаю, что тема избитая, знаю, что много материала, поиском как тут так и в Google уже пользовался, поэтому прошу ни туда ни туда не направлять.
У меня проблема при парсинге страниц. Проблема с кодировкой. Я должен парсить 10 страниц (каждый раз эти страницы разные) и брать оттуда Title и Meta Keywords, проблема в том, как распознавать кодировку на странице и получать все, как есть на самом деле, а не ??? и крякозябры. Прошу помочь, буду рад любой ссылке или любой стоящей функции. (Посмотрел вот это, не понял как использовать, если подскажете - будет шикарно) .
P.S. Просьба не бить, тухлые помидоры не кидать и не направлять в поиск.
kardinal94 вне форума Ответить с цитированием
Старый 21.03.2011, 17:38   #2
fd_coder
Новичок
Джуниор
 
Регистрация: 09.12.2010
Сообщений: 1
По умолчанию

в основном при написании или формировании страниц указывается их кодировка перед заглавием страницы
например
Код:
meta http-equiv="Content-Type" content="text/html; charset=UTF-8"


соответственно можно таким образом перекодировать в нужный формат

Последний раз редактировалось fd_coder; 21.03.2011 в 17:42.
fd_coder вне форума Ответить с цитированием
Старый 21.03.2011, 21:55   #3
Usov
Форумчанин
 
Аватар для Usov
 
Регистрация: 29.09.2009
Сообщений: 228
По умолчанию

Цитата:
Сообщение от fd_coder Посмотреть сообщение
в основном при написании или формировании страниц указывается их кодировка перед заглавием страницы
например
Код:
meta http-equiv="Content-Type" content="text/html; charset=UTF-8"


соответственно можно таким образом перекодировать в нужный формат
совершенно верно, пример mail.ru который в произвольном порядке меняет кодировку. я например анализирую наличие charset=UTF-8 и если присутсвует, то декодирую. Вариантов больше нет. Можно конечно читать хидер но там фигня - и как обычно приоритет тег meta.
Usov вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Парсинг html страниц bulldog5293 Работа с сетью в Delphi 10 18.12.2010 01:20
Проблемы кодировки при создании .CFM страниц в Dreamweaver CS3 bp-alex Софт 1 01.05.2010 17:51
Нумерация страниц в HTML Killer_djon JavaScript, Ajax 20 04.02.2009 04:09
Сэйв HTML страниц... Black DeviL Общие вопросы Delphi 3 21.02.2008 21:45
Редактор html страниц Sanek_ntsk Софт 14 13.02.2008 08:15