|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
18.01.2012, 20:55 | #1 |
Пользователь
Регистрация: 23.11.2006
Сообщений: 42
|
парсер для HTML страниц
Всем привет!
При написании программы столкнулся с тем, что не знаю быстрого и удобного способа вытянуть параметры и некоторые значения из исходного кода Интернет страницы. для примера: вот ссылка проблемной страницы http://zakupki.gov.ru/pgz/public/act...smallBisnes=on страница очень тяжелая. цель: вытянуть все Реквизиты заказа. так как в C# соображаю как любитель, то исходя из своих знаний попробовал через XmlTextReader сохранил исходный текст в файл и запустил. программа дала одно сообщение и ушла в себя. Я решил, что это из за того, что для XmlTextReader нужен чистый XML... потому так произошло. Код:
мне для личного опыта эта задача очень интересна |
19.01.2012, 10:00 | #2 |
Участник клуба
Регистрация: 03.05.2007
Сообщений: 1,189
|
Хм, а почему ты решил, что для разбора Html надо использовать xml reader?
В сети хватает готовых решений,например: http://htmlagilitypack.codeplex.com/ Если же надо парсить xml reader'ом, то в помощь TidyNet, он может Html в xml перегонять. Ну и как бы никто регулярные выражения не отменял. |
19.01.2012, 14:47 | #3 |
Пользователь
Регистрация: 23.11.2006
Сообщений: 42
|
С помощью регулярок не вариант.
Ссылку на сайт я привёл, можете взглянуть на исходный код. Напомню, что целью являются "Реквизиты заказа". Ночью пробовал htmlagilitypack, но ещё не успел осмыслить как им пользоваться. Я был бы весьма признателен, если кто-нибудь выложил бы здесь пример как с помощью htmlagilitypack с указанного сайта вытянуть заголовок. <html> <head> <title>Реестр опубликованных заказов</title> Hollander, Спасибо. Я сейчас на работе. Вечером посмотрю внимательно информацию по предоставленным Вами ссылкам. |
19.01.2012, 22:26 | #4 |
Пользователь
Регистрация: 23.11.2006
Сообщений: 42
|
Вот тот самый минимум необходимый для меня.
по ссылке все кому нужно могут скачать простенький проект. http://olegarh170788.narod.ru/ARHIV/...plication1.rar настраиваем XPath под себя; компилируем; запускаем; в текст-боксе вставляем ссылку на интересующую страницу Дальше будет проще =) |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Парсер беков и кол. страниц сайта в гогле и яндексе | gefest58 | Общие вопросы Delphi | 0 | 24.10.2010 11:49 |
C#скрипт для обработки html страниц | S.T.A.L.K.E.R. | Помощь студентам | 1 | 06.03.2009 18:18 |