|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
17.07.2012, 11:33 | #1 |
Пользователь
Регистрация: 12.07.2012
Сообщений: 15
|
Парсинг сайта
Здравствуйте. Пытаюсь сделать парсер для целого сайта:
1. Спарсить ссылки на необходимые страницы со всего сайта 2. Пройтись по данным страницам и выдрать необходимую информацию с них (текст, и картинки). 3. Сделать локальную БД по этому сайт( с БД все сделано уже, написал добавление данных и вывод). Посоветуйте пожалуйста статьи по парсингу с примерами кода. Самое главное, чтобы было хорошо разъяснено. Буду премного благодарен. Последний раз редактировалось SnaiperArts; 17.07.2012 в 11:36. |
17.07.2012, 11:51 | #2 |
Форумчанин
Регистрация: 17.12.2008
Сообщений: 250
|
1. Спарсить ссылки на необходимые страницы со всего сайта
для этого я в свое время использовал YQL , xpath там очень просто получать ссылки. вы будите получать их ввиде json или xml 2. затем опять же тем YQL или чем-то сторонним .net ным выдираем текст картинки, качаем их либо с помощью HttpWebRequest, либо с помощью Bits http://developer.yahoo.com/yql/ http://www.cypressnorth.com/blog/pro...safari-jquery/ так примерно выглядит запрос выбираем все ссылки с programmersforum Код:
Последний раз редактировалось Reskov; 17.07.2012 в 12:00. |
17.07.2012, 14:24 | #3 |
Пользователь
Регистрация: 12.07.2012
Сообщений: 15
|
К сожалению не получается ссылки таким образом получить
Код:
Посоветовать что-нибудь стоящее почитать? Желательно на русском. |
17.07.2012, 15:09 | #4 |
Старожил
Регистрация: 22.05.2007
Сообщений: 9,088
|
HtmlAgilityPack
Код по извлечению всех ссылок (тэг a с аттрибутом href) будет примерно таким: http://programmersforum.ru/showthread.php?t=130225 Последний раз редактировалось pu4koff; 17.07.2012 в 15:42. |
17.07.2012, 15:23 | #5 | |
Форумчанин
Регистрация: 17.12.2008
Сообщений: 250
|
Цитата:
Код:
|
|
17.07.2012, 21:16 | #6 |
Пользователь
Регистрация: 12.07.2012
Сообщений: 15
|
Спасибо за наводки.
Воспользовался HtmlAgilityPack. Тут другая проблемка возникла: сайт в кодировке windows-1251, и во время вывода получаются "каракули" Кять как можно менять кодировку подскажите? (пробовал сохранять в файл, а уже в нем поменять кодировку, но это к положительному результату не привело). Код на котором бы хотелось увидеть как сменить кодировку: Код:
|
17.07.2012, 21:27 | #7 |
Форумчанин
Регистрация: 02.09.2011
Сообщений: 336
|
Код:
Если ты не можешь найти то, ради чего стоит жить, лучше найти то, за что стоит умереть
|
17.07.2012, 21:28 | #8 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
попробуйте использовать свойство OverrideEncoding у HtmlWeb
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
18.07.2012, 09:44 | #9 |
Пользователь
Регистрация: 12.07.2012
Сообщений: 15
|
В версии 1.4.0 его нету.
Петррр, Ваш метод работает, но не могу толком связать с HtmlAgilityPack, чтобы работало через него. Пытался сделать еще так, чтобы изменить спарсенный текст: Код:
Не подскажите как сделать правильно, не зависимо каким методом? Посоветуйте статьи на русском пожалуйста по HttpAgilityPack, охото разобраться в функционале его. |
18.07.2012, 10:08 | #10 |
Пользователь
Регистрация: 12.07.2012
Сообщений: 15
|
Вроде как нашел способ связать, но выдается ошибка.
Код преобразования кодировки: Код:
Код:
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
парсинг сайта | Jadson | Работа с сетью в Delphi | 0 | 14.05.2012 23:30 |
Парсинг ссылок сайта | demiancz | Общие вопросы Delphi | 9 | 27.02.2012 01:00 |
парсинг сайта на bash | Backo | Помощь студентам | 2 | 15.09.2011 17:24 |
парсинг сайта | CodeNOT | PHP | 1 | 21.03.2011 09:48 |
Парсинг сайта | AnToHa-KiLL | Общие вопросы Delphi | 3 | 30.06.2009 08:22 |