|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
13.08.2014, 22:59 | #1 |
Регистрация: 14.11.2008
Сообщений: 5
|
Парсер поисковой выдачи яндекса
здравствуйте.
совершенно новая тема для меня парсеры. мне надо написать как через curl'ы так и через яндекс.xml. никогда раньше с этим не сталкивалась. Нашла код парсера через curl'ы: PHP код:
empty). print_r($serp_items) выводит DOMNodeList Object ( [length] => 0 ) Однако, вот эта часть работает: (работает несколько раз, а потом яндекс начинает думать, что я робот и выдает станицу с капчей) PHP код:
Очень хотелось бы разобраться.
М.
Последний раз редактировалось ConChita; 14.08.2014 в 00:07. |
14.08.2014, 00:08 | #2 |
Регистрация: 14.11.2008
Сообщений: 5
|
Не понятна конкретно вот эта часть
libxml_use_internal_errors(true); // дает нам управление над ошибками $dom = new DOMDocument(); // создаем объект класса и выставляем немного настроек $dom->preserveWhiteSpace = false; $dom->resolveExternals = false; $dom->validateOnParse = false; $dom->loadHTML($page); $xpath = new DOMXpath($dom); // создаем объект класса DOMXpath $serp_items = $xpath->query('//li[contains(@class, "b-serp-item")]'); и регулярные выражения, которые непонятно откуда такие берутся!
М.
|
14.08.2014, 00:13 | #3 |
Форумчанин
Регистрация: 26.01.2007
Сообщений: 278
|
На этом этапе:
PHP код:
Вариант с cURL обречён на неудачу. Помимо того, что надо сохранять куки, например как-то так: PHP код:
Яндексу не надо, чтобы его просто так курлом штормили. Используйте Yandex.XML, как и собирались. И будет вам счастье. |
14.08.2014, 07:38 | #4 |
Регистрация: 14.11.2008
Сообщений: 5
|
яндекс.xml мне уже с порога заявляет, что "Лимит запросов исчерпан у пользователя..." нет у меня сайтов на веб-мастере
М.
|
14.08.2014, 10:32 | #5 |
Старожил
Регистрация: 25.02.2007
Сообщений: 4,177
|
Есть биржи где можно недорого купить эти лимиты
|
11.09.2014, 13:35 | #6 |
Новичок
Джуниор
Регистрация: 11.09.2014
Сообщений: 2
|
Я извращался с file_get_contents, обрабатывал simplehtmldom`ом. Обрабатывало долго и до первой капчи.
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Нужен скрипт Парсер выдачи яндекса | webbaster | Фриланс | 1 | 29.06.2012 21:52 |
Выравнивание кнопки в поисковой форме | zelja | HTML и CSS | 11 | 27.12.2011 12:06 |
Создание поисковой системы | L_Anya | Помощь студентам | 1 | 28.10.2011 23:18 |
троян в поисковой системе? | connstantin | Безопасность, Шифрование | 6 | 11.01.2011 00:56 |
Запрос поисковой системе | Лубышев | Общие вопросы .NET | 9 | 16.03.2009 11:48 |