|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
27.07.2009, 02:30 | #1 |
Новичок
Джуниор
Регистрация: 27.07.2009
Сообщений: 0
|
Требуется написать парсер-граббер сайтов
Требуется написать десктопный парсер-граббер сайтов на .blogspot.com (там все блоги на движке WordPress).
Цель парсера - получить локальную копию любого сайта с blogspot.com в статическом виде с некоторыми доработками, залить на сторонний хостинг и сайт должен сразу работать. Задачи парсера: 1. Пройтись по всем страницам сайта и собрать весь контент (посты, комментарии, картинки). 2. Полученный контент обработать и вставить в статичные страницы со всеми стилями и оформлением, так чтобы получилась точная копия всех страниц сайта-донора. Расширение получаемых страниц .html или .php должно задаваться в настройках, т.е. быть вариантом выбора. 2.1. Обработать текст: 2.1.1. удалить все внешние ссылки из текста - сделать их неактивными: удалить тег A, адрес ссылки прописать текстом; если у ссылки был анкор, поместить его текст через знак "-" непосредственно перед адресом. Полученный после обработки адрес внешней ссылки дополнительно нужно обрамить тегом noindex. Пример. Было: Это пример текста со ссылкой, которая ведет < A href="http://www.site.com/123/test.php">сюда< / A >. Стало: Это пример текста со ссылкой, которая ведет сюда - < noindex >http://www.site.com/123/test.php< /noindex >. 2.1.2. все внутренние ссылки нужно сделать относительными, чтобы работали относительно корня сайта. 2.2. Обработать картинки: 2.2.1. все картинки сохранить локально в папку /images; 2.2.2. если картинка одновременно является и внешней ссылкой - ссылку удалить, если внутренней - ссылку сделать относительной и оставить. 2.3. Обработать комментарии: 2.3.1. удалить из имен комментаторов ссылки, сделать их текстом. 2.3.2. Ссылку на добавление нового комментария ("Отправить комментарий") удалить полностью. 2.4. Обработать боковую колонку и футер отдельно: 2.4.1. если в нем есть только ссылки на друзей и последние комменты - обрабатывать как в предыдущих пунктах. 2.4.2. если в нем есть баннеры: предусмотреть возможность выбора - удалить все баннеры, либо удалить некоторые, либо поменять в баннерах внешние ссылки на свои. 2.4.3. если в нем есть баннеры Google Adsense предусмотреть возможность вставки своего идентификатора! 3. Структура получаемого сайта должна собираться на инклудах: отдельно боковая колонка (sidebar), отдельно тело (посты + комменты), отдельно футер. 4. В настройках программы предусмотреть возможность вставки своего кода в инклуды. ТЗ примерное, требует небольшой приватной правки. Парсер нужен в виде десктопного приложения, но при отличной реализации подойдет и серверный (под денвер). Просьба оценить трудозатраты и отписываться с ценой и сроками. Опыт написания подобных парсеров - ваше преимущество. Просьба без перса предоплату не предлагать. Для связи - эта тема, личка, icq 3-6-77-48. Последний раз редактировалось bashkov; 27.07.2009 в 03:20. |
27.07.2009, 03:19 | #2 |
Новичок
Джуниор
Регистрация: 27.07.2009
Сообщений: 0
|
Предложили в аську парсить RSS.
Обращаю внимание еще раз - требуется статичная копия всего сайта. Всего сайта целиком, а не последних выводящихся через RSS постов. Пример типичных сайтов для парсинга lankazp.blogspot.com, doandfollow.blogspot.com, pdaplusi.blogspot.com и т.п. Последний раз редактировалось bashkov; 27.07.2009 в 03:25. |
27.07.2009, 15:28 | #3 |
Регистрация: 16.06.2009
Сообщений: 8
|
что-то не понял по поводу пунктов 2.4, 3, 4
можете стукнуть мне в аську |
27.07.2009, 18:44 | #4 |
Меркантильный кю
Участник клуба
Регистрация: 02.02.2008
Сообщений: 1,001
|
Здравствуйте! Заинтересовало ваше предложение. Вышлите, пожалуйста, более подробное ТЗ, на один из следующих контактов
E-Mail: greblin@list.ru ICQ: 452-325-803 Skype: igreblin На основании приведённого задания стоимость оцениваю приблизительно в 200$ С уважением, Иван Садовой aka Greblin
Росли вроде умными, выросли дурнями... (c)А.Васильев
|
28.07.2009, 01:12 | #5 |
Форумчанин
Регистрация: 31.05.2009
Сообщений: 786
|
Здравствуйте. Не находит Вашу аську. Постучите в асю 368161244. Есть предложение (не RSS!). Если оно Вас устроит, цена будет намного дешевле 200$.
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Граббер, в чем косяк? | Arsmuzhik | PHP | 1 | 09.07.2009 00:10 |
Граббер | sergeyich | Фриланс | 4 | 07.06.2009 15:10 |