Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > .NET Frameworks (точка нет фреймворки) > Общие вопросы .NET
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 06.05.2010, 12:28   #1
Manonia
Пользователь
 
Регистрация: 13.01.2010
Сообщений: 77
По умолчанию C#: нужно проанализировать веб-страницу

Добрый день, коллеги!
Не могли бы вы подсказать, как можно анализировать веб-страницы? Т.е. подсчитывать сколько в ней контента, ссылок, страниц и как-то строить потом процентное соотношение?

P.S. Вопрос отнесен в данный раздел, потому что писать нужно на C#.
Manonia вне форума Ответить с цитированием
Старый 06.05.2010, 13:53   #2
Namolem
Oo
Форумчанин
 
Аватар для Namolem
 
Регистрация: 10.10.2009
Сообщений: 350
По умолчанию

можно подключиться через сокет, прочитать ответ сервера и регулярными выражениями проанализировать контент. Чуть ниже моя тема, там пример кода
Namolem вне форума Ответить с цитированием
Старый 07.05.2010, 05:00   #3
Manonia
Пользователь
 
Регистрация: 13.01.2010
Сообщений: 77
По умолчанию

Не подскажете возможно ли на C# "составить" объектную модель документа? Т.е., например, есть текстовый файл и в нем теги и текст. Программа должна проанализировать и составить объектную модель.

Последний раз редактировалось Manonia; 07.05.2010 в 09:46.
Manonia вне форума Ответить с цитированием
Старый 07.05.2010, 12:10   #4
Hollander
Участник клуба
 
Аватар для Hollander
 
Регистрация: 03.05.2007
Сообщений: 1,189
По умолчанию

Конечно возможно, в интернете есть HTML парсеры, который делают это, составляя дерево тегов.
Hollander вне форума Ответить с цитированием
Старый 11.05.2010, 07:50   #5
Manonia
Пользователь
 
Регистрация: 13.01.2010
Сообщений: 77
По умолчанию

Namolem, пока нашла Majestic-12 и HtmlAgilityPack. Пытаюсь разобраться.
У меня стоит задача отделить на странице основной контент от таких частей, как меню, шапка сайта, подвал. Интересно вот что: как можно реализовать проверку того, в каком соотношении находится основной контент к ненужной информации(меню, шапка сайта, подвал)?
Manonia вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Как добавлять видео avi на веб-страницу? Nolvende Общие вопросы .NET 1 13.02.2010 02:31
проанализировать массив? maxNTF Общие вопросы C/C++ 4 17.01.2010 20:12
ссылки на веб-страницу в Delphi, как? UNREALcv Помощь студентам 7 05.01.2010 00:37
как загрузить в окно веб страницу? proglamer Работа с сетью в Delphi 3 07.09.2007 20:10