как парсить HTML ? - Общие вопросы по Java, Java SE, Kotlin

Jakethefish · 25.08.2011, 21:16

Всем привет.

Собственно сабж.
Читал про xpath, но пока ничего толкового не нарыл. Посоветуйте что-нибудь толкового, фреймворки в принципе не интересуют особо, устроит и xpath, так как если я правильно понял это что-то вроде jquery, но не нарыть толковой инфы как и чего делается.

Пепел Феникса · 25.08.2011, 21:29

xpath насколько я помню к XML относится.
редко очень можно загрузить XHTML(именно X) как XML(хотя я делал, но я вырезал кусок, и потом правил в нем ошибки(для XML))

а пропарсить поидее можно обычными методами string, смотря что надо оттуда достать.

Jakethefish · 25.08.2011, 21:29

Вот кажется нашел.

http://jsoup.org/cookbook/extracting...elector-syntax

alexinspir · 27.08.2011, 20:04

Для разбора html я использовал HtmlCleaner, с помощью которого получал org.w3c.dom.Document, из которого уже с помощью стандартного XPath извлекал интересующую меня информацию.

Цитата:

Сообщение от Пепел Феникса

а пропарсить по идее можно обычными методами string, смотря что надо оттуда достать.

Очень сложно посредством методов String доставать необходимую информацию, да и эффективность/производительность данного подхода будет не самой лучшей.
При некоторых требованиях к входному документу можно использовать регекспы, но используя стандартный механизм, придется для каждого регекспа пробегаться по документу.

Jakethefish · 28.08.2011, 10:02

alexinspir, скажите, есть ли у вас какие-либо образцы кода Вашего метода, а также какой-нибудь мануал по xpath, а то в сети ничего понятного пока не пошел.
P.S. JSoup вполне подходит для моих целей, есть возможность сохранять и использовать куки, посылать пост и гет запросы, а также использовать CSS синтаксис для разбора документа.

alexinspir · 28.08.2011, 15:32

Цитата:

Сообщение от Jakethefish

alexinspir, скажите, есть ли у вас какие-либо образцы кода Вашего метода

у меня разбором html занимается не 1 класс а целый граф классов под абстракциями, которые не могут служить примером, и я не могу их дать из-за nda

Цитата:

Сообщение от Jakethefish

а также какой-нибудь мануал по xpath, а то в сети ничего понятного пока не пошел.

XPath (Использовать мануалы по xpath в контексте xslt не рекомендую.)

XPath ebook

java xpath example

dox07 · 22.10.2011, 19:54

предлагаю использовать antlr. вся инфа на сайте www.antrl.org По сути это построитель парсера для разбора входного текста. Можно грузить из файла и затем обрабатывать текст или же прямо просто на вход текст подавать. Более того можно использовать просто лексер, и на основе лексем разбирать данные с учетом контекста. Недавно делал парсер формул математических, оч. помог именно лексер, а на основе потока лексем уже разбирал дальше и генерил дерево.

25.08.2011, 21:16	#1
Jakethefish Форумчанин Регистрация: 13.11.2009 Сообщений: 121	как парсить HTML ? Всем привет. Собственно сабж. Читал про xpath, но пока ничего толкового не нарыл. Посоветуйте что-нибудь толкового, фреймворки в принципе не интересуют особо, устроит и xpath, так как если я правильно понял это что-то вроде jquery, но не нарыть толковой инфы как и чего делается.

25.08.2011, 21:29	#2
Пепел Феникса Старожил Регистрация: 28.01.2009 Сообщений: 21,000	xpath насколько я помню к XML относится. редко очень можно загрузить XHTML(именно X) как XML(хотя я делал, но я вырезал кусок, и потом правил в нем ошибки(для XML)) а пропарсить поидее можно обычными методами string, смотря что надо оттуда достать. Хорошо поставленный вопрос это уже половина ответа. \| Каков вопрос, таков ответ. Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите.

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Парсить текст в лево	bulldog5293	Общие вопросы Delphi	10	12.05.2011 00:00
Парсить ссылки	GoldmasteR	PHP	1	21.12.2010 11:56
Забыл как парсить	bulldog5293	Общие вопросы Delphi	1	18.11.2010 21:13
как парсить ссылку на время	bulldog5293	Общие вопросы Delphi	3	12.08.2010 21:46
Как вывести код html из файла на страницу HTML	Рамирас	JavaScript, Ajax	1	25.07.2010 20:06

28.08.2011, 10:02	#5
Jakethefish Форумчанин Регистрация: 13.11.2009 Сообщений: 121	alexinspir, скажите, есть ли у вас какие-либо образцы кода Вашего метода, а также какой-нибудь мануал по xpath, а то в сети ничего понятного пока не пошел. P.S. JSoup вполне подходит для моих целей, есть возможность сохранять и использовать куки, посылать пост и гет запросы, а также использовать CSS синтаксис для разбора документа.

22.10.2011, 19:54	#7
dox07 Пользователь Регистрация: 16.02.2010 Сообщений: 26	предлагаю использовать antlr. вся инфа на сайте www.antrl.org По сути это построитель парсера для разбора входного текста. Можно грузить из файла и затем обрабатывать текст или же прямо просто на вход текст подавать. Более того можно использовать просто лексер, и на основе лексем разбирать данные с учетом контекста. Недавно делал парсер формул математических, оч. помог именно лексер, а на основе потока лексем уже разбирал дальше и генерил дерево.