URL: https://www.opennet.me/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID9
Нить номер: 6897
[ Назад ]

Исходное сообщение
"какую либу выбрать для парсинга html:С++/С"
Отправлено Arifolth , 31-Окт-07 12:20

всем привет!
встала необходимость написать кусок кода который будет парсить очень много HTMLя (конкретно - разных web страниц). он должен работать (желательно) очень быстро. HTML может быть иногда будет кривой, неправильный и т. д. главное скорость и надёжность парсера. очень желательно что бы он был на С++ (на крайняк С тоже подойдёт)
какую библиотечку выбрать?
я знаю что в некоторых больших проектах использовался libxml2, но он написан на С. это то к чему я склоняюсь.
есть libxml++ -врапер для libxml2 о ней я ничего не занаю. счас пойду смотреть код.
xerces c++ кажется бы подошёл но его может плющить если страница не соответствует спецификации XML. в доках так написано.
HTML Tidy Library ? хмммм
кто что может ещё предлдожить? варианты? мысли?
мне интересно что скажут местные мозги :-)
заранее благодарен за ответы!
_________________
WBR, Arifolth

Содержание

какую либу выбрать для парсинга html:С++/С,vic, 13:27 , 31-Окт-07
какую либу выбрать для парсинга html:С++/С,angra, 15:15 , 31-Окт-07
- какую либу выбрать для парсинга html:С++/С,Arifolth, 15:53 , 31-Окт-07
  - какую либу выбрать для парсинга html:С++/С,AMDmi3, 18:30 , 31-Окт-07
  - какую либу выбрать для парсинга html:С++/С,angra, 06:42 , 01-Ноя-07
    - какую либу выбрать для парсинга html:С++/С,Mike, 11:59 , 06-Мрт-08

Сообщения в этом обсуждении

"какую либу выбрать для парсинга html:С++/С"
Отправлено vic , 31-Окт-07 13:27

firefox (gesko) ?
=)

"какую либу выбрать для парсинга html:С++/С"
Отправлено angra , 31-Окт-07 15:15

Парсить с какой целью? что вы хотите получить как результат парсинга?

"какую либу выбрать для парсинга html:С++/С"
Отправлено Arifolth , 31-Окт-07 15:53

>Парсить с какой целью? что вы хотите получить как результат парсинга?
ссылки которые будут в страницах

"какую либу выбрать для парсинга html:С++/С"
Отправлено AMDmi3 , 31-Окт-07 18:30

>>Парсить с какой целью? что вы хотите получить как результат парсинга?
>ссылки которые будут в страницах
Тогда не легче ли использовать регулярные выражения, например pcre?
Кривость документа будет побоку и, скорее всего, будет работать быстрее.

"какую либу выбрать для парсинга html:С++/С"
Отправлено angra , 01-Ноя-07 06:42

>ссылки которые будут в страницах
Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет на несколько порядков быстрее и позволит вам искать ссылки даже в js коде, что не позволяет парсинг HTML. Примеры регексов для поиска ссылок можно найти гуглом, а можно изучить регексы и сделать самому.

"какую либу выбрать для парсинга html:С++/С"
Отправлено Mike , 06-Мрт-08 11:59

>>ссылки которые будут в страницах
>
>Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет
>на несколько порядков быстрее и позволит вам искать ссылки даже в
>js коде, что не позволяет парсинг HTML. Примеры регексов для поиска
>ссылок можно найти гуглом, а можно изучить регексы и сделать самому.
>
Xerces-c