всем привет!встала необходимость написать кусок кода который будет парсить очень много HTMLя (конкретно - разных web страниц). он должен работать (желательно) очень быстро. HTML может быть иногда будет кривой, неправильный и т. д. главное скорость и надёжность парсера. очень желательно что бы он был на С++ (на крайняк С тоже подойдёт)
какую библиотечку выбрать?я знаю что в некоторых больших проектах использовался libxml2, но он написан на С. это то к чему я склоняюсь.
есть libxml++ -врапер для libxml2 о ней я ничего не занаю. счас пойду смотреть код.
xerces c++ кажется бы подошёл но его может плющить если страница не соответствует спецификации XML. в доках так написано.
HTML Tidy Library ? хмммм
кто что может ещё предлдожить? варианты? мысли?
мне интересно что скажут местные мозги :-)заранее благодарен за ответы!
_________________
WBR, Arifolth
firefox (gesko) ?=)
Парсить с какой целью? что вы хотите получить как результат парсинга?
>Парсить с какой целью? что вы хотите получить как результат парсинга?ссылки которые будут в страницах
>>Парсить с какой целью? что вы хотите получить как результат парсинга?
>ссылки которые будут в страницахТогда не легче ли использовать регулярные выражения, например pcre?
Кривость документа будет побоку и, скорее всего, будет работать быстрее.
>ссылки которые будут в страницахТак я и думал. Правильно вам посоветовали - используйте pcre. Это будет на несколько порядков быстрее и позволит вам искать ссылки даже в js коде, что не позволяет парсинг HTML. Примеры регексов для поиска ссылок можно найти гуглом, а можно изучить регексы и сделать самому.
>>ссылки которые будут в страницах
>
>Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет
>на несколько порядков быстрее и позволит вам искать ссылки даже в
>js коде, что не позволяет парсинг HTML. Примеры регексов для поиска
>ссылок можно найти гуглом, а можно изучить регексы и сделать самому.
>Xerces-c