<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: какую либу выбрать для парсинга html:С++/С</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html</link>
    <description>всем привет!&lt;br&gt;&lt;br&gt;встала необходимость написать кусок кода который будет парсить очень много HTMLя (конкретно - разных web страниц). он должен работать (желательно) очень быстро. HTML может быть иногда будет кривой, неправильный и т. д. главное скорость и надёжность парсера. очень желательно что бы он был на С++ (на крайняк С тоже подойдёт)&lt;br&gt;какую библиотечку выбрать?&lt;br&gt;&lt;br&gt;я знаю что в некоторых больших проектах использовался libxml2, но он написан на С. это то к чему я склоняюсь.&lt;br&gt;есть libxml++ -врапер для libxml2 о ней я ничего не занаю. счас пойду смотреть код.&lt;br&gt;xerces c++ кажется бы подошёл но его может плющить если страница не соответствует спецификации XML. в доках так написано.&lt;br&gt;HTML Tidy Library ? хмммм&lt;br&gt;кто что может ещё предлдожить? варианты? мысли?&lt;br&gt;мне интересно что скажут местные мозги :-)&lt;br&gt;&lt;br&gt;заранее благодарен за ответы!&lt;br&gt;_________________&lt;br&gt;WBR, Arifolth&lt;br&gt;</description>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (Mike)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#6</link>
    <pubDate>Thu, 06 Mar 2008 08:59:26 GMT</pubDate>
    <description>&amp;gt;&amp;gt;ссылки которые будут в страницах &lt;br&gt;&amp;gt;&lt;br&gt;&amp;gt;Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет &lt;br&gt;&amp;gt;на несколько порядков быстрее и позволит вам искать ссылки даже в &lt;br&gt;&amp;gt;js коде, что не позволяет парсинг HTML. Примеры регексов для поиска &lt;br&gt;&amp;gt;ссылок можно найти гуглом, а можно изучить регексы и сделать самому. &lt;br&gt;&amp;gt;&lt;br&gt;&lt;br&gt;Xerces-c&lt;br&gt;</description>
</item>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (angra)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#5</link>
    <pubDate>Thu, 01 Nov 2007 03:42:54 GMT</pubDate>
    <description>&amp;gt;ссылки которые будут в страницах &lt;br&gt;&lt;br&gt;Так я и думал. Правильно вам посоветовали - используйте pcre. Это будет на несколько порядков быстрее и позволит вам искать ссылки даже в js коде, что не позволяет парсинг HTML. Примеры регексов для поиска ссылок можно найти гуглом, а можно изучить регексы и сделать самому.&lt;br&gt;&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (AMDmi3)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#4</link>
    <pubDate>Wed, 31 Oct 2007 15:30:43 GMT</pubDate>
    <description>&amp;gt;&amp;gt;Парсить с какой целью? что вы хотите получить как результат парсинга? &lt;br&gt;&amp;gt;ссылки которые будут в страницах &lt;br&gt;&lt;br&gt;Тогда не легче ли использовать регулярные выражения, например pcre?&lt;br&gt;Кривость документа будет побоку и, скорее всего, будет работать быстрее.&lt;br&gt;</description>
</item>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (Arifolth)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#3</link>
    <pubDate>Wed, 31 Oct 2007 12:53:33 GMT</pubDate>
    <description>&amp;gt;Парсить с какой целью? что вы хотите получить как результат парсинга? &lt;br&gt;&lt;br&gt;ссылки которые будут в страницах&lt;br&gt;</description>
</item>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (angra)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#2</link>
    <pubDate>Wed, 31 Oct 2007 12:15:53 GMT</pubDate>
    <description>Парсить с какой целью? что вы хотите получить как результат парсинга?&lt;br&gt;&lt;br&gt;</description>
</item>

<item>
    <title>какую либу выбрать для парсинга html:С++/С (vic)</title>
    <link>https://www.opennet.dev/openforum/vsluhforumID9/6897.html#1</link>
    <pubDate>Wed, 31 Oct 2007 10:27:55 GMT</pubDate>
    <description>firefox (gesko) ?&lt;br&gt;&lt;br&gt;=)&lt;br&gt;</description>
</item>

</channel>
</rss>
