<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: анализ структуры страницы</title>
    <link>https://opennet.me/openforum/vsluhforumID8/5269.html</link>
    <description>существуют ли алгоритмы анализа страницы?&lt;br&gt;а именно, скажем, выделение рекламы или блока новостей из страницы&lt;br&gt;</description>

<item>
    <title>анализ структуры страницы (FarID)</title>
    <link>https://opennet.me/openforum/vsluhforumID8/5269.html#4</link>
    <pubDate>Sat, 29 Sep 2007 06:28:39 GMT</pubDate>
    <description>Спасибо за интересные мысли&lt;br&gt;&lt;br&gt;&amp;gt;встерчный вопрос: где такая задача встала? &lt;br&gt;&lt;br&gt;я сам задался этой темой когда очередной раз начал изучать структуру сайта без rss чтобы сделать импорт новостей&lt;br&gt;&lt;br&gt;меня интересует наличие подобных разработок&lt;br&gt;хотелось бы хотелось развить эту тему &lt;br&gt;</description>
</item>

<item>
    <title>анализ структуры страницы (tx2)</title>
    <link>https://opennet.me/openforum/vsluhforumID8/5269.html#3</link>
    <pubDate>Fri, 28 Sep 2007 17:54:57 GMT</pubDate>
    <description>в целом - нет ничего невозможного...&lt;br&gt;&lt;br&gt;ну... скажем в случае универсальных - задача сравнима с задачей разбора естественного языка...&lt;br&gt;&lt;br&gt;нужны всетаки какието признаки, сформулированные из вне. (слова ключевые, еще что-то)...&lt;br&gt;&lt;br&gt;ну вот например такая мысль:&lt;br&gt;например нужно выделить области с рекламой на сайте.&lt;br&gt;есть некотрые признаки, например ключевые слова banner, ad, реклама...&lt;br&gt;также есть некотрые признаки других областей: новости, меню и подобное..&lt;br&gt;ищим эти признаки, составляем список всех включений их в документ.&lt;br&gt;если близко друг от друга(по тексту/DOM) найдено несколько объектов, пологаем что они принадлежат одной структурной единице - блоку рекламы... пытаемся поднятся выше по иерархии и захватить кусок включающий максимум необходимого нам признака, но при этом - минимум лишнего.&lt;br&gt;&lt;br&gt;или так:&lt;br&gt;допустим нужно выделить посты на блоге...&lt;br&gt;каждому посту, независимо от блога характерен набор элементов:&lt;br&gt;заголовок, дата, автор, содержание, кнопка &quot;читать дальше&quot;, кнопка &quot;комментарии&quot;...&lt;br&gt;такое есть почти </description>
</item>

<item>
    <title>анализ структуры страницы (FarID)</title>
    <link>https://opennet.me/openforum/vsluhforumID8/5269.html#2</link>
    <pubDate>Fri, 28 Sep 2007 13:39:35 GMT</pubDate>
    <description>&amp;gt;так понимаю что страница - это хтмл?? &lt;br&gt;&lt;br&gt;да&lt;br&gt;&lt;br&gt;&amp;gt;универсальные? гыгы =) &lt;br&gt;&lt;br&gt;именно универсальные!&lt;br&gt;&lt;br&gt;&amp;gt;если нужно просто выделить какойто блок со страницы известной структуры... &lt;br&gt;&amp;gt;и разобрать его на составные части, для последующей обработки: &lt;br&gt;&amp;gt;это делается например с помощью регулярных выражений. &lt;br&gt;&lt;br&gt;в том то и дело что когда известна структура дальше задача сводится к уровню начальных классов детсада&lt;br&gt;&lt;br&gt;вопрос именно о существовании алгоритмов анализа страницы и разделения ее на логические блоки&lt;br&gt;к примеру на этой странице сверху и снизу реклама а посередине тематика&lt;br&gt;</description>
</item>

<item>
    <title>анализ структуры страницы (tx2)</title>
    <link>https://opennet.me/openforum/vsluhforumID8/5269.html#1</link>
    <pubDate>Fri, 28 Sep 2007 13:33:04 GMT</pubDate>
    <description>так понимаю что страница - это хтмл??&lt;br&gt;&lt;br&gt;универсальные? гыгы =)&lt;br&gt;&lt;br&gt;если нужно просто выделить какойто блок со страницы известной структуры...&lt;br&gt;и разобрать его на составные части, для последующей обработки:&lt;br&gt;это делается например с помощью регулярных выражений.&lt;br&gt;</description>
</item>

</channel>
</rss>
