The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  ВХОД  слежка  RSS
"Разбор HTML и сохранение в виде форматированного текста"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы WEB технологии (Public)
Изначальное сообщение [Проследить за развитием треда]

"Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от Nichls emailИскать по авторуВ закладки(ok) on 11-Ноя-04, 14:28  (MSK)
Добрый день.
Не подскажите, в каком направлении покапать, чтобы решить такую задачу.

Есть HTML страница, в которой есть примерно такой код, которой выглядит приблизительно так:

<table border="0" cellpadding="3" cellspacing="1" width="100%">
<tbody>
<tr>
      <th>Поле 1</th>
  <th>Поле 2</a></th>
  <th>Поле 3</a></th>
  <th>Поле 4</a></th>
  <th>Поле 5</a></th>
  <th>Поле 6</a></th>
  <th>Поле 7</a></th>
</tr>
<tr>
<td class="row2" width="1%"> 1</td>
<td class="row2" width="1%"> Данные</td>
<td class="row2" width="1%"> Данные</td>
<td class="row2" width="1%"> Данные</td>
<td class="row2" width="1%"> Данные</td>
<td class="row2" width="1%"> Данные</td>
<td class="row2" width="1%"> Данные</td>
</tr>
<tr>
<td class="row1" width="1%"> 2</td>
<td class="row1" width="1%"> Данные</td>
<td class="row1" width="1%"> Данные</td>
<td class="row1" width="1%"> Данные</td>
<td class="row1" width="1%"> Данные</td>
<td class="row1" width="1%"> Данные</td>
<td class="row1" width="1%"> Данные</td>
</tbody>
</table>

Как можно это все перевести в текстовый файл с сохранением форматирования.
Например, чтобы на выходе было примерно так: (--- для наглядности)

Поле 1 Поле 2  Поле 3  Поле 4  Поле 5  Поле 6  Поле 7
------------------------------------------------------
1     Данные  Данные  Данные  Данные  Данные  Данные
2     Данные  Данные  Данные  Данные  Данные  Данные

Все остальное со страницы не нужно.

Подскажите, что нужно использовать и что почитать.

Большое спасибо.

С Уважением, Александр.

  Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

 Оглавление

Индекс форумов | Темы | Пред. тема | След. тема
Сообщения по теме

1. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от Lucky emailИскать по авторуВ закладки(??) on 12-Ноя-04, 07:09  (MSK)
>Добрый день.
>Не подскажите, в каком направлении покапать, чтобы решить такую задачу.
Регулярные выражения на Perl'e
preg_match_all какой нибудь

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от dev emailИскать по авторуВ закладки(??) on 12-Ноя-04, 11:10  (MSK)
Пропустить через lynx
  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

3. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от Nichls emailИскать по авторуВ закладки(ok) on 15-Ноя-04, 10:52  (MSK)
>Пропустить через lynx

Я наверно не правильно выразился.
Задачку надо решить следующую.

Есть HTML страница на www.lalalalala.ru? отображающая данные в виде таблицы, которая периодически обновляется.

Так вот, хочется через определенный интервал времени забирать от туда данные в нормальном текстовом виде.

Что можете посоветовать использовать и что почитать.

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

4. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от dev emailИскать по авторуВ закладки(??) on 15-Ноя-04, 12:35  (MSK)
>Так вот, хочется через определенный интервал времени забирать от туда данные в
>нормальном текстовом виде.

Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось его вывод в файл:
lynx -dump http://www.subir.com/lynx.html > newpage.txt


  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

5. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от Nichls emailИскать по авторуВ закладки(ok) on 14-Дек-04, 19:58  (MSK)
>>Так вот, хочется через определенный интервал времени забирать от туда данные в
>>нормальном текстовом виде.
>
>Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось
>его вывод в файл:
>lynx -dump http://www.subir.com/lynx.html > newpage.txt

Не совсем то, что хотелось бы. Нужно, чтобы это было, ну чтоли, красивее. Предпологаю, что можно через Perl делать, но не знаю, в каком направлении копать (не узучал его). И было бы куда лучше, если все это по Cron'у делалось.

  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

6. "Разбор HTML и сохранение в виде форматированного текста" 
Сообщение от kD emailИскать по авторуВ закладки(??) on 15-Дек-04, 18:32  (MSK)
Если ты не владеешь Perl, то прежде чем ставить эту задачу почитай хотябы про него: как с базой работать, как доставать контент html странички по ссылке и тп, а потом, когда разберешься с азами приступай к своей задаче.

Что касается сабжа, то
Используй регулярные выражения (читай про оных полно написано).
Именно Perl использовать не обязательно, можно и на PHP сделать и на С, но принцип один - нужно будет использовать регулярные выражения. На PHP все попроще, чем на Perl, но это кому как удобнее конечно.

Когда создашь скрипт и он будет работать повесишь его на крон - это последняя задача в твоем списке.

Удачи.


  Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх


Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру