forum.opennet.ru - "Разбор HTML и сохранение в виде форматированного текста" (6)

форумы

помощь

поиск

регистрация

майллист

ВХОД

слежка

"Разбор HTML и сохранение в виде форматированного текста"

Форумы WEB технологии (Public)
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[Проследить за развитием треда]

"Разбор HTML и сохранение в виде форматированного текста"
Сообщение от Nichls (ok) on 11-Ноя-04, 14:28 (MSK)
Добрый день. Не подскажите, в каком направлении покапать, чтобы решить такую задачу. Есть HTML страница, в которой есть примерно такой код, которой выглядит приблизительно так: <table border="0" cellpadding="3" cellspacing="1" width="100%"> <tbody> <tr> <th>Поле 1</th> <th>Поле 2</a></th> <th>Поле 3</a></th> <th>Поле 4</a></th> <th>Поле 5</a></th> <th>Поле 6</a></th> <th>Поле 7</a></th> </tr> <tr> <td class="row2" width="1%"> 1</td> <td class="row2" width="1%"> Данные</td> <td class="row2" width="1%"> Данные</td> <td class="row2" width="1%"> Данные</td> <td class="row2" width="1%"> Данные</td> <td class="row2" width="1%"> Данные</td> <td class="row2" width="1%"> Данные</td> </tr> <tr> <td class="row1" width="1%"> 2</td> <td class="row1" width="1%"> Данные</td> <td class="row1" width="1%"> Данные</td> <td class="row1" width="1%"> Данные</td> <td class="row1" width="1%"> Данные</td> <td class="row1" width="1%"> Данные</td> <td class="row1" width="1%"> Данные</td> </tbody> </table> Как можно это все перевести в текстовый файл с сохранением форматирования. Например, чтобы на выходе было примерно так: (--- для наглядности) Поле 1 Поле 2 Поле 3 Поле 4 Поле 5 Поле 6 Поле 7 ------------------------------------------------------ 1 Данные Данные Данные Данные Данные Данные 2 Данные Данные Данные Данные Данные Данные Все остальное со страницы не нужно. Подскажите, что нужно использовать и что почитать. Большое спасибо. С Уважением, Александр.
	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх

Оглавление

Разбор HTML и сохранение в виде форматированного текста, Lucky, 07:09 , 12-Ноя-04, (1)
Разбор HTML и сохранение в виде форматированного текста, dev, 11:10 , 12-Ноя-04, (2)
- Разбор HTML и сохранение в виде форматированного текста, Nichls, 10:52 , 15-Ноя-04, (3)
  - Разбор HTML и сохранение в виде форматированного текста, dev, 12:35 , 15-Ноя-04, (4)
    - Разбор HTML и сохранение в виде форматированного текста, Nichls, 19:58 , 14-Дек-04, (5)
      - Разбор HTML и сохранение в виде форматированного текста, kD, 18:32 , 15-Дек-04, (6)

Индекс форумов | Темы | Пред. тема | След. тема

Сообщения по теме

1. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от Lucky (??) on 12-Ноя-04, 07:09  (MSK)

>Добрый день.
>Не подскажите, в каком направлении покапать, чтобы решить такую задачу.
Регулярные выражения на Perl'e
preg_match_all какой нибудь

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

2. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от dev (??) on 12-Ноя-04, 11:10  (MSK)

Пропустить через lynx

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

3. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от Nichls (ok) on 15-Ноя-04, 10:52  (MSK)

>Пропустить через lynx
Я наверно не правильно выразился.
Задачку надо решить следующую.
Есть HTML страница на www.lalalalala.ru? отображающая данные в виде таблицы, которая периодически обновляется.
Так вот, хочется через определенный интервал времени забирать от туда данные в нормальном текстовом виде.
Что можете посоветовать использовать и что почитать.

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

4. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от dev (??) on 15-Ноя-04, 12:35  (MSK)

>Так вот, хочется через определенный интервал времени забирать от туда данные в
>нормальном текстовом виде.
Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось его вывод в файл:
lynx -dump http://www.subir.com/lynx.html > newpage.txt

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

5. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от Nichls (ok) on 14-Дек-04, 19:58  (MSK)

>>Так вот, хочется через определенный интервал времени забирать от туда данные в
>>нормальном текстовом виде.
>
>Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось
>его вывод в файл:
>lynx -dump http://www.subir.com/lynx.html > newpage.txt
Не совсем то, что хотелось бы. Нужно, чтобы это было, ну чтоли, красивее. Предпологаю, что можно через Perl делать, но не знаю, в каком направлении копать (не узучал его). И было бы куда лучше, если все это по Cron'у делалось.

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

6. "Разбор HTML и сохранение в виде форматированного текста"

Сообщение от kD (??) on 15-Дек-04, 18:32  (MSK)

Если ты не владеешь Perl, то прежде чем ставить эту задачу почитай хотябы про него: как с базой работать, как доставать контент html странички по ссылке и тп, а потом, когда разберешься с азами приступай к своей задаче.
Что касается сабжа, то
Используй регулярные выражения (читай про оных полно написано).
Именно Perl использовать не обязательно, можно и на PHP сделать и на С, но принцип один - нужно будет использовать регулярные выражения. На PHP все попроще, чем на Perl, но это кому как удобнее конечно.
Когда создашь скрипт и он будет работать повесишь его на крон - это последняя задача в твоем списке.
Удачи.

Удалить Правка | Высказать мнение | Ответить | Рекомендовать в FAQ | Cообщить модератору | Наверх

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема

Пожалуйста, прежде чем написать сообщение, ознакомьтесь с данными рекомендациями.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2026 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Разбор HTML и сохранение в виде форматированного текста"
Сообщение от Lucky (??) on 12-Ноя-04, 07:09 (MSK)
>Добрый день. >Не подскажите, в каком направлении покапать, чтобы решить такую задачу. Регулярные выражения на Perl'e preg_match_all какой нибудь
Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх

2. "Разбор HTML и сохранение в виде форматированного текста"
Сообщение от dev (??) on 12-Ноя-04, 11:10 (MSK)
Пропустить через lynx
Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	3. "Разбор HTML и сохранение в виде форматированного текста"
	Сообщение от Nichls (ok) on 15-Ноя-04, 10:52 (MSK)
	>Пропустить через lynx Я наверно не правильно выразился. Задачку надо решить следующую. Есть HTML страница на www.lalalalala.ru? отображающая данные в виде таблицы, которая периодически обновляется. Так вот, хочется через определенный интервал времени забирать от туда данные в нормальном текстовом виде. Что можете посоветовать использовать и что почитать.
	Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	4. "Разбор HTML и сохранение в виде форматированного текста"
	Сообщение от dev (??) on 15-Ноя-04, 12:35 (MSK)
	>Так вот, хочется через определенный интервал времени забирать от туда данные в >нормальном текстовом виде. Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось его вывод в файл: lynx -dump http://www.subir.com/lynx.html > newpage.txt
	Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	5. "Разбор HTML и сохранение в виде форматированного текста"
	Сообщение от Nichls (ok) on 14-Дек-04, 19:58 (MSK)
	>>Так вот, хочется через определенный интервал времени забирать от туда данные в >>нормальном текстовом виде. > >Ну так я и говорю, зайди на эту страничку lynx'ом и сбрось >его вывод в файл: >lynx -dump http://www.subir.com/lynx.html > newpage.txt Не совсем то, что хотелось бы. Нужно, чтобы это было, ну чтоли, красивее. Предпологаю, что можно через Perl делать, но не знаю, в каком направлении копать (не узучал его). И было бы куда лучше, если все это по Cron'у делалось.
	Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх


	6. "Разбор HTML и сохранение в виде форматированного текста"
	Сообщение от kD (??) on 15-Дек-04, 18:32 (MSK)
	Если ты не владеешь Perl, то прежде чем ставить эту задачу почитай хотябы про него: как с базой работать, как доставать контент html странички по ссылке и тп, а потом, когда разберешься с азами приступай к своей задаче. Что касается сабжа, то Используй регулярные выражения (читай про оных полно написано). Именно Perl использовать не обязательно, можно и на PHP сделать и на С, но принцип один - нужно будет использовать регулярные выражения. На PHP все попроще, чем на Perl, но это кому как удобнее конечно. Когда создашь скрипт и он будет работать повесишь его на крон - это последняя задача в твоем списке. Удачи.
	Удалить	Правка \| Высказать мнение \| Ответить \| Рекомендовать в FAQ \| Cообщить модератору \| Наверх