The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"скрипт извлекующий урлы"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы WEB технологии (Public)
Изначальное сообщение [ Отслеживать ]

"скрипт извлекующий урлы"  
Сообщение от snooper email on 09-Июн-08, 20:07 
подскажите, как сделать скрипт который бы извлек все урлы содержащиеся например на страничке: http://top100.rambler.ru/top100/Automotive/index.shtml.ru?

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "скрипт извлекующий урлы"  
Сообщение от Mil on 10-Июн-08, 08:29 
>подскажите, как сделать скрипт который бы извлек все урлы содержащиеся например на
>страничке: http://top100.rambler.ru/top100/Automotive/index.shtml.ru?

Возможно множество решений.
Вот пример, от которого можно оттолкнуться и получить то, что вам надо.

wget -qO-  http://top100.rambler.ru/top100/Automotive/index.shtml.ru | perl -e 'print join("\n", join("", <>)=~m(http://[\w./]+)g)'

но учтите, что он вытаскивает именно *все* урлы (как вы и просили), включая картинки css-ки... при этом вытаскиваются только абсолютные урлы. в общем, не думаю, что это именно то, что вы хотите. чтобы вытащить урлы по другим признакам можно поправить регексп.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

2. "скрипт извлекующий урлы"  
Сообщение от snooper email on 12-Июн-08, 17:05 
>wget -qO-  http://top100.rambler.ru/top100/Automotive/index.shtml.ru | perl -e 'print join("\n", join("", <>)=~m(http://[\w./]+)g)'

нашел ошибку, урлы в которых есть тире "post-card.ru" не извлекаются...

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "скрипт извлекующий урлы"  
Сообщение от angra (ok) on 12-Июн-08, 23:32 
Специально для вас цитирую:
>можно поправить регексп.

В данном случае добавляем символ "-" в класс допустимых символов: m(http://[\w./\-]+)g)'
Почитайте man perlre или Mastering Regular Expressions, знание регексов значительно облегчает жизнь админа.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру