Качаю кусок сайта с помощью wget с такими параметрами:
wget -N -r -k -l 1 -p -np -a $dirprefix/$today -P $dirprefix http://www.ixbt.com/news/soft/
(использование timestamps, конвертирования гиперссылок, рекурсии с глубиной 1, с закачкой всех реквизитов и с запрещением переходить выше) причем параметры dirprefix и today задаются выше в скрипте вот так:
today=`date +%b_%d.txt`
dirprefix="/home/www/dailyweb"
в итоге wget помещает в каталог /home/www/dailyweb/www.ixbt.com/news/soft страницу (кроме прочих) index.html, в которой гиперссылки конвертированы неверно, а именно: file://localhost/home/www/dailyweb/www.ixbt.com/news/soft/archive.shtml?soft20030615
хотя надо бы помещать её просто на archive.shtml?soft20030615
в man wget по этому поводу пишется:
Each link will be changed in one of the two ways:
╥ The links to files that have been downloaded by Wget will be changed to refer to the file they point to as a relative link.
╥ The links to files that have not been downloaded by Wget will be changed to include host name and absolute path of the location they point to.
странно, что конвертирование идёт по второму пути, хотя оба файла скачаны wget'ом... в общем - что вы можете посоветовать? корневой каталог Apache у меня в /home/www - в итоге ссылки типа
http://server/home/www/dailyweb/www.ixbt.com/short/2k3_soft/pcwizard.jpg
вместо /dailyweb/www.ixbt.com/short/2k3_soft/pcwizard.jpg
приводят к тому, что не подгружаются картинки на странице и невозможно переходить по ссылкам...
что посоветуешь, всезнающий all?