Свободный кроссплатформенный офлайн-браузер HTTrack позволяет загружать на локальный компьютер веб-сайты с полным сохранением структуры.
В Unix-подобных ОС пользователям доступны консольная утилита HTTrack и базирующийся на HTML-интерфейсе WebHTTrack.
Содержание
- Возможности
- Установка
- Синтаксис
- Опции
- Использование офлайн-браузера HTTrack в Linux
- Графический интерфейс WebHTTrack
- Заключение
Возможности
Возможности этого инструмента весьма значительны:
- выбор глубины проверки;
- сохранение структуры загружаемого сайта;
- организация относительной структуры ссылок исходного сайта;
- возможность исключения загрузки файлов по типу;
- возможность загрузки в многопоточном режиме;
- возможность обновления существующего зеркала сайта;
- поддержка возобновления прерванной закачки;
- поддержка прокси-серверов.
Установка
Установка в Ubuntu
$ sudo apt install httrack webhttrack
Установка в Arch Linux
$ yay -S httrack
Синтаксис
$ httrack
Опции
Общие опции
- O
- Путь к зеркалу/лог-файлов+кэша (-O path_mirror[,path_cache_and_logfiles]) (--path)
Опции действий
- w
- *Создание зеркала веб-сайтов (--mirror)
- W
- Полуавтоматическое создание зеркала веб-сайта (задаются вопросы) (--mirror-wizard)
- g
- Простое получение файлов (сохранить в текущем каталоге) (--get-files)
- i
- Продолжить прерванное создание зеркала используя кэш (--continue)
- Y
- Создать зеркало всех ссылок, размещённых на страницах первого уровня (mirror links) (--mirrorlinks)
Опции прокси
- P
- Использовать прокси (-P proxy:port or -P user:pass@proxy:port) (--proxy)
- %f
- *Использовать прокси для ftp (f0 не использовать) (--httpproxy-ftp[=N])
- %b
- Использовать локальное имя хоста для создания/отправки запросов (-%b hostname) (--bind)
Ограничительные опции
- rN
- Установить глубину зеркала в N (* r9999) (--depth[=N])
- %eN
- Установить глубину внешних ссылок в N (* %e0) (--ext-depth[=N])
- mN
- Максимальная длина для не-html файла file (--max-files[=N])
- mN,N2
- Максимальная длина файла для не-html (N) и html (N2)
- MN
- Максимальный размер, который может быть загружен/сканирован (--max-size[=N])
- EN
- Максимальное время зеркалирования в секундах (60=1 minute, 3600=1 hour) (--max-time[=N])
- AN
- Максимальная скорость передачи данных в байтах/секунду (1000=1KB/s max) (--max-rate[=N])
- %cN
- Максимальное количество соединений/секунду (*%c10) (--connection-per-second[=N])
- GN
- Передача на паузе при достижении N байтов, ожидать удаления блок-файла (--max-pause[=N])
Опции ссылок
- %P
- *Расширенный парсинг всех ссылок даже в неизвестных тегах или Javascript (%P0 don't use) (--extended-parsing[=N])
- n
- получать не-html файлы 'рядом' с html файлами (ex: например, изображение) (--near)
- t
- Тестировать все URLs (даже запрещенные) (--test)
- %L
- Добавить все URL-адреса, расположенные в этом текстовом файле (один URL на строку) (--list)
- %S
- Добавить все правила проверки, расположенные в этом текстовом файле (по одному правилу проверки на строку) (--urllist)
Здесь были описаны лишь основные необходимые опции. Со всеми опциями можно ознакомиться здесь:
$ httrack --help
Использование офлайн-браузера HTTrack в Linux
Простое создание зеркала
Создаём каталог, переходим в него и запускаем утилиту без опций, указав какой-либо сайт:
oleg@mobile:~:$ mkdir httrack
oleg@mobile:~:$ cd httrack/
oleg@mobile:~/httrack:$ httrack http://newsletter.mensh.ru
Mirror launched on Mon, 11 Dec 2023 12:49:25 by HTTrack Website Copier/3.49-4+libhtsjava.so.2 [XR&CO'2014]
mirroring http://newsletter.mensh.ru with the wizard help..
Done.02: newsletter.mensh.ru/steny_iz_meshkov_s_zemlei_earthbags (162 bytes) - 404
Thanks for using HTTrack!
oleg@mobile:~/httrack:$
В данном случае был скачан сайт архива рассылки.
Обновление зеркала
oleg@mobile:~/httrack:$ httrack --update
Mirror launched on Mon, 11 Dec 2023 14:01:18 by HTTrack Website Copier/3.49-4+libhtsjava.so.2 [XR&CO'2014]
mirroring http://newsletter.mensh.ru with the wizard help..
Done.02: newsletter.mensh.ru/steny_iz_meshkov_s_zemlei_earthbags (162 bytes) - 404
Thanks for using HTTrack!
oleg@mobile:~/httrack:$
Переход в интерактивный режим
oleg@mobile:~/httrack:$ httrack A cache (hts-cache/) has been found in the directory That means you can update faster the remote site(s) OK to Update httrack httrack? Press
Продолжение зеркалирования
Продолжаем создавать зеркало в текущем каталоге:
oleg@mobile:~/httrack:$ httrack --continue
Mirror launched on Mon, 11 Dec 2023 14:07:52 by HTTrack Website Copier/3.49-4+libhtsjava.so.2 [XR&CO'2014]
mirroring http://newsletter.mensh.ru with the wizard help..
Done.02: newsletter.mensh.ru/steny_iz_meshkov_s_zemlei_earthbags (162 bytes) - 404
Thanks for using HTTrack!
oleg@mobile:~/httrack:$
Графический интерфейс WebHTTrack
Этот интерфейс запускается либо в терминале, либо из меню.
Выбираем желаемый язык и нажимаем кнопку Вперёд.
Указываем имя существующего проекта либо имя существующего проекта, категорию проекта, каталог для сохранения зеркала и нажимаем кнопку Вперёд.
Добавляем URL скачиваемого сайта и нажимаем кнопку Вперёд.
Оказавшись на стартовой странице нажимаем кнопку Начать.
После этого выбранный веб-сайт загружается в определённое для него место хранения.
Заключение
В случае затруднений для начинающих пользователей Linux в использовании консольной утилиты HTTrack можно воспользоваться графическим интерфейсом WebHTTrack, который очень прост в использовании.
Единственным недостатком программы можно лишь считать невысокую скорость закачки, которая составляет не более 250 Кб/с.