首页
Linux
wget抓取网站

wget抓取网站

发布：小五六资源网 2021年5月11日 0:51 星期二分类： Linux

//抓取所有
wget -m -e robots=off -k -E <url>

//抓取当前目录
wget -m -e robots=off -k -E -l 1 <url>

1. 基础用法

下载单个网页

wget https://example.com

默认会下载页面并保存到当前目录，文件名为 index.html（或根据 URL 自动命名）。

2. 常用选项

指定保存文件名 (`-O`)

wget -O mypage.html https://example.com

后台下载 (`-b`)

wget -b https://example.com

限速下载 (`--limit-rate`)

wget --limit-rate=100k https://example.com

断点续传 (`-c`)

wget -c https://example.com/large-file.zip

3. 抓取整个网站

递归下载 (`-r`)

wget -r https://example.com

-r 表示递归下载，默认递归深度为 5 层。

结合 -l 控制递归深度：

wget -r -l 2 https://example.com # 只下载 2 层

镜像网站 (`-m`)

wget -m https://example.com

相当于 -r -N -l inf --no-remove-listing，适合完整镜像。

4. 处理复杂场景

绕过 robots.txt (`-e`)

wget -e robots=off -r https://example.com

注意： 遵守网站的 robots.txt 规则是良好的网络礼仪。

下载特定文件类型 (`-A`)

wget -r -A ".pdf,.jpg" https://example.com

排除特定文件 (`--reject`)

wget -r --reject "*.zip" https://example.com

设置 User-Agent (`-U`)

wget -U "Mozilla/5.0" https://example.com

5. 高级用法

使用代理 (`--proxy`)

wget --proxy=on --http-proxy=127.0.0.1:8080 https://example.com

认证登录 (`--user` 和 `--password`)

wget --user=admin --password=pass https://example.com/protected

保存 Cookies (`--load-cookies`)

wget --load-cookies cookies.txt https://example.com/dashboard

6. 示例组合

下载整个网站并本地化链接 (`-k`)

wget -mk -w 2 https://example.com

-k: 转换链接，使页面在本地正常显示。
-w 2: 每次请求间隔 2 秒，减轻服务器压力。

注意事项

遵守规则： 确保你有权下载目标内容，避免侵犯版权或触发反爬机制。
控制频率： 使用 -w 或 --limit-rate 减少对服务器的压力。
存储管理： 递归下载可能占用大量磁盘空间，建议用 -P 指定目录：
bash

复制
```
wget -r -P ./downloads https://example.com
```

通过灵活组合选项，wget 可以应对大多数下载需求。使用 man wget 或 wget --help 查看完整文档。

温馨提示如有转载或引用以上内容之必要，敬请将本文链接作为出处标注，谢谢合作！

<< linux 清空catalina.out日志不需要重启tomcat | git删除本地仓库 >>

发表评论：

wget抓取网站

1. 基础用法

下载单个网页

2. 常用选项

指定保存文件名 (-O)

后台下载 (-b)

限速下载 (--limit-rate)

断点续传 (-c)

3. 抓取整个网站

递归下载 (-r)

镜像网站 (-m)

4. 处理复杂场景

绕过 robots.txt (-e)

下载特定文件类型 (-A)

排除特定文件 (--reject)

设置 User-Agent (-U)