wget -m -e robots=off -k -E <url>
//抓取当前目录
wget -m -e robots=off -k -E -l 1 <url>
1. 基础用法
下载单个网页
wget https://example.com
-
默认会下载页面并保存到当前目录,文件名为
index.html
(或根据 URL 自动命名)。
2. 常用选项
指定保存文件名 (-O
)
wget -O mypage.html https://example.com
后台下载 (-b
)
wget -b https://example.com
限速下载 (--limit-rate
)
wget --limit-rate=100k https://example.com
断点续传 (-c
)
wget -c https://example.com/large-file.zip
3. 抓取整个网站
递归下载 (-r
)
wget -r https://example.com
-
-r
表示递归下载,默认递归深度为 5 层。 -
结合
-l
控制递归深度:wget -r -l 2 https://example.com # 只下载 2 层
镜像网站 (-m
)
wget -m https://example.com
-
相当于
-r -N -l inf --no-remove-listing
,适合完整镜像。
4. 处理复杂场景
绕过 robots.txt (-e
)
wget -e robots=off -r https://example.com
-
注意: 遵守网站的
robots.txt
规则是良好的网络礼仪。
下载特定文件类型 (-A
)
wget -r -A ".pdf,.jpg" https://example.com
排除特定文件 (--reject
)
wget -r --reject "*.zip" https://example.com
设置 User-Agent (-U
)
wget -U "Mozilla/5.0" https://example.com
5. 高级用法
使用代理 (--proxy
)
wget --proxy=on --http-proxy=127.0.0.1:8080 https://example.com
认证登录 (--user
和 --password
)
wget --user=admin --password=pass https://example.com/protected
保存 Cookies (--load-cookies
)
wget --load-cookies cookies.txt https://example.com/dashboard
6. 示例组合
下载整个网站并本地化链接 (-k
)
wget -mk -w 2 https://example.com
-
-k
: 转换链接,使页面在本地正常显示。 -
-w 2
: 每次请求间隔 2 秒,减轻服务器压力。
注意事项
-
遵守规则: 确保你有权下载目标内容,避免侵犯版权或触发反爬机制。
-
控制频率: 使用
-w
或--limit-rate
减少对服务器的压力。 -
存储管理: 递归下载可能占用大量磁盘空间,建议用
-P
指定目录:wget -r -P ./downloads https://example.com
通过灵活组合选项,wget
可以应对大多数下载需求。使用 man wget
或 wget --help
查看完整文档。
发表评论: