小五六资源网,小五六博客

wget抓取网站

发布:小五六资源网 2021年5月11日 0:51 星期二分类: Linux

//抓取所有
wget -m -e robots=off -k -E    <url>

//抓取当前目录
wget -m -e robots=off -k -E -l 1   <url>

1. 基础用法

下载单个网页

bash
复制
wget https://example.com
  • 默认会下载页面并保存到当前目录,文件名为 index.html(或根据 URL 自动命名)。


2. 常用选项

指定保存文件名 (-O)

bash
复制
wget -O mypage.html https://example.com

后台下载 (-b)

bash
复制
wget -b https://example.com

限速下载 (--limit-rate)

bash
复制
wget --limit-rate=100k https://example.com

断点续传 (-c)

bash
复制
wget -c https://example.com/large-file.zip

3. 抓取整个网站

递归下载 (-r)

bash
复制
wget -r https://example.com
  • -r 表示递归下载,默认递归深度为 5 层。

  • 结合 -l 控制递归深度:

    bash
    复制
    wget -r -l 2 https://example.com # 只下载 2 层

镜像网站 (-m)

bash
复制
wget -m https://example.com
  • 相当于 -r -N -l inf --no-remove-listing,适合完整镜像。


4. 处理复杂场景

绕过 robots.txt (-e)

bash
复制
wget -e robots=off -r https://example.com
  • 注意: 遵守网站的 robots.txt 规则是良好的网络礼仪。

下载特定文件类型 (-A)

bash
复制
wget -r -A ".pdf,.jpg" https://example.com

排除特定文件 (--reject)

bash
复制
wget -r --reject "*.zip" https://example.com

设置 User-Agent (-U)

bash
复制
wget -U "Mozilla/5.0" https://example.com

5. 高级用法

使用代理 (--proxy)

bash
复制
wget --proxy=on --http-proxy=127.0.0.1:8080 https://example.com

认证登录 (--user--password)

bash
复制
wget --user=admin --password=pass https://example.com/protected

保存 Cookies (--load-cookies)

bash
复制
wget --load-cookies cookies.txt https://example.com/dashboard

6. 示例组合

下载整个网站并本地化链接 (-k)

bash
复制
wget -mk -w 2 https://example.com
  • -k: 转换链接,使页面在本地正常显示。

  • -w 2: 每次请求间隔 2 秒,减轻服务器压力。


注意事项

  1. 遵守规则: 确保你有权下载目标内容,避免侵犯版权或触发反爬机制。

  2. 控制频率: 使用 -w--limit-rate 减少对服务器的压力。

  3. 存储管理: 递归下载可能占用大量磁盘空间,建议用 -P 指定目录:

    bash
    复制
    wget -r -P ./downloads https://example.com

通过灵活组合选项,wget 可以应对大多数下载需求。使用 man wgetwget --help 查看完整文档。


温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

发表评论: