潮白河社区网

潮白河社区
北三县区域最大的社区服务网站!
查看: 2079|跟帖: 0
打印 上一主题 下一主题

Linux 抓取网页方式(curl+wget)

[复制链接]

1545

主题

3923

帖子

4301

潮白币

站长

Rank: 9

UID
1
积分
24458

优秀版主最佳新人

会员类型
业主
小区名称
温莎郡
小区楼号
10号楼 1单元
跳转到指定楼层
楼主
发表于 2014-7-14 15:42:41 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Linux抓取网页,简单方法是直接通过 curl 或 wget 两种命令。
http://fj.chaobaihe.net 潮白河点评网curl 和 wget 命令,目前已经支持Linux和Windows平台,后续将介绍。http://house.chaobaihe.net 潮白房产网

http://news.chaobaihe.net 潮白新闻网curl 和 wget支持协议本文章来源于潮白家园网: http://www.chaobaihe.net
curl  支持 http,https,ftp,ftps,scp,telnet等网络协议,详见手册 man curl本文章来源于潮白家园网: http://www.chaobaihe.net
wget支持 http,https,ftp网络协议,详见手册man wget
http://fj.chaobaihe.net 潮白河点评网本文章来源于潮白家园网: http://www.chaobaihe.net
curl 和 wget下载安装
http://house.chaobaihe.net 潮白房产网1、Ubuntu平台
http://fj.chaobaihe.net 潮白河点评网wget 命令安装:  sudo apt-get install wget (普通用户登录,需输入密码; root账户登录,无需输入密码)http://news.chaobaihe.net 潮白新闻网
curl   命令安装:  sudo apt-get install curl   (同 wget)
http://news.chaobaihe.net 潮白新闻网
http://bbs.chaobaihe.net 潮白河社区网2、Windows平台http://news.chaobaihe.net 潮白新闻网
wget 下载地址:wget for Windowshttp://bbs.chaobaihe.net 潮白河社区网
curl   下载地址:curl  Download本文章来源于潮白家园网: http://www.chaobaihe.net
wget 和 curl 打包下载地址:Windows平台下的wget和curl工具包http://house.chaobaihe.net 潮白房产网

http://bbs.chaobaihe.net 潮白河社区网Windows平台下,curl下载解压后,直接是curl.exe格式,拷贝到系统命令目录下 C:\Windows\System32 即可本文章来源于潮白家园网: http://www.chaobaihe.net
Windows平台下,wget下载解压后,是wget-1.11.4-1-setup.exe格式,需要安装;安装后,在环境变量 - 系统变量 - Path 中添加其安装目录即可
http://news.chaobaihe.net 潮白新闻网
http://fj.chaobaihe.net 潮白河点评网curl 和 wget抓取实例
本文章来源于潮白家园网: http://www.chaobaihe.net抓取网页,主要有url 网址和proxy代理两种方式,下面以抓取“百度”首页为例,分别介绍
http://bbs.chaobaihe.net 潮白河社区网http://bbs.chaobaihe.net 潮白河社区网
1、 url 网址方式抓取
本文章来源于潮白家园网: http://www.chaobaihe.net(1)curl下载百度首页内容,保存在baidu_html文件中http://bbs.chaobaihe.net 潮白河社区网
curl  http://www.baidu.com/  -o  baidu_htmlhttp://fj.chaobaihe.net 潮白河点评网

http://bbs.chaobaihe.net 潮白河社区网(2)wget下载百度首页内容,保存在baidu_html文件中http://fj.chaobaihe.net 潮白河点评网
wget http://www.baidu.com/  -O  baidu_html2http://news.chaobaihe.net 潮白新闻网
本文章来源于潮白家园网: http://www.chaobaihe.net
http://news.chaobaihe.net 潮白新闻网
有的时候,由于网速/数据丢包/服务器宕机/等原因,导致暂时无法成功下载网页http://news.chaobaihe.net 潮白新闻网
这时,可能就需要多次尝试发送连接,请求服务器的响应;如果多次仍无响应,则可以确认服务器出问题了本文章来源于潮白家园网: http://www.chaobaihe.net
(1)curl多次尝试连接本文章来源于潮白家园网: http://www.chaobaihe.net
curl --retry 10 --retry-delay 60 --retry-max-time 60 http://www.baidu.com/ -o baidu_html本文章来源于潮白家园网: http://www.chaobaihe.net
注: --retry表示重试次数; --retry-delay表示两次重试之间的时间间隔(秒为单位); --retry-max-time表示在此最大时间内只容许重试一次(一般与--retry-delay相同)http://house.chaobaihe.net 潮白房产网

本文章来源于潮白家园网: http://www.chaobaihe.net(2)wget多次尝试连接本文章来源于潮白家园网: http://www.chaobaihe.net
wget -t 10 -w 60 -T 30 http://www.baidu.com/ -O baidu_html2http://bbs.chaobaihe.net 潮白河社区网

本文章来源于潮白家园网: http://www.chaobaihe.net注:-t(--tries)表示重试次数; -w表示两次重试之间的时间间隔(秒为单位); -T表示连接超时时间,如果超时则连接不成功,继续尝试下一次连接
http://news.chaobaihe.net 潮白新闻网http://news.chaobaihe.net 潮白新闻网
附: curl 判断服务器是否响应,还可以通过一段时间内下载获取的字节量来间接判断,命令格式如下:http://bbs.chaobaihe.net 潮白河社区网
curl -y 60 -Y 1 -m 60 http://www.baidu.com/ -o baidu_htmlhttp://bbs.chaobaihe.net 潮白河社区网

本文章来源于潮白家园网: http://www.chaobaihe.net注:-y表示测试网速的时间; -Y表示-y这段时间下载的字节量(byte为单位); -m表示容许请求连接的最大时间,超过则连接自动断掉放弃连接
http://news.chaobaihe.net 潮白新闻网http://house.chaobaihe.net 潮白房产网

http://house.chaobaihe.net 潮白房产网2、 proxy代理方式抓取http://news.chaobaihe.net 潮白新闻网
proxy代理下载,是通过连接一台中间服务器间接下载url网页的过程,不是url直接连接网站服务器下载http://news.chaobaihe.net 潮白新闻网

http://house.chaobaihe.net 潮白房产网两个著名的免费代理网站:
http://fj.chaobaihe.net 潮白河点评网freeproxylists.net(全球数十个国家的免费代理,每日都更新)http://fj.chaobaihe.net 潮白河点评网
http://news.chaobaihe.net 潮白新闻网
xroxy.com(通过设置端口类型、代理类型、国家名称进行筛选)
http://house.chaobaihe.net 潮白房产网在freeproxylists.net网站,选择一台中国的免费代理服务器为例,来介绍proxy代理抓取网页:http://news.chaobaihe.net 潮白新闻网
218.107.21.252:8080(ip为218.107.21.252;port为8080,中间以冒号“:”隔开,组成一个套接字)
http://house.chaobaihe.net 潮白房产网
本文章来源于潮白家园网: http://www.chaobaihe.nethttp://house.chaobaihe.net 潮白房产网
(1)curl 通过代理抓取百度首页http://news.chaobaihe.net 潮白新闻网
curl -x 218.107.21.252:8080 -o aaaaa http://www.baidu.com(port 常见有80,8080,8086,8888,3128等,默认为80)本文章来源于潮白家园网: http://www.chaobaihe.net
http://bbs.chaobaihe.net 潮白河社区网
注:-x表示代理服务器(ip:port),即curl先连接到代理服务器218.107.21.252:8080,然后再通过218.107.21.252:8080下载百度首页,最后218.107.21.252:8080把下载的百度首页传给curl至本地(curl不是直接连接百度服务器下载首页的,而是通过一个中介代理来完成)
http://news.chaobaihe.net 潮白新闻网http://fj.chaobaihe.net 潮白河点评网
(2)wget 通过代理抓取百度首页本文章来源于潮白家园网: http://www.chaobaihe.net

http://fj.chaobaihe.net 潮白河点评网wget通过代理下载,跟curl不太一样,需要首先设置代理服务器的http_proxy=ip:port
http://house.chaobaihe.net 潮白房产网以ubuntu为例,在当前用户目录(cd ~),新建一个wget配置文件(.wgetrc),输入代理配置:http://fj.chaobaihe.net 潮白河点评网
http_proxy=218.107.21.252:8080
http://house.chaobaihe.net 潮白房产网然后再输入wget抓取网页的命令:
本文章来源于潮白家园网: http://www.chaobaihe.netwget http://www.baidu.com -O baidu_html2http://fj.chaobaihe.net 潮白河点评网
http://fj.chaobaihe.net 潮白河点评网
代理下载截图:
本文章来源于潮白家园网: http://www.chaobaihe.net
本文章来源于潮白家园网: http://www.chaobaihe.net
http://bbs.chaobaihe.net 潮白河社区网
http://bbs.chaobaihe.net 潮白河社区网=======================http://bbs.chaobaihe.net 潮白河社区网
抓取的百度首页数据(截图):
http://news.chaobaihe.net 潮白新闻网本文章来源于潮白家园网: http://www.chaobaihe.net

http://news.chaobaihe.net 潮白新闻网其它命令参数用法,同url网址方式,在此不再赘述http://house.chaobaihe.net 潮白房产网
ftp协议、迭代子目录等更多的curl 和 wget用法,可以man查看帮助手册
http://fj.chaobaihe.net 潮白河点评网http://house.chaobaihe.net 潮白房产网

http://news.chaobaihe.net 潮白新闻网知识拓展:
http://fj.chaobaihe.net 潮白河点评网在国内,由于某种原因一般难以直接访问国外某些敏感网站,需要通过 VPN 或 代理服务器才能访问http://news.chaobaihe.net 潮白新闻网
如果校园网和教育网有IPv6,则可以通过sixxs.org免费代理访问facebook、twitter、六维空间等网站
http://fj.chaobaihe.net 潮白河点评网http://house.chaobaihe.net 潮白房产网
其实,除了VPN 和 IPv6+sixxs.org代理方式外,普通用户还是有其它途径访问到国外网站本文章来源于潮白家园网: http://www.chaobaihe.net
下面介绍两个著名的免费代理网站:http://news.chaobaihe.net 潮白新闻网
freeproxylists.net(全球数十个国家的免费代理,每日都更新)http://fj.chaobaihe.net 潮白河点评网

http://news.chaobaihe.net 潮白新闻网xroxy.com(通过设置端口类型、代理类型、国家名称进行筛选)
http://house.chaobaihe.net 潮白房产网
http://house.chaobaihe.net 潮白房产网http://fj.chaobaihe.net 潮白河点评网
curl 项目实例http://house.chaobaihe.net 潮白房产网
使用curl + freeproxylists.net免费代理,实现了全球12国家google play游戏排名的网页抓取以及趋势图查询(抓取网页模块全部使用Shell编写,核心代码约1000行)本文章来源于潮白家园网: http://www.chaobaihe.net
游戏排名趋势图请见我先前的博客:JFreeChart项目实例
http://bbs.chaobaihe.net 潮白河社区网本文章来源于潮白家园网: http://www.chaobaihe.net
分享到: 0
关闭

站长推荐上一条 /3 下一条

快速回复 返回顶部 返回列表