Adminxe's Blog | 低调求发展 - 潜心习安全 ,技术永无止境 | 谢谢您对本站的支持，有什么问题或者建议请及时联系：

点击这里给我发消息

【Python爬虫】爬取网页的通用代码

Python Adminxe 7年前 (2018-10-29) 4144℃ 0评论

Request库的异常
requests.ConnectionError：网络连接错误一场，如DNS查询失败，拒绝连接等
requests.HTTPError：HTTP错误异常
requests.URLRequired：URL缺失异常
requests.TooManyRedirects：超过最大重定向次数，产生重定向异常
requests.ConnectTimenout：连接远程服务器超时异常
requests.Timeout：请求URL超时，产生超时异常
r.raise_for_status()：如果不是200，产生异常requests.HTTPError”””

爬取网页的通用代码框架：

import requests
 def getHTMLText(url):
     try:
         r=requests.get(url,timeout=30)
         r.raise_for_status#如果状态不是200，引发HTTPError异常
         r.encoding=r.apparent_encoding
         return r.text
     except:
         return"产生异常"
 if name=="main":
     url="http://www.baidu.com"
     print(getHTMLText(url))

转载请注明：Adminxe's Blog » 【Python爬虫】爬取网页的通用代码