导入requests库
import requests
定义一个公用函数使用requests库获取源代码,唯一的参数为url
def getHTML(url):
try:
r = requests.get(url) # 模拟发送 HTTP GET 请求
html = r.text # 返回文本形式的HTML源代码
return html # 返回HTML
except:
print("error") # 如有异常打印错误
程序主函数,给定目标网页url地址调用getHTML函数爬取
if name == 'main':
url = 'http://www.wuxia.net.cn/author/jinyong.html' # 给定目标网页url地址
html,headers=getHTML(url) # 调用函数获取爬取html代码和headers信息
print(html) # 打印查看HTML代码