问题遇到的现象和发生背景
问题相关代码,请勿粘贴截图
运行结果及报错内容
我的解答思路和尝试过的方法
我想要达到的结果
import re
import urllib
import urllib.request
import ssl #导入Python SSL处理模块
#如果网站的SSL证书是经过CA认证,就需要单独处理SSL证书,让程序忽略SSL证书验证错误,即可正常访问
context = ssl._create_unverified_context() #忽略安全
urlhead="https://www.99zuowen.com/gaozhongzuowen/gaoyizuowen/" #99阅读网
urltail=".html"
headers={"User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE"}
for page in range(1,6):
url=urlhead+str(page)+urltail
# url 作为Request()方法的参数,构造并返回一个Request对象
request=urllib.request.Request(url,headers=headers)
#Request对象作为urlopen()方法的参数,发送给服务器并接收响应
#在urlopen()方法里 指明添加 context 参数
response=urllib.request.urlopen(request,context=context).read()
#print(response.decode('utf-8'))
strl=response.decode('utf-8')
result=re.findall( '<small>时间:</small>(/.?)<small>责任编辑:</small> <small>点击:</small><script src="(/.?)" type="text/javascript" language="javascript"></script>次',strl,re.S)
jobList= []
for x in result:
jobinfo = {'时间':x[0], '责任编辑':x[1], '点击':x[2]} #target':x[0], 'script':x[1],, 'nyst':x[3]
jobList.append(jobinfo)
print(jobList)