m0_59725299 2021-07-29 21:50 采纳率: 26.7%
浏览 41
已结题

为什么我爬到的东西是空白的网页

from urllib import request
import urllib
import time

def loadpage(fullurl,filename):
print("正在下载:",filename)
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.
0.3538.25 Safari/537.36 Core/1.70.3641.400 QQBrowser/10.4.3284.400"
}
req=request.Request(fullurl,headers=header)
response=request.urlopen(req).read()
return response

def writepage(html,filename):
print("正在保存:",filename)
with open(filename,"wb") as f:
f.write(html)#wb表示以二进制的形式写入文件
print("------------------")

def tiebaSpider(url,begin,end):#构造url
for page in range(begin,end+1):
pn=(page-1)*50
#每次请求完成的url
fullurl=url+"&pn="+str(pn)#因为pn是数字,所以用str转换成字符串
filename="e:/nsxt/第"+str(page)+"页.html"#每次请求后保存的文件名

    html=loadpage(fullurl,filename)#爬取网页

    writepage(html,filename)#把获取的信息写到本地

if name == 'main':#开始执行
kw=input("请输入要爬取的贴吧名:")
begin=int(input("请输入起始页:"))
end=int(input("请输入结束页:"))

url="http://tieba.baidu.com/f?"

key=urllib.parse.urlencode({"kw":kw})

a=url+key
tiebaSpider(url,begin,end)

time.sleep(8)
  • 写回答

1条回答 默认 最新

  • m0_59725299 2021-07-30 15:41
    关注

    这个我也不知道

    评论

报告相同问题?

问题事件

  • 系统已结题 8月6日
  • 创建了问题 7月29日

悬赏问题

  • ¥20 帮我解决这个项目,thank you各位程序员
  • ¥15 哪位能用ea软件做一下,有偿
  • ¥15 按要求编写汇编语言,并设计仿真电路图
  • ¥15 电脑软件运行次数如何统计
  • ¥15 同一个浏览器打开两个窗口怎么区分会话
  • ¥100 如何编写自己的emmc镜像
  • ¥15 starccm线性内聚力模型
  • ¥15 点云四边形凸包确定顶点
  • ¥15 关于redhat虚拟机系统新建卷的问题
  • ¥50 WRFDA读取风云四号A 星的GIIRS数据