weixin_52130329 2021-06-16 16:50 采纳率: 50%

已采纳

python爬虫入门问题

import urllib.request,urllib.error

from bs4 import BeautifulSoup

import re

import xlwt

import sqlite3

def main():

baseurl="https://movie.douban.com/top250?star="

#1.爬取网页

datalist=getData(baseurl)

#2.逐一解析网页

#3.保存网页

askURL("https://movie.douban.com/top250?star=")

#爬取网页

def getData(baseurl):

datalist=[]

for i in range(0,10):

url=baseurl+str(i*25)

html=askURL(url) #保存

#2.逐一解析网页

soup=BeautifulSoup(html,"html.parser") #(形成对象 )(BeautifulSoup有2个属性，一个是要解析的文件，一个是解析器)

for item in soup.find_all('div ',class_="item"):

# print(item)

return datalist #调用datalist=""，调用了值，但是要有返回值

#得到指定一个URL的网页内容

def askURL(url):

head={ #模拟浏览器头部信息，向豆瓣服务器发送信息

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"

}

request=urllib.request.Request(url,headers=head) #发送请求

html=""

try:

response=urllib.request.urlopen(request)

html=response.read().decode("utf-8")

print(html)

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code) #编码问题

if hasattr(e,"reason"):

print(e.reason) #错误原因

return html

if __name__=="__main__": #当程序执行时#程序入口，确定程序从哪执行

#调用函数

main()

爬的豆瓣信息出来了但也有报错

报错：

Traceback (most recent call last):
File "f:/爬虫/1/爬取豆瓣.py", line 53, in <module>
main()
File "f:/爬虫/1/爬取豆瓣.py", line 13, in main
datalist=getData(baseurl)
File "f:/爬虫/1/爬取豆瓣.py", line 28, in getData
soup=BeautifulSoup(html,"html.parser") #(形成对象 )(BeautifulSoup有2个属性，一个是要解析的文件，一个是解析器)
File "D:\python\lib\site-packages\bs4\__init__.py", line 310, in __init__
elif len(markup) <= 256 and (
TypeError: object of type 'NoneType' has no len()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-16 17:34
关注
有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数

getData里，for循环遍历数据时没有将数据保存到datalist中，在循环中加一句 datalist.append(item),另外后面的return语句要与for对齐。

如对你有帮助，请点采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫入门问题 python 有问必答
2021-06-16 16:50

回答 3 已采纳有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数 getData里，for循环
python爬虫入门请教问题 python 有问必答
2021-03-29 21:25

回答 4 已采纳你只是爬了个静态的，网页还有很多动态元素；有一些是相对路径的，在对方的服务器上，你本地无法加载到。你看百度的快照，跟你这种差不多，如果你想完全一样的页面，除了一些小网站，其他基本不可能。
python爬虫入门 python 有问必答
2021-07-01 19:02

回答 3 已采纳 1.在soup=BeautifulSoup(htm,'lxml')里的hml加上text,即写成htm.text 2.在最后，写上main(),调用main(),运行程序。
Python爬虫入门教程.docx
2023-07-23 21:08

Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程Python爬虫入门教程...
Python爬虫入门 html5 javascript python
2020-12-11 23:58

回答 6 已采纳 爬虫入门先学python语法，之后就是各种爬虫库了，入门到提高可以看下这篇文章我用#CSDN#这个app发现了有技术含量的博客，小伙伴们求同去《Python爬虫100例教程导航帖（已完结）》, 一起来
python入门爬虫时的问题 python
2019-04-17 07:37

回答 3 已采纳这是一种反爬手段，只有在浏览器打开，或者模拟浏览器打开，才能看到这些内容。可以学一下selenium库，专门针对动态页面的爬取
入门级别python问题 python 爬虫
2022-12-31 00:53

回答 8 已采纳 1首先你的代码压根就没返回相应内容头信息不全无法获取2.其次你的定位不到是最后的这个tbody（也就是最后的那个table后面那个）浏览器会对html文本进行一定的规范化，所以会自动在路径中加入tb
python 爬虫入门实例.docx
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
新手关于Python爬虫的问题 python 前端爬虫
2016-02-01 07:47

回答 4 已采纳 XML Regular Expression HTML Javascript CSS Shell Linux 能学的尽量都学，知识面广点。
新手入门python爬虫问题请教，急急急 python
2019-05-01 11:52

回答 1 已采纳 urllib.request.urlopen('https://python.org')
源码10 个 Python 爬虫入门实例
2023-02-24 10:03

【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例【源码】10 个 Python 爬虫入门实例...
python 爬虫入门实例.zip
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
Python爬虫入门教程
2023-11-21 11:16

Python爬虫入门教程
大学生 Python爬虫入门指南.pptx
2023-09-08 10:17

大学生 Python爬虫入门指南.pptx 大学生 Python爬虫入门指南.pptx 大学生 Python爬虫入门指南.ppt 大学生 Python爬虫入门指南.pptx 大学生 Python爬虫入门指南.pptx 大学生 Python爬虫入门指南.ppt 大学生 Python...
没有解决我的问题, 去提问

悬赏问题

¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持

python爬虫入门问题

3条回答 默认 最新

悬赏问题

3条回答默认最新