weixin_52130329 2021-06-16 16:50 采纳率: 50%

已采纳

python爬虫入门问题

import urllib.request,urllib.error

from bs4 import BeautifulSoup

import re

import xlwt

import sqlite3

def main():

baseurl="https://movie.douban.com/top250?star="

#1.爬取网页

datalist=getData(baseurl)

#2.逐一解析网页

#3.保存网页

askURL("https://movie.douban.com/top250?star=")

#爬取网页

def getData(baseurl):

datalist=[]

for i in range(0,10):

url=baseurl+str(i*25)

html=askURL(url) #保存

#2.逐一解析网页

soup=BeautifulSoup(html,"html.parser") #(形成对象 )(BeautifulSoup有2个属性，一个是要解析的文件，一个是解析器)

for item in soup.find_all('div ',class_="item"):

# print(item)

return datalist #调用datalist=""，调用了值，但是要有返回值

#得到指定一个URL的网页内容

def askURL(url):

head={ #模拟浏览器头部信息，向豆瓣服务器发送信息

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.101 Safari/537.36 Edg/91.0.864.48"

}

request=urllib.request.Request(url,headers=head) #发送请求

html=""

try:

response=urllib.request.urlopen(request)

html=response.read().decode("utf-8")

print(html)

except urllib.error.URLError as e:

if hasattr(e,"code"):

print(e.code) #编码问题

if hasattr(e,"reason"):

print(e.reason) #错误原因

return html

if __name__=="__main__": #当程序执行时#程序入口，确定程序从哪执行

#调用函数

main()

爬的豆瓣信息出来了但也有报错

报错：

Traceback (most recent call last):
File "f:/爬虫/1/爬取豆瓣.py", line 53, in <module>
main()
File "f:/爬虫/1/爬取豆瓣.py", line 13, in main
datalist=getData(baseurl)
File "f:/爬虫/1/爬取豆瓣.py", line 28, in getData
soup=BeautifulSoup(html,"html.parser") #(形成对象 )(BeautifulSoup有2个属性，一个是要解析的文件，一个是解析器)
File "D:\python\lib\site-packages\bs4\__init__.py", line 310, in __init__
elif len(markup) <= 256 and (
TypeError: object of type 'NoneType' has no len()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-HGJ 2021-06-16 17:34
关注
有两个错误的地方，一是在askURL函数里，不要把return html放到except里,否则没有异常时返回为None，将其写成与try,except对齐；二是在函数

getData里，for循环遍历数据时没有将数据保存到datalist中，在循环中加一句 datalist.append(item),另外后面的return语句要与for对齐。

如对你有帮助，请点采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫从入门到精通（模块）
2023-03-17 18:50

这份文档旨在帮助想要学习Python爬虫的初学者，从入门到精通逐步提升自己的技能。以下是我们将要涵盖的主题： ## 入门篇 1. Python爬虫简介 2. Requests库的使用 3. Beautiful Soup库的使用 4. 爬虫实战：爬取百度...
Python 爬虫入门与实战
2024-08-21 09:39

这是一篇详细介绍 Python 爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30 分钟即可学会编写简单的 Python 爬虫。这篇 Python 爬虫教程主要讲解以下 5 部分内容...
python 爬虫入门实例.zip
2024-04-25 07:29

Python爬虫，简而言之，就是使用Python编程语言来编写的网络爬虫程序。网络爬虫是一种自动化程序，能够在互联网上自动抓取并提取所需的信息。Python作为一种功能强大且易于学习的编程语言，特别适合用来编写爬虫。...
Python爬虫入门教程：超级简单的Python爬虫教程Python入门实例中文PDF版最新版本
2024-11-30 07:30

Python爬虫入门教程是一篇超详细介绍 Python 爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30 分钟即可学会编写简单的 Python 爬虫。 Python 爬虫入门实例主要...
python爬虫入门开发
2024-08-19 15:24

python爬虫入门开发，帮你踏出第一步
Python爬虫入门教程.docx
2024-08-19 14:58

Python爬虫入门教程.docx
Python爬虫入门实战
2022-06-28 08:41

Python爬虫入门实战
Python爬虫入门教程：超级简单的Python爬虫教程 python
2024-04-04 21:41

Python爬虫入门教程：超级简单的Python爬虫教程
Python爬虫入门教程（非常详细）_python爬虫自学
2024-12-18 03:15

2401_89224782的博客网络爬虫一般分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干个初始网页的URL开始，抓取网页时不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件才停止，即通过源码解析来获得想要的内容。聚焦爬虫需要...
python爬虫入门（保姆教程）
2024-11-08 06:00

烧水烫浪鸟的博客其实上面演示的就是一个最简单的爬虫了，但是不是所有网页我们都可以这么爬取的。这个小tips的作用在于我们以后爬取网页时，常常需要解析网页的结构，从源代码中获取我们想要的数据。的数据，换句话说，Headers就是...
没有解决我的问题, 去提问

python爬虫入门问题

3条回答 默认 最新

3条回答默认最新