小白写python网络爬虫权威指南出错，求大佬们看一下

# -*- coding: GBK -*-
from bs4 import BeautifulSoup

class Website:
	
	def __init__(self,name,url,targetPattern,absoluteUrl,
		titleTag,bodyTag):
		self.name = name
		self.url = url
		self.targetPattren = targetPattern
		self.absoluteUrl = absoluteUrl
		self.titleTag = titleTag
		self.bodyTag = bodyTag
		
class Content:
	def __init__(self,url,title,body):
		self.url = url
		self.title = title
		self.body = body
		
	def print(self):
		print("URL: {}".format(self.url))
		print("TITLE: {}".format(self.title))
		print("BODY: {}".format(self.body))
		
import re
import requests

class Crawler:
	def __init__(self,site):
		self.site = site
		self.visited = []
		
	def getPage(self,url):
		try:
			req = requests.get(url)
		except requests.exceptions.RequestException:
			return None
		return BeautifulSoup(req.text, 'html.parser')
		
	def safeGet(self,pageObj,selector):
		selectedElems = pageObj.select(selector)
		if selectedElems is not None and len(selectedElems) > 0:
			return '\n'.join([elem.get_text() for elem in selectedElems])
		return ''
		
	def parse(self,url):
		bs = self.getPage(url)
		if bs is not None:
			title = self.safeGet(bs,self.site.titleTag)
			body = self.safeGet(bs,self.site.bodyTag)
			if title != '' and body != '':
				content = Content(url,title,body)
				content.print()

	def crawl(self):
		"""获取网站主页的页面链接"""
		
		bs = self.getPage(self.site.url)
		targetPages = bs.findALL('a',href=re.compile(self.site.targetPattern))
		for targetPage in targetPages:
			targetPage = targetPate.attrs['href']
			if targetPage not in self.visited:
				self.visited.append(targetPage)
				if not self.site.absolutedUrl:
					targetPage = '{}{}'.format(self.site.url,targetPage)
				self.parse(targetPage)
				
reuters = Website('Reuters', 'https://www.reuters.com', '^(/artilce/)', False,
	'h1', 'div.StandardArticleBody_body_1gnLA')

crawler = Crawler(reuters)
crawler.crawl()

代码如上，按照书上打的，运行后是这样的：

findALL是书上这么写的，我也试过改成find_all,findall,但都没用，还是报一样的错误

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
考古学家lx(李玺) python领域优质创作者 2020-11-27 10:12
关注
findAll = find_all # BS3

findChildren = find_all # BS2

应该是网站更新了吧

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

小白写python网络爬虫权威指南出错，求大佬们看一下 python
2020-11-26 21:27

回答 2 已采纳 findAll = find_all # BS3 findChildren = find_all # BS2 应该是网站更新了吧
找一个github上用python写的爬虫项目 github python 爬虫
2018-10-08 13:58

回答 1 已采纳不知道你说的爬虫项目是什么意思，是爬虫的库么？scrapy就不错。至于爬具体网站，这个每个网站都不同，没法通用。最好给出具体的需求。而且爬虫的代码都不太复杂，上升不到“项目”的高度。g
python爬虫1231231231231 python
2022-07-22 16:37

回答 2 已采纳数据是通过其他请求传过来的，然后渲染上去的
毕业设计：基于Python的网络爬虫及数据处理（智联招聘）
2022-04-13 10:31

基于Python的网络爬虫，爬虫目标网站为智联招聘，爬取内容为各职业的...这只是个简单得网络爬虫，大佬们无视就好，仅供大家参考，如果觉得可以请留言鼓励一下哈，有啥问题也可以留言，不定时查看。可以做毕业设计用
python爬虫入门请教问题 python 有问必答
2021-03-29 21:25

回答 4 已采纳你只是爬了个静态的，网页还有很多动态元素；有一些是相对路径的，在对方的服务器上，你本地无法加载到。你看百度的快照，跟你这种差不多，如果你想完全一样的页面，除了一些小网站，其他基本不可能。
基础Python如何晋级Python爬虫 python 有问必答
2021-06-05 09:23

回答 4 已采纳链接: https://pan.baidu.com/s/1eXma9SxfajLBGU5nWg8QTQ 密码: 2sfg
Python爬虫 Selenium定位元素问题 html5 python selenium
2020-12-25 16:03

回答 3 已采纳你好，可以通过xpath定位。打开F12，定位到元素上右键Copy-Copy Xpath即可获得该元素的xpath
Python爬虫获取网站视频的m3u8
2023-03-19 13:43

用的一个 python 爬虫代码，想到当初我就看了一点教程，就硬着头皮来写，到现在会写一点爬虫，想把自己的代码分享出来，给那些刚学的伙伴们一点点指引(大佬勿喷啊) 自己也还在不断学习中，希望有大佬可以对代码进行...
Python爬虫针对某网站自动签到思路 python
2019-07-02 22:31

回答 2 已采纳用浏览器f12或者用fiddler抓包，然后再在python里模拟提交
python3爬虫百度图片，结果只能显示60张，后面都是重复 python 机器学习
2019-01-07 18:22

回答 1 已采纳 ←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案 ``` #coding=utf-8 import re import requests from urllib import
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
Python爬虫、Flask框架与ECharts实现数据可视化
2022-04-08 10:31

Python爬虫、Flask框架与ECharts实现数据可视化，源码无错误！希望大家可以好好学习，用好资源，原创，搬运请表明来源，谢谢！又不足请大佬们指正！
Python爬虫、requests库的get方法，带上headers后出现编码错误 python 爬虫
2018-03-25 07:07

回答 4 已采纳头有问题啊！'Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/59.0'不知道怎么会出现...这种符号！自己去复制浏览器的user-ag
Python制作豆瓣图片的爬虫
2021-01-20 04:23

看着大佬们一说就是爬了100W+的数据就非常的羡慕，不过对于我这种初学者来说，也就爬一爬图片。　我相信很多人的第一个爬虫程序都是爬去贴吧的图片，嗯，我平时不玩贴吧，加上我觉得豆瓣挺良心的，我就爬了豆瓣首页...
基于python开发爬虫脚本,并使用django,echarts对数据进行分析+源代码+文档说明
2023-12-01 22:10

* 代码还不够完善，欢迎各位大佬们提出改进意见！ ## 使用本程序前需要先配置系统的环境 * 配置的系统环境如下： * 本系统使用的是Python3.4和Django1.8.2 * 用到的编译器是Sublime和Pycharm * 用到的...
没有解决我的问题, 去提问

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

小白写python网络爬虫权威指南出错，求大佬们看一下

2条回答 默认 最新

悬赏问题

2条回答默认最新