python爬虫获取不到数据问题

python爬虫获取不到数据问题，我编写了一个爬虫，能成功运行出来，但是有些数据一直获取不到，程序并没有报错，不知道是那出了问题，希望各位能解答一下

findLink = re.compile(r'<a href="(.*?)" onclick.*?>')  #图书详情链接 创建正则表达式对象，标售规则   影片详情链接的规则
findImgSrc = re.compile(r'<img src="(.*?)".*?>', re.S) #图书海报
findTitle = re.compile(r'<a.*?title="(.*?)">') #书名
findRating = re.compile(r'<span class="rating_nums">(.*?)</span>')#图书评分
findJudge = re.compile(r'<span class="pl">(\d*)人评价</span>')#评价人数
findInq = re.compile(r'<span class="inq">(.*)</span>') #概述
findBd = re.compile(r'<p class="pl">(.*?)</p>') #相关信息
#<span class="pl">\((.*?)人评价.*?
#<span class="p1">(\d*)人评价</span>


def getData(baseurl):
    datalist = []  # 用于存放所有书的信息
    for i in range(11):  # 调用获取页面信息的函数，一共10页，根据豆瓣图书的链接规律得到
        # 1、生成访问链接
        #baseurl = "https://book.douban.com/top250?start="
        url = baseurl + str(i * 25)
        html = askURL(url)  # 爬取网页函数，见第五步

        # 2、解析数据
        soup = BeautifulSoup(html, "html.parser")
        for item in soup.find_all('tr', class_='item'):
            # 根据html网页可以看到每本书是一个item
            item = str(item)
            data = []  # 用于存放一本书的所有信息

            link = re.findall(findLink, item)[0]  # 通过正则表达式查找
            data.append(link)
            imgSrc = re.findall(findImgSrc, item)[0]
            data.append(imgSrc)
            titles = re.findall(findTitle, item)
            if (len(titles) == 1):  # 修改
                ctitle = titles[0]
                data.append(ctitle)
                #otitle = titles[1].replace("/", "")  # 消除转义字符
                #data.append(otitle)
            else:
                data.append(titles[0])
                data.append(' ')
            rating = re.findall(findRating, item)[0]
            data.append(rating)
            judgeNum = re.findall(findJudge, item)
            data.append(judgeNum)
            inq = re.findall(findInq, item)
            if len(inq) != 0:
                inq = inq[0].replace("。", "")
                data.append(inq)
            else:
                data.append(" ")
            bd = re.findall(findBd, item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?', "", bd)
            bd = re.sub('/', "", bd)
            data.append(bd.strip())
            datalist.append(data)
    return datalist

def saveData(datalist, savepath):
    print("save.......")
       # 1、创建workbook对象
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)
    # 2、sheet表信息
    sheet = book.add_sheet('豆瓣图书TOP250', cell_overwrite_ok=True)  # 创建工作表
    # 3、写入数据
    col = ('图书详情链接', "图书海报", "图书书名", "图书评分", "图书评价人数", "概况", "图书相关信息")
    for i in range(0,10):
        sheet.write(0, i, col[i])   # 列名
        break
    for i in range(250):
        # print("第%d条" %(i+1))       #输出语句，用来测试
        data = datalist[i]
        for j in range(0,10):
            sheet.write(i+1, j, data[j])
            break
    book.save(savepath)  # 保存数据表

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MR_Bone 2023-06-07 09:58
关注
根据您提供的代码，可能出现数据获取不到的问题有以下几个可能原因：

网页结构变化：爬虫获取数据的代码是基于特定的网页结构设计的，如果目标网页的结构发生变化，例如标签名、属性名的修改，就会导致无法正常获取数据。
正则表达式匹配规则不准确：正则表达式是用来匹配特定模式的工具，如果匹配规则不准确或过于具体，可能无法匹配到目标数据。请确保正则表达式与目标网页的实际结构匹配。
网络请求被阻止：有些网站可能会采取反爬虫措施，例如设置访问频率限制、验证码验证等。如果您的爬虫频繁请求目标网页，可能会被网站的反爬虫机制阻止，导致部分数据无法获取。

解决这些问题的方法包括：

检查目标网页的结构：使用浏览器开发者工具或其他工具查看目标网页的源代码，确保代码中使用的标签、属性等信息与实际网页结构一致。
调试正则表达式：可以使用在线的正则表达式调试工具，逐步调试正则表达式，确保能够准确匹配到目标数据。
设置合理的请求频率：为了避免被网站的反爬虫机制阻止，可以在爬虫代码中设置适当的请求间隔，模拟人的正常访问行为。
使用其他爬虫库或框架：除了使用正则表达式进行数据提取，还可以考虑使用其他强大的爬虫库或框架，例如Scrapy、Beautiful Soup等，它们提供了更高级的功能和更方便的数据提取方式。

希望以上解答对您有帮助！如果还有其他问题，请随时提问。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
1人已打赏

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬虫问题<span class="label">租赁方式：</span>“整租”，爬不到整租 python
2020-07-21 21:51

回答 1 已采纳整租不属于span标签，你可以把以li标签为爬取目标。你看房屋类型下面的“3室2厅”也没有，是因为他们不属于span标签的内容。可以直接爬li，如果看着标签不好看，可以用正则表达式把<&gt
xpath定位获取数据为空的问题 python 爬虫
2023-03-23 14:13

回答 1 已采纳 https://blog.csdn.net/superwfei/art
Python爬虫知识点梳理
2023-04-23 20:37

爬虫涉及的技术包括但不限于熟练一门编程语言（这里以 Python 为例） HTML 知识、HTTP 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用、涉及到大规模爬虫，还需要了解分布式的概念、...
python里requests.get到的数据.json()出错是怎么回事，求解，急！~ python 有问必答爬虫
2021-10-05 00:13

回答 3 已采纳返回的值不符合json规范，先返回文本，打印内容看看，再做处理。
自己自学了Python3个月,学了基础和爬虫的基础知识，接下来不知应如何深造和发展，请专家指引名路，让我有学习的方向 python
2021-10-18 19:27

回答 6 已采纳大概的学习路线可以参考这篇文章爬虫逆向学习进阶路线_李玺-CSDN博客_爬虫进阶路线大数据时代下，爬虫技术逐渐成为一套完整的系统性工程
为什么我的函数命令突然执行不了了呀？ python 开发语言
2022-01-25 13:52

回答 3 已采纳换个别的名字？
python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar
2022-05-01 09:47

（含源码及报告）本程序分析了自2016年到2021年（外加）每年我国原油加工的产量，并且分析了2020年全国各地区原油加工量等，含饼状图，柱状图，折线图，数据在地图上显示。运行本程序需要requests、bs4、csv、pandas...
xpath解析网页文件，每行结尾都出现一个奇怪的编码“&#13” python 爬虫
2021-11-29 17:50

回答 2 已采纳 method默认为xml，设置为html就行了 etree.tostring(h2, encoding="utf-8", method='html')
selenium定位无法定位网页元素 python
2021-02-22 12:38

回答 5 已采纳您需要在该元素上使用焦点或滚动。您可能还必须使用显式等待。 WebElement firstbutton= driver.findElement(By.xpath("Your Element
xpath定位一模一样的元素，为什么selenium会报错 python selenium 爬虫
2021-12-16 20:07

回答 2 已采纳是text的问题，因为获取的内容是隐藏元素的文本，不能直接.text进行获取 from selenium import webdriver driver = webdriver.Chrome()
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
2022-05-13 15:28

互联网阿星的博客基础爬虫实战丨继续跟阿星来做一个Python爬虫实战案例。在学Python爬虫？那真得进来看看~
如何hook一个url中的参数 fiddler javascript python
2022-06-12 22:37

回答 1 已采纳嗯推荐你不要用 Object.defineProperty 去抓，因为代码不全，requesturl 你是如何设置的现在没有看到？如果debugger没进去的话不排除是没有触发成功 1：页面发请求
Python爬虫入门教程！手把手教会你爬取网页数据
2021-09-14 11:06

计算机视觉农民工的博客其实在当今社会，网络上充斥着大量有用的数据，我们只需要耐心的观察，再加上一些技术手段，就可以获取到大量的有价值数据。这里的“技术手段”就是网络爬虫。今天就给大家分享一篇爬虫基础知识和入门教程：什么是...
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客 4.25(第一天) ** 第0关认识爬虫 ** 1、初始爬虫爬虫，从本质上来说，就是利用程序在网上拿到对我们有价值的数据。 2、明晰路径 2-1、浏览器工作原理（1）解析数据：当服务器把数据...（1）获取数据：爬虫程序会根据
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 6月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月5日
展开全部

悬赏问题

¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容

python爬虫获取不到数据问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新