为何爬取不了淘宝的数据？

 import requests
import re
def getHTMLtext(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ' '
def parsePage(clist, html):
    try:
        plt = re.findall(r'\'view_price\'\:\'[\d\.]*\' ' ,html)
        tlt = re.findall(r'\'raw_title\'\:\'.*?\' ' ,html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            clist.append([price, title])
    except:
        print('')
    print(clist)
def printGoodslist(clist):
    tplt = '{:4}\t{:10}\t{:16}'
    print(tplt.format('序号','价格','商品名称'))
    count = 0
    for c in clist:
        count += 1
        print(tplt.format(count, c[0], c[1]))


def main():
    goods = '书包'
    depth = 2
    start_url = 'https://s.taobao.com/search?q=' + goods
    infolist = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHTMLtext(url)
            parsePage(infolist, html)
        except:
            continue
    printGoodslist(infolist)
main()

打印出来其中的clist列表是空的，是不是正则表达式写错了？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
.yi.ming. 2020-03-25 16:16
关注
这是之前北京理工大学的一个关于python爬虫入门的国家精品课里面的程序。代码本身没问题，但是现在淘宝网要登陆，所以并不是获取的商品的信息。
print(html[2000:3000])可知“...为确保您账户的安全及正常使用，依《网络安全法》相关要求，6月1日起会员账户需绑定手机。如您还未绑定，请尽快完成，感谢您的理解及支持！...”跳出的是登陆页面。可以用京东的商品练习。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

为何爬取不了淘宝的数据？ python 正则表达式
2018-10-07 12:29

回答 2 已采纳这是之前北京理工大学的一个关于python爬虫入门的国家精品课里面的程序。代码本身没问题，但是现在淘宝网要登陆，所以并不是获取的商品的信息。 print(html[2000:3000])可知“
为什么python爬取下来的json格式的数据解析后不能用列表推导式输出数据? python 有问必答
2021-06-10 15:32

回答 3 已采纳 title = [i['title'] for i in data['data']['list']]
selenium爬取淘宝数据时，存入mysql的数据不匹配（小白求救） python
2021-04-22 07:16

回答 5 已采纳您可以少爬点数据然后将爬到的数据和成功存入数据库的数据进行对比看看能不能找到是那些没被存入进去看您提供的Navicat截图您是使用的char存文本的猜测可能是爬取的内容长度超过了 ch
python爬取淘宝商品详情页数据
2020-09-20 18:27

主要为大家详细介绍了python爬取淘宝商品详情页数据的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
用selenium爬取淘宝多页数据时，只是重复打印一页 python
2021-04-06 22:14

回答 5 已采纳如果没看错的话，您在data函数中做了3次循环，是想爬前三页的数据吗？如果是的话，问题就出在soup上，您的soup是第一页的内容，不管循环多少次，都是在对第一页进行操作
爬取某宝数据获取cookie中的x5sec python 开发语言
2021-01-21 13:34

回答 8 已采纳用selenium试试呢 https://download.csdn.net/download/weixin_38518885/12923738?utm_medium=distribute.pc_r
救救孩子吧！！为啥爬取淘宝评论的时候，返回的json数据中关键元素是0啊？ json python
2019-11-27 16:14

回答 1 已采纳牺牲性能，使用selenium吧
python爬取淘宝手机销售数据
2018-08-15 11:55

爬取淘宝手机月销售数据，以excel表格形式存储，以条形图形式展示不同品牌手机在淘宝的月销售量。可以通过更改关键字手机实现对其他商品的爬取。详细介绍...
Python爬虫可行？？？ python 有问必答
2021-07-06 07:10

回答 2 已采纳不登陆的情况下不可以爬数据，网站会自动验证登录状态，你可以cookies去做，实际上也是已经登录了用户。如果跳过登录直接拿数据，就是入侵了，一般技术是做不到，而且难度大也是违法。如果对你有帮助，可以点
淘宝爬虫为什么爬不了信息 python
2021-10-05 11:31

回答 3 已采纳刚学的话建议拿不知名的小站练练手大站都有防爬虫机制就算出错了你都不知道是自己的代码问题还是网站本身的问题还有大站的防爬虫机制经常在变化一两句话说不清楚。
自己自学了Python3个月,学了基础和爬虫的基础知识，接下来不知应如何深造和发展，请专家指引名路，让我有学习的方向 python
2021-10-18 19:27

回答 6 已采纳大概的学习路线可以参考这篇文章爬虫逆向学习进阶路线_李玺-CSDN博客_爬虫进阶路线大数据时代下，爬虫技术逐渐成为一套完整的系统性工程
1688、淘宝网站数据爬取（python实现）
2023-08-21 22:46

auto_taobao.py 是使用 selenium 框架直接操纵浏览器进行数据爬取, 在该文件的27行的函数参数需要自己手动填写需要进行搜索的商品名称，填完之后运行即可自动爬取~ ./测试文件/requests_02.py 是使用 requests 框架...
selenium爬虫报错，请各位大大帮我看下是哪里问题 python 爬虫
2021-12-15 22:43

回答 1 已采纳 get_product()函数里的xpath语法全都有问题啊1、//*后面不能有div了，直接接属性及属性值了2、说实话你第一句//*div[@class="items"]/div[@class="i
Python爬取淘宝商品信息
2019-09-05 17:56

猪哥66的博客前面我们已经介绍过了如何使用requests库登录淘宝，收到了很多同学的反馈和提问，猪哥感到很欣慰，同时对那些没有及时回复的同学说声抱歉！顺便再提一下这个登录功能，代码是完全没有问题。...
python 淘宝数据（数据爬取+可视化）.zip
2021-08-15 16:03

使用python爬取tb网手机销售数据，并将数据存入csv文件中，并通过手机销售排名、手机价格排名以及手机词云分析等内容进行数据分析可视化。本资源适合新手小白和在校学生，可根据具体需求更改，使用前请务必查看说明...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月27日

悬赏问题

¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题
¥15 Python时间序列如何拟合疏系数模型
¥15 求学软件的前人们指明方向🥺
¥50 如何增强飞上天的树莓派的热点信号强度，以使得笔记本可以在地面实现远程桌面连接
¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn

为何爬取不了淘宝的数据？

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新