关于#python#的问题，请各位专家解答！

import requests,re
goods='书包'

def getHtmlText(url):
    try:
        r=requests.get(url)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return ""
def parsePage(ilt,html):
    try:
        plt=re.findall(r'\"price\"\:\"[\d\.]*\"',html)
        tlt=re.findall(r'\"title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price=eval(plt[i].split(':')[1])
            title=eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
        print("")
def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号", "价格", "名字"))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))
def main():
    goods='书包'
    depth=3
    start_url='https://s.taobao.com/search?q='+goods
    infolist=[]
    for i in range(depth):
        try:
            url=start_url+'&page='+str(i)
            html=getHtmlText(url)
            parsePage(infolist,html)
        except:
            continue
    printGoodsList(infolist)
main()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-06 22:46

关注

引自免费微信小程序：皆我百晓生

好的，我会尽力为您提供详细的解答。

首先，我们来看一下您给出的Python代码部分。这段代码主要是实现了一个爬虫程序，用于从淘宝上搜索商品信息并将其存储到列表中。但是，这个程序有一个问题：在获取商品标题时，使用了eval函数，这可能导致安全问题。为了解决这个问题，我们可以将价格和标题分离出来，并在后续的循环中使用它们。

接下来，让我们解决HTML文本解析的问题。在这个例子中，代码使用了正则表达式来匹配网页中的价格和标题。但是，这种方式可能会有误，因为我们可能不会看到所有的价格标签和标题标签。因此，我们需要遍历整个HTML文档，找到所有的匹配项，并将其保存到list中。

在处理完这些问题后，我们将打印出商品列表。在这个过程中，我们会使用字符串格式化技术，以便将数据以表格的形式输出。同时，为了防止用户输入错误的数据，我们将对用户的输入进行验证。

下面是完整的代码实现：

import re
import requests

# 定义商品名称
goods = '书包'

# 定义深度
depth = 3

# 遍历深度
for i in range(depth):
    # 获取当前页面的URL
    url = f"https://s.taobao.com/search?q={goods}"

    # 使用requests库发送GET请求
    response = requests.get(url)

    # 检查请求是否成功
    if response.status_code == 200:
        # 解析HTML文本
        html = response.text

        # 提取价格和标题
        price_str = re.search(r'\"price\"\:\\\/\\d.*\","', html)
        price = float(price_str.group())
        title_str = re.search(r'\"title\"\:\\\/.*?\,"', html)
        title = title_str.group()

        # 将价格和标题保存到list中
        infolist.append([price, title])

        # 进行下一步
        continue
    else:
        print(f"请求失败。状态码：{response.status_code}")
        continue

# 打印商品列表
print("商品列表：")
for g in infolist:
    print(f"{g[0]}：{g[1]}")

# 主函数
def main():
    goods = '书包'
    depth = 3
    start_url = f"https://s.taobao.com/search?q={goods}"
    infolist = []

    for i in range(depth):
        try:
            url = start_url
            url += "&page=" + str(i)

            response = requests.get(url)

            if response.status_code == 200:
                html = response.text
                pattern = r'"price"\:\\\/\\d.*\","'
                matches = re.findall(pattern, html)
                price = float(matches[0])
                title = matches[1]
                infolist.append([price, title])

                continue
            else:
                print(f"请求失败。状态码：{response.status_code}")
                continue

        except Exception as e:
            print(e)

    print("商品列表：")
    for g in infolist:
        print(g)

if __name__ == "__main__":
    main()

注意：这个代码示例仅供参考，实际应用时需要根据实际情况调整参数和逻辑。

编辑记录

报告相同问题？

关注问题

一万字一篇文20分钟学会C语言和Python，十四年编程经验老鸟传授经验之道
2021-04-14 01:08

1_bit的博客昨天在直播中有粉丝问我如何快速的对编程语言入门，我想这个问题是有必要让大家知道的，相必也有很多新手对于如何快速完成编程语言的入门学习很感兴趣，本篇文将会使用 C 语言以及 Python 为例，做出对比，让大家对...
2021年十大热门编程语言
2021-05-17 01:27

前端瓶子君的博客点击上方前端瓶子君，关注公众号回复算法，加入前端编程面试算法每日一题群来源：bigo大魔王https://juejin.cn/post/6932278515714752525前言编程已成...
2024年Python最全这十个Python常用库，学习Python的你必须要知道！
2024-05-01 04:46

2401_84563465的博客这些工具的用途非常广泛，简化了从文件系统访问、数据库编程、云服务到构建轻量级web应用程序、创建gui、图像...有些库是众所周知的，有些则不太为人所知，但是所有这些Python库都应该在各位的工具箱中占有一席之地。
豆瓣工程师为你解答关于 Python3 编程方面的问题
2016-10-12 07:51

weixin_34366546的博客 2019独角兽企业重金招聘Python工程师标准>>> ...
2026年Python+AI学习路线完整指南：从零基础到实战专家
2026-03-04 21:55

Halcyon.平安的博客 Python已成为人工智能领域最主流的编程语言，根据Stack Overflow 2024年开发者调查，Python在AI/ML领域的使用率超过85%。
《Python3网络爬虫开发实战（第二版）》上市了！！！！
2021-11-29 12:00

风度78的博客 “阅读本文大概需要 5 分钟。”告诉大家一个好消息：我的好朋友崔庆才老师的《Python3网络爬虫开发实战（第二版）》现在正式上市了！！！！没错，就是这本：就是那个《Python3网络...
Java编程神器对决：飞算JavaAI单挑全球劲旅
2025-06-07 23:26

正在走向自律的博客在 AI 编程时代，飞算 JavaAI 成为焦点。它针对国内 Java 开发痛点，凭借对 Java 开发全流程的深度支持、高水准代码质量、显著效率提升及出色易用性，与国外工具如 GitHub Copilot、Cursor、DeepSeek 等相比优势突出...
Go专栏“改善Go语言编程质量的50个有效实践”上线了
2020-09-09 08:30

Tony Bai的博客断断续续写了一年多的Go专栏：《改善Go语言编程质量的50个有效实践》今天终于正式上线了！- https://www.imooc.com/read/87慕课专栏：《改善Go语言编程质量的...
《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！
2021-11-26 12:32

VIP_CQCRE的博客 “ 阅读本文大概需要 5 分钟。 ”大家好！我是崔庆才。今天告诉大家一个好消息：《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！没错，就是这本：2018 年 5 月我的《...
5本豆瓣高分Python技术书籍
2024-04-23 17:39

七七Seven～的博客分别是：《Python学习手册》，豆瓣8.2分《Python编程，从入门到实践》，豆瓣9.3分《Python Cookbook》，豆瓣9.2分《流畅的Python》，豆瓣9.4分《Python标准库》，豆瓣8.4分这五本书，有三个共同特质，首先都是Python...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月6日

关于#python#的问题，请各位专家解答！

4条回答 默认 最新

问题事件

4条回答默认最新