如何实现文本的自动化筛选截取？

问题遇到的现象和发生背景

发生在工作上的一个需求，我们需要对京东商品的标题名进行自动化截取，比如

联想拯救者Y7000P 2021新品酷睿i5高性能笔记本电脑高色域165Hz电竞屏设计本游戏本 i5-11400H丨RTX3050Ti 升配丨16G内存+512G固态 15.6英寸黑色

我希望能够自动化智能截取为联想丨拯救者Y7000P 2021 丨i5-11400H丨RTX3050Ti 丨16G内存丨512G固态丨15.6英寸这样几个字段
每期的数据量不是很大，目前仅需截取笔记本电脑的字段。

我的解答思路和尝试过的方法

我尝试过使用re+正则表达式，但是京东的标题名规则太多太复杂。虽然不是要求实现100%的字段截取，但是最后截取的效率还是很低。或者是我的方法有问题？
我也思考过是不是使用一些文本模型进行分析，但是目前没有这个技术也没有头绪。

我想要得到帮助

有没有人能不能给我提供一些思路或者工具，我想自己尝试一下。如果能点拨一下能帮我少走很多弯路，感谢了。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-文盲老顾 2021-12-03 09:49
关注
你需要自行建立几个字典，用来进行拆分这些内容，比如品牌字典，特性字典等

import re a = '_联想拯救者Y7000P 2021新品酷睿i5高性能笔记本电脑高色域165Hz电竞屏设计本游戏本 i5-11400H丨RTX3050Ti 升配丨16G内存+512G固态 15.6英寸黑色' brand = ['联想'] prop = ['内存','固态','英寸'] n = [] n += re.findall('|'.join(brand),a) b = re.split('|'.join(n),a) c = [] while len(b)>0: s = b.pop() n += re.findall('[\dGg\.]+'+'|[\dGg\.]+'.join(prop),s) c += re.split('|'.join(n),s) b = [] while len(c)>0: s = c.pop() n += [n.strip() for n in re.findall('[^\|丨]+?[a-zA-Z0-9 \.-]+',s)] print(n)

整体来说，最好是能有语义分析才好操作，虽然我也不懂，我为了政采信息提取中标企业及对应的金额就已经头疼死了
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Playwright MCP浏览器自动化全攻略：让AI听懂你的指令
2025-11-23 15:54

霍格沃兹测试学院-小舟畅学的博客你的指令： “请访问维基百科的主页，在搜索框里输入‘人工智能’，把第一段的摘要...识别出摘要段落，并用其强大的自然语言能力为你生成一个简洁的总结整个过程完全自动化，你无需手动打开浏览器或复制粘贴任何内容。
AI应用架构师总结：智能审核系统设计中的3个未来趋势（大模型+边缘+自动化）
2025-07-28 18:22

AI智能架构工坊的博客在数字内容爆炸式增长的今天，互联网平台每天需处理数以亿计的文本、图像、视频、音频等多模态内容。根据Gartner预测，到2025年，全球生成式AI产生的内容将占所有数字内容的30%，这使得内容审核面临前所未有的挑战。
如何借助人工智能AI模型开发一个类似OpenAI Operator的智能体实现电脑自动化操作？
2025-03-08 19:03

跨境IT全栈工程师的博客本文借助人工智能模型Claude给出了如何使用大语言模型API开发一个类似OpenAI Operator这样的智能体实现本地电脑自动化操作的实现思路和具体Python程序代码。
【Python】AI赋能自动化测试—Applitools Eyes让视觉检查自动化测试更智能、更高效
2024-07-16 17:29

墩墩分墩的博客由视觉人工智能(Visual AI)驱动的工具，它可以让机器模仿人眼和大脑，提供识别功能和各种回归。其Applitool Eyes工具只需一行代码**，即可分析应用程序的整个屏幕**。它利用人工智能和机器学习进行测试维护。其...
AutoGPT如何实现屏幕截图？PyAutoGUI自动化演示
2025-12-14 12:42

永不放弃yes的博客本文介绍如何利用AutoGPT与PyAutoGUI结合，实现AI驱动的屏幕截图与GUI自动化。通过任务分解、图像识别与鼠标键盘模拟，构建具备视觉感知能力的数字员工，适用于弹窗监控、系统操作等场景。
Anthropic团队实现AI智能体从个体到团队协作
2025-10-29 17:06

至顶AI实验室的博客 Anthropic团队实现AI智能体从个体到团队协作
Pytorch TextCNN实现中文文本分类（附完整训练代码）
2023-01-07 10:57

AI吃大瓜的博客 Pytorch TextCNN实现中文文本分类；TextCNN文本分类；Pytorch文本分类；中文文本分类
Qwen3-VL模拟用户点击流程完成任务自动化
2026-01-03 02:36

宋老师的博客的博客 Qwen3-VL通过视觉语言模型实现“看屏—思考—操作”闭环，无需依赖DOM选择器即可跨平台自动完成表单填写、登录等...它结合图像理解、空间推理与长上下文记忆，适应界面变化并支持多步自主决策，显著提升自动化鲁棒性。
Dify如何实现多轮对话状态的持久化存储？
2025-12-26 02:48

想法臃肿的博客 Dify通过session_id标识会话，结合Redis与PostgreSQL的冷热双层存储，实现高效且可靠的对话状态管理。利用JSONB结构灵活保存上下文，并通过可视化编排引擎支持复杂流程的记忆驱动执行，让AI应用具备连续交互能力。
【模型之美】15、Whisper+ChatGPT全流程实战：播客自动化处理从语音转文本到智能问答系统
2025-07-27 13:08

无心水的博客本文介绍了一种基于OpenAI Whisper和ChatGPT的全自动化播客处理系统，能够将长音频转化为结构化知识内容。该系统通过语音识别和文本分析技术，解决了传统播客消费存在的三大痛点：时间成本高、信息提取难和知识留存...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月3日