秋风七号 2022-10-25 17:45 采纳率: 100%
浏览 40
已结题

正则提取QQ聊天记录,按每个人一条信息提取为一行

通过剪贴板复制QQ的聊天记录,获取的含有HTML,处理文本如下:



StartHTML:0000000117\r\n
EndHTML:0000029153\r\n
StartFragment:0000000153\r\n
EndFragment:0000029117\r\n
SourceURL:\r\n
<html>\r\n
<body>\r\n
<!--StartFragment-->中通客服A&nbsp;16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知&nbsp;不清楚详细地址。麻烦贵司协助处理&nbsp;暂放到期无回复退回<br><br>中通客服B&nbsp;16:05:25<br>78625729666666<br>可以退款<br><br>中通客服C&nbsp;16:06:25<br>78625788888888<br>地址不详/错误\t<br>电话联系客户不愿告知/不清楚详细地址<br><br>记得早点处理。<br><br>中通客服D&nbsp;16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br><br><br>游客E&nbsp;16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br>游客F&nbsp;16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知/不清楚详细地址。麻烦贵司协助处理&nbsp;暂放到期无回复退回<br><br><!--EndFragment-->\r\n
</body>\r\n
</html>

这个是模拟QQ聊天记录所复制出来的带有格式的聊天内容。怎么按段提取内容如下格式:

第一段:
中通客服A&nbsp;16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知&nbsp;不清楚详细地址。麻烦贵司协助处理&nbsp;暂放到期无回复退回<br><br>

第二段:
中通客服B&nbsp;16:05:25<br>78625729666666<br>可以退款<br><br>

第三段:
中通客服C&nbsp;16:06:25<br>78625788888888<br>地址不详/错误\t<br>电话联系客户说换地址<br><br>记得早点处理。<br><br>

第四段:
中通客服D&nbsp;16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br>

我遇到的问题就是第三段,有两个:

img

就不能用

img


作为结尾判断,不知道咋写了。 这个是连串的数字,也没有换行符和空格,边界定位可能需要这些制表符才可以。所以我也不知道怎么用边界了。
我边写的格式如下:

(中通客服A|中通客服B|中通客服C|中通客服D)&nbsp;(202[23]/[01]?\d/[123]\d&nbsp;)?([012]?\d:[012345]\d:[012345]\d)<br>.+?<br><br>

img

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月2日
    • 修改了问题 10月25日
    • 修改了问题 10月25日
    • 修改了问题 10月25日
    • 展开全部

    悬赏问题

    • ¥15 C#中的编译平台的区别影响
    • ¥15 软件供应链安全是跟可靠性有关还是跟安全性有关?
    • ¥15 电脑蓝屏logfilessrtsrttrail问题
    • ¥20 关于wordpress建站遇到的问题!(语言-php)(相关搜索:云服务器)
    • ¥15 【求职】怎么找到一个周围人素质都很高不会欺负他人,并且未来月薪能够达到一万以上(技术岗)的工作?希望可以收到写有具体,可靠,已经实践过了的路径的回答?
    • ¥15 Java+vue部署版本反编译
    • ¥100 对反编译和ai熟悉的开发者。
    • ¥15 带序列特征的多输出预测模型
    • ¥15 Python 如何安装 distutils模块
    • ¥15 关于#网络#的问题:网络是从楼上引一根网线下来,接了2台傻瓜交换机,也更换了ip还是不行