通过剪贴板复制QQ的聊天记录,获取的含有HTML,处理文本如下:
StartHTML:0000000117\r\n
EndHTML:0000029153\r\n
StartFragment:0000000153\r\n
EndFragment:0000029117\r\n
SourceURL:\r\n
<html>\r\n
<body>\r\n
<!--StartFragment-->中通客服A 16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知 不清楚详细地址。麻烦贵司协助处理 暂放到期无回复退回<br><br>中通客服B 16:05:25<br>78625729666666<br>可以退款<br><br>中通客服C 16:06:25<br>78625788888888<br>地址不详/错误\t<br>电话联系客户不愿告知/不清楚详细地址<br><br>记得早点处理。<br><br>中通客服D 16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br><br><br>游客E 16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br>游客F 16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知/不清楚详细地址。麻烦贵司协助处理 暂放到期无回复退回<br><br><!--EndFragment-->\r\n
</body>\r\n
</html>
这个是模拟QQ聊天记录所复制出来的带有格式的聊天内容。怎么按段提取内容如下格式:
第一段:
中通客服A 16:04:25<br>78625727777777<br>地址不详/错误\t<br>电话联系客户不愿告知 不清楚详细地址。麻烦贵司协助处理 暂放到期无回复退回<br><br>
第二段:
中通客服B 16:05:25<br>78625729666666<br>可以退款<br><br>
第三段:
中通客服C 16:06:25<br>78625788888888<br>地址不详/错误\t<br>电话联系客户说换地址<br><br>记得早点处理。<br><br>
第四段:
中通客服D 16:07:25<br>786257999999999<br>好,<br><br><br><br><br><br>知道了<br><br>
我遇到的问题就是第三段,有两个:
就不能用
作为结尾判断,不知道咋写了。 这个是连串的数字,也没有换行符和空格,边界定位可能需要这些制表符才可以。所以我也不知道怎么用边界了。
我边写的格式如下:
(中通客服A|中通客服B|中通客服C|中通客服D) (202[23]/[01]?\d/[123]\d )?([012]?\d:[012345]\d:[012345]\d)<br>.+?<br><br>