weixin_40960688
浮世绘太空
采纳率0%
2021-02-04 17:10

实现将文本中没有出现 url 且相邻的字符串与其下一个有 url 的字符串拼接在一起,顺序不变返回?

现有一个文本 txt 文件,内容如下:

患有抗核抗体阳性,干燥综合征
现在怀孕 抗核抗体阳性, 已怀孕10周 https://www.haodf.com/kanbing/6483842721.html
一氧化碳中毒 一氧化碳中毒 https://www.haodf.com/kanbing/6484847288.html
脑干出血一个
月零一天 脑干出血
一个月零
一天 https://www.haodf.com/kanbing/6482442757.html
一氧化碳中毒半个月 一氧化碳中毒失眠头晕 https://www.haodf.com/kanbing/6484746310.html

问题:将文本中没有出现 url 且相邻的字符串与其下一个有 url 的字符串拼接在一起,顺序不变返回一个新文件?
pattern = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+/[a-z]{7}/[0-9]+.html'
spo = re.findall(pattern, line, re.S | re.M)

思路:遍历文本字符串,并判断 spo 是否在字符串中,如果没有则加入列表并与下一个 url 的字符拼接在一起,组成一个” 问题 + 空格 + url“格式的文本。
菜鸡了,实在想不出来,有没有大佬帮忙的?

最终完成效果如下:

患有抗核抗体阳性,干燥综合征现在怀孕 抗核抗体阳性, 已怀孕10周 https://www.haodf.com/kanbing/6483842721.html
一氧化碳中毒 一氧化碳中毒 https://www.haodf.com/kanbing/6484847288.html
脑干出血一个月零一天 脑干出血一个月零一天 https://www.haodf.com/kanbing/6482442757.html
一氧化碳中毒半个月 一氧化碳中毒失眠头晕 https://www.haodf.com/kanbing/6484746310.html
  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

2条回答

  • funny123 coagenth 2月前

    给你一段简单的python代码(前提是顺序连接的):

    for output in txt.split('html'):

        if output!='':

            print(output.replace('\n','')+'html')

    点赞 1 评论 复制链接分享
  • a1767028198 a1767028198 2月前

     

     

    java代码,,最终结果因为字符串拷贝过来有换行,自己去替换换行就行了,py的话就看你有没有这些api了

    点赞 评论 复制链接分享

为你推荐