lansesky1221 2022-03-29 01:48 采纳率: 75%
浏览 42
已结题

正则表达式输出列表含空值

import re
import requests

url='http://www.chahua.com/'
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.52'
}
page_text=requests.get(url=url,headers=header).text
print(page_text)

pic=re.findall('<img.|\n?src="(\S+)".|\n?border',page_text)
print(pic)

想要用正则提取网页中图片的src数值。但是要提取的标签中有换行符和空格符,输出page_text看到标签中间有换行符和空格。
使用了正则'<img.|\n?src="(\S+)".|\n?border' 来提取所需的内容,但是不知道为什么这个正则表达式输出的结果有许多空值? 怎样修改正则表达式才能仅输出有内容的正常值?

img

  • 写回答

2条回答 默认 最新

  • chuifengde 2022-03-29 08:02
    关注
    
    pic=re.findall('<img.+?src="(\S+)".+?border',page_text, re.DOTALL)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 4月14日
  • 已采纳回答 4月6日
  • 创建了问题 3月29日

悬赏问题

  • ¥15 linux驱动,linux应用,多线程
  • ¥20 我要一个分身加定位两个功能的安卓app
  • ¥15 基于FOC驱动器,如何实现卡丁车下坡无阻力的遛坡的效果
  • ¥15 IAR程序莫名变量多重定义
  • ¥15 (标签-UDP|关键词-client)
  • ¥15 关于库卡officelite无法与虚拟机通讯的问题
  • ¥15 目标检测项目无法读取视频
  • ¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
  • ¥100 求采集电商背景音乐的方法
  • ¥15 数学建模竞赛求指导帮助