import re
import requests
url='http://www.chahua.com/'
header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36 Edg/99.0.1150.52'
}
page_text=requests.get(url=url,headers=header).text
print(page_text)
pic=re.findall('<img.|\n?src="(\S+)".|\n?border',page_text)
print(pic)
想要用正则提取网页中图片的src数值。但是要提取的标签中有换行符和空格符,输出page_text看到标签中间有换行符和空格。
使用了正则'<img.|\n?src="(\S+)".|\n?border' 来提取所需的内容,但是不知道为什么这个正则表达式输出的结果有许多空值? 怎样修改正则表达式才能仅输出有内容的正常值?