关于#python网络爬虫, 正则表达式 , html规则#的问题：

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图


#导入包
import requests
import re
#请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp=requests.get(url, headers=headers)
html = resp.text

#解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
# print(urls)

网站源码没有http图片

网站源码代码

<a href="//t.cdn.ink/image/2021/12/2021122919442214.jpeg" alt="攒够了思念，可以见一面了" title="攒够了思念，可以见一面了"><img alt="攒够了思念，可以见一面了-唯美女生" src="//t.cdn.ink/image/2021/12/2021122919442214.jpeg" alt=""/></a>

打印带上 http：得到超链接我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

爱音斯坦牛全栈领域优质创作者 2022-01-04 20:18

关注



#导入包
import requests
import re
#请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp=requests.get(url, headers=headers)
html = resp.text
#解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
# print(urls)

for url in urls:
    new_url = 'https:' + url[0]
    print(new_url,url[1])

有帮助的话采纳一下哦！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

关于#python网络爬虫, 正则表达式 , html规则#的问题： python 正则表达式爬虫
2022-01-04 18:47

回答 2 已采纳 #导入包 import requests import re #请求网址 url = "https://www.vmgirls.com/18236.html" headers = {'User-A
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python 爬虫 正则表达式 打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
Python爬虫之正则表达式
2022-03-10 15:21

姜小孩.的博客 Python正则表达式（爬虫学习内容之一
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
Python爬虫 正则表达式 python
2022-07-22 09:38

回答 3 已采纳
python爬虫正则表达式 python 有问必答爬虫
2022-06-04 14:28

回答 3 已采纳可以这样写，示例： import pandas as pd df=pd.DataFrame({'number':[1,2,3,4],'value':['123人','456万人','789万','']
python爬虫 正则表达式解析
2020-12-26 07:27

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 – re.I # 忽略大小写 – re.M # 多行匹配，将正则作用到源数据...
Python爬虫正则表达式问题 python 有问必答
2021-06-17 10:12

回答 2 已采纳用正则表达式<img class="image".*src="(.*)"可以获取元素列表： import re s = '''<img class="image" alt="coll
Python正则表达式匹配电话 python 正则表达式爬虫
2021-09-13 15:23

回答 1 已采纳 import pyperclip text = str(pyperclip.paste()) # 将最近一次复制的内容转换为字符串 import re regex = re.compile('(
关于python爬虫中beautifulsoup4与正则表达式的运用问题！ python
2020-06-21 21:50

回答 1 已采纳 soup.find_all(href=re.compile("view")) soup.查找所有（href属性里面含有view关键字）的结果有时间看看RE模块的用法
Python爬虫之正则表达式基本用法实例分析
2020-12-25 11:47

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：一、简介 正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常...
Python正则表达式 python
2021-04-09 17:45

回答 1 已采纳 pattern = re.compile(r'<img\s.*src="(.*.jpg)"')
Python爬虫 正则表达式应用详解
2020-12-21 21:18

文章目录Python爬虫（二十一）—— 正则表达式应用详解 ——1. 简介2. 语法 1. 简介 正则表达式：regular expression，也称regex，简称 RE 正则表达式是用来简洁表达一组字符串的表达式通用的字符串表达框架简洁...
Python爬虫运用正则表达式的方法和优缺点
2020-10-16 12:39

主要给大家介绍了关于Python爬虫运用正则表达式的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python具有一定的参考学习价值，需要的朋友们下面来一起学习学习吧
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

悬赏问题

¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么
¥15 banner广告展示设置多少时间不怎么会消耗用户价值
¥16 mybatis的代理对象无法通过@Autowired装填
¥15 可见光定位matlab仿真
¥15 arduino 四自由度机械臂
¥15 wordpress 产品图片 GIF 没法显示
¥15 求三国群英传pl国战时间的修改方法
¥15 matlab代码代写，需写出详细代码，代价私
¥15 ROS系统搭建请教（跨境电商用途）

关于#python网络爬虫, 正则表达式 , html规则#的问题：

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新