关于#python网络爬虫, 正则表达式 , html规则#的问题：

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图


#导入包
import requests
import re
#请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp=requests.get(url, headers=headers)
html = resp.text

#解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
# print(urls)

网站源码没有http图片

网站源码代码

<a href="//t.cdn.ink/image/2021/12/2021122919442214.jpeg" alt="攒够了思念，可以见一面了" title="攒够了思念，可以见一面了"><img alt="攒够了思念，可以见一面了-唯美女生" src="//t.cdn.ink/image/2021/12/2021122919442214.jpeg" alt=""/></a>

打印带上 http：得到超链接我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

爱音斯坦牛优质创作者: 编程框架技术领域 2022-01-04 20:18

关注



#导入包
import requests
import re
#请求网址
url = "https://www.vmgirls.com/18236.html"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp=requests.get(url, headers=headers)
html = resp.text
#解析网址
urls = re.findall('<a href="(.*?)" alt="(.*?)" title=".*?">', html)
# print(urls)

for url in urls:
    new_url = 'https:' + url[0]
    print(new_url,url[1])

有帮助的话采纳一下哦！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫正则表达式使用说明
2024-10-15 10:30

yuwinter的博客 Python 爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用 Python 编写爬虫，结合正则表达式提取网页中的数据。
学习笔记：Python爬虫正则表达式.doc
2024-07-20 21:32

### 正则表达式在Python爬虫中的应用 #### 一、引言在Python编程中，正则表达式（Regular Expression，简称regex或regexp）是一种强大的文本处理工具，广泛应用于字符串搜索、替换等场景。对于从事网络爬虫开发的...
Python爬虫运用正则表达式的方法和优缺点
2020-10-16 12:39

在Python爬虫中，正则表达式常用于定位和提取网页中的特定数据，如链接、图片、文本内容等。本文将详细讲解如何使用Python爬虫结合正则表达式完成网页数据的提取，并探讨其优缺点。首先，了解正则表达式在Python...
Python 爬虫入门（十二）：正则表达式「详细介绍」
2024-08-23 09:55

blues_C的博客 正则表达式（Regular Expression），在编程语言中通常缩写为regex或regexp，是一种用于字符串搜索和操作的模式描述方法。它通过定义一系列的规则来匹配、查找和管理文本数据。
Python爬虫之正则表达式
2022-03-10 15:21

姜小孩.的博客 Python正则表达式（爬虫学习内容之一
python爬虫 正则表达式解析
2020-12-26 07:27

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 – re.I # 忽略大小写 – re.M # 多行匹配，将正则作用到源数据...
Python网络爬虫案例实战：解析网页：正则表达式解析网页
2024-08-12 14:20

andyyah晓波的博客 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言中，...
Python爬虫 正则表达式应用详解
2020-12-21 21:18

**Python爬虫与正则表达式应用详解** 在Python爬虫中，正则表达式（Regular Expression，简称RE）是一种强大的文本处理工具，用于高效地查找、替换和提取字符串中的特定模式。它允许我们用简洁的语法来描述一组字符...
Python爬虫之正则表达式基本用法实例分析
2020-12-25 11:47

本文实例讲述了Python爬虫之正则表达式基本用法。分享给大家供大家参考，具体如下：一、简介 正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常...
[Python]网络爬虫(七)：Python中的正则表达式教程.pdf
2021-09-30 19:03

根据给出的信息，该文档是一份关于Python网络爬虫教程中正则表达式的部分。以下是该文档中可能涵盖的知识点： 1. Python中正则表达式的介绍 Python中的正则表达式是通过标准库`re`来实现的。它可以用于搜索、匹配...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

关于#python网络爬虫, 正则表达式 , html规则#的问题：

2条回答 默认 最新

问题事件

2条回答默认最新