python 如何提取网页所有超链接？

import urllib2
import re

website = urllib2.urlopen(http://www.bxwx.org/b/5/5383/)

html = website.read()

links = re.findall('"((http|ftp)s?://.*?)"', html)

print links

raw_input()

我代码这样，不知道为什么一运行就退出了。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2015-03-15 07:47
关注
参考：http://bbs.chinaunix.net/thread-919021-1-1.html
http://www.oschina.net/code/snippet_782578_14041
http://outofmemory.cn/code-snippet/15549/use-python-regular-url

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

利用python的正则表达式从超链接取数 python 正则表达式
2022-01-19 00:07

回答 3 已采纳望被采纳 import os import re import requests if __name__ == "__main__": if not os.path.exists('./oth
pandas可读取 excel 超链接么？ python 有问必答
2021-07-02 07:56

回答 1 已采纳表格存在两种格式 .xls 和 .xlsx，所以python存在两种库分别读取这两种格式表格超链接。openpyl针对.xlsx格式，xlrd针对.xls文件。 # coding=utf-8 impo
请问在python爬虫中抓取超链接时，有一部分超链接不完整，该怎么对那部分超链接添加拼接？ python 有问必答爬虫
2021-12-03 22:07

回答 2 已采纳 if url.startswith("https://")==False: url="https://"+url
python获取指定网页上所有超链接的方法
2020-09-22 07:11

主要介绍了python获取指定网页上所有超链接的方法,涉及Python使用urllib2模块操作网页抓取的技巧,非常具有实用价值,需要的朋友可以参考下
python爬虫如何精确提取a标签 pycharm python 爬虫
2022-02-12 15:12

回答 1 已采纳远程看看可以吗
如何用python获取这个网页的HTML（超文本链接语言）？ python 开发语言
2020-03-10 12:56

回答 2 已采纳实验了一下，加了个请求头，试过可以获取，我的代码 ``` import requests import html headers = {"User-Agent": "Mozilla/5.0
请问一下，python selenium如何才能定位带超链接按钮，并点击。这是一个PDF文件下载的按钮。 python selenium
2022-05-06 15:03

回答 2 已采纳 self.driver.find_element(By.CLASS_NAME, "ActiveLink")
python分析网页上所有超链接的方法
2020-09-22 02:36

主要介绍了python分析网页上所有超链接的方法,涉及Python使用urllib模块操作页面超链接的技巧,需要的朋友可以参考下
python用flask框架网页跳转失败 flask python
2015-06-22 02:42

回答 3 已采纳你的请求url格式是否正确。
关于#正则表达式#的问题，如何解决？(语言-python) python
2023-02-07 00:12

回答 4 已采纳 match()只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回none用search()
用python处理excel碰到一些问题，求指导 python
2022-12-20 17:45

回答 4 已采纳提供下文件和代码, 帮你修改调试, 可以先参考: https://blog.csdn.net/weixin_55674264/article/details/127993394
Python获取网页所有超链接
2020-08-07 10:05

xuedingeca的博客 import requests ... 此函数用于获取网页的html文档 ''' try: #获取服务器的响应内容，并设置最大请求时间为6秒 res = requests.get(url, timeout = 6) #判断返回状态码是否为200 res.raise_for_status() #
python-selenium中定位超链接方法find_element_by_link_text和find_elements_by_link_text有什么区别？ python
2020-01-12 13:45

回答 1 已采纳顾名思义，带s的是找多个元素，不带s的是找一个元素
python用正则表达式提取超链接_如何用正则表达式匹配网页中的超链接？
2020-12-08 21:34

weixin_39637386的博客 C:\Python34\python.exe E:/python/tmp.py['http://www.researchmfg.com/2010/07/thermo-plastics/', 'http://www.researchmfg.com/2010/07/plastic-rheological-property/', '...
[Python]提取docx/网页超链接
2020-12-21 06:11

docx文本提取超链接并写入TXT文档: from pydocx import PyDocX from bs4 import BeautifulSoup # 用于解析网页 #by：菜鸟阿样 # 转docx为html文本 html = PyDocX.to_html("docx文本名") # 加载文本 bsObj = ...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

python 如何提取网页所有超链接？

4条回答 默认 最新

悬赏问题

4条回答默认最新