Python IDLE 如何爬取新浪新闻网站上的所有链接

用IDLE，我写的代码可以爬，但是只能爬到https://news.sina.com.cn/为前缀的文字内容，包括video，slids啥的都爬不到，这个咋改一下可以爬取全部链接啊。

以下是代码段

import re
import os
import requests

res=requests.get("http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml")
res=requests.get("https://news.sina.com.cn/china/")
#news.sina.com.cn/c/2020-11-21/doc-iiznezxs2947425.shtml
res.encoding = 'utf-8'
print(res.text)

urllist=re.findall('<a href="https://news.sina.com.cn/[a-z]{1}/[a-zA-Z0-9/-]+.shtml"', res.text)

print(len(urllist))

#<a href="http://news.sina.com.cn/c/nd/2018-09-12/doc-ihiycyfx5412189.shtml"
for u in urllist[0:10]:
url=u[9:len(u)-1]
print(url)
res=requests.get(url)
res.encoding='utf-8'
#http://news.sina.com.cn/o/2018-10-19/doc-ifxeuwws5952620.shtml
#得到文件名doc-ifxeuwws5952620.shtml
filename=re.findall("/[a-zA-Z0-9-.]+$", url)
f=open("sinanews\\"+filename[0][1:],"wb")
f.write(res.text.encode("utf-8")) #html原始文档内容
f.close()

print(len(urllist))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
清风未明月 2020-11-26 11:22
关注
你这个匹配的就匹配到https://news.sina.com.cn/为前缀的文字内容啊，要想爬其他的还得设置其他的匹配代码

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

pythonIDLE问题 python
2022-11-28 13:15

回答 1 已采纳使用 PyCharm Community Edition 开源解决你的问题还好用。
python版本不同，影响idle使用 python
2022-10-23 19:02

回答 3 已采纳查找位置可以参考这个博客查看Python安装路径几种方法_软件开发技术爱好者的博客-CSDN博客_python安装路径查看Python安
python idle安装卸载 python
2022-09-07 09:16

回答 1 已采纳开始菜单–控制面板——程序和功能–找到卸载不了的python3.7–选中右键–更改–弹出的窗口中选择Repair–就OK啦
Python爬取新浪国内新闻课程设计实验报告（附代码）
2024-01-12 10:43

keer957的博客分析新浪国内新闻首页页面组织，利用urllib及Beautifulsoup爬取新浪国内新闻。实现功能： 1. 爬取至少20条新闻。 2. 获取其中一条新闻的具体内容。 3. 获取20条新闻的具体内容，并以单独的文本文档格式进行存储。
求用Python IDLE编程 python
2022-09-30 11:58

回答 2 已采纳每次把你上面的表达式输入进去 s1 = "我喜欢你" s2 = "Python" while True: string = input("请输入你要执行的表达式（例如：s1 + s2）'q'
Python IDLE工具栏自己变了 python
2022-12-06 23:56

回答 2 已采纳原来是打开的这个文件打开某个py文件就恢复了
Python自带的IDLE运行结果有BUG python
2020-08-06 22:04

回答 2 已采纳这不是bug，而是正常的现象，浮点数存在误差，一个是尾数的误差，一个是进制转换误差。举例来说，如果a星球的人使用3进制，那么 0.1=1/3 0.2=2/3。现在他们发明一种计算机，采用10进
【python网络编程】新浪爬虫：关键词搜索爬取微博数据
2016-10-08 15:46

weixin_34006965的博客上学期参加了一个大数据比赛，需要抓取大量数据，于是我从新浪微博下手，本来准备使用新浪的API的，无奈新浪并没有开放关键字搜索的API，所以只能用爬虫来获取了。幸运的是，新浪提供了一个高级搜索功能，为我们爬取...
pythonIDLE保存后运行不了显示语法错误 python
2021-09-27 23:02

回答 1 已采纳 .py 源文件中不能用>>>提示符的，也不可以把版权信息都复制进去啊只能放正确的语句，如下面的保存在 test.py 中，然后运行 str1 = "cst" str2 = "Chi
Python爬虫可以用IDLE编写吗？ python
2021-08-09 21:50

回答 4 已采纳学习爬虫用IDLE是可以的，一般IDLE可以满足初学者的使用需求。最近我也在学爬虫，写了一些实例，可以来看看我的专栏： https://blog.csdn.net/weixin_52132159/
python在idle新建保存的文件怎么是这样？ python
2022-04-28 20:44

回答 2 已采纳用idle打开，然后在里面按F5运行哦，右键一下，设置打开方式，找到idle
爬虫python代码广告_零基础掌握百度地图兴趣点获取POI爬虫（python语言爬取）（代码篇）...
2020-11-23 12:12

weixin_39520393的博客我是怎么想的，在新浪博客里写代码教程。这篇博客的内容同步到了CSND博客中，那里不限制外链，也可以复制代码。http://blog.csdn.net/sinat_41310868/article/details/78746224好，现在进入高阶代码篇。目的：爬取...
为什么我的python idle无法访问自定义的函数 python
2022-10-05 13:06

回答 3 已采纳现在知道了，在IDLE定义完函数要多空出一行才能调用。。。
python界面显示爬取进度_Python网络爬虫之制作股票数据定向爬虫以及爬取的优化可以显示进度条！...
2021-02-04 07:18

weixin_39620370的博客候选网站：新浪股票：http://finance.sina.com.cn/stock/百度股票：https://gupiao.baidu.com/stock/选取原则：无robots协议非js网页数据在HTMLK页面中的F12，查看源代码，即可查看。新浪股票，使用JS制作。脚本生成...
Python简介
2022-03-16 19:35

林夕阳光1的博客 Python翻译成汉语是蟒蛇的意思，并且Python的logo也是两条缠绕在一起的蟒蛇的样子，然而Python语言和蟒蛇实际上并没有一毛钱关系。 Python语言是由荷兰程序员Guido van Rossum，江湖人称“龟叔”，独立开发...
爬取新浪微博（搜索含关键词微博及其评论）
2018-05-06 10:23

小小蒲公英的博客 import csv import requests import json import re import jieba import matplotlib.pyplot as plt from wordcloud import ...这里我爬取了有关“母亲节”的微博，并生成词云
python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博
2020-12-08 18:16

weixin_39614011的博客 Python爬虫学习：四、headers和data的获取之前在学习爬虫时,偶尔会遇到一些问题是有些网站需要登录后才能爬取内容,有的网站会识别是否是由浏览器发出的请求. 一.headers的获取就以博客园的首页为例:...
python 学习目录
2021-12-28 11:20

jialan75的博客第1章搭建开发环境实战 ...范例01-04：使用Python自带工具IDLE 范例01-05：安装Pycharm 范例01-06：安装Eclipse 范例01-07：安装Visual Studio 2017 1.3 编写并运行Python程序范例01-08：使用IDLE编写并运行
没有解决我的问题, 去提问

悬赏问题

¥15 R语言Rstudio突然无法启动
¥15 关于#matlab#的问题：提取2个图像的变量作为另外一个图像像元的移动量，计算新的位置创建新的图像并提取第二个图像的变量到新的图像
¥15 改算法，照着压缩包里边，参考其他代码封装的格式写到main函数里
¥15 用windows做服务的同志有吗
¥60 求一个简单的网页(标签-安全|关键词-上传)
¥35 lstm时间序列共享单车预测，loss值优化，参数优化算法
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值

Python IDLE 如何爬取新浪新闻网站上的所有链接

1条回答 默认 最新

悬赏问题

1条回答默认最新