python程序运行成功，为什么没有爬取到具体的网址？？

import requests
import re

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3941.4 Safari/537.36'}

def sou_gou(company):
url = 'https://news.sogou.com/news?query=' + company + '&shid=djt1'
res = requests.get(url, headers=headers).text
p_href = '

.? p_title = '
.?(.?)'
p_info = '

(.?)
'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
info = re.findall(p_info, res, re.S)
file1 = open('E:\python数据爬取\搜狗数据挖掘报告.txt', 'a')
file1.write(company + '数据挖掘completed!' + '\n' + '\n')
source = []
date = []
for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.?>', '', title[i])
info[i] = re.sub('<.?>', '', info[i])
source.append(info[i].split(' ')[0])
date.append(info[i].split(' ')[1])
source[i] = source[i].strip()
date[i] = date[i].strip()
file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')
file1.write(href[i] + '\n')
file1.write('-------------------' + '\n' + '\n')
file1.close()
company_name = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']
for j in company_name:
sou_gou(j)
print(j + '搜狗新闻爬取成功')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-02-22 09:35
关注
这代码是你自己写的吗
把每一步的都打印一下

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python：如何爬取到该数据？ python
2020-09-07 10:20

回答 2 已采纳首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用 r = requests.get(request_url) obj = r.json() print(obj.学
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
为什么我的python 不能运行turtle？ python
2022-08-01 15:33

回答 4 已采纳 turtle是包名，不是类名，它下面没有circle方法你应该写成turtle.turtle.circle或者下面的代码不改，上面改成from turtle import turtle-=-=-=-=
为什么只能爬取4页？ python
2022-11-18 19:38

回答 1 已采纳很有可能是后面的页数需要请求才可以需要带上页数请求你去检查检查还有截图鬼给你看
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
python爬虫拿到图片通过java,如何用Python来制作简单的爬虫，爬取到你想要的图片...
2021-04-10 10:39

张太学的博客但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。我们可以通过python 来实现这样一个简单的爬虫功能...
爬取网页表格数据到excel后，excel上没有数据？ python
2023-04-10 02:32

回答 4 已采纳结论：1、你的url是错误的。至少格式上来就错了。（https://liansai.500.com/zuqiu-6296/jifen-17831/2023-04-10&page=1）；2、col2之后
如何使用python爬取到下面的数字21？ python
2020-11-29 20:43

回答 2 已采纳直接右键span位置选择copy在选择copy Xpath 获得路径之后后面再加text()
python 批量爬取图片并保存到本地文件夹中不成功 python 有问必答
2021-06-29 15:43

回答 2 已采纳你的temp只是一个字符串，应该是一个url，你还没发送请求，用requests发送一下请求
为什么我不建议你通过 Python 去找工作？
2020-05-23 08:46

沉默王二的博客二哥，你好，我是一名大专生，学校把 Python 做为主语言教给我们，但是我也去了解过，其实 Python 门槛挺高的，所以我在自学 Java，但是我现在并不清楚到底要不要全心的去学 Java，学校里的课程也越来越繁重，而学 ...
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
为什么说python适合写爬虫
2020-09-16 17:00

2. **跨平台性**：由于Python是开源的，它可以在多种操作系统上运行，这使得Python程序具有很高的可移植性。相比于Java，Python在不同平台上表现更加一致，更容易实现“一次编写，到处运行”。 3. **解释性执行**：...
Python爬虫---爬取全网动漫全站漫画
2024-07-19 15:38

懒大王爱吃狼的博客即遇到会报错的情况就跳过此段代码，执行except中的选项这段程序运行完之后有一个dongman.html文件保存在当前文件夹下，里面就包含了所有图片的url,接下来只要读取这个文件的内容就可以提取到所有的漫画地址了下载...
没有解决我的问题, 去提问

悬赏问题

¥15 使用STM32F103C6微控制器设计两个从0到F计数的一位数计数器（数字），同时，有一个控制按钮，可以选择哪个计数器工作：需要两个七段显示器和一个按钮。
¥15 在yolo1到yolo11网络模型中，具体有哪些模型可以用作图像分类？
¥15 AD9910输出波形向上偏移，波谷不为0V
¥15 淘宝自动下单XPath自动点击插件无法点击特定<span>元素，如何解决？
¥15 曙光1620-g30服务器安装硬盘后看不到硬盘
¥15 抖音直播广场scheme
¥15 为什么我明明有这个文件调试器还显示错误？
¥15 软件工程用例图的建立（相关搜索：软件工程用例图|画图）
¥15 如何在arcgis中导出拓扑关系表
¥15 处理数据集文本挖掘代码

python程序运行成功，为什么没有爬取到具体的网址？？

.*?(.*?)' p_info = '

1条回答 默认 最新

悬赏问题

.?(.?)'
p_info = '

1条回答默认最新