python程序运行成功，为什么没有爬取到具体的网址？？

import requests
import re

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3941.4 Safari/537.36'}

def sou_gou(company):
url = 'https://news.sogou.com/news?query=' + company + '&shid=djt1'
res = requests.get(url, headers=headers).text
p_href = '

.? p_title = '
.?(.?)'
p_info = '

(.?)
'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
info = re.findall(p_info, res, re.S)
file1 = open('E:\python数据爬取\搜狗数据挖掘报告.txt', 'a')
file1.write(company + '数据挖掘completed!' + '\n' + '\n')
source = []
date = []
for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.?>', '', title[i])
info[i] = re.sub('<.?>', '', info[i])
source.append(info[i].split(' ')[0])
date.append(info[i].split(' ')[1])
source[i] = source[i].strip()
date[i] = date[i].strip()
file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')
file1.write(href[i] + '\n')
file1.write('-------------------' + '\n' + '\n')
file1.close()
company_name = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']
for j in company_name:
sou_gou(j)
print(j + '搜狗新闻爬取成功')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
放风喽 2020-02-22 09:35
关注
这代码是你自己写的吗
把每一步的都打印一下

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python：如何爬取到该数据？ python
2020-09-07 10:20

回答 2 已采纳首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用 r = requests.get(request_url) obj = r.json() print(obj.学
python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
爬虫爬取数据成功后只在运行窗口出现数据却并没有存储到数据库是什么原因？ mysql python
2022-05-05 17:39

回答 1 已采纳错误在最后一个文件的第125行吗，而且最后说明了错误的原因哈哈哈
为什么只能爬取4页？ python
2022-11-18 19:38

回答 1 已采纳很有可能是后面的页数需要请求才可以需要带上页数请求你去检查检查还有截图鬼给你看
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
python爬虫拿到图片通过java,如何用Python来制作简单的爬虫，爬取到你想要的图片...
2021-04-10 10:39

张太学的博客但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。我们可以通过python 来实现这样一个简单的爬虫功能...
为什么python报错但是能运行出一部分正确结果呢？ python
2021-07-27 17:34

回答 1 已采纳 import requests from lxml import etree if __name__ == '__main__': url='http://www.netbian.com/
爬取网页表格数据到excel后，excel上没有数据？ python
2023-04-10 02:32

回答 4 已采纳结论：1、你的url是错误的。至少格式上来就错了。（https://liansai.500.com/zuqiu-6296/jifen-17831/2023-04-10&page=1）；2、col2之后
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
为什么我不建议你通过 Python 去找工作？
2020-05-23 08:46

沉默王二的博客二哥，你好，我是一名大专生，学校把 Python 做为主语言教给我们，但是我也去了解过，其实 Python 门槛挺高的，所以我在自学 Java，但是我现在并不清楚到底要不要全心的去学 Java，学校里的课程也越来越繁重，而学 ...
如何使用python爬取到下面的数字21？ python
2020-11-29 20:43

回答 2 已采纳直接右键span位置选择copy在选择copy Xpath 获得路径之后后面再加text()
python爬取网页json数据_python爬取json数据库
2020-12-22 12:28

weixin_39621794的博客手把手教你使用Python抓取QQ音乐数据(第一弹)【一、项目目标】获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名、专辑名、播放链接。由浅入深，层层递进，非常适合刚入门的同学练手。【二、需要的库】主要涉及的库...
python小记(3) | 爬取微博页面存储为html到本地&提取关键词存入excel
2021-10-02 21:23

月婵婵的博客新建文件夹用于存储爬取下来的数据，设置关键词，爬取多页，构造客户代理池，爬取页面存为html文件格式；读取关键词命名文件夹下的所有文件，提取关键词（用户名、发表时间、转赞评数目、内容），存入关键词命名的...
没有解决我的问题, 去提问

悬赏问题

¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法
¥100 c语言，请帮蒟蒻写一个题的范例作参考
¥15 名为“Product”的列已属于此 DataTable
¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发

python程序运行成功，为什么没有爬取到具体的网址？？

.*?(.*?)' p_info = '

1条回答 默认 最新

悬赏问题

.?(.?)'
p_info = '

1条回答默认最新