Estoyharto 2020-02-22 02:06 采纳率: 40%
浏览 359

python程序运行成功,为什么没有爬取到具体的网址??

import requests
import re

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3941.4 Safari/537.36'}

def sou_gou(company):
url = 'https://news.sogou.com/news?query=' + company + '&shid=djt1'
res = requests.get(url, headers=headers).text
p_href = '

.*? p_title = '

.*?(.*?)'
p_info = '

(.*?)

'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
info = re.findall(p_info, res, re.S)
file1 = open('E:\python数据爬取\搜狗数据挖掘报告.txt', 'a')
file1.write(company + '数据挖掘completed!' + '\n' + '\n')
source = []
date = []
for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.*?>', '', title[i])
info[i] = re.sub('<.*?>', '', info[i])
source.append(info[i].split(' ')[0])
date.append(info[i].split(' ')[1])
source[i] = source[i].strip()
date[i] = date[i].strip()
file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')
file1.write(href[i] + '\n')
file1.write('-------------------' + '\n' + '\n')
file1.close()

company_name = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']
for j in company_name:
sou_gou(j)
print(j + '搜狗新闻爬取成功')

  • 写回答

1条回答 默认 最新

  • 放风喽 2020-02-22 09:35
    关注

    这代码是你自己写的吗
    把每一步的都打印一下

    评论

报告相同问题?

悬赏问题

  • ¥15 使用STM32F103C6微控制器设计两个从0到F计数的一位数计数器(数字),同时,有一个控制按钮,可以选择哪个计数器工作:需要两个七段显示器和一个按钮。
  • ¥15 在yolo1到yolo11网络模型中,具体有哪些模型可以用作图像分类?
  • ¥15 AD9910输出波形向上偏移,波谷不为0V
  • ¥15 淘宝自动下单XPath自动点击插件无法点击特定<span>元素,如何解决?
  • ¥15 曙光1620-g30服务器安装硬盘后 看不到硬盘
  • ¥15 抖音直播广场scheme
  • ¥15 为什么我明明有这个文件调试器还显示错误?
  • ¥15 软件工程用例图的建立(相关搜索:软件工程用例图|画图)
  • ¥15 如何在arcgis中导出拓扑关系表
  • ¥15 处理数据集文本挖掘代码