Estoyharto 2020-02-22 02:06 采纳率: 40%
浏览 359

python程序运行成功,为什么没有爬取到具体的网址??

import requests
import re

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/79.0.3941.4 Safari/537.36'}

def sou_gou(company):
url = 'https://news.sogou.com/news?query=' + company + '&shid=djt1'
res = requests.get(url, headers=headers).text
p_href = '

.*? p_title = '

.*?(.*?)'
p_info = '

(.*?)

'
href = re.findall(p_href, res, re.S)
title = re.findall(p_title, res, re.S)
info = re.findall(p_info, res, re.S)
file1 = open('E:\python数据爬取\搜狗数据挖掘报告.txt', 'a')
file1.write(company + '数据挖掘completed!' + '\n' + '\n')
source = []
date = []
for i in range(len(title)):
title[i] = title[i].strip()
title[i] = re.sub('<.*?>', '', title[i])
info[i] = re.sub('<.*?>', '', info[i])
source.append(info[i].split(' ')[0])
date.append(info[i].split(' ')[1])
source[i] = source[i].strip()
date[i] = date[i].strip()
file1.write(str(i + 1) + '.' + title[i] + '(' + date[i] + '-' + source[i] + ')' + '\n')
file1.write(href[i] + '\n')
file1.write('-------------------' + '\n' + '\n')
file1.close()

company_name = ['华能信托', '阿里巴巴', '万科集团', '百度', '腾讯', '京东']
for j in company_name:
sou_gou(j)
print(j + '搜狗新闻爬取成功')

  • 写回答

1条回答 默认 最新

  • 放风喽 2020-02-22 09:35
    关注

    这代码是你自己写的吗
    把每一步的都打印一下

    评论

报告相同问题?

悬赏问题

  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算
  • ¥15 java如何提取出pdf里的文字?
  • ¥100 求三轴之间相互配合画圆以及直线的算法
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发