写完python爬虫后运行不出结果

这个是运行后：

这个是项目要求：

以下是代码：

# -*- codeing = utf-8 -*-
# @Time : 2022/2/14 2:16
# @Author : 马辰宇
# @File : test.py

from bs4 import BeautifulSoup                                        #网页解析，获取数据
import re                                                            #正则表达式，进行文字匹配
import urllib.request,urllib.error                                   #制定URL，获取网页数据
import xlwt                                                          #进行Excel操作

def main():
    baseurl = "https://tousu.sina.com.cn"
    datalist = getData(baseurl)                                      #爬取网页
    savepath = "智芝全量化分析师笔试题 2。xls"
    saveDate(savepath)                                               #保存数据
    #askURL("https://tousu.sina.com.cn")
    findcontent = re.compile(r'<p>"(.*?)"</p>',re.S)                 #创建正则表达式对象，表示规则   #投诉内容
    findobject = re.compile(r'<ul class="list">(.*)</ul>',re.S)      #投诉对象和投诉要求
    findtime = re.compile(r'<span class="time">(.*)</span>',re.S)    #投诉时间

def getData(baseurl):                                                #爬取网页
    datalist = []
    for i in range(0,1):                                             #调用获取页面信息的函数，1次
        url = baseurl + str(i*1)
        html = askURL(url)                                           #保持获取到的网页源码
        soup = BeautifulSoup(html,"html.parser")                     #解析数据
        for item in soup.find_all('a',class_="box select"):          #查找符合要求的字符串，形成列表
            #print(item)                                             #测试查看item全部信息
            data = []                                                #保持信息
            item = str("box select")
            content = re.findall(findcontent,item)[0]                #re库用来通过正则表达式查找指定的字符串
            data.append(content)                                     #添加内容
            object = re.findall(findobject,item)[0]
            data.append(object)                                      #添加对象
            time = re.findall(findtime,item)[0]
            data.append(time)                                        #添加时间
            datalist.append(data)                                    #将处理好的信息放入datalist
    return  datalist

def askURL(url):                                                     #得到指定一个URL的网页内容
    head = {                                                         #模拟浏览器头部信息，向服务器发送信息
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 90.0.4430.212Safari / 537.36Edg / 90.0.818.66"
    }                                                                #用户代理，表示告诉服务器，我们是什么类型的机器、浏览器

    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e,code)
        if hasattr(e,"reason"):
            print(e.reason)
    #return html



def saveDate(datalist,savepath):                                              #保存数据
    print("save....")
    book = xlwt.Workbook(encoding="utf-8")
    sheet = book.add_sheet('笔试')
    col = ("投诉内容","投诉对象和投诉要求","投诉时间")
    for i in range(0,3):
        sheet.write(0,i,col[i])
    for i in range(0,1):
        print("最新投诉")
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])
    book.save('savepath')

if __name__ == "__main__":                                           #当程序执行时，调用函数
    main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

7*24 工作者 2022-02-16 10:42

关注

数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据


# -*- coding:utf-8 -*-
import pandas as pd
import requests
import time,json

def getData():
    ##接口中获取数据，payload是构建请求参数
    payload = {
        'ts':1644914421055,
        'rs': 'kr8fQeDhM9wgEqjH',
        'signature':'0395ffce354f241719a3ae960a7c16d50c858ca152e55050df0326c7965d7e59',
        'callback':'jQuery1112018541001809691093_1644914421017',
        'type':2,
        'page_size':10,
        'page':1,
        '_': int(time.time() * 1000),
    }
    headers = {
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 90.0.4430.212Safari / 537.36Edg / 90.0.818.66",
        "x-requested-with": "XMLHttpRequest",
        "referer": "https://tousu.sina.com.cn/"
    }
    data = requests.get('https://tousu.sina.com.cn/api/index/feed',params=payload,headers=headers)
    return data.content.decode('utf-8')


def dataDeal(data):
    ##数据分析处理，筛选出需要的数据
    result = []
    data = data.split('"lists":')[1].split(']')[0] + ']'
    data = json.loads(data)
    for item in data:
        result.append({
            '投诉内容': item.get('main').get('title'),
            '投诉对象': item.get('main').get('cotitle'),
            '投诉要求': item.get('main').get('appeal'),
            '投诉时间': time.strftime("%Y-%m-%d",   time.localtime(  int(item.get('main').get('timestamp')) )    )
        })
    return result

def main():
    data = getData()
    result = dataDeal(data)
    ##写入excle文件，需要提前安装 xlwt，xlrd，openpyxl，pandas 模块
    pd.DataFrame( result ).to_excel('test.xlsx',encoding='utf-8',sheet_name='content',index=False)


if __name__ == '__main__':
    main()

结果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

写完python爬虫后运行不出结果 python 有问必答爬虫
2022-02-15 05:15

回答 3 已采纳数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据 # -*- coding:utf-8 -*- import pandas as pd impor
python爬虫运行无结果 python 爬虫
2021-10-13 19:02

回答 1 已采纳你这个目前只写了一个类，并没有调用，肯定是没有结果的
python爬虫初学，运行不报错但是没有结果？ python 有问必答
2021-04-01 16:51

回答 4 已采纳代码问题：1.request少写了s。 2. fillUnivList(ulist,html)函数没有return。 3.printUnivList(ulist,num)缺少异常处理。 4
python爬虫代码运行之后不报错也没有结果_看完！一小时带你入门Python爬虫
2020-12-14 13:03

weixin_39615643的博客一、什么叫爬虫爬虫，又名“网络爬虫”，就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度和GOOGLE都是凭借强大的网络爬虫，来检索海量的互联网信息的然后存储到云端，为网友提供...
Python不出结果 python
2022-10-17 15:28

回答 1 已采纳仔细看输出内容你编写的文件叫wu而你运行的文件叫main.py你想直接运行wu，鼠标放到wu这个文件上，右键，运行wu这个文件没有扩展名，应该是运行不了，你要先把文件改名叫wu.py
python运行成功，不显示结果 python 有问必答
2021-05-03 09:16

回答 5 已采纳代码运行不出结果的主要原因，一是计算权重的函数没有返回结果，二是没有调用main()函数，三是没有传递参数给计算权重函数。这样改一下： import pandas as pd import num
为什么Python运行不出结果，只有进程已结束退出代码为0 python
2023-01-14 16:09

回答 2 已采纳你的初始化函数写错了，导致初始化失败，r没有被赋值是 init 而不是 int def __init__(self, r):
chatgpt赋能python：为什么Python运行后不出结果？
2023-07-01 02:55

a1sssssb的博客为什么Python运行后不出结果？ Python是目前最受欢迎的编程语言之一，广泛应用于数据科学、机器学习、Web开发等领域。然而，有时候运行Python代码后可能会出现不出结果的情况，这是什么原因造成的呢？让我们来一起...
python爬虫request后返回值为空 chrome python 有问必答爬虫
2022-01-27 16:25

回答 2 已采纳接口需要post请求并发送数据，题主get请求没用改下面就可以了，注意不能采集太快，有防火墙会拦截。。-_-||。。。 import requests import time headers =
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
爬虫代码成功运行完没有结果
2022-05-01 12:03

想学IT的经管菜鸟的博客这是我运行的代码，去爬图片，但试了好几次都不行，而且我电脑上有lxml这个程序包啊，请教各位大佬该怎么解决。 import requests from lxml import etree from urllib import request address = '...
Python爬虫代码运行出错 python
2022-07-01 13:07

回答 2 已采纳 http错误没有正确处理
chatgpt赋能python：Python不报错也不出结果？
2023-05-29 02:40

laod112的博客于是我们写下了如下代码： string_list_upper = [s.upper() for s in string_list] print(string_list_upper) 然后运行代码，结果发现没有任何输出。这时候，我们可能会惊慌失措，开始各种尝试解决问题，却始终没有...
python爬虫论文摘要怎么写_python爬虫这么写
2020-11-20 23:06

weixin_39942318的博客这篇文章用于说明python爬虫的简单实现方法。主要基于python的扩展模块——“requests模块”，“BeautifulSoup模块”。为什么选择python：python语言足够简单以至于我们可以凭借直觉（只要你有一点点英语知识），...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月15日

悬赏问题

¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因

写完python爬虫后运行不出结果

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新