写完python爬虫后运行不出结果

这个是运行后：

这个是项目要求：

以下是代码：

# -*- codeing = utf-8 -*-
# @Time : 2022/2/14 2:16
# @Author : 马辰宇
# @File : test.py

from bs4 import BeautifulSoup                                        #网页解析，获取数据
import re                                                            #正则表达式，进行文字匹配
import urllib.request,urllib.error                                   #制定URL，获取网页数据
import xlwt                                                          #进行Excel操作

def main():
    baseurl = "https://tousu.sina.com.cn"
    datalist = getData(baseurl)                                      #爬取网页
    savepath = "智芝全量化分析师笔试题 2。xls"
    saveDate(savepath)                                               #保存数据
    #askURL("https://tousu.sina.com.cn")
    findcontent = re.compile(r'<p>"(.*?)"</p>',re.S)                 #创建正则表达式对象，表示规则   #投诉内容
    findobject = re.compile(r'<ul class="list">(.*)</ul>',re.S)      #投诉对象和投诉要求
    findtime = re.compile(r'<span class="time">(.*)</span>',re.S)    #投诉时间

def getData(baseurl):                                                #爬取网页
    datalist = []
    for i in range(0,1):                                             #调用获取页面信息的函数，1次
        url = baseurl + str(i*1)
        html = askURL(url)                                           #保持获取到的网页源码
        soup = BeautifulSoup(html,"html.parser")                     #解析数据
        for item in soup.find_all('a',class_="box select"):          #查找符合要求的字符串，形成列表
            #print(item)                                             #测试查看item全部信息
            data = []                                                #保持信息
            item = str("box select")
            content = re.findall(findcontent,item)[0]                #re库用来通过正则表达式查找指定的字符串
            data.append(content)                                     #添加内容
            object = re.findall(findobject,item)[0]
            data.append(object)                                      #添加对象
            time = re.findall(findtime,item)[0]
            data.append(time)                                        #添加时间
            datalist.append(data)                                    #将处理好的信息放入datalist
    return  datalist

def askURL(url):                                                     #得到指定一个URL的网页内容
    head = {                                                         #模拟浏览器头部信息，向服务器发送信息
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 90.0.4430.212Safari / 537.36Edg / 90.0.818.66"
    }                                                                #用户代理，表示告诉服务器，我们是什么类型的机器、浏览器

    request = urllib.request.Request(url,headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        #print(html)
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e,code)
        if hasattr(e,"reason"):
            print(e.reason)
    #return html



def saveDate(datalist,savepath):                                              #保存数据
    print("save....")
    book = xlwt.Workbook(encoding="utf-8")
    sheet = book.add_sheet('笔试')
    col = ("投诉内容","投诉对象和投诉要求","投诉时间")
    for i in range(0,3):
        sheet.write(0,i,col[i])
    for i in range(0,1):
        print("最新投诉")
        data = datalist[i]
        for j in range(0,3):
            sheet.write(i+1,j,data[j])
    book.save('savepath')

if __name__ == "__main__":                                           #当程序执行时，调用函数
    main()

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

7*24 工作者 2022-02-16 10:42

关注

数据是动态从接口获取的，在网页中没有办法直接获取，除非用 selenium模块结合浏览器爬取动态数据


# -*- coding:utf-8 -*-
import pandas as pd
import requests
import time,json

def getData():
    ##接口中获取数据，payload是构建请求参数
    payload = {
        'ts':1644914421055,
        'rs': 'kr8fQeDhM9wgEqjH',
        'signature':'0395ffce354f241719a3ae960a7c16d50c858ca152e55050df0326c7965d7e59',
        'callback':'jQuery1112018541001809691093_1644914421017',
        'type':2,
        'page_size':10,
        'page':1,
        '_': int(time.time() * 1000),
    }
    headers = {
        "user-agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 90.0.4430.212Safari / 537.36Edg / 90.0.818.66",
        "x-requested-with": "XMLHttpRequest",
        "referer": "https://tousu.sina.com.cn/"
    }
    data = requests.get('https://tousu.sina.com.cn/api/index/feed',params=payload,headers=headers)
    return data.content.decode('utf-8')


def dataDeal(data):
    ##数据分析处理，筛选出需要的数据
    result = []
    data = data.split('"lists":')[1].split(']')[0] + ']'
    data = json.loads(data)
    for item in data:
        result.append({
            '投诉内容': item.get('main').get('title'),
            '投诉对象': item.get('main').get('cotitle'),
            '投诉要求': item.get('main').get('appeal'),
            '投诉时间': time.strftime("%Y-%m-%d",   time.localtime(  int(item.get('main').get('timestamp')) )    )
        })
    return result

def main():
    data = getData()
    result = dataDeal(data)
    ##写入excle文件，需要提前安装 xlwt，xlrd，openpyxl，pandas 模块
    pd.DataFrame( result ).to_excel('test.xlsx',encoding='utf-8',sheet_name='content',index=False)


if __name__ == '__main__':
    main()

结果：

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫不报错也不出结果？
2024-05-28 22:57

m0_45207459的博客刚学爬虫对着视频想爬个网络小说但是代码写完不报错也不出结果，大佬们帮忙看看啥情况。# 从元组中取出部分链接进行拼接，获取每章的页面链接。# XPATH筛选出文本数据，并将数据列表转换成字符串。print("正在下载" ...
python爬虫代码运行之后不报错也没有结果_看完！一小时带你入门Python爬虫
2020-12-14 13:03

weixin_39615643的博客一、什么叫爬虫爬虫，又名“网络爬虫”，就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度和GOOGLE都是凭借强大的网络爬虫，来检索海量的互联网信息的然后存储到云端，为网友提供...
chatgpt赋能python：为什么Python运行后不出结果？
2023-07-01 02:55

a1sssssb的博客为什么Python运行后不出结果？ Python是目前最受欢迎的编程语言之一，广泛应用于数据科学、机器学习、Web开发等领域。然而，有时候运行Python代码后可能会出现不出结果的情况，这是什么原因造成的呢？让我们来一起...
爬虫代码成功运行完没有结果
2022-05-01 12:03

想学IT的经管菜鸟的博客这是我运行的代码，去爬图片，但试了好几次都不行，而且我电脑上有lxml这个程序包啊，请教各位大佬该怎么解决。 import requests from lxml import etree from urllib import request address = '...
chatgpt赋能python：Python不报错也不出结果？
2023-05-29 02:40

laod112的博客于是我们写下了如下代码： string_list_upper = [s.upper() for s in string_list] print(string_list_upper) 然后运行代码，结果发现没有任何输出。这时候，我们可能会惊慌失措，开始各种尝试解决问题，却始终没有...
python爬虫论文摘要怎么写_python爬虫这么写
2020-11-20 23:06

weixin_39942318的博客这篇文章用于说明python爬虫的简单实现方法。主要基于python的扩展模块——“requests模块”，“BeautifulSoup模块”。为什么选择python：python语言足够简单以至于我们可以凭借直觉（只要你有一点点英语知识），...
python程序没有报错但是运行没有任何结果怎么办？
2020-10-28 22:53

三郎君的博客 python程序没有报错运行没有任何结果怎么办？可以从以下情况进行分析： 1.没有语法错误不代表没有逻辑错误 IDE工具毕竟不是人工智能，即使是人工智能也能力有限我们可以新建一个地方写一个输出看是否能正常运行，...
python爬虫（常见爬取失败问题）
2022-02-10 15:17

程序猿-张益达的博客最常用的方法是写一个自动化程序向网络服务器请求数据（通常是用 HTML 表单或其他网页文件），然后对数据进行解析，提取需要的信息。在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。...
Python爬虫入门教程15：音乐网站数据的爬取
2024-04-29 12:52

2401_84689803的博客 PS：如有需要 Python学习资料以及解答的小伙伴可以加点击下方链接自行获取基本开发环境Python 3.6Pycharm相关模块的使用import os安装Python并添加到环境变量，pip安装需要的相关模块即可。一、明确需求爬取某音乐...
python爬虫之selenium库，浏览器访问搜索页面并提取信息，及隐藏浏览器运行
2022-10-12 17:55

the丶only的博客如果链接简单，爬虫可以通过链接用requests库提取页面信息，如爬取豆瓣top250影片信息，链接简单易懂。爬取豆瓣top250影片信息但如果遇到一些搜索之类的，基于js动态加载的网页，以上就不适合，如爬虫b站，搜索...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月15日

写完python爬虫后运行不出结果

3条回答 默认 最新

问题事件

3条回答默认最新