爬取有结果，但是导出excel文件是空的

代码如下
import re
import requests
import time
import pandas as pd
import json
import time
import openpyxl


from bs4 import BeautifulSoup

head = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'}
starturl_list = ['https://cs.lianjia.com/chengjiao/']

#获取县级市的url
def get_cityurls(url):
    request = requests.get(url,headers=head)
    request.encoding = 'utf-8'
    soup = BeautifulSoup(request.text,'html.parser')
    cityurls = []
    prenews = soup.select('div.position>dl>dd>div>div>a')
    pre_news =  ''.join([str(i) for i in prenews])
    nameslist = re.findall("/chengjiao/[a-zA-Z0-9]+/. t",pre_news)
    namesliststrip = [i.lstrip('/chengjiao/').rstrip('" t')  for i in nameslist]
    k = len(namesliststrip)
    i = 0
    for i in range(0,1):
        newcity = url + '{}'.format(namesliststrip[i])
        cityurls.append(newcity)
        i += 1
    return cityurls

#获取二手房每一页的url
def get_pageurls(url):
    request = requests.get(url,headers=head)
    request.encoding = 'utf-8'
    soup = BeautifulSoup(request.text,'html.parser')
    totalnum = json.loads(soup.find('div',{'class':"page-box house-lst-page-box"}).get('page-data'))['totalPage']+1
    pageurls_list = []
    pageurls_list.append(url)
    for num in range(0,0):
        newurl = url + 'pg{}/'.format(num)
        pageurls_list.append(newurl)
    return pageurls_list

#获取每一页的二手房url
def get_eachurls(url):
    eachurl_list = []
    request = requests.get(url,headers=head)
    request.encoding = 'utf-8'
    soup = BeautifulSoup(request.text,'html.parser')
    address_a = soup.select('li > div.info > div.title>a')
    for i in address_a:
        eachurl_list.append(i['href'])
    return eachurl_list


def news_ershoufang(url):
    data_all = []
    res = requests.get(url, headers=head)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    pre_data = soup.select('div.content > ul > li')
    pre_datanews = ''.join([str(i) for i in pre_data])
    # 城市
    data_all.append('长沙')

    # 室厅厨卫
    shi = re.findall(u"房屋户型</span>[\d\u4e00-\u9fa5]+", pre_datanews)
    if len(shi) == 0:
        data_all.append('None')
    else:
        shi_news = shi[0].lstrip('房屋户型</span>')
        data_all.append(shi_news)

data_pageurls = []
a = []
data_eachurls = []
alldata = []


city_list = get_cityurls(starturl_list[0])

#得到每页的url
m = 1
for i in city_list:
    try:
        a = get_pageurls(i)
        data_pageurls.extend(a)
        print('得到第{}页网址成功'.format(m))
    except:
        print('得到第{}页网址不成功'.format(m))
    m +=1

#得到每个房子信息的url
n = 1
for i in data_pageurls:
    try:
        b = get_eachurls(i)
        data_eachurls.extend(b)
        print('得到第{}个房子网址成功'.format(n))
    except:
        print('得到第{}个房子网址不成功'.format(n))
    n +=1

#得到每户房子信息
r = 1
for i in data_eachurls:
    try:
        c = news_ershoufang(i)
        alldata.append(c)
        print('得到第{}户房子信息成功'.format(r),[0])
    except:
        print('得到第{}户房子信息不成功'.format(r))
        time.sleep(5)
    r +=1

df = pd.DataFrame(alldata)
df.columns = ['房屋户型']
df.to_excel('长沙.xlsx')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
幻灰龙 2021-03-12 08:14
关注
直接答案：

在函数 `news_ershoufang` 最后一行返回下数据 `return data_all`
修改下excel的列名，一共两列 `df.columns = ['城市', '房屋户型']`
如果有其他信息需要提取，同样的方式，一个是修改 `news_ershoufang` 内的解析，另一个是添加导出的列名

另外，其实你多加几个日志就可以诊断出来，最后一个日志打印出来的 `c` 是 None，那么你就要怀疑`news_ershoufang` 函数内是否有什么问题，你再去看下那个函数，内部的 `data_all` 并没有 `return`，从而获得一步的解决，再执行下，诊断进一步的问题，如此反复：

print('得到第{}页网址成功:{}'.format(m, a))
print('得到第{}个房子网址成功:{}'.format(n, b))
print('得到第{}户房子({})信息成功:{}'.format(r, i, c))
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬取有结果，但是导出excel文件是空的 python 其他
2021-03-12 02:16

回答 2 已采纳直接答案：在函数 `news_ershoufang` 最后一行返回下数据 `return data_all`修改下excel的列名，一共两列 `df.columns = ['城市', '房屋户型'
微信小程序短时间内导出excel的文件都是一样的？ javascript 微信小程序
2022-04-13 00:20

回答 1 已采纳没用过这个方法，但是帮你分析一下。1.首先，excel表格名不该写死，应该接收传入的表名。2.async ... await.... 这是一个同步操作（不懂看一下ES6）,cloud.uploadFi
爬取网页表格数据到excel后，excel上没有数据？ python
2023-04-10 02:32

回答 4 已采纳结论：1、你的url是错误的。至少格式上来就错了。（https://liansai.500.com/zuqiu-6296/jifen-17831/2023-04-10&page=1）；2、col2之后
Python零基础爬取网页数据并导出Excel
2021-09-10 17:42

惊天神猿的博客 \chromedriver_win32\chromedriver.exe') # 声明导出Excel 方法 name：导出excel名称 result：需要导出的数据，二维数组 def write_data_to_excel(name, result): # 将sql作为参数传递调用get_data并将结果赋值给...
java导出excel时文件内容正确，但文件名错误 java
2021-05-31 10:09

回答 1 已采纳持久层用的是Mybatis，两个查询用的是同一个ResultMap
print输出结果如何导出至excel？ python
2022-08-16 11:27

回答 2 已采纳你可能需要把结果写入到excel，python写入excel的代码如下： ''' 设置单元格样式 ''' import xlwt def set_style(name,height,bold=Fa
python爬取基金净值导出CSV文件后中文显示乱码 python 有问必答
2022-02-14 15:47

回答 4 已采纳指定read_html的编码。 import pandas as pd import csv for i in range(1,2): url = 'https://fundf10.ea
Python pandas分页爬取网页的表格导出excel文件
2020-09-19 15:12

Brother_Jian的博客我们利用模拟浏览器爬取一个网页上的表格，但是它有很多页，这就需要我们不断点击下一页来获取新的表格继续爬取。如图所示，我们无法确定一个动态更新数据的表格的具体页数，因为他会随着数据变化而增加或减少。 ...
python爬取码市导入excel中导入结果只导入最后一条的问题 python 数据分析爬虫
2021-08-15 19:24

回答 3 已采纳修改了一下程序，有帮助的话，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: Roc-xb """ import requ
js实现Post导出excel乱码 ajax java javascript
2022-05-23 22:13

回答 1 已采纳前端Ajax接收文件流，实现下载excel文件并解决乱码问题_MINO吖的博客-CSDN博客_前端下载excel文件乱码后端（expre
有一个excel导出富文本带标签的需求 html javascript 前端
2021-12-23 08:54

回答 1 已采纳 html标签只能被浏览器识别，excel里有，有什么特殊要求吗？？？？？？导入想要html，你应该处理原数据，
爬虫爬取的csv文件在excel中出现乱码问题的解决方法
2023-11-14 11:20

小小码农正在搬砖中的博客 3、选择UTF-8的格式，分割符号选择：逗号。1、新建一个空的表格，数据->自文本。4、点击完成、导入数据。
Excel导出文件字数过多导致的错误 java
2022-04-28 15:49

回答 1 已采纳 1 改用csv导出2 多sheet页导出https://www.kancloud.cn/zhangdaiscott/autopoi/16239693 限制导出条件减少导出数据
使用jsoup爬取数据并导出excel文件保存
2017-05-18 15:09

DFDHZ的博客 ExcelService pd = new ExcelService(); // 表头 //String[] tableHeader = { "广告链接" ,"广告名称", "招商热线" , "微信", "企业网址" , "联系地址"}; //ExcelService.createTableHeader("9928", table...
Scrapy之爬取结果导出为Excel的快速指南
2018-05-06 17:57

bladestone的博客基于Scrapy来爬取数据只是手段，这些爬取的结果需要按照一定的方式导出或者存储到数据库中，excel是在日常工作中使用最为广泛的工具之一，本文介绍如何来讲爬取结果存储excel文件。环境介绍 Python 3.6.1 ...
没有解决我的问题, 去提问

悬赏问题

¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料

爬取有结果，但是导出excel文件是空的

2条回答 默认 最新

悬赏问题

2条回答默认最新