Vincent_BiuBiu 2021-04-21 12:02 采纳率: 100%

已采纳

请帮助一下Python爬取房天下的数据的输出

Dear All 大佬：

我Python小白，我在Python中文社区上 Down_Load 一段爬取房天下新房数据的代码

但是代码是做用Text格式进行了线性输出，未对代码进行封装且无法按字段输出到Excel

请各位帮忙修改一下代码（实现文本解析后按Excel表头字段输出为xlsx）谢谢，绝不白嫖，有偿~

以下是代码部分（注：The Following Artical is from 菜J学Python Author J哥、燕子，版权归属）

Proxy & Agent

import requests  #请求数据
from pyquery import PyQuery as pq  #本次采用pyquery和re解析数据
import time
import re
import random

global user_agents
global proxy_list
user_agents = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
    "Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
    "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0",
    "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",] #虚拟代理服务器

proxy_list = ["218.91.13.2:46332",
              "121.31.176.85:8123",
              "218.71.161.56:80",
              "49.85.1.230:28643",
              "115.221.121.165:41674",
              "123.55.177.237:808"] #虚拟路劲IP地址

Get 房源ID部分：

def get_id(city):
    url = 'https://' + city + '.newhouse.fang.com/house/s/b91'
    user_agent = random.choice(user_agents)
    header = {'User-Agent': user_agent}
    proxy = {'Proxies': random.choice(proxy_list)}
    r = requests.get(url, headers=header, proxies=proxy)
    time.sleep(2)
    r.encoding = 'GBK'
    pattern1 = re.compile('(?<=现有新楼盘)\d+')
    total = int(re.findall(pattern1, r.text)[0]) // 20 + 1
    idlist = []
    for i in range(1, total + 1):
        url = 'https://' + city + '.newhouse.fang.com/house/s/b9' + str(i)
        user_agent = random.choice(user_agents)
        header = {'User-Agent': user_agent}
        proxy = {'Proxies': random.choice(proxy_list)}
        r = requests.get(url, headers=header, proxies=proxy)
        time.sleep(2)
        r.encoding = 'gb2312'
        pattern = re.compile('(?<=loupan/)\d+')
        id = re.findall(pattern, r.text)
        for j in id:
            idlist.append(j)
    # print(idlist)
    return idlist

Get Main Data 获取主要信息部分：

def get_data(city, id):
    url = 'https://' + city + '.newhouse.fang.com/loupan/' + id + '/housedetail.htm'
    user_agent = random.choice(user_agents)
    header = {'User-Agent': user_agent}
    proxy = {'Proxies': random.choice(proxy_list)}
    r = requests.get(url, headers=header, proxies=proxy)
    time.sleep(1)
    r.encoding = 'utf8'
    doc = pq(r.text)
    # print(doc)
    data1 = doc('.ts_linear').items()
    for i in data1:
        print(i.text())
    data1 = doc('.list').items()
    for i in data1:
        print(i.text())

主程序调用：

id = get_id('gz')
for i in range(len(id)):
    get_data('gz', id[i]

请大佬帮助按照字段提取并装入excel（当然我也想过直接复制粘贴文本进excel再处理，但是觉得过于弱智了）Excel示例字段如下：

（注：The Following Artical is from 菜J学Python Author J哥、燕子，版权归属）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

CSDN专家-孙老师 2021-04-21 12:21

关注

这个问题难倒是不难，就是挺费时间，只能给一些思路和建议。

1、首先获取id的代码有些问题，获取的id是有重复的，可以这样写：

def get_id(city):
    url = 'https://' + city + '.newhouse.fang.com/house/s/b91'
    user_agent = random.choice(user_agents)
    header = {'User-Agent': user_agent}
    #proxy = {'Proxies': random.choice(proxy_list)}
    r = requests.get(url, headers=header)
    time.sleep(2)
    r.encoding = 'GBK'
    pattern1 = re.compile('(?<=现有新楼盘)\d+')
    total = int(re.findall(pattern1, r.text)[0]) // (20 + 1)
    idlist = []
    
    for i in range(1,total+1):
        url = 'https://' + city + '.newhouse.fang.com/house/s/b9' + str(i)
        user_agent = random.choice(user_agents)
        header = {'User-Agent': user_agent}
        #proxy = {'Proxies': random.choice(proxy_list)}
        r = requests.get(url, headers=header)
        time.sleep(2)
        r.encoding = 'gb2312'
        pattern = re.compile('<li id="lp_(.*?)"  ')
        id = re.findall(pattern, r.text)
        for j in id:
            idlist.append(j)
    # print(idlist)
    return idlist

2、获取每个id对应页面的信息，定义如下函数

def get_data(city, id):
    url = 'https://' + city + '.newhouse.fang.com/loupan/' + id + '/housedetail.htm'
    user_agent = random.choice(user_agents)
    header = {'User-Agent': user_agent}
    #proxy = {'Proxies': random.choice(proxy_list)}
    r = requests.get(url, headers=header)
    time.sleep(1)
    r.encoding = 'utf8'
    doc = pq(r.text)
    return doc

3、从获得的页面信息中提取各字段的信息，可以定义以下函数

def get_value(doc,id):
    print(id)
    pat1='物业类别：\n(.*?)\n项目特色：\n(.*?)\n建筑类别：\n(.*?)\n装修状况：\n(.*?)\n产权年限：\n(.*?)\n环线位置：\n.*?\n开发 商：\n(.*?)\n楼盘地址：\n(.*?)\n.*?交通(.*).*?综合商场(.*?)\n'
    pat2='销售状态：\n(.*?)\n开盘时间：\n(.*?)\n交房时间：\n(.*?)\n售楼地址：\n.*?\n咨询电话：\n(.*?)\n主力户型：\n(.*?)\n预售许可证：'
    pat3='占地面积：\n(.*?)\n建筑面积：\n(.*?)\n容积率：\n(.*?)\n绿化率：\n(.*?)\n停车位：\n(.*?)\n楼栋总数：\n(.*?)\n物业公司：\n(.*?)\n物业费：\n(.*?)\n物业费描述'
    #pat4='交通(.*).*?综合商场(.*?)\n'
    pat_list=[pat1,pat2,pat3]

    fields=()
    length=len(list(doc('.list').items()))

    for i in range(length):
        data1 = doc('.list').items()
        rst=list(data1)[i].text()
        fields+=re.findall(pat_list[i],rst,re.S)[0]
        #print(len(fields))

    data=[id]+list(fields)
    info_df=pd.DataFrame(data).T
    names=['房天下ID','物业类别','项目特色','建筑类别','装修状况','产权年限','开发 商','楼盘地址','交通','配套商场','销售状态','开盘时间','交房时间',
           '咨询电话','主力户型','占地面积','建筑面积','容积率','绿化率','停车位','楼栋总数','物业公司','物业费']
    info_df.columns=names
    return info_df

4、主程序中调用

id_list=get_id('tj')

infoAll=pd.DataFrame()

for i in range(len(id_list)):
    doc=get_data('tj', id_list[i])
    info_df=get_value(doc,id_list[i])
    infoAll=pd.concat([infoAll,info_df],axis=0)

info_df.to_excel('房天下.xlsx',index=None)

这是一个大概的思路，具体还需要修改步骤3中的代码，因为不是每个页面都有所有的字段。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(5条)

报告相同问题？

关注问题

请帮助一下Python爬取房天下的数据的输出 python 向大咖问开源有问必答
2021-04-21 12:02

回答 6 已采纳这个问题难倒是不难，就是挺费时间，只能给一些思路和建议。 1、首先获取id的代码有些问题，获取的id是有重复的，可以这样写： def get_id(city): url = 'https
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
利用python爬取租房信息_Python爬虫实战(1)-爬取“房天下”租房信息(超详细)
2021-02-05 06:29

more never的博客 #前言html先看爬到的信息：python 今天主要用到了两个库：Requests和BeautifulSoup。...ui下面经过一个例子来了解一下：编码网址就用房天下的天津整租租房信息“http://zu.tj.fang.com/house/n31/...
python爬取数据遇到的一些问题 python
2021-11-24 07:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python 爬取数据数据缺失 python
2022-11-25 20:06

回答 2 已采纳它这个做了一点点反扒，你需要把标签里面的5取出来，和你的0.9拼在一起。试试下面这个看行不 Moive_score1 = li.xpath('./i/b/text()') Moive_score2 =
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python爬取房天下网站深圳房租信息入库并进行数据分析可视化
2021-07-12 15:10

wx1871428的博客概述 ...先爬取房某下深圳各个板块的数据，然后存进 MongoDB 数据库，最后再进行数据分析。 ![](https://img-blog.csdnimg.cn/20181211110713956.png?x-oss- process=image/watermark,type_ZmFuZ3p
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取全国疫情数据视图化 python 有问必答
2021-11-16 23:22

回答 3 已采纳试着爬取了一下网站，发现是返回的数据不全，可以把后面一些不完整的数据截取掉，然后再解析 from pandas.plotting import register_matplotlib_converte
怎么样用Python爬取数据 python
2022-10-12 10:57

回答 2 已采纳爬取代码如下，如有帮助请点击一下采纳谢谢： import requests headers = { "authority": "pythonscraping.com", "acc
Python: 房天下小区数据爬取
2019-09-20 12:02

cyber_1987的博客前言：之前是写了链家的爬虫，但是实际看下来数据质量不是特别好，所以想把房天下的小区数据也爬下来看看怎么样，但是实际爬取中，发现房天下的反爬技术要稍高一点，目前碰到的有： 1、自动检测ip地址，在正常网页中...
Python爬取豆瓣电影数据返回[]，没有数据 json python
2022-01-02 16:04

回答 3 已采纳找到问题了 interval_id 后面100:90冒号后多了一个空格
利用python爬取租房信息_Python爬虫实战：爬取“房天下”租房信息
2020-12-09 20:08

weixin_39868592的博客前言先看爬到的信息：上篇文章已经讲了Python安装第三方库，今天主要用到了两个库：Requests和BeautifulSoup...下面通过一个例子来了解一下：网址就用房天下的天津整租租房信息“http://zu.tj.fang.com/house/n31/...
Selenium+Python爬取房天下二手房数据
2018-11-16 12:07

浅笑古今的博客注意！...其实使用Selenium爬取网页的思路很简单，首先梳理一下爬取流程。打开二手房珠海地区首页http://zh.esf.fang.com/，首先会出现一个屏蔽页，我们需要点击“我知道了”，才能继续点击其...
没有解决我的问题, 去提问

悬赏问题

¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型

码龄粉丝数原力等级 --

请帮助一下Python爬取房天下的数据的输出

6条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

请帮助一下Python爬取房天下的数据的输出

6条回答 默认 最新

悬赏问题

6条回答默认最新