关于使用python爬取房天下数据

由于论文需要，想要爬取房天下的二手房，于是修改简书上竹间为简的租房代码进行爬取。
修改后的代码为


from bs4 import BeautifulSoup
import urllib
import gzip
import inspect
import re
import pandas as pd
from multiprocessing.dummy import Pool as ThreadPool
import datetime
import sqlite3
from time import sleep
from random import choice
#网页解压缩
def read_zip_url(url):
fails = 0
while fails < 5:
try:
content = urllib.request.urlopen(url).read()
content = gzip.decompress(content).decode("gb18030") #网页gb2312的编码要用这个
break
except:
fails += 1
print(inspect.stack()[1][3] + ' occused error')
soup = BeautifulSoup(content, "lxml")
return soup
#划分城区
starturl = "http://esf.km.fang.com/house/i31/"
soup = read_zip_url(starturl)
area_first_soup = soup.find_all('div',id = 'list_D02_10')[0].find_all('a')
del area_first_soup[-2]
del area_first_soup[0]
area_first = [] 
for i in area_first_soup:
area_first.append("http://esf.km.fang.com" + i.get('href'))
#按价格划分
area_second = [] 
for i in area_first:
soup = read_zip_url(i)
area_second_soup = soup.find_all('li',id = 'list_D02_11')[0].find_all('a')
del area_second_soup[0]
for i in area_second_soup:
area_second.append("http://esf.km.fang.com" + i.get('href'))
#按房屋类型划分
area_third = [] 
def area_third_func(li):
soup = read_zip_url(li)
area_third_soup = soup.find_all('li',id = 'list_D02_13')[0].find_all('a')
del area_third_soup[0]
for i in area_third_soup:
area_third.append("http://esf.km.fang.com" + i.get('href'))
pool = ThreadPool(4)
pool.map(area_third_func, area_second)
pool.close()
pool.join()
area_fourth = [] 
def area_fourth_func(li):
soup = read_zip_url(li)
if soup.find(text=re.compile("很抱歉")) == None:
pagenum1 = soup.find_all('span', class_ = 'txt')[0].get_text()
pagenum = int(re.findall(r'\d+',pagenum1)[0])
splitted = li.split('-')
for j in range(1, int(pagenum)+1):
new_url = (splitted[0]+ '{0}' + splitted[1] + '{0}' + splitted[2]+ '{0}' + 'i3{1}').format('-',j)
area_fourth.append(new_url)
pool = ThreadPool(4)
pool.map(area_fourth_func, area_third)
pool.close()
pool.join()
finalinks = [] 
def get_links(li):
soup = read_zip_url(li)
urlist = soup.select('a[href^="/chushou/"]')
for i in urlist:
href = 'http://esf.km.fang.com' + i.get('href')
if href not in finalinks:
finalinks.append(href)
sleep(0.1)
pool = ThreadPool(4)
pool.map(get_links, area_fourth)
pool.close()
pool.join()
today = datetime.date.today().strftime("%Y%m%d")
finalinks = pd.DataFrame(finalinks)
finalinks = finalinks.drop_duplicates()
finalinks.to_csv("%s" %'sf_links'+today + '.csv')

希望各位大大指导，感激不尽

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-07-30 13:46
关注
看下是不是代码有bug

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
对于股市主板A股使用python爬取前100条数据 python 有问必答
2021-06-23 15:19

回答 1 已采纳每次翻页的时候，url都有变化规律，如第二页http://quote.cfi.cn/quoteList.aspx?sortcol=stockcodesortwayasc&sortway=asc&pag
python爬取房天下信息
2018-10-20 22:55

小白入手python爬取房天下数据，初识爬虫，加深对python的理解，上手更快。
python使用xpath爬取网络数据报表结果为空 python 开发语言有问必答
2021-10-23 17:12

回答 3 已采纳该页面数据在XHR中找，构建一下headers和params，使用如下方式获json数据，然后从中解析即可： response = requests.get('https://fr.oppein.co
如何使用python爬取到下面的数字21？ python
2020-11-29 20:43

回答 2 已采纳直接右键span位置选择copy在选择copy Xpath 获得路径之后后面再加text()
python爬取软科排名,匹配不到数据 python 数据挖掘爬虫
2022-03-24 21:35

回答 1 已采纳我这里是可以正常运行的
使用python爬取某租房网站租房信息
2019-05-16 09:46

使用python爬取某租房网站租房信息,并使用excel保存
python爬取码市导入excel中导入结果只导入最后一条的问题 python 数据分析爬虫
2021-08-15 19:24

回答 3 已采纳修改了一下程序，有帮助的话，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: Roc-xb """ import requ
小白请教高手，python爬取数据遇到js隐藏div怎么办 javascript python
2018-10-12 01:45

回答 3 已采纳以下是获取点击查看返回内容，测试可以完成爬取 ``` import requests def test(): s=requests.session() headers
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
python爬取北京连家租房数据，可运行的python程序，打开你的爬虫之旅
2022-05-09 15:43

使用python的相关的库：requests，对北京连家租房网站的数据进行爬取，包括网站中的各项数据，例如，位置、租金、租房面积等等数据进行爬取。是一个可以爬虫入门的文件，带领你走进python的爬虫神奇世界。作为一个...
python 爬取网页时出现多种错误 python selenium 有问必答
2021-10-26 22:34

回答 2 已采纳代码中anal.xpath（//*[@id= Pating 一 app-profile-ratings"]/div[2]/div/div/span[1]/meta[2])可能获取到为空列表，不能用[0
使用python爬取高德地铁数据代码（免费），有问题私信博主
2023-02-12 13:41

全国地铁数据爬取的代码，重点：爬取的数据在我另外一个资源中（免费免费）使用人群：学生，数据...使用python爬取的内容数据爬取于高德地图，适用于各个场景的人群，可以用于数据分析如果有问题，可以私信博主。
使用Python爬取招聘数据、数据处理与可视化
2020-07-14 21:18

盼小辉丶的博客通过爬取“51job”获取招聘信息（以计算机软件为例），根据所获取数据分析领域相关工作职位需求，并通过可视化的方式展示分析行业就业情况（例如平均月薪、工作地点等）。
没有解决我的问题, 去提问

悬赏问题

¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝