关于Python下的Beaytifulsoup爬虫

刚学爬虫,想爬房天下网站新房信息,其他都爬出来了,就是价格这个一直弄不了,各位大神帮忙看看吧import requests
from bs4 import BeautifulSoup
import time
import csv

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}
for i in range(0,2):
link = 'http://newhouse.xian.fang.com/house/s/a77-b91/?ctm=1.xian.xf_search.page.' + str(i)
r = requests.get(link, headers=headers)
r.encoding = 'gb2312'
soup = BeautifulSoup(r.text, 'lxml')
fang_list = soup.find_all('div', class_='nlc_details')

articles = []
for fang in fang_list:
    xiaoqvming = fang.find('div', class_='nlcd_name').a.text.strip()
    huxing_list = fang.find('div', class_='house_type clearfix').text.strip()
    qvyv = fang.find('span', class_='sngrey').text.strip()
    address = fang.find('div', class_='address').text.strip()
    zhuangtai = fang.find('span', class_='inSale').text.strip()
    tags = fang.find('div', class_=['fangyuan','pr']).a.text.strip()
    price = fang.find('div', class_='nhouse_price').span.get_text()
    articles.append([xiaoqvming,huxing,qvyv,address,zhuangtai,tags,price])print (xiaoqvming,huxing,qvyv,address,zhuangtai,tags,price)![图片说明](https://img-ask.csdn.net/upload/201711/27/1511760270_282359.png)![图片说明](https://img-ask.csdn.net/upload/201711/27/1511760360_844086.png)![图片说明](https://img-ask.csdn.net/upload/201711/27/1511760297_185914.png)![图片说明](https://img-ask.csdn.net/upload/201711/27/1511760383_771431.png)

1个回答

.span[0].get_text()

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
用python写爬虫和用Java写爬虫的区别是什么?

为什么大多数都用python写爬虫 python有爬虫库吗?

python如何提高爬虫效率

任务背景是需要从一个linux服务器上下载文件,我拥有该服务器的访问权限但仅限于读。 目前的解决方法是我把所有需要下载的数据地址都保存在了本地的文件中,一行一条数据地址,通过paramiko包连接服务器然后使用多线程的方式进行爬取。每个线程启动时向其传入一个下载地址列表,因为每个线程的下载地址列表都不重复,因此不需要考虑线程之间的通信。详细代码如下: ``` # filename是存储在本地的地址列表文件,n是最大线程数 def download(filename, n): files = open(filename, 'rb').readlines() numbers = range(n) stop = len(files) / len(numbers) def thread_download(n): sftp = login() directory = files[n*stop : (n+1)*stop] for line in directory: # 该函数的功能是将服务器中的文件下载至本地,第一个参数是具体地址,第二个参数是连接句柄 download_from_server(line.strip(), sftp) threads = [] for i in numbers: threads.append(threading.Thread(target=thread_download, args=(i, ))) threads[i].start() time.sleep(0.1) # 暂停0.1s是为了防止并发数太多 for i in numbers: threads[i].join() ``` 现在有两个问题: (1)我一般把n设置为300,程序启动时下载速度很快,能够达到每分钟100多份文件,虽然也能看到一些线程崩溃,但数量不多;但是大概10分钟后程序下载速度只有20多份文件,是因为很多线程已经挂掉了嘛,还是线程之间通过同一个账户访问存在阻塞?为什么速度下降幅度这么大? (2)除了使用多台机器和提高网速外,还能考虑什么方式提高爬虫效率?

python写的爬虫怎么放在微信小程序的环境下运行(或者说怎么在微信小程序写爬虫)?

本人大四,现在正在准备毕业设计,不想做一般的web项目(所有人都在做没有什么新意),思来想去最后决定用python写个爬虫(这个是毕设的核心功能),然后想联系当下的较流行的微信小程序,把爬虫放到微信小程序上进行运行(曾在网上看到一位大神在小程序上爬豆瓣的妹子图,感觉和我想要的差不多)。大致的流程基本是这样的。所以想大佬们指导一下小弟,怎么在小程序上实现爬虫?

python爬虫制作接口怎么做

python爬虫, 需要包装成接口,提供一个 url 给 别人用,效果是 打开 这个 url 就自动运行爬虫了。请教下怎么搞, 希望可以说的稍微具体,详细点

关于python网络爬虫网页失效的处理提问

小弟在做网络爬虫抓取网站上所有的图片,但是有些图片的链接是失效的。我用的request连接这些网站,在把request得到的东西写入到本地电脑中。可是碰到无效网站时,request就会报错,后续就进行不下去了,怎么处理这个问题呢![图片说明](https://img-ask.csdn.net/upload/201911/13/1573608788_425645.png) ``` image_file=open(im_name,'wb') imgs=requests.get(im_iter) #im_iter是我用正则表达式截出来的图片链接 image_file.write(imgs.content) image_file.close() ``` 这是小弟保存图片的代码

找一个github上用python写的爬虫项目

找一个github上用python写的爬虫项目 网上教程好少啊 想要一个开源的项目学习 谢谢大佬们了

python简单的爬虫问题

用python写一爬虫爬取网页中一个招生信息中的招生人数,招生表有分类,各种的总和

Python做的爬虫怎么放到微信小程序上面去?

我想做一个微信小程序,然后后端是一个Python写的网站爬虫,用来爬一些牌子的商品上新数据,小程序就用来获取和显示爬到的数据,但是不想一直带着电脑,所以想把爬虫做成一个微信小程序放到手机上。 自己目前还是大二,编程能力渣渣,所以想借这个机会提高一下自己的能力,还请大佬指点怎么把Python做的爬虫变成微信小程序 我有了解到java做后端的,但是我java才学了一丢丢,和没学差不多,所以如果和java相关的也是可以的,我看看能不能努力去学学看,当然最好是Python

python3中async/await 爬虫与scrapy爬虫的疑惑

scrapy是python的异步爬虫框架,而async / await也是异步爬虫,这两者的效率上有什么区别吗?

python爬虫手机验证怎样解决

python写的爬虫,登陆需要手机验证,有没有大神有什么解决方法,具体点的,,求助

python怎么爬虫豆瓣的短评得分

![图片说明](https://img-ask.csdn.net/upload/201812/01/1543607654_228165.png) 该如何爬去如图所示class的名字呢?(就是每条短评的评分) comment_soup.find_all('span', class_='comment-info')返回的都是none

python数据爬虫,使用哪个包效果最好

最近在学习python做简单的数据爬取,请问使用python的哪个程序包进行数据爬虫,效果最好呢?

Python-爬虫下载图片时报错

我写了一个简单的python(python3.5)爬虫 网站用代码可以访问 但是用 **_urllib.request.urlretrieve _**时出现了以下错误 **_ValueError: not enough values to unpack (expected 2, got 1)_** 我已经确认这是 下载那一行出的错了 但不知道为什么会这样报错 ![图片说明](https://img-ask.csdn.net/upload/201708/17/1502940585_15928.jpg) ![图片说明](https://img-ask.csdn.net/upload/201708/17/1502940695_821913.jpg) **求解决方法** **小白在此谢过!**

Python爬虫在Django中的使用问题

新入门Django,现在已经写好了一个Python爬虫,直接用Python跑测试没问题, ------在Django项目中加入了一个新的爬虫app,用model创建了表格,和展示爬虫的html ------但是runserver, 以后查看db.sqlite3里面对应的表已经创建,但是里面没有存爬到的内容, ------ 请大神们指教该怎么办, 代码如下 Spider.py, 爬虫并存入model.py 创建的**Website**表 ``` #!/usr/bin/python # -*- coding: utf-8 -*- # import data into mysql(sqlite3), must have these four lines defination: import os # # 我所创建的project名称为learn_spider;里面的app名称为website os.environ.setdefault("DJANGO_SETTINGS_MODULE", "blogproject.settings") # import django # django.setup() # urllib2 package: open resource by URL; re package: use regular expression to filter the objects import urllib.request, re import urllib.parse # BeautifulSoup: abstract data clearly from html/xml files from bs4 import BeautifulSoup # import tables from models.py from .models import Website # urlopen()方法需要加read()才可视源代码,其中decode("utf-8")表示以utf-8编码解析原网页,这个编码格式是根据网页源代码中<head>标签下的<meta charset="utf-8">来决定的。 ul = "https://baike.baidu.com/item/Python" req = urllib.request.Request(ul) html_python = urllib.request.urlopen(req).read().decode("utf-8") #html_python = urllib.request.urlopen('https://baike.baidu.com/item/Python').read().decode("utf-8") soup_python = BeautifulSoup(html_python, "html.parser") # print soup #这里用到了正则表达式进行筛选 item_list = soup_python.find_all('a', href=re.compile("item")) for each in item_list: print (each.string) # use quote to replace special characters in string(escape encode method) urls = "https://baike.baidu.com/item/" + urllib.parse.quote(each.string.encode("utf-8")) print (urls) html = urllib.request.urlopen(urls).read().decode("utf-8") soup = BeautifulSoup(html, "html.parser") if soup.find('div', 'lemma-summary') == None: text = "None" else: text = soup.find('div', 'lemma-summary').get_text() print (text) Website.objects.get_or_create(name=each.string, url=urls, text=text) text_python = soup_python.find('div', 'lemma-summary').text Website.objects.get_or_create(name="Python", url="https://baike.baidu.com/item/Python", text=text_python) ``` model.py 创建Website 表用于存储爬到的内容 ``` # -*- coding: utf-8 -*- from __future__ import unicode_literals from django.db import models # Create your models here. class Website(models.Model): name = models.CharField(max_length=100) url = models.CharField(max_length=100) text = models.TextField() def __unicode__(self): return self.name ``` view.py 提取表中已爬取的内容 ``` from __future__ import unicode_literals from django.shortcuts import render # Create your views here. from .models import Website def show(request): # 这里直接通过QuerySet API获取所有的object,默认返回类型为tuple(元组) queryset = Website.objects.all() # 传入三个渲染参数 return render(request, 'news/nws.html', {'QuerySet': queryset}) ```

C++里怎么调用Python爬虫?

有一个Python爬虫文件test.py,在C++里怎么调用这个爬虫呢?

python 新手爬虫代理问题

python newcoder,求解释下面代码 ``` import urllib2 enable_proxy = True proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'}) null_proxy_handler = urllib2.ProxyHandler({}) if enable_proxy: opener = urllib2.build_opener(proxy_handler) else: opener = urllib2.build_opener(null_proxy_handler) urllib2.install_opener(opener) ```

python实现新浪微博爬虫

详细简单的解决: !新浪微博爬虫的登陆问题(立即上手有效的,拒绝复制粘贴文章) 后面的内容爬取解析我自己来

python爬虫 滑动验证码

![图1输入验证码时候的图片](https://img-ask.csdn.net/upload/201710/31/1509451479_489211.png) ![图2带缺口的图片](https://img-ask.csdn.net/upload/201710/31/1509451510_257471.png) ![图3缺口图片](https://img-ask.csdn.net/upload/201710/31/1509451475_56992.png) 在爬虫的时候碰到这么个验证码。按照正常的思路如果找到完整的图片然后和图2进行RGB的差值运算就能找到图片缺口的位置。但是现在的情况是没有完整的图片只有带缺口的图片和缺口处的图片。该怎么找到缺口的位置呢。

Python爬虫过程中如何保持一致的cookie

Python爬虫时与服务器的三次交互:1、提取验证码,2、登录,3、目标网页的爬虫 1、在看别人程序时,有的在登录和目标网页爬虫过程中使用cookiejar保存cookie,但这样如何保证获取的验证码与登录所需的相匹配 2、需要保证这三次的过程cookie相同么?以及如何保证? 纠结好久了,万分感谢~

大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了

大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

springboot+jwt实现token登陆权限认证

一 前言 此篇文章的内容也是学习不久,终于到周末有时间码一篇文章分享知识追寻者的粉丝们,学完本篇文章,读者将对token类的登陆认证流程有个全面的了解,可以动态搭建自己的登陆认证过程;对小项目而已是个轻量级的认证机制,符合开发需求;更多精彩原创内容关注公主号知识追寻者,读者的肯定,就是对作者的创作的最大支持; 二 jwt实现登陆认证流程 用户使用账号和面发出post请求 服务器接受到请求后使用私...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

程序员写出这样的代码,能不挨骂吗?

当你换槽填坑时,面对一个新的环境。能够快速熟练,上手实现业务需求是关键。但是,哪些因素会影响你快速上手呢?是原有代码写的不够好?还是注释写的不够好?昨夜...

外包程序员的幸福生活

今天给你们讲述一个外包程序员的幸福生活。男主是Z哥,不是在外包公司上班的那种,是一名自由职业者,接外包项目自己干。接下来讲的都是真人真事。 先给大家介绍一下男主,Z哥,老程序员,是我十多年前的老同事,技术大牛,当过CTO,也创过业。因为我俩都爱好喝酒、踢球,再加上住的距离不算远,所以一直也断断续续的联系着,我对Z哥的状况也有大概了解。 Z哥几年前创业失败,后来他开始干起了外包,利用自己的技术能...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

早上躺尸,晚上干活:硅谷科技公司这么流行迟到?

硅谷科技公司上班时间OPEN早已不是什么新鲜事,早九晚五是常态,但有很多企业由于不打卡,员工们10点、11点才“姗姗来迟”的情况也屡见不鲜。 这种灵活的考勤制度为人羡慕,甚至近年来,国内某些互联网企业也纷纷效仿。不过,硅谷普遍弹性的上班制度是怎么由来的呢?这种“流行性迟到”真的有那么轻松、悠哉吗? 《动态规划专题班》 课程试听内容: 动态规划的解题要领 动态规划三大类 求最值/计数/可行性 常...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

Python爬虫,高清美图我全都要(彼岸桌面壁纸)

爬取彼岸桌面网站较为简单,用到了requests、lxml、Beautiful Soup4

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

Java岗开发3年,公司临时抽查算法,离职后这几题我记一辈子

前几天我们公司做了一件蠢事,非常非常愚蠢的事情。我原以为从学校出来之后,除了找工作有测试外,不会有任何与考试有关的事儿。 但是,天有不测风云,公司技术总监、人事总监两位大佬突然降临到我们事业线,叫上我老大,给我们组织了一场别开生面的“考试”。 那是一个风和日丽的下午,我翘着二郎腿,左手端着一杯卡布奇诺,右手抓着我的罗技鼠标,滚动着轮轴,穿梭在头条热点之间。 “淡黄的长裙~蓬松的头发...

大胆预测下未来5年的Web开发

在2019年的ReactiveConf 上,《Elm in Action》的作者Richard Feldman对未来5年Web开发的发展做了预测,很有意思,分享给大家。如果你有机会从头...

立即提问
相关内容推荐