爬取网页数据列表无法索引文本问题

我是python3.6的版本,超级新手,望大神指教。
在爬取网页数据时,print(results[0].text)可以索引出对应文本,但是取全列表时就出现错误,具体情况如下图,求大神教教我吧
图片说明
图片说明

当我改成results[0:].text时,就出现问题了。如果我想获取全列表文本,应该怎么做呢?

图片说明
图片说明

0

2个回答

for item in results:
    print(item.text)
0

我认为,您的那个[0:]的类型被python认识是一个list,而打印命令需要的是一个test而不是list,所以python不能进行解析,因为python是逐行运行的,关于list的数据类型等,可以查看这个:http://www.runoob.com/python/python-lists.html

对于这种情况,给出您两种解决方式:
1、推荐您使用for循环的方式进行批量打印,具体代码我就不贴出了,防止系统认定我抄袭,代码请查看第一个人的回答,
2、使用类型的转换,将list的类型转换为text,相对来说,我更推荐您使用第一种方法。
如果我解决了您的回答,请点一下,采纳,如果并没有的话,请在下方留言,我会继续帮您解决问题

0
qq_40691112
浓眉橙 回复Wolf_pfD: 好的谢谢
6 个月之前 回复
qq_39356813
王夜羽 回复Wolf_pfD: 棒!
6 个月之前 回复
Wolf_pfD
Wolf_pfD 回复qq_40691112: 第一个results[0].text中results[0]已经不是list了,是list列表中第一个request对象了。results[0:]是切片操作,切的是索引从0开始到结尾的list片段,本质还是list。list不具备text属性。
6 个月之前 回复
qq_40691112
浓眉橙 回复qq_39356813: 然后它显示TypeError: sequence item 0: expected str instance, Element found 完全搞不懂T . T
6 个月之前 回复
qq_39356813
王夜羽 回复qq_40691112: 是这样的,对python来说,他是一个list,而输出则需要的是text,这是两种类型您需要加一个转换才可以实现
6 个月之前 回复
qq_39356813
王夜羽 回复qq_40691112: 是这样的,python
6 个月之前 回复
qq_39356813
王夜羽 回复qq_40691112: 你这样写:','.join(results) #结果会像是这样显示:1,2,3,4,5
6 个月之前 回复
qq_40691112
浓眉橙 主要是第一个results[0].text的时候,它可以当做list进行处理,并且得到了相应的结果,我所以我想取全列表,但是为什么不行了呢?for和while的形式逐个输出我会,就是不明白results[0].text可以但是results[0:]不行
6 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
web 网络爬虫程序
多线程爬取指定网页的数据,文本,图片
使用selenium调用火狐浏览器爬取网页文本及链接
时间:2017年8月6号晚上3点40分    ,   失眠了,闲来无事写个随笔吧。 几天前朋友问我能不能帮他爬取一个网址的文本及链接,想自己整理一便以方便学习,网址:http://www.bianceng.cn/Programming/cplus/ 需求:将网页内的文本内容及对应超链接保存到本地,总共60页,1773条 考虑到网页中第一页的url为:http://www.bianceng
python小试牛刀之爬取网页文本内容保存到本地
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
爬取网页数据 编码转换问题
爬去网页数据 html文档编码问题 $code=mb_check_encoding($res);//检测编码 $res = mb_convert_encoding($res,'utf8',$code);//转换编码,方法一 $res = iconv("GB2312","UTF-8",$res);//转换编码,方法二当用方法一的时候,输出来依然是乱码,用方
webmagic整理爬取例子
1.爬取csdn博客http://blog.csdn.net/zhengyong15984285623/article/details/52865229      爬取网址为http://blog.csdn.net/zhengyong15984285623  2、全注解爬取代理网站https://my.oschina.net/anxiaole/blog/755965     http://w
AI&BigData four:使用scrapy爬取网站,按照指定的格式存入txt文本的详细过程复盘
用了将近两个星期,终于对scrapy有了初步了解,并且使用scrapy来爬取到了动态加载的网页。再此给自己这两周的学习成果做一个详细的过程复盘,顺带重温下忘掉的知识。首先看看项目要求。要爬取的是左边的四个大板块里的四个小版块的文章,然后按照以下的格式保存在文档中。最终爬取的结果是这样的:接下来让我们看看具体过程是怎样的?1.打开命令行,跳转到指定文件存放的目录下,新建一个scrapy项目。如下所示...
Jsoup爬取网页上表格数据
首先,先下载jsoup的jar包,这个自己去网上搜一下吧,好多的,然后导入到程序中,方便使用。 下来,先得到你要获取的网页的内容,Document doc = Jsoup.connect(url).timeout(5000).get(); 这里面的url就是你要爬取的网址,timeout(5000)设置了你爬取网页的最大时间,超出时间后就不再尝试了,一般网站不用设置的,只需要Documen
python简单爬取网页文本操作体会
自上次成功尝试爬取了静态页面的图片之后,本白又跟着另一篇博文做了一下爬取网页文本的尝试。基本代码都是来源于该篇博文,本人只是做了轻微修改。 简单的实现爬虫爬取网页文本和图片 以python3为背景,这里还是先定义一个读取html页面信息的函数: import urllib.request def getHtml(url): page = urllib.request.urlop...
爬取动态网站表格内容
一、简介 (1)选用requests (2)数据来源以执法惩戒网站为例网址:http://119.6.84.165:8085/sfgk/webapp/area/cdsfgk/zxxx/zxcj.jsp 目录 一、简介 二、考察网站 三、开始爬虫 四、爬取的数据: 五、数据的过滤和保存 二、考察网站 按f12,f5刷新,点击network如图: 点击每...
python3定向爬取网页内容
import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 获取网页内容 try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r...
python爬取微博网页数据
提供代码框架,读者们稍作修改就可以用了,本文爬取的是某舆情热门事件的发文ID、点赞数、转发数、评论量
使用jsoup爬取网页信息,保存到txt中
首先建立maven项目,导入相关的jar包 pom <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://ma...
R语言实现简单的网页数据抓取
在知乎遇到这样一个问题。https://www.zhihu.com/question/26385408/answer/147009602这是要爬取的内容的网页: R语言的代码的实现方式如下:#安装XML包 >install.packages("XML") #载入XML包 > library(XML)
python : selenium 网页爬虫 读取列表文件
python : selenium 网页爬虫 读取基金代码列表文件
简单的实现爬虫爬取网页文本和图片
一 基本概念在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。二 HTML 的组成部分(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。 (2) Head 告诉浏览器一些相关的信息。 (3) Body 包含的是给人看的数
PHP之使用CURL爬取文章列表、略缩图、及文章内容
本文为原创作品,引用请注明出处,欢迎转载。 最近在学PHP后台,想要在网络上爬取一些健康资讯,尽管知道PHP爬取数据的能力不如Python,但还是想试试用PHP爬取网页。 这里首先介绍PHP的一个库:curl,接下来我们将主要用到这个库来爬取网页数据。 还会用到的是正则表达式,不清楚的同学可以自行上网学习相关知识。 1. 首先要初始化curl,并对其做一些基本的设置,这里将其封装成一个ge...
Java爬取网页内容的简单例子
Java爬取网页内容的简单例子
爬虫1:总共有1000页,每一页有10个项,每个项有一个通向详情页的url,现在需要爬详情的内容
​ 总共有1000页,每一页有10个项,每个项有一个通向详情页的url,现在需要爬详情的内容,用scrappy。 class AskdSpider(scrapy.Spider): name = 'ym' allowed_domains = ['j4b.x4y.com', 'z4k.x4y.com'] start_urls = [] # for i in r...
nutch爬虫原来是这样操作的!
一、nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。 Nutch是一个开源的网络...
简单的python爬取网页字符串内容并保存
最近想试试python的爬虫库,就找了个只有字符串的的网页来爬取。网址如下: http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430 打开后看到是一些歌名还有hash等信息。按照hash|filename的方式存在
html页面索引数据(网页爬虫)
博主第三篇文章博主自己喜欢倒腾,比较喜欢搞事情,所以这次分享点儿福利给大家哦多余的不说,还是看代码实际package com.test.reptile; import java.util.ArrayList; import java.util.List; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.js...
多进程爬取手机搜狐网所有页面
在进行爬取操作之前介绍下threading.lock类和concurrent.futures模块以及分布式进程: threading.local类 使用线程时最不愿意遇到的情况就是多个线程竞争资源,在这种情况下为了保证资源状态的正确性,我们可能需要对资源进行加锁保护的处理,这一方面会导致程序失去并发性,另外如果多个线程竞争多个资源时,还有可能因为加锁方式的不当导致死锁。要解决多个线程竞争资源...
正则表达式爬取网页内容的简单使用
对于网页的html标签要善于发现标签的一些特定写法有助于爬取正则表达式的书写,尤其一些独有的标签 列入  class、id、src等 # coding: utf-8 import re string = '秋高气爽' # 1.构造正则表达式 pattern = re.compile(r') # 2.findall()查找所有符合规则的字符串 rs = re.findall(pattern
网页爬取系列(一)爬取网页数据的一些小技巧
1、检查 robots.txtimport urllib.robotparser as rparser def isCheckRobots(user_agent,robots_url, url): '''检查robots.txt''' rp = rparser.RobotFileParser() rp.set_url(robots_url) rp.read()
简单的网络爬虫,抓取当前页面内容,文本输出
一个简单的网络爬虫,抓取当前页面的内容,以文本形式存放到本地。 没有什么难度,适合初学网络java的童鞋。
爬虫 爬取不到数据原因总结
javascript:void(0);
jsoup爬取网页数据
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。 1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本;
用Python爬取文本信息
import requests import re import time headers={ 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.638.0 Safari/534.16' }...
python实战之网络爬虫(爬取网页新闻资讯列表)
关于大数据时代的数据挖掘 (1)为什么要进行数据挖掘:有价值的数据并不在本地存储,而是分布在广大的网路世界,我们需要将网络世界中的有价值数据挖掘出来供自己使用 (2)非结构化数据:网络中的数据大多是非结构化数据,如网页中的数据都没有固定的格式 (3)非结构化数据的挖掘--ETL:即三个步骤,分别是抽取(extract)、转换(transformation)、存储(loading),经过这三个...
Python爬虫-Request爬取网站内容
爬去网页-Requests,网站库-Scrapy,全网爬取-定制Google这种。 爬取京东一个页面的信息 import requests url = 'http://item.jd.com/2967929.html' try: r = requests.get(url) r.raise_for_status() #如果状态不是2...
android 从网页上爬取数据
1.爬取字符串文本经常通过下面三种方法 (1)通过HttpURLConnection爬取文本 /** * HttpUrlConnection */ new Thread(new Runnable() { @Override public void run() {
爬虫记录(1)——简单爬取一个页面的内容并写入到文本中
1、爬虫工具类,用来获取网页内容 package com.dyw.crawler.util;import java.io.BufferedReader; import java.io.InputStream; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection;/** * 爬虫工具
python爬取网页内容
上次学习了用python爬取网页上的图片,这次来学习一下怎么用python来获取网页上我们感兴趣的内容。 目标:爬取简书首页的文章标题,链接,阅读量,评论数,收藏数。 步骤:和上节相同,关键在于正则表达式的选取。 import re import urllib def getHtml(url):     page = urllib.urlopen(url)     html =
java Jsoup 爬取网页数据
建议先去看看API文档。 先上一段代码,然后在慢慢分析。 public class Test { public static void main(String args[]) throws Exception { Document doc = Jsoup.connect("http://www.cjmsa.gov.cn/9/368/2/39/62/").get();// 解析该
Elasticsearch系列(十)----使用webmagic爬取数据导入到ES
webmagic主要有两个文件 一个是对爬取页面进行处理,一个是对页面处理之后的数据进行保存: CSDNPageProcessor package com.fendo.webmagic; import java.io.IOException; import java.net.InetAddress; import java.net.UnknownHo
Java利用WebCollector抓取网站列表和图片
前言 上一篇文章我们简单的说了如何通过WebCollector抓取到内容,但是这并不能满足我们的工作需求,在工作过程中我们通常会抓取某个网页的列表下的详情页数据,这样我们就不能单纯的只从某个列表页面抓取数据了,我们需要跳转到详情页进行数据的二次抓取.好了,废话不多说,我们开始上代码说明如何操作. 抓取列表信息 假定我们就抓取骚栋主页中的...
python爬虫-解决网页中取不到的信息-”真假网页“
首先介绍一下我所理解的“真假网页”,“真网页”就是我们可以直接通过网址(URL),获取这个“真网页”上的任何内容。“假网页”就是我们通过URL爬取网页信息时得到的结果为空,这一点相信大家在写爬虫程序时会经常遇到。比如我们想获取一个网页的信息,利用requests的get方法对URL进行请求,再用BeautifulSoup进行解析后我们发现得到的结果为空!这样我们就可能使用了一个“假网页”,比如我们...
爬虫系列4:scrapy技术进阶之多页面爬取
多页面爬取有两种形式。 1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面。 2)从递归爬取,这个相对简单。在scrapy中只要定义好初始页面以及爬虫规则rules,就能够实现自动化的递归爬取。
简单的java爬取网站内容和url实例
简单的java爬取网站内容和url实例 网络爬虫 最近学习网络爬虫,对于开发小白的我,希望从今天开始记录自己的成长,加油吧。 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通...
java爬取网页内容 简单例子
java爬取网页内容 简单例子(1)——使用正则表达式 【本文介绍】   爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好。这里只是举个例子。话不多说了,上看看效果吧。 【效果】 我们随便找个天气预报的网站来试试:http://www.weat
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python爬取网页数据教程 python数据爬取教程