java webmagic 爬取知乎回答

用webmagic抓取知乎某个问题下的所有回答时候,每次只能获取前两条回答。

查了各种博客,试了各种方法,总是只返回2条回答,或者直接401。

o.a.h.impl.execchain.MainClientExec - Connection can be kept alive indefinitely
o.a.http.impl.auth.HttpAuthenticator - Authentication required
o.a.http.impl.auth.HttpAuthenticator - www.zhihu.com:443 requested authentication
o.a.http.impl.auth.HttpAuthenticator - Response contains no authentication challenges
o.a.h.c.p.ResponseProcessCookies - Cookie accepted [aliyungf_tc="AQAAAD1PxXQABgUA7CesO3+7/0/iFhJt", version:0, domain:www.zhihu.com, path:/, expiry:null]
o.a.h.i.c.PoolingHttpClientConnectionManager - Connection [id: 0][route: {s}->https://www.zhihu.com:443] can be kept alive indefinitely
o.a.h.i.c.PoolingHttpClientConnectionManager - Connection released: [id: 0][route: {s}->https://www.zhihu.com:443][total kept alive: 1; route allocated: 1 of 100; total allocated: 1 of 1]
u.c.webmagic.utils.CharsetUtils - Auto get charset: null
u.c.w.d.HttpClientDownloader - Charset autodetect failed, use UTF-8 as charset. Please specify charset in Site.setCharset()
u.c.w.d.HttpClientDownloader - downloading page success https://www.zhihu.com/api/v4/questions/29688243/answers?sort_by=default&include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cupvoted_followees%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=3&offset=3
09:04:14.908 [pool-1-thread-1] INFO us.codecraft.webmagic.Spider - page status code error, page https://www.zhihu.com/api/v4/questions/29688243/answers?sort_by=default&include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Cannotation_action%2Cannotation_detail%2Ccollapse_reason%2Cis_sticky%2Ccollapsed_by%2Csuggest_edit%2Ccomment_count%2Ccan_comment%2Ccontent%2Ceditable_content%2Cvoteup_count%2Creshipment_settings%2Ccomment_permission%2Ccreated_time%2Cupdated_time%2Creview_info%2Cquestion%2Cexcerpt%2Crelationship.is_authorized%2Cis_author%2Cvoting%2Cis_thanked%2Cis_nothelp%2Cupvoted_followees%3Bdata%5B%2A%5D.mark_infos%5B%2A%5D.url%3Bdata%5B%2A%5D.author.follower_count%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=3&offset=3 , code: 401

求各路大神指点迷津

0

2个回答

0
sinat_32957107
1mportttttt 老哥,你的工程,有没有试过知乎?知乎是异步加载回答的。
一年多之前 回复

老哥你这是在搞爬虫吗

-1
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
基于 webmagic 的知乎爬取[GitHub]
ZhiHuCrawler(基于 webmagic 的知乎爬取)简介GitHub 地址 出于兴趣想要分析一下知乎,所以爬取了一些知乎的数据。爬取的数据主要有三种: - 某种话题(如互联网、软件工程)下的问题 - 知乎大V(如张佳玮、李开复等) - 大V回答模块主要分两个模块: 话题问题爬取(ZhiHuTopics package) 该模块主要爬取某话题下的 Question ,比如爬取 软件
知乎zhihu:Python爬取某个问题下所有含有给定关键词的回答
        原文地址及源码下载: xiaoxu's blog      在浏览知乎问题过程中,为了通过关键字快速定位到自己想要的回答,写了这个爬虫程序。可以根据问题ID和关键词组合,保存所有含有关键词的回答。 其中,必须含有的关键词以空格间隔,或含有的关键词以+间隔,例如,查找知乎ID为23437659的问题:“国内你最喜欢的城市(除家乡外生活过的城市)是哪里?为什么?”,要求回答中含有杭...
java爬知乎问题的所有回答
突然想爬知乎问题的答案, 然后就开始研究知乎页面,刚开始是爬浏览器渲染好的页面, 解析DOM,找到特定的标签,后来发现,每次只能得到页面加载出来的几条数据,想要更多就要下拉页面,然后浏览器自动加载几条数据,这样的话解析DOM没用啊,不能获得所有的回答,然后就搜索了下问题,发现可以使用模拟浏览器发送请求给服务器,获取服务器响应,解析返回的数据,有了方法,接着就是分析网络请求了, 我用的是火狐浏览器,...
webmagic整理爬取例子
1.爬取csdn博客http://blog.csdn.net/zhengyong15984285623/article/details/52865229      爬取网址为http://blog.csdn.net/zhengyong15984285623  2、全注解爬取代理网站https://my.oschina.net/anxiaole/blog/755965     http://w
Java爬虫-爬取知乎内容(附源码注释)
在前一段时间,做了一个demo,苦于没有数据展示,所以翻了很多关于爬虫的资料,在这里分享一下踩过的坑 踩过的坑 之前没接触爬虫的时候以为,只要请求中携带相关信息(请求头中跟浏览器发送的一模一样)就能获取到页面. 例如,在请求中携带cookie 伪装成浏览器. 伪装referer 请求跟浏览器中的请求没什么区别.然而,这种操作确实对大部分页面有效 ,但是还有一小部分呢. 直到某天, 我突然想到试着...
python爬取知乎回答
1. 安装库 htmlparser用来解析html。 Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库。 pip install beautifulsoup4 Selenium 是浏览器自动化测试框架,使用它来模拟用户操作。 利用 pip 安装 selenium pip install ...
爬取知乎某个用户的参与的问题讨论及回答
import requests for i in range(1,21): # 数据api url = 'https://www.zhihu.com/api/v4/members/leedaye/answers?include=data%5B*%5D.is_normal%2Cadmin_closed_comment%2Creward_info%2Cis_collapsed%2Can...
简单爬取知乎网的问答
                                         简单爬取知乎网的问答模块     利用requests以及pyquery,以及存储基础技术爬取知乎的问答模块。 import requests from pyquery import PyQuery as pq url = "https://www.zhihu.com/explore" headers = {...
python3爬取知乎某话题下的若干个问题及其回答
思路:通过selenium的webdriver实现页面的点击、下来等操作。页面完全加载后通beautifulsoup来查找相应的标签。将数据放到列表中,然后通过xlwt创建excel,并把数据存进去。 缺点:容易遇到性能问题。可能一个话题有很多的回复,而对于往excel中插入数据来说,上万条就会有卡顿了。其次,此代码处理完一个页面后并不会关闭,而是接着打开下一个网页继续处理。等所有网页都处理完后...
Scrapy爬取知乎所有问题和回答
1.https://www.zhihu.com/question/48429102查看所有回答网址 2.加载数据url 3.数据表两张 4.没有获取所有url的入口,采用深度优先的算法
Python网络爬虫实战:爬取知乎话题下 18934 条回答数据
好久没有更爬虫了,因为马上要毕业了,最近在准备毕设的项目,没时间搞这个了,不好意西了大家。 事情是这样的,上周末,我一单身单身单身的好哥儿们找我,拜托我个事儿。。。我这个单身单身单身的好哥们喜欢逛知乎,尤其喜欢看一些情感类型的话题,寄希望于这个来解决单身的烦恼。某天,他看到了知乎上这样一个问题: 你的择偶标准是怎样的?  这个问题下的回答数竟有有一万八千多条,然后这家伙忍不住了,来找...
python代码实现—爬取知乎神回复
20行python代码——爬取知乎神回复 代码非常简单,直接跑在pychram中就行!
python爬取知乎热门话题及其回答(requests中session保持cookies的应用)
以python爬取知乎网页,一般搜索知乎后,需要登录后才能看到内容,所有在爬取时需要通过登录后才能实现。可以采用selenium进行操作,或者事先登录好后,保留下cookies,访问的时候带上cookies就行了。 我这里采用selenium模拟登录,获取cookies后保存至本地,而后借助requests的session保持会话,保持cookies,同时用beautifulsoup进行页面解析。...
用java语言和webmagic框架爬取小说题目和文章内容
JAVA语言使用webmagic框架爬取小说内容
爬取知乎话题下回答,并制作关键字词云
一开始学习爬虫就有爬知乎的想法,但是直到现在才实现这个小目标,说来确实惭愧;本项目是用scrapy+python2.7下实现的 本来目标是tor+scrapy来搭建代理池,后来发现还要翻墙,太麻烦了,于是直接更换useragent的方法,发现知乎没有封ip,可以放心大胆的爬。还打算爬取作者,以及评论下的评论等,后面觉得没必要,都是重复的过程。 今天要爬的知乎话题是 #如何评价王尼玛?目标地址:
[Python 爬虫之路4] 使用selenium爬取知乎任意一个问题下,所有回答中的图片
不知不觉中,知乎改版了。虽然新版的知乎被很多人所吐槽,但是,我发现一个最最重要的一点! 那就是就算不登陆,也可以阅读一个问题下的所有回答了,之前点击更多的时候,会弹出提示让你注册或者登陆。 作为一个爬虫新手,作为一个每天被轮子哥带着逛的人,怎么能不想着使用爬虫加载一个问题下的所有图片呢??知乎的页面是动态加载的,果然过程是曲折的,但是最终目的还是达到了!我的思路: 模拟浏览页面,不断的点击更多
Python练手爬虫系列No.2 抓取知乎问题下所有回答中的图片(待续)
接着上一篇Python练手爬虫系列No.1 知乎福利收藏夹图片批量下载,今天我们来按照知乎问题抓图片!比起收藏夹,更加直接精准。为什么先抓收藏夹后抓取问题呢,其实是因为知乎的一点限制。 那就是!知乎问题下方的回答是通过动态加载的……普通的静态网站抓取的办法是没办法获取到所有的数据的。 那么怎么处理呢?我们一起试试。网页数据分析 这个时候跟我做打开Firefox浏览器,按F12,进入网络模式下,
爬取知乎60万用户信息之后的简单分析
使用 Java+Elasticsearch+Kibana 爬取了知乎 60 万用户数据,做了简单的可视化分析。
基于webmagic实现爬取博客园的所有精品文章
最近有一些工作上的需要,需要接触到爬虫来爬取数据。之前有使用过Python实现一个很简单的爬虫Demo,这次由于公司使用的是Java爬虫,基于webmagic框架去实现的爬虫。于是就参考了资料自己学习搭载了一个Demo,爬取了博客园所有精品文章的数据。 首先稍微了解了一下webmagic框架,下图是webmagic的流程示意图。  功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、...
python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片
2019独角兽企业重金招聘Python工程师标准>>> ...
python:知乎发现页的爬取(问题,作者,回答)
import requests from pyquery import PyQuery as pq url = "https://www.zhihu.com/explore" hd = {'User-Agent': 'Mozilla/5.0'} try: r = requests.get(url, headers=hd) r.raise_for_status() r.en...
通过Python爬虫爬取知乎某个问题下的图片
该爬虫主要是通过requests来实现的,该模块完全可以很好的代替urllib和urllib2,而且功能更强大,详细可以看这里。同时也用到了pillow模块中的image对象,实现环境是Python2,不过在Python3上只需很小的改动就可以正常运行。 首先通过cookie模拟登陆到知乎,然后获取知乎某一个问题的链接,打开并获取该问题回答下的图片,然后保存到本地。我们先看下知乎中的网页
爬虫实战之分布式爬取知乎问答数据
分布式爬取知乎 一、环境 window7 scrapy pycharm redis other PC MySQL 二、简介    之所以选择爬取知乎,一是很多人都在爬,那么一定有它爬取价值的地方;二呢分析后才发现,知乎是一个模拟登录、信息解析清洗、反反爬等较为经典的练习素材;我们在这次爬取中将会涉及到IP代理、随机更换UserAgent、scrapy-redis分布式。 数据维度...
webmagic是个神奇的爬虫(二)-- webmagic爬取流程细讲
webmagic流程图镇楼: 第一篇笔记讲到了如何创建webmagic项目,这一讲来说一说webmagic爬取的主要流程。 webmagic主要由Downloader(下载器)、PageProcesser(解析器)、Schedule(调度器)和Pipeline(管道)四部分组成。 从流程图上可以看出,webmagic爬取信息首先需要依赖给出的一个初始爬取的地址,下载器会下
java爬虫WebMagic框架爬取图片
一.该爬虫用了WebMagic爬虫框架实现 1.WebMagic开发文档:http://webmagic.io/ 2.在使用之前,您需要了解正则表达式和XPath,大神请忽略 二.下面是实现代码和分析 2.1添加maven依赖     不知道maven的童鞋请参考https://my.oschina.net/huangyong/blog/194583 <dependency&g...
爬虫记录(6)——爬虫实战:爬取知乎网站内容,保存到数据库,并导出到Excel
前面几篇文字我们介绍了相关的爬虫的方法爬取网站内容和网站的图片,且保存到数据库中。今天呢,我们来次实战练习,爬取知乎网站跟话题网站top的几个问题和答案,然后保存到数据库中,最后把数据库中的所有内容再导出到Excel中。我们还是继续之前的代码,同样的代码就不贴出来了,如果有不了解的同学,可以查看之前的文章,或者文章末尾有又git网站可以自己下载查看所有代码。
用JAVA实现一个爬虫,爬取知乎的上的内容(代码已无法使用)
在学习JAVA的过程中写的一个程序,处理上还是有许多问题,爬简单的页面还行,复杂的就要跪. 爬取内容主要使用URLConnection请求获得页面内容,使用正则匹配页面内容获得所需的信息存入文件,使用正则寻找这个页面中可访问的URL,使用队列存储未访问的URL和已访问的URL。另外,由于没有用到第三方包,所以不需要去下载新的jar包,如果遇到报错,可能是快捷导入的包错了,改过来就好了。还是直接上代
爬取知乎一个问题下所有图片
代码如下: import requests import re import http.cookiejar session=requests.session() questionurl='https://www.zhihu.com/question/25699277' agent=r'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/
webmagic爬取图片
webmagic算是一个国人开发比较简单粗暴的爬虫框架,首页:http://webmagic.io/ 中文文档:http://webmagic.io/docs/zh/posts/ch2-install/ 这次随便找了个小图片网站爬取(大网站没代理怕被封IP):http://www.mmonly.cc/ktmh/hzw/list_34_1.html 分析网站: 要获取这些主要内容的连接 ...
webmagic爬取数据
java程序webmagic爬取京东商品、百度资讯代码
Java网络爬虫基于webMagic爬取慕课网所有免费视频信息实例
说到爬虫呢 当然是python最适合干的事 但是java呢 基于这个庞大成熟的生态圈,也有一些不错的爬虫框架可以在实际项目中使用的。 webMagic就是今天的主角 它在github上的start数量达到了近7000 很了不起了 并且这个是我们国人开发的哦。 简单介绍下吧: webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发 项目结构 ...
知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)
知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)。 大家下载试试吧。挺好用的,嘿嘿。
JAVA爬虫框架WebMagic爬取ajax请求的页面数据
    查看WebMagic文档:http://webmagic.io/docs/zh/posts/ch1-overview/      爬取网址需要翻墙: https://www.reddit.com/r/funny/          首先分析页面,随着我们拉下滚动条,XHR标签下面包含含有ajax的异步请求,需要靠经验来找,一般会有分页参数和关键词参数。    点击上面画圈的一个...
用Java和webmagic爬取图片并下载到本地(动态网页)
用java和webmagic下载动态图片网站上的图片到本地。
java+webMagic+selenium 实现自动登陆爬取登陆后的信息
    http://webmagic.io/   -----webMagic下载地址.     selenium 实现稍微麻烦点,需要下载浏览器驱动,(推荐使用谷歌浏览器),下载时先看自己的谷歌浏览器的版本对应的驱动版本然后再下载(版本不匹配的话,启动直接报错).需要配置浏览器驱动的环境变量在path后追加上chromedriver.exe所在的目录. <dependency>...
Python爬取知乎问题回答下的回答和图片
使用python爬取知乎问题下的回答和图片,采用selenium和requests框架爬取
使用scrapy爬取知乎问题和答案的相关字段完整代码
目前程序健壮性有待提高。尤其是对question的各类异常处理还不够。但是代码已经可用,附上代码运行后爬取到的数据。在爬取到101条quetion时已经爬取到2671条answer字段了。。。。这差距好大。一方面是因为answer有知乎提供的API,更方便爬取,另一个方面就是question的好多异常情况我没有处理,碰到这些异常时就不会写入数据库。这是我今后需要思考,提高的方向。暂时就这样子。ma...
java基于WebMagic的淘宝/天猫爬虫(二、商品基本属性)
这次抓取商品的基本属性,基本上都是从简单的开始做。 首先看看这次要抓什么 是的就是他,看起来很简单,做起来也确实很简单,这里用到了一个Chrome插件-Toggle JavaScript,他可以禁止网页中的JS加载,这样我们就可以拿到最初的网页,是这个样子的: 往下滚动 至此简单明了,直接抽xpath,so easy。 while (true){ ...
用正则爬取网页
1.正则表达式: ①创建正则对象                   ②匹配查找                   ③提取数据保存2.import restring = """<div><a href="www.baidu.com"></a></div><title>正则</title>pa
JAVA编程134——webmagic爬虫爬取网页招聘信息
一、什么是WebMagic 二、功能需求:爬取网站招聘信息并存到数据库 三、涉及技术点:Spring Data JPA+Spring Boot+Webmagic 四、工程目录 五、功能实现 1、pom.xml <?xml version="1.0" encoding="UTF-8"?&am