Java爬虫爬取知乎首页，结果显示为一对中括号，使用的eclipse码的代码。

以下的代码是我照着网上的一篇文章写的，最后出现以下错误：
这是Main类
package aZhihu;

import java.util.ArrayList;
public class Main {
public static void main(String[] args) {
// 定义即将访问的链接
String url = "http://www.zhihu.com/explore/recommendations";
// 访问链接并获取页面内容
String content = Spider.SendGet(url);
// 获取该页面的所有的知乎对象
ArrayList myZhihu = Spider.GetZhihu(content);
// 打印结果
System.out.println( myZhihu);
}
}

这是爬虫类：
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Spider {
static String SendGet(String url) {
// 定义一个字符串用来存储网页内容
String result = "";
// 定义一个缓冲字符输入流
BufferedReader in = null;
try {
// 将string转成url对象
URL realUrl = new URL(url);
// 初始化一个链接到那个url的连接
URLConnection connection = realUrl.openConnection();
// 开始实际的连接
connection.connect();
// 初始化 BufferedReader输入流来读取URL的响应
in = new BufferedReader(new InputStreamReader(
connection.getInputStream(), "UTF-8"));
// 用来临时存储抓取到的每一行的数据
String line;
while ((line = in.readLine()) != null) {
// 遍历抓取到的每一行并将其存储到result里面
result += line;
}
} catch (Exception e) {
System.out.println("发送GET请求出现异常！" + e);
e.printStackTrace();
}
// 使用finally来关闭输入流
finally {
try {
if (in != null) {
in.close();
}
} catch (Exception e2) {
e2.printStackTrace();
}
}
return result;
}
static ArrayList GetZhihu(String content) {
// 预定义一个ArrayList来存储结果
ArrayList results = new ArrayList();
// 用来匹配标题
Pattern questionPattern = Pattern.compile("question_link.+?>(.+?)<");
Matcher questionMatcher = questionPattern.matcher(content);
// 用来匹配url，也就是问题的链接
Pattern urlPattern = Pattern.compile("question_link.+?href=\"(.+?)\"");
Matcher urlMatcher = urlPattern.matcher(content);
// 问题和链接要均能匹配到
boolean isFind = questionMatcher.find() && urlMatcher.find();
while (isFind) {
// 定义一个知乎对象来存储抓取到的信息
Zhihu zhuhuTemp = new Zhihu();
zhuhuTemp.question = questionMatcher.group(1);
zhuhuTemp.zhihuUrl = "http://www.zhihu.com" + urlMatcher.group(1);
// 添加成功匹配的结果
results.add(zhuhuTemp);
// 继续查找下一个匹配对象
isFind = questionMatcher.find() && urlMatcher.find();
}
return results;
}
}

这里是一个zhihu类。存放爬取来的问题
import java.util.ArrayList;
public class Zhihu {
public String question;// 问题
public String zhihuUrl;// 网页链接
public ArrayList answers;// 存储所有回答的数组
// 构造方法初始化数据
public Zhihu() {
question = "";
zhihuUrl = "";
answers = new ArrayList();
}
@Override
public String toString() {
return "问题：" + question + "\n链接：" + zhihuUrl + "\n回答：" + answers + "\n";
}
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2017-03-07 11:19
关注
http://blog.csdn.net/u014571011/article/details/51357066
另外知乎最近改版了，用fiddler看下

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java原生爬虫爬取知乎文章
2018-07-25 19:19

在本项目中，我们主要探讨的是如何使用Java原生的方式编写一个爬虫程序来抓取知乎网站上的文章信息。在不依赖任何第三方库如Jsoup的情况下，我们将利用Java的网络和字符串处理功能，特别是正则表达式来实现数据的...
java实现爬取知乎用户基本信息
2020-09-02 07:49

Java 实现爬取知乎用户基本信息是一项常见的网络爬虫任务，主要目标是从知乎网站上抓取用户的个人信息，如用户名、头像、简介等。本实例中，开发者使用了 Java 编程语言，结合了 HttpClient 4.5 库来处理网络请求。 ...
基于WebMagic的java爬虫，爬取知乎用户Demo.zip
2025-08-22 11:32

在这个项目中，我们关注的是如何利用WebMagic开发工具来爬取知乎这一知名问答社交平台的用户信息，通过这个过程来展示如何构建一个专项的网络爬虫程序。首先，要构建一个针对知乎的爬虫，我们需要了解WebMagic的...
基于WebMagic的java爬虫，爬取知乎用户Demo详细文档+资料齐全.zip
2024-11-28 20:50

基于WebMagic的java爬虫，爬取知乎用户Demo详细文档+资料齐全.zip 【备注】 1、该项目是个人高分项目源码，已获导师指导认可通过，答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传...
知乎爬虫(知乎网站爬取工具,爬取知乎网页内容)
2016-01-08 16:30

【知乎爬虫】是一种用于自动化抓取知乎网站信息的程序，通常由编程语言如Java实现。这个特定的爬虫工具，名为"ZhihuDown"，可能是以Java编写的一个开源项目，用户可以下载并尝试使用。它允许用户批量或定时获取知乎...
Java爬虫-爬取知乎内容(附源码注释)
2019-01-22 17:25

清水l的博客在前一段时间,做了一个demo,苦于没有数据展示,所以翻了很多关于爬虫的资料,在这里分享一下踩过的坑踩过的坑之前没接触爬虫的时候以为,只要请求中携带相关信息(请求头中跟浏览器发送的一模一样)就能获取到页面. ...
Python爬虫爬取知乎
2024-08-06 04:17

weixin_29179583的博客模拟登录要想实现对知乎的爬取，首先我们要实现模拟登录，因为不登录的话好多信息我们都无法访问。下面是登录函数，这里我直接使用了知乎用户fireling的登录函数，具体如下。其中你要在函数中的data里填上你的登录...
爬虫爬取知乎数据
2022-01-12 16:05

PearNotBear的博客 ['title']) print("-------------------------") print(d['excerpt'].replace("[图片]", "").replace("[视频]", "")) print("发布时间"+timeTransfer(d['created_time'])) else: return pass 知乎 from scrapy....
python 爬虫爬取知乎LOL图片（亲测）
2024-03-07 11:20

蜗牛其实也很努力的博客 python re解析爬取知乎的lol图片
Python知乎爬虫——爬取知乎用户简单数据信息
2021-05-08 21:41

萌新入坑代码，大佬勿喷
java爬虫抓取知乎20万_[爬虫]抓取知乎百万用户信息之爬虫模块
2021-03-08 09:39

Matt小特的博客本项目github地址：https://github.com/wangqifan/ZhiHuUserManage是获取用户信息的爬虫模块public classUserManage{private ...}构造函数用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/foll...
基于scrapy-redis实现分布式爬虫，爬取知乎所有问题及对应的回答资料齐全+文档详细.zip
2024-11-30 08:15

基于scrapy-redis实现分布式爬虫，爬取知乎所有问题及对应的回答资料齐全+文档详细.zip 【备注】 1、该项目是个人高分项目源码，已获导师指导认可通过，答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功，...
零基础写Java知乎爬虫之抓取知乎答案
2020-09-04 01:17

在本篇关于“零基础写Java知乎爬虫之抓取知乎答案”的教程中，我们将继续扩展上一篇文章的内容，目标是从知乎网站中抓取问题的答案。首先回顾一下，之前的文章已经教会了我们如何抓取知乎问题的基本信息，包括问题...
Python实现爬取知乎神回复简单爬虫代码分享
2020-12-23 23:32

看知乎的时候发现了一个 “如何正确地吐槽” ...我们要爬取两个内容：问题和回答，回答仅限于显示了全部内容的回答，如下面这种就不能爬取，因为好像无法展开（反正我不会。。），再说答案不全的话爬来也没用，所以就
没有解决我的问题, 去提问

Java爬虫爬取知乎首页，结果显示为一对中括号，使用的eclipse码的代码。

1条回答 默认 最新

1条回答默认最新