java如何爬取微博信息，或者通过接口获取微博信息

项目需求，希望获得几十个新浪微博的关注数、粉丝数以及发布微博的数量，没有提供接口，只能通过网页抓取这些信息。但是我网上查找爬取的方法，许多都过时了不能用，没过时的，也总是报错，请各位大神指导一下。
或者有相关接口，不用网页爬取，也可以。
微博是新浪微博。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_34386773 2018-04-24 02:16
关注
第一步，访问目标网页

Document doc = Jsoup.connect("http://bbs.my0511.com/f152b").get();

第二步，根据网页所需内容的特定元素使用jsoup的选择器选取（使用正则表达式效率更高），在这个例子中，目标网页是一个论坛，而我们所需要做的是爬取论坛首页所有帖子的标题名与链接地址。

先打开目标网址，使用谷歌浏览器浏览网页结构，找到结构所对应的内容
接着选取区域

Elements links = doc.getElementsByAttributeValue("id","lphymodelsub");

接下来对选取区域的内容进行获取，保存到数组中

for (Element link : links) {

CatchModel c = new CatchModel();
String linkHref = "http://bbs.my0511.com"+link.parent().attr("href");

String linkText = link.text();

c.setText(linkText);
c.setUrl(linkHref);
fistCatchList.add(c);
}

这样一个简单的抓取就完成了。

接下来就是新浪微博的抓取，一般的http访问新浪微博网站得到的html都是很简略的，因为新浪微博主页是用js动态生成的并且要进过多次的http请求与验证才能访问成功，所以为了数据抓取的简便，我们走一个后门，也就是访问新浪微博的手机端，weibo.cn进行抓取，但随之而来的一个问题是，新浪微博的访问不管哪一端都需要强制的登陆验证，所以我们需要在http请求的时候附带一个cookie进行用户验证。在网上找了好久使用webcontroller这个开源的爬虫框架，访问很简便，效率也高，那记下来我们就看看如何使用这个框架。

首先需要导入依赖的包，WebController的ja包与selenium的jar包

下载地址：http://download.csdn.net/detail/u013407099/9409372

利用Selenium获取登陆新浪微博weibo.cn的cookie(WeiboCN.java)

利用WebCollector和获取的cookie爬取新浪微博并抽取数据(WeiboCrawler.java)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java 如何通过微信扫描二维码，获取用户信息？ intellij-idea java java-ee
2020-08-11 09:15

回答 3 已采纳如果是内置在微信里面的话是可以的啊扫描获取微信信息授权就可以获取用户信息，再比较，如果不需要那么多限制，记得好像可以扫码是可以获取手机信息的你可以通过手机信息和输入的用户名来判断是否是此人扫码
java模拟微博登录有人会么？ java 新浪微博
2017-09-05 06:39

回答 5 已采纳网上帖子很多的，，可以多试几个 http://blog.csdn.net/u010343650/article/details/38130303 http://www.cnblogs.com/
java如何实现发布多图新浪微博？ java 新浪微博
2019-01-14 12:00

回答 2 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201901/15/1547516282_506427.png) 是想发送这种格式的微博但是现在只能发一
JAVA微博文章内容抓取_关于微博数据抓取的实践
2021-03-18 10:30

塔西佗的博客搜索热词最近接到一个任务主要是想抓取微博相关微博数据。比如说抓取一个特定微博中微博数、关注数、被关注的粉丝数、个人相关信息比如居住...结合爬虫及微博开放api方法进行抓取。对于第一种方法，以新浪微博为例，...
java解析新浪微博Json数据，获取uid和text java json mysql 数据挖掘
2015-04-08 02:09

回答 10 已采纳我给你完整代码，说明如下 1）.txt文本中的JSON数据格式是JSON数组格式形如：[{},{},{},{}]，读取文本文件内容的方法是jsonRead 2）main方法是示例代码，parseA
java如何获取支付宝的个人信息。 java
2018-09-10 06:51

回答 2 已采纳除非你能在网站上查阅到，你的爬虫能获得的信息并不能比你网页浏览的更多。如果你要获得用户的信用分、花呗这些，要看你获得是用户个人的（用户提供登录密码）还是说不知道用户密码，获取任意用户的。前者可
java，如何获取硬盘分区信息 java 服务器
2017-09-19 09:59

回答 6 已采纳我在windows，本机下亲测可行，题主可以试试，看下图： ``` package xunlei; import java.io.File; import java.text.D
调用微博API获取微博内容
2017-11-17 16:42

叮当了个河蟹的博客调用微博API获取微博内容在采集微博数据的时候，可以利用微博的API来进行调用。在调用微博APi的时候需要做两项工作，第一步是创建应用，第二步是安装微博SDK.一.创建应用创建应用的目的是获取app-key和app-secret...
java后台无法获取用户信息 java ssh 数据库
2017-07-24 06:12

回答 6 已采纳已解决
java通过jsoup怎么爬取动态加载的内容 java
2018-04-10 08:23

回答 3 已采纳 https://blog.csdn.net/a812919698/article/details/52243080
JAVA WEB项目如何获取API接口中的数据 java 数据库
2017-12-25 05:28

回答 9 已采纳首先给你一个后台发送请求的： [httpUtils](https://github.com/huhuhuHR/springboot/blob/master/src/main/java/com/huo
新浪微博java爬虫_【java爬虫】---爬虫+jsoup轻松爬博客-Go语言中文社区
2021-03-15 23:31

郭逗的博客爬虫+jsoup轻松爬博客最近的开发任务主要是爬虫爬新闻信息，这里主要用到技术就是jsoup，jsoup 是一款 Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似...
如何用java获取pc端软件的数据？ java
2017-09-14 16:24

回答 2 已采纳【1】部分软件可以通过注册表找到【存有数据的目录】（至于怎么对应，这个就....）【2】java可以操作windows命令行，权限影响的话，，可以操作命令行然后获取命令行输出的东西，进而获取题主想
微博抓取策略及实现
2013-11-14 13:33

Towan的博客按照一定的规则例如深度优先、广度优先、大站优先、小站优先等方法进行扩展其URL地址进行爬取数据，而微博抓取的实质为在一个给定的微博URL之中，直接抓取页面，并对页面进行解析，例如获取粉丝数、微博数、关注数、...
Python 教你自动发微博，每日实现一句心灵鸡汤
2021-12-14 17:30

AI科技大本营的博客作者| 周萝卜出品 |萝卜大杂烩最近在研究用 Python 来制作各个类别的机器人，今天先来分享一个自动发布新浪微博的机器人。基本思路其实要实现一个简单的自动发布微博机器人还是不难的...
没有解决我的问题, 去提问

悬赏问题

¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效

java如何爬取微博信息，或者通过接口获取微博信息

3条回答 默认 最新

悬赏问题

3条回答默认最新