（网络爬虫）如何从新闻网站获取新闻文章的文本

i m going to get the text from a news website that i have to get around 1k website content

the link is on below : http://www.dcfever.com/news/readnews.php?id=16727

this website post every latest news and the new url is formed in adding 1 in the id

readnews.php?id=16727

so ,next url will be

readnews.php?id=16728

the question is i would like to scrape the text from 16000 to 17000

how to implement in Java

Jsoup? or other web crawler?

thanks

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongyi5425 2016-06-24 05:30
关注
You've tagged it python too. Look at beautifulsoup here: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取腾讯新闻评论 json python 爬虫
2017-11-23 05:47

回答 3 已采纳需要先把内容的mainComment()去掉，它里面是一个json，然后就可以处理，\u是表示unicode的字符。 ``` In [24]: sess = requests.Session(
java爬虫获取小说相关内容 java 爬虫
2017-06-30 01:53

回答 2 已采纳请参考我发的一个帖子[完整的小说站点爬虫-spring-mybatis-jsoup-http-client ](http://www.52pojie.cn/thread-542306-1-1.html
求助：关于Java网络爬虫，如何高效的且方便的获取json数据包？ java json
2017-03-12 15:03

回答 2 已采纳简介也会放到页面上吧，你如果要单独获取json估计只能从json返回的那个URL进行获取了。
java爬虫 webmagic 抓取egmentfault文章.zip
2024-03-08 11:14

爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...
java+selenium爬虫，获取到的List<WebElement>，遍历很慢 java selenium 爬虫
2021-12-23 17:06

回答 1 已采纳明天验证下.现在是多少秒
网络爬虫spider-flow无法运行 java 爬虫
2022-06-05 09:45

回答 1 已采纳问题已解决，PRoject settings里的sdk 版本换成corretto-1.8就好了
急！请问java的jsoup爬虫如何完整获得响应验证码？ java 开发语言爬虫
2022-04-21 11:40

回答 2 已采纳代码抛了异常，后面的代码没有执行。try catch 下抛出异常的代码试下。
python新闻文本爬虫文章_不知道Python爬虫？一篇文章搞定
2020-12-15 15:51

weixin_39850697的博客爬虫即网络爬虫，英文是Web ...这就是浏览器请求了网站的服务器，获取到网络资源。那么，爬虫也相当于模拟浏览器发送请求，获得到HTML代码。HTML代码里通常包含了标签和文字信息，我们就从中提取到我们想要的信...
java爬虫页面class都一样怎么办 java 爬虫
2018-09-29 03:13

回答 1 已采纳最好能上个样例.自己寻找规律自定义吧.一般现在的网站为了防止非法抓取数据都是做一些防护的.
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Java-网络爬虫(一)
2024-01-02 17:43

多加点辣也没关系的博客网络爬虫（Web crawler）又称为网络蜘蛛或网络机器人，是一种自动化程序，用于在互联网上浏览和抓取信息，是互联网时代一项普遍运用的网络信息搜集技术。该项技术最早应用于搜索引擎领域，是搜索引擎获取数据来源的...
爬虫爬到的新闻数据怎么让小程序展现出来？ python 后端爬虫
2022-03-27 23:50

回答 3 已采纳两种方案：实时抓取显示：由于你使用的是云开发技术，可以使用nodejs技术实现爬虫，直接将爬取的过程使用nodejs封装成一个云函数放上去运行，这样也可以省去后端服务器，我的一个菜谱小程序就是这样做
微信公众号文章爬虫.zip
2024-03-06 12:19

爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。爬虫的工作流程包括以下几个关键步骤： URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL...
Java中使用HTTP编程实现网络爬虫
2022-07-18 19:24

仙草不加料的博客 HTTP协议(超文本传输协议，HyperTextTransferProtocol)，是一种无状态的协议，它是基于TCP协议的应用层传输协议，简单的来说，HTTP协议属于应用层，建立在传输层协议TCP之上。客户端通过与服务器建立TCP连接，之后...
没有解决我的问题, 去提问

悬赏问题

¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码

（网络爬虫）如何从新闻网站获取新闻文章的文本

3条回答 默认 最新

悬赏问题

3条回答默认最新