爱打架的小白兔
2017-08-18 08:07
采纳率: 33.3%
浏览 2.4k

JAVA如何对抓取到的html文本进行解析和数据处理

有个功能需要在网上抓取一些数据,本身数据格式是纯html格式的,但是后来别人网站的数据而是改变了,如下.我应该如何获取其中的某个节点的数据
![![图片说明](https://img-ask.csdn.net/upload/201708/18/1503043673_575650.png)图片说明](https://img-ask.csdn.net/upload/201708/18/1503043666_578750.png)图片说明

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

8条回答 默认 最新

  • 爱打架的小白兔 2017-08-18 08:08

    图片说明

    点赞 打赏 评论
  • 爱打架的小白兔 2017-08-18 08:08

    图片说明

    点赞 打赏 评论
  • 爱打架的小白兔 2017-08-18 08:09

    如上就是抓取的数据结构,现在想要获取js中的articleInfo中的数据.尝试了很多办法都不能解决.希望大家能帮下忙1

    点赞 打赏 评论
  • 鼠小 2017-08-18 08:14

    正则表达式,,,提取字符串信息相当靠谱

    点赞 打赏 评论
  • s呵123456 2017-08-18 08:18

    你要看看 Jsoup jsoup 是用来抓取页面的 这里有讲解http://www.open-open.com/jsoup/

    点赞 打赏 评论
  • s呵123456 2017-08-18 08:19

    jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API (复制粘贴的 看看吧)

    点赞 打赏 评论
  • cloudyzhao 2017-08-18 08:34

    javax.xml.parsers.DocumentBuilderFactory factory =

        javax.xml.parsers.DocumentBuilderFactory.newInstance();  
        factory.setIgnoringComments(false);  
        factory.setIgnoringElementContentWhitespace(false);  
        factory.setValidating(false);  
        factory.setCoalescing(false);  
        DocumentBuilder builder = factory.newDocumentBuilder();  
    
        return builder.parse(xmlfile);  
    
                解析成Document想干啥 干啥
    
    点赞 打赏 评论
  • syt_Jimmy 2017-08-21 06:09

    其实html页面内容就是一个xml嘛 直接用Document解析

    点赞 打赏 评论

相关推荐 更多相似问题