dabocaiqq 2020-04-23 11:51 采纳率: 63.1%
浏览 155
已采纳

Java语言高分悬赏:怎么提取百度新闻的标题到一个文本文件,可以使用httpclient的方法

Java语言高分悬赏:怎么提取百度新闻的标题到一个文本文件,可以使用httpclient的方法

  • 写回答

2条回答 默认 最新

  • Z_墨脱 2020-04-27 17:34
    关注

    public class News {
    public static void main(String[] args) throws ClientProtocolException, IOException {
    // 创建HttpClient实例
    CloseableHttpClient httpClient = HttpClients.createDefault();
    // 创建httpget实例
    HttpGet httpGet = new HttpGet("https://news.baidu.com/");

        RequestConfig config = RequestConfig.custom()
                .setConnectTimeout(10000)//设置连接超时时间10秒钟,单位毫秒
                .setSocketTimeout(10000) //设置读取超时时间10秒钟
                .build();
        httpGet.setConfig(config);
        // 设置请求头消息User-Agent模拟浏览器
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; W…) Gecko/20100101 Firefox/59.0");
        // 执行get请求
        CloseableHttpResponse response = httpClient.execute(httpGet);
        // 获取返回实体
        HttpEntity entity = response.getEntity();
        // 实体的内容(编码格式为utf-8)
        String content = EntityUtils.toString(entity, "utf-8");
        // System.out.println("网页内容为: " + content);
    
        // 解析网页 得到文档对象
        Document doc = Jsoup.parse(content);    
    
        Elements hrefElements = doc.select("a[href]");// 选择所有的a元素
        for (Element e : hrefElements) {
            System.out.println("新闻标题:" + e.text());
            System.out.println("新闻地址:" + e.attr("href"));
            System.out.println("------------------------");
        }
    
    }
    

    }

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
  • Fatal Error 2020-04-27 17:36
    关注

    你这是要做一个爬虫吗?可以考虑用Jsoup解析抓取的页面数据,提取标题后保存就可以了。

    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 复杂表达式求值程序里的函数优先级问题
  • ¥15 求密码学的客成社记ji着用
  • ¥35 POI导入树状结构excle
  • ¥15 初学者c语言题目解答
  • ¥15 div editable中的光标问题
  • ¥15 mysql报错1415Not allowed to return a result set from a trigger 不知如何修改
  • ¥60 Python输出Excel数据整理,算法较为复杂
  • ¥15 回答几个问题 关于数据库
  • ¥15 51单片机串口通信问题,未完成且要修改
  • ¥15 百鸡问题 c++编程问题(相关搜索:输出数据)