RT 想用java写个爬虫 主要想爬取微博的数据 求指教
4条回答 默认 最新
iteye_20539 2012-05-27 19:21关注1、页面请求使用httpclient比较好,如果涉及多线程最好使用4.x版本
2、页面解析,推荐使用jsoup,功能比较强大另外,针对网络爬虫上面两点是基本的,但是微博数据是需要登录才能获取的,所以需要考虑模拟登录
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
1、页面请求使用httpclient比较好,如果涉及多线程最好使用4.x版本
2、页面解析,推荐使用jsoup,功能比较强大
另外,针对网络爬虫上面两点是基本的,但是微博数据是需要登录才能获取的,所以需要考虑模拟登录