高斯拟合的周萌萌 2017-04-26 13:22 采纳率: 20%
浏览 1191

关于java 爬虫问题 数据总是爬的很奇怪

这是源代码。

URL url = new URL("http://quote.eastmoney.com/center/list.html#28003629_0_2");
BufferedReader bufin = new BufferedReader(new InputStreamReader(url.openStream()));
String line = null;
//创建规则
Pattern p = Pattern.compile("[0-9]+\.[0-9]+");
Matcher m = null;
//弄个存的list
List list = new ArrayList();
while((line = bufin.readLine())!=null){
m = p.matcher(line);
while(m.find()){
list.add(m.group());
}
}
for(String s : list){
System.out.println(s);
}

这是结果
1.0
2.0
2.0
4.0
2.5
12.1
12.1
12.1
12.1
12.1
12.2
12.2
14.1
14.1
14.1
14.2
14.2
14.3
14.3
24.1
24.1
24.1
24.2
24.2
24.3
24.3
2.0
2.0
2.0
2.0
2.0
2.0
2.0
1.0
0.25

这是目的网页
http://quote.eastmoney.com/center/list.html#28003629_0_2
原网页里可能上百个数字,,为什么我只爬出来这么几个,,刚才爬贴吧的帖子内的邮箱账户字段 。也爬不出来 室友说 可能有保护政策

  • 写回答

5条回答 默认 最新

  • oyljerry 2017-04-26 13:51
    关注

    看看你的正则表达式规则是否有漏了数据。然后就是服务器有做反扒虫,只返回部分数据给你

    评论

报告相同问题?

悬赏问题

  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 lammps拉伸应力应变曲线分析
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥15 请问Lammps做复合材料拉伸模拟,应力应变曲线问题
  • ¥30 python代码,帮调试,帮帮忙吧
  • ¥15 #MATLAB仿真#车辆换道路径规划
  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建