ltmf 2009-06-11 17:56
浏览 172
已采纳

后台抓取网页图片(图片由SERVLET生成,没有URL)

[size=large]各位牛牛:我这个问题比较棘手

我想抓取某个网站的图片是 由servlet生成的
因此无法获取图片URL

直接在地址栏输入 http"//xxxx/servlet?index=0 在网页能显示图片

但如果关闭网页,再输入http"//xxxx/servlet?index=0 就不行了,估计servlet还需要另外的参数

现在问题是,我能通过后台获取到servlet 但我不知道具体的参数(应该不止index这个参数,可能是隐藏的)

因此网上大多解决方案都是 解析HTML 把IMG 地址拿出来,我解析出来是个servlet?index=0

然后 我用这段代码

String imgurl = "http://xxx:8080/xxx/servlet?index=0"

        URL url = new URL(imgurl); 

去获取流,失败了。 所以有没有别的办法呢? 即使不知道servlet要求的参数,我也能抓出图片呢?

苦恼啊 [/size]
[b]问题补充:[/b]
ywbanm 您说的 badboy
我在badboy 输入http://xxx:8080/xxx/servlet?index=0" 后如果错误会提示缺哪个参数?

  • 写回答

6条回答 默认 最新

  • xiaoyu64814361 2009-06-14 02:52
    关注

    我想楼主的问题是不是没有伪装成一个浏览器去请求呢··我曾经做过一个抓取器去抓取网页上的信息,或许你这个是因为对方已经探测出你不是一个浏览器了,因为浏览器要访问的时候都会发一个http头请求信息的,可是你这样去拿是没有的,他当然会不给你下载下来啦··原来我去下载新浪的网站也是一样的,刚开始我一个文件都下载不下来,老是报错,后来我才知道是新浪判断到了我不是浏览器,所以我准下载,你可以试用一下apache的httpClient试一下看看··

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 乘性高斯噪声在深度学习网络中的应用
  • ¥15 运筹学排序问题中的在线排序
  • ¥15 关于docker部署flink集成hadoop的yarn,请教个问题 flink启动yarn-session.sh连不上hadoop,这个整了好几天一直不行,求帮忙看一下怎么解决
  • ¥30 求一段fortran代码用IVF编译运行的结果
  • ¥15 深度学习根据CNN网络模型,搭建BP模型并训练MNIST数据集
  • ¥15 C++ 头文件/宏冲突问题解决
  • ¥15 用comsol模拟大气湍流通过底部加热(温度不同)的腔体
  • ¥50 安卓adb backup备份子用户应用数据失败
  • ¥20 有人能用聚类分析帮我分析一下文本内容嘛
  • ¥30 python代码,帮调试,帮帮忙吧