2 k77kkxx k77kkxx 于 2018.02.14 09:51 提问

下载的html在浏览器中展示有问题

爬了一个网站并写入到本地 但浏览器打开却只有几个字 为什么啊

8个回答

showbo
showbo   Ds   Rxr 2018.02.14 11:37
已采纳

js生成的内容爬虫爬不了,要采集js生成的内容要用webbrowser那种可以解析js的插件来才加才行

k77kkxx
k77kkxx 回复C币出货Q155132206: 多谢多谢
3 个月之前 回复
showbo
showbo 你样式也没有爬下来,就要自己处理css文件为对方网站的url地址,跨域加载js没搞,除非你用ie设置允许跨域加载数据
3 个月之前 回复
kekxv
kekxv   2018.02.14 12:33

如果是完全爬下来的话,有两种情况:

一种是js用的还是网络上的js,然后该js有域名检测机制,判断你为非本地域名,然后返回其他的js文件或者不返回。

一种情况是爬下来的js里面本身就具有域名校验机制,判断为非正常域名则不执行

k77kkxx
k77kkxx js基本不会 查书去了 多谢
3 个月之前 回复
FenTianShenHuo
FenTianShenHuo   2018.02.14 10:14

打开看看是不是结构有什么变化

k77kkxx
k77kkxx html文件没有问题的
3 个月之前 回复
wlxun
wlxun   2018.02.14 10:16

用记事本打开,看里面的内容是否爬下来;如果文本信息已经爬下来的情况下,可以通过正则表达式把内容提取出来

k77kkxx
k77kkxx 文件没问题的 浏览器加载html文件时碰到url会自动发请求获取相应资源 但下载的html文件是不是就不会自己发请求了 所以显示不完整 好像也不对 下载的源码中的文字都没有显示完整
3 个月之前 回复
svsecomm
svsecomm   2018.02.14 10:24

打开查看下载下来的内容,是或否有数据,有的话处理下通过正则表达式可以提取出来的。没有数据的话,估计爬的数据有问题了。

k77kkxx
k77kkxx 浏览器中打开已下载网页查看源码是完整的 但就是显示不出来
3 个月之前 回复
weixin_41705700
weixin_41705700   2018.02.14 10:29

代码没有出来,这个很难判断具体是什么问题,你可以先看下html文本中有没有数据,有的话就是显示问题,没有就是没有抓取成功

k77kkxx
k77kkxx 源码有5000+行 是显示问题吗
3 个月之前 回复
k77kkxx
k77kkxx   2018.02.14 10:46

打开是这样的
部分已下载的html 没问题的 图片说明

qq_27607229
qq_27607229   2018.02.14 10:57

有些网站有反爬虫机制

k77kkxx
k77kkxx 已经爬下来了
3 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!