sarras322 2015-01-27 05:01 采纳率: 10%
浏览 1881
已采纳

关于python采集的问题。

为啥采集之后变成下面这样了、采集url:https://www.google.com.hk/?gws_rd=ssl#safe=strict&q=1

<!doctype html>

Google(function(){window.google={kEI:&#39;QBvHVMODHIbx8gWir4KACQ&#39;,kEXPI:&#39;4011559,4017578,4020346,4020562,4020726,4021587,4021598,4021965,4025828,4025891,4026005,4026109,4026111,4026330,4026376,4028127,4028129,4028398,4028468,4028490,4028508,8300096,8300111,8500393,8500852,8501118,10200083,10200905&#39;,authuser:0,kSID:&#39;QBvHVMODHIbx8gWir4KACQ&#39;};google.kHL=&#39;zh-HK&#39;;})();(function(){google.lc=[];google.li=0;google.getEI=function(a){for(var b;a&amp;&amp;(!a.getAttribute||!(b=a.getAttribute(&quot;eid&quot;)));)a=a.parentNode;return b||google.kEI};google.https=function(){return&quot;https:&quot;==window.location.protocol};google.ml=function(){};google.time=function(){return(new Date).getTime()};google.log=function(a,b,d,e,k){var c=new Image,h=google.lc,f=google.li,g=&quot;&quot;,l=google.ls||&quot;&quot;;c.onerror=c.onload=c.onabort=function(){delete h[f]};h[f]=c;d||-1!=b.search(&quot;&amp;ei=&quot;)||(e=google.getEI(e),g=&quot;&amp;ei=&quot;+e,e!=google.kEI&amp;&amp;(g+=&quot;&amp;lei=&quot;+google.kEI));a=d||&quot;/&quot;+(k||&quot;gen_204&quot;)+&quot;?atyp=i&amp;ct=&quot;+a+&quot;&amp;cad=&quot;+b+g+l+&quot;&amp;zx=&quot;+google.time();/^http:/i.test(a)&amp;&amp;google.https()?(google.ml(Error(&quot;a&quot;),!1,{src:a,glmm:1}),delete h[f]):(c.src=a,google.li=f+1)};google.y={};google.x=function(a,b){google.y[a.id]=[a,b];return!1};google.load=function(a,b,d){google.x({id:a+m++},function(){google.load(a,b,d)})};var m=0;})();google.kCSI={};var _gjwl=location;function _gjuc(){var a=_gjwl.href.indexOf(&quot;#&quot;);if(0&lt;=a&amp;&amp;(a=_gjwl.href.substring(a),0&lt;a.indexOf(&quot;&amp;q=&quot;)||0&lt;=a.indexOf(&quot;#q=&quot;))&amp;&amp;(a=a.substring(1),-1==a.indexOf(&quot;#&quot;))){for(var d=0;d&lt;a.length;){var b=d;&quot;&amp;&quot;==a.charAt(b)&amp;&amp;++b;var c=a.indexOf(&quot;&amp;&quot;,b);-1==c&amp;&amp;(c=a.length);b=a.substring(b,c);if(0==b.indexOf(&quot;fp=&quot;))a=a.substring(0,d)+a.substring(c,a.length),c=d;else if(&quot;cad=h&quot;==b)return 0;d=c}_gjwl.href=&quot;/search?&quot;+a+&quot;&amp;cad=h&quot;;return 1}return 0}<br> 汉字完全没弄下来唉。。。采集gfsoso 199897.com 也是这样、</p>
  • 写回答

1条回答 默认 最新

  • oyljerry 2015-01-27 05:48
    关注

    Google很多都是ajax异步请求,所以你拿到的数据都是返回的页面内容。
    而搜索结果是Javascript异步后续插入的。

    你这种情况需要考虑用selenium的webdriver来加载页面,然后获取页面加载结束后再扒取页面内容

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改
  • ¥20 wireshark抓不到vlan
  • ¥20 关于#stm32#的问题:需要指导自动酸碱滴定仪的原理图程序代码及仿真
  • ¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
  • ¥15 stata安慰剂检验作图但是真实值不出现在图上