请教大神,一个爬虫问题
import requests
import re
url = 'http://s.taobao.com/search?q=书包&s=0'
def gethtmltext(url, timeout = 30):

    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
    return r.text
gethtmltext('http://s.taobao.com/search?q=书包&s=0')

用pycharm返回的的text是这样的

<script>
    // 千牛不提示
    var isQianniu = navigator.userAgent.toLowerCase().indexOf('qianniu') !== -1;

    var checkValue = "cookieCheck"+"="+"57041";
    if(!isQianniu && document.cookie != null && document.cookie.indexOf(checkValue) < 0){
        alert("您的浏览器限制了第三方Cookie,这将影响您正常登录,您可以更改浏览器的隐私设置,解除限制后重试。");
    }
</script>


    <div class="hd">

     <div class="login-switch" onselectstart="return false;">
                        <i class="iconfont quick" id="J_Static2Quick" onclick="javascript:goldlog.record('/member.13.1','','','H46777383')">&#xe628;</i>
                        <i class="iconfont static" id="J_Quick2Static">&#xe626;</i>
    </div>
    <div class="login-tip">
        <div class="poptip">
            <div class="poptip-arrow">
                <em></em>
                <span></span>
            </div>
            <div class="poptip-content">
                <i class="iconfont">&#xe625;</i>扫码登录更安全
            </div>
        </div>
    </div>                                 

    </div>
<div class="bd">
        <!--登录的错误信息结束-->

         <div id="J_QuickLogin" class="ww-login hidden">
            <form action="" class="ww-form">
                <div class="login-title">
                    选择其中一个已登录的账户
                </div>

                <div class="ww-userlist">

                </div>
                <div class="trigger">

                </div>
                <div class="submit">
                    <button type="submit" class="J_Submit"  id="J_SubmitQuick">登 录</button>
                </div>
                <div class="other-login">
                    <a href=""  class="light-link" id="J_Sso2Static">使用其他账户登录</a>
                </div>
            </form>
        </div>
        <div id="J_MiserLogin" class="ww-login hidden">
                        <form action="" class="ww-form">
                            <input type="hidden" id="x_token" value="">
                            <div class="login-title">
                                选择其中一个已登录的账户
                            </div>

                            <div class="ww-userlist">

                            </div>
                            <div class="trigger">

                            </div>
                            <div class="submit">
                                <p><input type="checkbox" id="J_Mdelete"> 不再记住密码</p>
                                <button type="submit"  tabindex="5"
                                        id="J_SubmitMiser">登 录</button>
                            </div>
                            <div class="other-login">
                                <a href="" title="使用其他账户登录" class="light-link" id="J_Miser2Static">使用其他账户登录</a>
                            </div>
                        </form>
          </div>

        <!--标准登录框-->
        <div class="static-form " id="J_StaticForm">
            <div class="login-title">


                密码登录

            </div>

            <form action="/member/login.jhtml?redirectURL=http%3A%2F%2Fs.taobao.com%2Fsearch%3Fq%3D%25E4%25B9%25A6%25E5%258C%2585%26s%3D0"  method="post" id="J_Form">
            <div id="J_Message"
                style="display:none;"
                class="login-msg error">
                <i class="iconfont">&#xe604;</i>

            <p class="error"></p>

             </div>
                <!-- 手机号登录 -->



                <div class="field ph-hide username-field ">
                    <label for="TPL_username_1"> <i class="iconfont" title="会员名">&#xe601;</i></label>
                    <span class="ph-label">会员名/邮箱/手机号</span> <input type="text"
                                                                             name="TPL_username" id="TPL_username_1"
                        class="login-text J_UserName"
                                                                             value=""
                                                                             maxlength="32" tabindex="1" aria-label="会员名/邮箱/手机号"/>
                </div>

但是我自己用浏览器搜索这个url的时候,源代码是有商品信息的,请教大神如何解决呢?

3个回答

解决方法:通过浏览器查看 登录状态的cookie信息,假设为 Cookie: a=b,c=d
然后在gethtmltext 函数的请求头 kv中添加键值对,也就是在kv那行的下面添加 kv['Cookie']='a=b,c=d'
这时再去爬取,应该可以爬到需要的数据。

这个是淘宝的页面,爬虫直接进入到了登录页面了。浏览器没有淘宝登录 cookie 信息的话,跟爬虫得到的页面是一样的。

wojiushiwo945you
毕小宝 回复benny817: 爬虫需要带上浏览器的 cookie 信息,或者用 selenium 模拟浏览器登录,自动填上账号密码提交后再爬。
2 个月之前 回复
benny817
benny817 谢谢,那请问要怎么解决呢。我的浏览器登陆了淘宝,返回的源代码是带有商品信息的。但是爬虫爬回来的却是登录页面。
2 个月之前 回复

没有做登录认证吧
并且淘宝有反爬虫机制,如果速率过快ip 容易被封掉

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
哪位大神帮忙解答一下爬虫返回信息{"code":"600","echo":"signature verification failed"}?
-
文本数据情感分析批量实现问题?
-
渣渣请教python爬虫xpath问题
-
爬虫 抓取 内容 时有时无
-
python+scrapy+selenium爬虫超时和连接被拒绝问题
-
小弟想写个可以解析js的网络爬虫,C++,不知如何下手,故在此请教各位大神
-
求指教Python爬虫大众点评,一直无法解决,麻烦各位大神不腻赐教
-
scrapy+selenium爬虫规则设置问题
-
hawk爬虫工具数据抓取疑问
-
python爬虫爬取腾讯新闻评论
-
跪求!VBA做爬虫,想用代理服务器的地址
-
爬虫爬取<p>和<p,title='...'>中所有<p>的标签?
-
利用MD5进行url去重是怎么实现的,有人做过这方面的工作吗?
-
请问如何用python urllib2下载doc文件
-
如何用python爬取多个网页的logo?
-
求助!!如何用python 爬虫收集佳缘的用户信息
-
android如何在webview中全屏显示网页中的某一个div内容?
-
使用Python3将数据导入mysql,但无法插入数据
-
httpClient和jsoup的问题
-
学会了这些技术,你离BAT大厂不远了
每一个程序员都有一个梦想,梦想着能够进入阿里、腾讯、字节跳动、百度等一线互联网公司,由于身边的环境等原因,不知道 BAT 等一线互联网公司使用哪些技术?或者该如何去学习这些技术?或者我该去哪些获取这些技术资料?没关系,平头哥一站式服务,上面统统不是问题。平头哥整理了 BAT 等一线大厂的必备技能,并且帮你准备了对应的资料。对于整理出来的技术,如果你掌握的不牢固,那就赶快巩固,如果你还没有涉及,现在...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
浏览 GitHub 太卡了?教你两招!
老实说,GitHub 在国内的使用体验并不算太好,这其中最大的原因就是网络了。 GitHub 访问起来比较卡,这个看起来貌似无解。国内的 gitee 网速倒是可以,但是无法代替 GitHub,个人感觉 gitee 上还是开源项目多一些,工具类库要少一些。 在网络比较卡的情况下,如果我们想在线查看 GitHub 上项目的源码,是非常的不方便,我们需要不断的进入到某个目录中,然后再退出来,再进入到其他...
吃人的那些 Java 名词:对象、引用、堆、栈
作为一个有着 8 年 Java 编程经验的 IT 老兵,说起来很惭愧,我被 Java 当中的四五个名词一直困扰着:**对象、引用、堆、栈、堆栈**(栈可同堆栈,因此是四个名词,也是五个名词)。每次我看到这几个名词,都隐隐约约觉得自己在被一只无形的大口慢慢地吞噬,只剩下满地的衣服碎屑(为什么不是骨头,因为骨头也好吃)。
Google 为中国开发者都带来了什么?
Android 10 原生支持 5G,Flutter 1.9、Dart 2.5 正式发布! 作者 | 唐小引写于上海世博中心 封图 | CSDN 付费下载自东方 IC 出品 | GDD 合作伙伴 CSDN(ID:CSDNnews) 这是 Google Developer Days 在中国的第四年,从 2016 年 Google Developers 中国网站正式发布,2017 年前 Goog...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
Spring高级技术梳理
Spring高级技术梳理 序言正文SpringDate部分Spring全家桶之SpringData——预科阶段Spring全家桶之SpringData——Spring 整合Hibernate与Hibernate JpaSpring全家桶之SpringData——Spring Data JPASpring全家桶之SpringData——SpringData RedisSpringBoot部分Sp...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
Docker 零基础从入门到使用
诺!这只可爱的小鲸鱼就是docker了! Docker 是什么? Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux 或 Windows 机器上( 摘自百度 )。 Docker 能干什么? 在讲 Docker 能干什么之前,我们不妨先看看没有 Docker 和有Docker分别是个什么样子的? 场景一 某公司需要开发...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
对计算机专业来说学历真的重要吗?
我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。 这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案,记得帮我点赞哦。 先说结论,无论赞不赞同,它本质就是这样:对于技术类工作而言,学历五年以内非常重要,但有办法弥补。五年以后,不重要。 目录: 张雪峰讲述的事实 我看到的事实 为什么会这样 ...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
多线程编程是后台开发人员的基本功
这里先给大家分享一个小故事:在我刚开始参加工作的那年,公司安排我开发一款即时通讯软件(IM,类似于 QQ 聊天软件),在这之前我心里也知道如果多线程操作一个整型值是要加锁...
win10电脑工具整理 - 常用工具!
如题,本文主要为博主对电脑上安装的一些软件,所做的整理,当做备份用吧。 一、分类 系统工具 办公软件 编程开发 数据库相关 图片视频工具 网络及下载工具 解压缩工具 影音娱乐工具 二、软件工具 1.系统工具 1.1. 磁盘管理 PartAssist:一款好用的磁盘分区管理工具。 1.2. 修复、引导 EasyBCD:一款常用的系统引导和修复工具。 1.3. 虚拟机管理工具 win10...
动画:用动画给面试官解释 TCP 三次握手过程
作者 | 小鹿 来源 | 公众号:小鹿动画学编程 写在前边 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对于一个初学者来说。 学习导图 一、TCP 是什么? TCP(Transmissio...
为什么程序员在学习编程的时候什么都记不住?
在程序员的职业生涯中,记住所有你接触过的代码是一件不可能的事情!那么我们该如何解决这一问题?作者 |Dylan Mestyanek译者 | 弯月,责编 | 屠敏出品 |...
JAVA实现商品信息管理系统
任务与实现 超市商品管理系统 题目要求 超市中商品分为四类,分别是食品、化妆品、日用品和饮料。每种商品都包含商品名称、价格、库存量和生产厂家、品牌等信息。 主要完成对商品的销售、统计和简单管理。 这个题目相对简单,可以用一张表实现信息的保存和处理,因此不再给出数据库设计参考。 功能要求 (1)销售功能。购买商品时,先输入类别,然后输入商品名称,并在库存中查找该商品的相关信息。如果有库存量,输入购买...
500行代码,教你用python写个微信飞机大战
这几天在重温微信小游戏的飞机大战,玩着玩着就在思考人生了,这飞机大战怎么就可以做的那么好,操作简单,简单上手。 帮助蹲厕族、YP族、饭圈女孩在无聊之余可以有一样东西让他们振作起来!让他们的左手 / 右手有节奏有韵律的朝着同一个方向来回移动起来! 这是史诗级的发明,是浓墨重彩的一笔,是…… 在一阵抽搐后,我结束了游戏,瞬时觉得一切都索然无味,正在我进入贤者模式时,突然想到,如果我可以让更多人已不同的方式体会到这种美轮美奂的感觉岂不美哉? 所以我打开电脑,创建了一个 `plan_game.py`……
相关热词 c# 增加元素 c#控制台简单加法 c# 服务端框架 c# 判断事件是否注册 c#中is和has c# udp 连接超时 c#词典 c#实现排列组合 c# oss 上传 c#判断输入的是否为ip