2 kaixinwangzi1982 kaixinwangzi1982 于 2017.01.02 09:45 提问

Httpclient带登录的爬虫短信验证码
    现在做个爬虫,但是数据都是登陆后才能获取,出现个问题,一直用代理,但是代理现在已经登录不了了。会直接返回个错误信息。
            更换了代理商,但是会出现短信验证码的问题。我用httpclient模拟登录,怎么能验证短信呢?
            不知道大家有没有更好的策略方案。求打赏!!!!!!!!!!!!!!!!不胜感激

1个回答

ouyangsixian
ouyangsixian   2017.01.02 10:34

httpclient模拟登录会检查你不是认为操作的话,可能或锁ip和账号,可以试试用Webbrowser控件,模拟用户操作的行为。

kaixinwangzi1982
kaixinwangzi1982 我们现在的流程是登录后发布房源信息到中介网站,类似安居客之类的
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Java爬虫(三)-- httpClient 模拟登录 + cookie 登录状态管理
前言 前面两章内容阐述了httpClient怎么模拟Http请求和如何解析页面。 接下去会讲在一些实战中遇到的问题。 现在回到我的开发摸索之路,之前说到我所爬取的网页是某个险企提供给合作公司的一个页面,通过账号登录然后爬取指定的数据。 这里就出现本章要写的主题了。模拟登录。 我首先确认登录验证的请求所需要携带的参数: 可以看到,登录需要验证码,并且密码不是明文传输的,而是通过前...
使用HttpClient 4.x登陆带有验证码的网站
对于爬虫来说,验证码通常是实现过程中的一个巨大的障碍,因为验证码的多样性,有的甚至变态至极,所有一般来说使用代码自动识别验证码是非常困难的,本问的内容就是讲如何将验证码保存到本地,然后通过人工输入验证码实现登陆,从而抓取网页信息。 首先说说整个登陆的流程,当我们打开一个网站的时候,浏览器就会记录该网站的cookie,用于识别信息,同时服务器会向浏览器发送一张验证码的图片,并与该cookie的信息
基于HttpClient的正方教务系统模拟登录(带验证码)
PS:恩,由于最近在学web和简单的http协议,所以心血来潮想用java写个爬虫来爬取学校官网(正方教务系统)个人主页的基础信息(课程信息、成绩……),其实在之前学过java基础教程的时候就可以写的,但后知后觉总是在当前阶段做之前阶段应该完成的任务!或许这就是菜鸟吧~~~。 写在前面:其实写java爬虫的话,一般使用三种方法:自带库类(urlconnection),外库(httpclient)和...
Java爬虫入门简介(四)——抓包工具的使用以及使用HttpClient模拟用户登录的访问
原文地址:http://www.datalearner.com/blog/1051509365677137网络爬虫需要解决的一个重要的问题就是要针对某些需要用户名和密码访问的页面可以模拟用户自动登录。在这一篇博客中我们将介绍如何使用Chrome浏览器自带的抓包工具分析页面并模拟用户自动登录。我们会以CSDN的用户登录为例,讲述如何使用抓包工具获取登录方式并使用HttpClient工具模拟登陆访问。在
httpClient 带验证码登录实现
抓取一个农业网站思路步骤如下: 1、首先需要获取验证码页面,把它以图片的格式保证下来。(图片格式需要通过抓包的工具查看。如:httpWatch)并跟踪到的cookie保存下来。cookie必须要跟抓包工具看到的cookie一致。 2、提交登录页面所需要的字段和验证码,字段尽可能全部提交上去。
java爬虫--免登录,通过httpclient模拟登录并获取登录后的信息
1、使用依赖 httpclient 进行http请求 jsoup 对html进行解析 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.8.1</version> </depe
【java爬虫】HttpClient4.5模拟登录知乎
0.关于HttpClient 虽然在 JDK 的 java net包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活 实现了所有 HTTP 的方法(GET,POST,PUT,HEAD 等)支持自动转向支持 HTTPS 协议支持代理服务器等 1.HttpClient4.5模拟登录网站步骤
基于HttpClient4.5实现网络爬虫
这里做一个简短的说明,之前在博客《基于HttpClient实现网络爬虫~以百度新闻为例》介绍了如何基于HttpClient3.0来模拟浏览器请求,但从4.0版本之后,Apache就对这个包做了很大的改动,这里就针对目前比较新的版本4.5再来介绍下如何模拟浏览器的请求
HttpClient 模拟登录豆瓣网(有验证码)
我用的是HttpClient 4.3.1的版本 另外用到 json jar包 代码如下: package com.htt.douban; import java.io.BufferedReader; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import
爬虫系列(一)——网页请求HttpClient
爬虫系列博客将从以下几个方面介绍相对编写网页爬虫核心过程。     爬虫系列(一)——网页请求HttpClient     爬虫系列(二)——网页解析Jsoup     爬虫系列(三)——多线程爬虫框架     爬虫系列(四)——爬虫日志记录     爬虫系列(五)——url去重 网页请求HttpClient      HttpClient 是 A