爬取网站 构造请求有几个数据不知道怎么获取? 10C

网站为中国证券网 “http://www.cnstock.com/”
使用jsonp
图片说明

图片说明
访问这个传递json数据的Request URL时,出现了404
图片说明
想请教一下如何解决

0

3个回答

用抓包工具对照下,你这个返回了404是返回的json里的数据里面有一个404,而不是http返回了404的状态,可能是服务器判定你的请求不合法,丢失参数等,所以返回了一个错误信息。

可能的原因除了参数不合法,对照抓包数据检查
(1)referer字段
(2)cookie
(3)是否不允许get,需要post
(4)是否频繁访问,导致服务器有反爬虫的限制,换ip再试

0
kingtigerhuhu
kingtigerhuhu 名字是_的参数 好像是时间戳 一直在变
5 个月之前 回复
kingtigerhuhu
kingtigerhuhu 直接输入url得到的404页面 请求的参数和异步加载的参数是一样的
5 个月之前 回复
caozhy
weixin_45841714 回复kingtigerhuhu: 先对照浏览器找不同
5 个月之前 回复
kingtigerhuhu
kingtigerhuhu 那个code为404的网页返回的msg为非法访问源,是要通过模拟浏览器请求吗?
5 个月之前 回复

这个请求是get请求,这个简单,看一下你请求的网页,把请求头headers加上就行了。图片说明

0
0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Java爬取网站ajax返回的数据
demo:爬取天津市网上办事大厅的数据 http://zwfw.tj.gov.cn/permissionitem_list_Sort2.jspx?ptype=P 开发时需要用到httpclient的jar包https://download.csdn.net/download/qq_41032995/10998137 访问网址的时候抓包 查看一下需要提交的参数 上代码 p...
爬取【ajax+json】异步加载的网站
@导入类库 import requests from lxml import etree import json import time @请求地址和请求头 # 请求头,用于伪装客户端浏览器,可由抓包获取 header_base = { 'Connection': 'keep-alive', 'User-Agent': 'Mozilla/5.0 (Windows NT
post请求网站数据爬取!!!Python学习笔记!
对于刚开始学习Python的童鞋来说,对于网站的爬取可能很模糊,对网站的请求方式也不太了解。下面先简单介绍一下几种常见的网站请求方式,get、post
Java爬取需要登录的网页的数据(HTTPClient)
先获取登录页面登录之后要请求的url 通过上述url去获取html内容,并解析URL获取需要的数据 import java.io.IOException; import java.io.UnsupportedEncodingException; import java.util.ArrayList; import java.util.List; import org.apache.http...
httpclient爬取https网页数据
1、下载证书,打开谷歌浏览器,输入网址,点击安全锁,查看证书 2、打开IE,点击设置->internet选项->内容->证书->中间证书颁发机构,找到对应的证书,导出保存,我保存在D./test.cer。 3、进入JDK 安装bin目录,命令行运行:keytool -import -alias Root -file d:/test.cer -keystore “d:/t...
python爬取网站数据(post)方式
最近python太火了,所以也拿来学习一下。按照网上的教程写了一下简单的post数据请求。 我使用的环境python3.6,使用的到库有urllib和beautifulsoup python的安装还是非常简单的,直接到官网下载后安装即可。 第三方库的安装 执行 pip install beautilfulsoup4 pip install requests 当然使用内建的模块urli
使用爬虫抓取网站异步加载数据
什么是异步加载? 向网站进行一次请求,一次只传部分数据。如:有些网页不需要点击下一页,其内容也可以源源不断地加载。 如何发现异步加载? 1、打开浏览器,右键选择“检查” 2、点击“Network”、“XHR” 这样在网页进行不断下拉的过程中,显示器会记录全部动作。可以看到不断加载新的页。 如何加载异步数据? 具体例子: from bs4 import BeautifulSoup impor
postman软件用于爬取网页数据
下载软件:psotman 用于对接口的请求,可以把爬取的数据json、html等各种格式展示出来
爬虫总结1——爬取异步请求(XHR/JS)数据方法
在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下: 随便点开一个就可以看到我们真正访问的URL地址: 从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的...
Python爬虫——几种不同网页结构爬虫简介
     大数据时代的到来,数据量暴增,导致传统的搜索引擎中附带大量无关信息。因此爬虫技术出现了!那么本文我将对几种不同网页结构,并结合自己想要获取的信息提出以下几种不同的方法:    1. select()首先介绍一下BeautifulSoup库,它是可以在HTML中提取数据的Python库,通过对HTML文档进行解析,它可以按照我们对数据的偏好获取想要的数据。那么select方法正是Beaut...
scrapy 抓取ajax请求的网页-以ifanr为例
在爬取ifanr网站时遇到了无法直接获得下一页链接的地址,下一页的数据是通过点击加载更多之后触发ajax事件来请求数据的。 那么我们按F12来看下网页的结构,可以发现此处并不能够得到我们想要的网址。 那么问题来了,我们如何来处理有ajax请求的网页呢?百度一下可以发现有两种方法,一种是通过虚拟浏览器模仿触发ajax请求的行为;一种是找出ajax请求之后下一页的地址,直接访问该地
爬取json数据网站
scrapy框架爬取网页时查看网页时查看网络,如果是post数据 就不能直接getimport scrapy,jsonclass XXXSpider(scrapy.Spider):    name = 'xxx'    allowed_domains = ['域名']    base_url = 'http://www.XXX.com'    def start_requests(self):# ...
Python3爬虫之urllib爬取异步Ajax数据,使用post请求!
ok,废话就不多说了,直接上手。今天爬取的是豆瓣电影的排行榜。 首先使用google浏览器的开发者工具,找到豆瓣的电影排行榜接口 https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A90&action=&start=40&limit=20 分析这个url,发现后面的start=40&limit=20很像SQ
谈谈如何抓取ajax动态网站
什么是ajax呢,简单来说,就是加载一个网页完毕之后,有些信息你你还是看不到,需要你点击某个按钮才能看到数据,或者有些网页是有很多页数据的,而你在点击下一页的时候,网页的url地址没有变化,但是内容变了,这些都可以说是ajax。如果还听不懂,我给你看看百度百科的解释吧,下面就是。Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML)...
爬虫 - 项目学习 - 爬取免费视频链接(request请求模拟,re分析数据,文件存储)
目录 一、爬取对象分析 二、获取主页文本信息 三、分析主页信息,获取主页内视频跳转链接 四、分析视频详情页面,获取信息 五、执行程序,下载视频 一、爬取对象分析 梨视频免费视频 二、获取主页文本信息 三、分析主页信息,获取主页内视频跳转链接 如上两个主页面html信息,可分析出,主页视频的class相同,仅仅跳转链接即video-id不同 综上所述,...
scrapy爬取post的数据
1.爬取瑞钱宝的投资方式的数据,爬取内容如下:       2.查看网址,可以发现: 点击下一页时,地址栏里的链接均无任何变化。可以判断出该网页的数据都是post方式上传的。 说一下get和post的区别: get显式的传参,而post是隐式的。 get的URL会有限制,而post没有。 get没有post安全。 不过,小某还看到一篇内容。点击打开
用python爬取需要cookie信息的网站
本次创作实验网站:实验网址 本次创作语言:python2 编译用到的工具:pycharm,Fiddler 首先我们打开这个网站,不难发现,在高级检索目录下的内容是需要登录后才能获取到的,所以我们需要先注册账号,进入高级检索界面,我们就可以筛选信息了,而我们现在需要爬虫去实现的功能就是在不登录的情况下,能够爬取到该页面的我们自己筛选想爬取下来的信息。 准备工作:注册该网站,并登录 第一步:...
pyspider框架之ajax数据爬取
pyspider框架之记录1 由于公司业务需求,目前做的爬虫就是爬取全国各个政府发布的各种政策,平时写的代码,没有多少想写成博客的,后续可能都会写出来,今天遇到了一个政府网站采用了ajax异步更新技术,那就做个记录吧。。 目标政府的url地址为http://www.hangzhou.gov.cn/col/col1255929/index.html。 首先网页进行简单分析,因为目标网站存在多页...
java通过httpclient抓取需要登录的网站数据
最近遇到一个抓取网站数据的问题,普通的抓取,一般直接json解析或者用jsoup解析文档即可,这次遇到的网站首先需要登录,其次传递的参数也有点不一样。1、首先抓包获取登录的url,新建post请求HttpClient httpclient = new DefaultHttpClient(); HttpPost httpost = new HttpPost(url); // 登录url2、设置用户名...
Python爬取XML接口的数据
爬取XML的数据和爬取json的数据差不多,区别在于XML有树结构,不过Python提供了很强大的lxml模块 #! /usr/bin/env python # coding=utf-8 import requests from lxml import etree import sys import xlwt #初始化 reload(sys) sys.setdefaultencoding('...
爬虫爬取get/post等请求的数据
(此文章认为大家有一定基础而作)一.请求地址       基于restful编程风格的崛起,不管是前端还是后端,大家应该对请求地址都不陌生。       一般大家获取页面请求地址可以直接用浏览器的开发者模式获取,如下面我用chrome截获本篇文章保存的请求地址:选择开发者模式->Network;左边表示我们请求的网页,右边是具体参数;二、请求参数在General模块可以清楚的看到我们请求的地...
第一次使用API爬取数据之几个坑
第一次使用API爬取数据之几个坑 第一次使用网站自带api爬取相关数据,跟着网上教程爬取豆瓣网top20电影,第一步很顺利。 import urllib.request as request import json url = 'https://api.douban.com/v2/movie/top250' crawl_content = request.urlopen(url).read() t...
Scrapy实战一:GET方法爬取CSDN主页动态数据
声明:本人也是一个爬虫新手,有些地方可能写的并不好,望各位大佬见谅。第一步:抓包因为是动态页面,所以我们需要通过抓包来找到每次发送的请求内容,以及接口url。 1.这里采用了FIddler工具进行抓包,滚动CSDN主页,查看第一次刷新出来的数据: 2.接下来查看Fiddler工具抓到的请求数据以及接口url: 发送的请求数据: 3.拿到接口url后,放到浏览器上访问一下:https://
Java抓取https网页数据
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
httpclient抓取https网页数据
近日接到一个任务,需要采集某个https网站的部分内容,用到了httpclient(4.5.X),它是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。先看一下httpclient的简单使用。 封装一个httpclient查询方法: public String getHtml(Strin
python3 网络爬虫(三)利用post请求获取网页的动态加载数据
环境:python3.4 win7 框架:scrapy上一篇讲了利用get请求获取王爷的动态加载数据,这一篇文章让我们来简单介绍一下如何用post请求来获取网页的动态加载数据,这一次我们面对的是某音乐网站的歌曲评论,利用 谷歌浏览器 - F12(开发者工具) - 查看Headers 的方式我们可以查看在浏览该网页时的一些信息:(如何抓包,上一篇文章已经介绍了,有兴趣的可以去看看,这里就
Java爬虫(获取验证码爬取网页信息)
##Java爬虫(获取验证码爬取网页信息) 用到了图片解析Test4j需要下载tessdata maven pom.xml <dependencies> <dependency> <groupId>org.apache.httpcomponents</groupId
爬虫网页编码及网页内容乱码处理
更多内容请查看原文  在处理爬虫获取的网页之前,我们需要知道爬取网页的编码格式,然后才能正确的对其进行解码,编码成目标格式保存或者进行后续的文本处理。特别在是多语种环境下,正确获取网页编码格式尤为重要。 我们可以通过人工的方式查看网页源代码中的meta标签下的content属性,其中的charset表示网页的编码格式。所谓爬虫,其本质是自动化程序,那么怎么自动获取网页的编码格式?python的ur
基于Java对Flash网站的抓取
AMF协议是基于Http协议的,Flash交互的一种协议,详细请百度。本以为应该很难,搞好了之后,真尼玛简单,分享一下。 Maven 依赖 flex-messaging-common-4.7.3.jar flex-messaging-core-4.7.3.jar 其他 代码(废话不多说) AMFConnection connection = new AMFConnection(); ...
爬取网站前1_解析网站robots.txt文件
使用爬虫爬取数据前,我们需要解析网站robots.txt文件,以避免下载禁止爬取的url。这项工作需要使用python3自带的urllib.robotparser模块 #使用爬虫爬取数据前,我们需要解析网站robots.txt文件 import urllib.robotparser rp = urllib.robotparser.RobotFileParser() rp.set_url("
用Scrapy爬取网站时总获取不到源代码的解决办法
运行scrapy crawl gupiao,报错如下: 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: gupiaosp ider) 2017-11-06 16:28:19 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': ' ...
【Python网络爬虫学习02】爬取有效的网站验证码
前段时间爬取验证码,
如何爬取动态网页信息①
我们以选股宝为例子来进行讲解。
用 Python requests库 爬取网页数据
一、爬取学者网数据1、requests 库的获取 1.1 在终端中输入 pip install requests1.2 在PyCharm中添加requests库 1.2.1 在file中选取Default Settings 1.2.2 如图选取对应栏目,点击左下角位置的➕ 1.2.3 在搜索框中( �� )输入requests ,再点击左下角的Install Package (这时PyCh
C#批量爬取网站验证码图片/爬取网页内容(1)
前段时间师姐给了我一个C#爬图的代码,很简单有效。我查了点资料,把代码搞懂了然后简化又扩展了一下使它能够爬取网页内容。现在把代码和过程放上来供有兴趣的朋友一起探讨。这一部分只讲如何爬验证码图片。爬取内容的部分见下一篇博客吧~1.获取验证码图片链接有的验证码进入网页就有,有的要在登录界面输入用户名,故意输错几次密码才能把验证码刷出来。新浪的验证码,如图所示:然后右击验证码图片,选择在新标签页中打开图...
爬取多个页面的数据
代码如下:# -*- coding:utf8 -*- #导入requests库,取别名res import requests as res #导入bs4包,取别名bs from bs4 import BeautifulSoup as bs #导入数据库驱动包 import MySQLdb #声明页面从哪开始 j = 1 #循环遍历每个页面 while j 111: ##获取目标网站的网页
post请求方式的翻页爬取内容及思考
1 #coding=utf-8 2 3 import urllib2 4 import urllib 5 import json 6 9 output = open('huizho.json', 'w') 11 for page in range(1,30): //爬取的页数,从1至29页 12 request =urllib2.Request('http:
Express + Node 爬取网站数据
前言 因为自己写的demo需要历史天气的统计数据,但是国内很难找到免费的api接口,很多都需要付费和审核。而国外的网站虽然免费但需要提前知道观测站,城市id等信息。所以就有了这么一篇文章的诞生。 准备工作 库 作用 superagent 发送请求 superagent-charset 设置请求的编码 cheerio 让解析htm...
JAVA爬虫框架WebMagic爬取ajax请求的页面数据
    查看WebMagic文档:http://webmagic.io/docs/zh/posts/ch1-overview/      爬取网址需要翻墙: https://www.reddit.com/r/funny/          首先分析页面,随着我们拉下滚动条,XHR标签下面包含含有ajax的异步请求,需要靠经验来找,一般会有分页参数和关键词参数。    点击上面画圈的一个...
用scrapy爬取网站数据,以api方式
# -*- coding: utf-8 -*- import scrapy import json import re from yiyao.items import YiyaoItem                         #引入Item #Item和pipelines略过 class YiyaoSpiderSpider(scrapy.Spider):     n
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 学习大数据的几个网站 python数据爬取教程

相似问题

3
爬取网站 构造请求有几个数据不知道怎么获取?
2
js怎么绘制跨职能流程图(泳道图)
1
js两种请求,点击加载和下拉加载,为什么下拉无法计数
1
js 多选题 动态获取input select的option值
2
为di'v动态赋高度值,这个玩意怎么拼接?
0
小程序中全局变量和全局的请求访问传递的参数有什么区别?
2
怎么爬取最近5期数字?帮忙看一下哪里写的不对请指教
3
vue里v-html解析html数据时只显示了文本内容图片地址出错!这是什么原因?怎么解决?
1
请问怎么在html页面点击一个地址位置 Bing地图自动显示该位置的地图
0
d3.js的力导向图,想知道怎么组合成一个关系图
1
AnimateCC H5怎么用event.offsetX/Y实现同步拖拽?
2
vue 怎么判断图片是否存在 存在就显示图片 不存在就显示暂无
2
js怎么实现移动H5页面手势画圈解锁后跳转页面
2
给document.documentElement.scrollTop赋值以后怎么返回成可变量?
3
vant组件中的折叠面板在mpvue中怎么使用,我按官网方法引入了,但是onChange事件无效?
2
vue如何将api请求收到的数据动态的显示到模板上呢?
2
web前端textarea的value有初始内容时,怎么实现文本域自适应
0
echarts-gl 3dmap 怎么添加标注,并绑定点击事件
1
怎么用结合树做查询功能
6
怎么修改360搜索的流氓行为,默认输入框联想提示,默认跳转都是他家的,怎么改成百度的?