python爬虫如何抓取包含JavaScript的网页中的信息

这里本科生一枚。。做本研要求抓取一些数据碰到了一些问题求指教> <
我想要抓取汽车之家上关于供应商的一些数据，然后在车型详情页里找到了关于供应商的框架源代码如下（只截取有用部分）：
 //属性 document.domain = "autohome.com.cn"; var page=1; var parameters = { isPage:0, pageCount:0, kindId:-1, vId:23867, pId: 110000, cId: 110100, sId: 0, cityUrl: '/frame/cms/GetProvinceCityList?SpecId=23867&SeriesId=0&roid1=2', url: "/frame/spec/{vId}/{pId}/{cId}/{sId}/{orderType}/{pageIndex}/{pageSize}?isPage={isPage}&seriesId={seriesId}&source={source}&kindId={kindId}" , kindUrl:"/frame/cms/GetKindBySpec?specId={vId}&provinceId={pId}&cityId={cId}&countyId={sId}", panel:"#dealer-box", pageSize:5, pageIndex: 1, orderType :0, seriesId:66, source:"defalut" }; <pre><code> $("[name='orderBy']").click(function() { parameters.orderType = $(this).attr('data-order'); $("#orderCan .current").attr("class", "linkname"); $(this).attr("class", "linkname current"); //parameters.pageIndex = 1; var firstPage = $("#dealerListPager a[data=1]").eq(0); if (firstPage.length == 1) { firstPage.click(); } else { load(); } return false; }); seajs.config({version:"1460100712877"}); var $$; seajs.use(['jquery','pop'], function ($) { $$=$; }); $(function(){ jQuery("#orderCan a").each(function(){ if($(this).attr("data-order")==parameters.orderType) { $("#orderCan .current").attr("class","linkname"); $(this).attr("class","linkname current"); } }) }) </script> <script type="text/javascript" src="http://x.autoimg.cn/dealer/bbs/js/DealerArea20160413.js?t=2016041421"></script> </code></pre> 里面包含的信息应该怎么抓取呢？我是通过selenium来进入网页的框架，这些js应该怎么解析？我尝试着用前面的那些parameter凑出来URL，但是输入到浏览器中就会跳转到汽这个网站的首页，用urllib2打开的话会报错Error 10060，但是网什么的也都没有问题，是我的IP被封了还是需要一个什么特殊的代理？？ 本科期间只学过python的两门课，对java没什么了解，求帮助呀QAQ谢谢大家啦

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qq_23214785 2016-05-25 03:31
关注
一般的爬虫都无法爬取js生成的动态数据，我最近使用的是神箭手云爬虫，他们自带js渲染，在爬取动态网页这块做得是最好的了，你可以试试：http://www.shenjianshou.cn/

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
Python爬虫(4)网页信息
2022-08-27 19:04

演技拉满的白马的博客 JavaScript 爬虫第一个js js元素
Python爬虫requests.get方法无法显示div中折叠内容 https python 有问必答爬虫
2021-11-27 19:16

回答 2 已采纳该页面数据是动态加载的，需要用此链接用post请求去获取https://www.xuetangx.com/api/v1/lms/get_product_list/?page=1
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫网页怎么抓_python爬虫如何快速抓取网页
2020-12-02 23:57

weixin_39715926的博客爬虫入门——详解Python是如何进行网页抓取！介绍网页抓取是一种重要的技术，经常在许多不同的环境中使用，尤其是数据科学和数据挖掘。 Python在很大程度上被认为是网络抓取的首选语言，其原因在于Python的内嵌电池...
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
用python美丽汤爬虫抓取网页中自己的姓名怎么弄代码？ python 有问必答
2021-11-25 08:53

回答 3 已采纳爬取题主问题中的名字，自己改下css选择器 import requests from bs4 import BeautifulSoup html=requests.get("https://ask.
python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
Python爬虫:从后端分析为什么你爬虫爬取不到数据
2023-06-08 21:44

坚持不懈的大白的博客最简单的爬虫代码也就是各位最常使用的，直接利用requests模块访问当前网站链接，利用相关解析模块从而获取得到自己想要的数据，如下(利用python爬虫爬取自己csdn个人主页的简介数据)： # -*- coding: utf-8 -*- ...
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
Python 网络爬虫利器：执行 JavaScript 实现数据抓取
2023-12-29 10:26

程序员小八的博客在 Python 中执行 JavaScript 代码可以帮助完成多种任务，包括 Web 自动化、数据抓取、前端开发和 Web 应用集成。本文介绍了多种方法，包括使用内置库execjs和PyExecJS、Selenium 与 WebDriver，以及调用 Node.js ...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客大家好，我是辣条。...网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟客户端(主要指浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是客户端(浏
没有解决我的问题, 去提问

悬赏问题

¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题
¥15 Python时间序列如何拟合疏系数模型

python爬虫如何抓取包含JavaScript的网页中的信息

1条回答 默认 最新

悬赏问题

1条回答默认最新