首页的关键词爬取下来了,但是每个关键词内还有关键词不会翻页。
这是url:http://define.cnki.net/WebForms/WebDefault.aspx
然后有提示怎么搞翻页,我是新手,搞不懂。
这是提示:
首先获取所有学科类别,按照学科爬取
- 因为虽然学科不同,但是页面相似,因此猜测url中某个参数控制请求道德具体页面。因此先观察每个学科的请求链接
[地球与空间科学]: http:/\/define.cnki.net/WebForms/WebNavigationContent.aspx?name=地球与空间科学
[电子]:http:/\/define.cnki.net/WebForms/WebNavigationContent.aspx?name=电子
.....
观察到name参数后的值影响具体学科,因此只需要构造请求链接:
subjectName = "学科名"
url = "http:/\/define.cnki.net/WebForms/WebNavigationContent.aspx?name=" + subjectName
即可打开不同学科页面。
因此我们可以将所有学科名字存入一个列表中,再使用迭代器,迭代学科列表即可访问不同学科的学术名词
首页爬取的代码如下: