2 fyiofo fyiofo 于 2017.09.11 11:17 提问

如何用R语言写一个程序从特定网页获取信息

统计学导师让写一个程序:

原版问题:
图片说明

大致解释下:
在google学术搜索( https://scholar.google.com)上,输入一个名字搜索后出现下边这样的网页:
图片说明
点开User profiles下边的名字会出现这个作者的文献信息(如图):
图片说明

问题是:如何根据刚才搜索这一文献页用到的网址写一个程序,输入作者的名字(就是搜索时输入的名字),输出一个txt文本,文本中有这个作者所有的文献信息,和这个作者的用户编号(用户编号在文献页面的网址中可以找到,网址中有User=“”,这个就是用户编号)

因为不是学计算机的,所以希望提供详细思路,或者简单的程序。
如果要看网站,可以提供vpn

更新一下,要用R语言写

谢谢各位大神!!!

4个回答

qq_26433213
qq_26433213   2017.09.11 11:20
已采纳

基本思路就是通过网址获取页面,然后通过正则表达式获取这些信息

qq_26433213
qq_26433213 回复fyiofo: 可以使用readline()函数输入单个数据,但要注意其默认输入格为字符型
2 个月之前 回复
fyiofo
fyiofo 回复花下泥: 要用R语言,现在后边的爬虫已经会弄了,前半段的 在程序里输入名字(是在程序里输入名字!),然后得到文献页的http地址这一部分不会弄,该怎么弄呢?谢谢
2 个月之前 回复
qq_26433213
qq_26433213 回复fyiofo: 可以使用一些爬虫框架,比如说.NET有AngleSharp; java的话也有类似的框架;看你会那种语言了,教程的话直接看看官网基本就会使用了,都比较简单
2 个月之前 回复
fyiofo
fyiofo 可以说的详细一些么?
2 个月之前 回复
Royal_lr
Royal_lr   Ds   Rxr 2017.09.11 11:21

这个很简单,思路就是发送http请求,根据请求返回的内容分析或者过滤,语言推荐使用python

fyiofo
fyiofo 这个http请求怎么发送呢?
2 个月之前 回复
fyiofo
fyiofo 对对对,最好是python
2 个月之前 回复
fyiofo
fyiofo 可以提供程序么?,或者详细一些的思路?
2 个月之前 回复
u011239468
u011239468   2017.09.11 11:32

一大堆框架让你用。看你会啥子语言。

fyiofo
fyiofo 要用R语言,现在后边的爬虫已经会弄了,前半段的 在程序里输入名字(是在程序里输入名字!),然后得到文献页的http地址这一部分不会弄,该怎么弄呢?谢谢
2 个月之前 回复
fyiofo
fyiofo 要用R语言写
2 个月之前 回复
fyiofo
fyiofo 小哥哥,我不是学计算机的。。。最好用python,正在学python
2 个月之前 回复
huidou15
huidou15   2017.09.11 15:19

这个就是网页数据抓取,如果没用编程基础,用八爪鱼网页抓取器

Csdn user default icon
上传中...
上传图片
插入图片