R语言——数据爬取：有效率的爬取网页数据

使用R语言数据包“rvest” 去爬取世界2011至2021年间的世界100强企业。

指定网站：(https://brandirectory.com/rankings/global/table).

这里爬出来的是2021年的世界500强，请问要怎么改才能提取到前100强以及有没有更加有效率的方法爬取2011-2021年的十年间的方法呢？还是就只能一年一年的爬取了。

url <-'https://brandirectory.com/rankings/global/2021/table'
webpage <- read_html(url)
xdata <- webpage %>% html_nodes("tbody tr")
DataX = NULL
for (i in 1:length(xdata)){
  tmp <- xdata[i] %>% html_nodes("td")
  rank21 <- tmp[1] %>% html_text()  %>% as.numeric()
  rank20 <- tmp[2] %>% html_text()  %>% as.numeric()
  company = trimws(gsub("\n", "", tmp[3] %>% html_text()))
  country = trimws(gsub("\n", "", tmp[4] %>% html_text()))
  flag <- tmp[5] %>% html_nodes("img") %>% xml_attr("src")
  value21 <- tmp[5] %>% html_nodes("span") %>% html_text()
  value20 <- tmp[6] %>% html_nodes("span") %>% html_text()
  rate21 = trimws(gsub("\n", "", tmp[7] %>% html_text()))
  rate20 = trimws(gsub("\n", "", tmp[8] %>% html_text()))
  DataX = rbind(DataX, c(rank21, rank20,company, country,
                         value21, value20, rate21, rate20))
  }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-赖老师（软件之家） 2021-04-14 07:54
关注
先分析一下要爬页面的数据，根据情况改进代码。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

InnoDB一棵B+树可以存放多少行数据？开发语言数据结构
2021-09-28 12:13

回答 1 已采纳 https://www.cnblogs.com/leefreeman/p/8315844.html 下面几张图可以帮你理解最小存储单元：文件系统中一个文件大小只有1个字节，但不得不占磁盘上4KB的空
数据结构——树，有关直径数据结构算法
2022-03-01 08:32

回答 2 已采纳简单路径就是路径上的点不重复简单理解就是不走回头路从一个点到另一个点，不可以回头
数据结构——链表，不带头结点的头插法和尾插法 c语言数据结构链表
2022-03-16 21:51

回答 2 已采纳没什么问题，修改处见注释，供参考： #include <stdio.h> #include <stdlib.h> #include <malloc.h> //单链
使用R实现网页抓取的实践指南
2023-03-06 09:14

网络数据杂谈的博客在本教程中，我们将展示以从亚马逊网站的一个可公开访问的URL 中提取产品评论为目标，使用R的rvest（R用户使用率最高的爬虫包）进行网络抓取所涉及的所有步骤。
关于#c语言#的题目：语言编程题 c语言有问必答
2021-09-25 21:49

回答 2 已采纳循环次数10*10*10=1000次简单修改的话，a,b,c都从2开始，因为要求a+b+c==20，那么其中两个数为9的话，另一个数至少得是2 那么就是8*8*8=512次
栈——数据结构（python） python
2022-09-13 18:14

回答 2 已采纳可以用python自带的栈结构来模拟，先进栈的后出： import queue res = queue.LifoQueue() N=int(input()) while N>=8: re
数据结构——单链表长度的计算并将其结构存放于头节点的数据域中 c语言数据结构有问必答链表
2021-10-05 21:16

回答 2 已采纳主要是 *p = *L->Next; 写错了，应该是 p = L->Next; length(struct Node *L)函数没有调用啊你题目的解答代码如下：（如有帮助，望采纳！
还在担心没工作岗位么，爬取271W条数据为你做精准分析
2020-04-20 11:59

TrueDei的博客还在担心没工作岗位么，爬取271W条数据，开发了一个大数据分析平台，为你做精准分析
关于用【C语言】写——回文数——的代码【高级语言程序设计】
2015-12-28 09:10

回答 2 已采纳 [http://blog.sina.com.cn/s/blog_5072a15d0100msdb.html](http://blog.sina.com.cn/s/blog_5072a15d0100ms
有没有可以编写这种程序（脚本）的语言——在某个网站的输入框中输入信息，然后点击搜索百度
2018-05-26 10:00

回答 6 已采纳国产的有按键精灵、“易语言”，国外有autoit，它们都可以实现你的需求，而且几乎不要编程。 编程语言里，vb C# 可以使用 webbrowser 实现，vc++可以使用 chtmlctrl类，j
使用maftools包读取maf文件，提示缺失hugo——symbol r语言
2023-03-29 18:06

回答 1 已采纳根据您提供的信息，看起来您的MAF文件缺少"Hugo_Symbol"这个列。这可能是由于数据本身的问题，也可能是由于读取MAF文件的方法不正确。建议您检查一下MAF文件的列名是否正确，是否包含"Hu
利用SPSS Modeler进行数据挖掘——探究不同程序语言的就业情况
2020-07-24 23:29

会飞的岛格酱的博客这次数据挖掘的主要内容就是：使用软件爬取目前北京市不同语言的岗位招聘情况数据，通过SPSS modeler软件的使用对于原始数据预处理，构成高质量数据样本，并实现建模数据分析变量的变化趋势，挖掘深层次原因。...
Vector类实现，动态内存下标越界 c++ 开发语言数据结构有问必答
2022-11-16 10:48

回答 3 已采纳 size在构造函数里初始化size=10放在构造函数里。
Python数据挖掘实用案例——自动售货机销售数据分析与应用
2023-11-05 13:24

库库的里昂的博客本文将主要结合自动售货机的实际情况，对销售的历史数据进行处理，利用pyecharts库、Matplotlib库进行可视化分析，并对未来4周商品的销售额进行预测，从而为企业制定相应的自动售货机市场需求分析及销售建议提供参考...
python爬取淘宝数据魔方_淘宝数据魔方技术架构解析
2020-12-06 11:24

weixin_39881155的博客淘宝网拥有国内最具商业价值的海量数据。截至当前，每天有超过30亿的店铺、商品浏览记录，10亿在线商品数，上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值，进而帮助淘宝、商家进行企业的...
没有解决我的问题, 去提问

悬赏问题

¥15 关于smbclient 库的使用
¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画

R语言——数据爬取：有效率的爬取网页数据

4条回答 默认 最新

悬赏问题

4条回答默认最新