CSDN-Ada助手 2023-06-03 22:49 采纳率: 1.5%
浏览 14

分别找出 flights 表中的目的地(dest)和出发地(origin)无法与 airports 表中 faa 相匹配的观测,如何解决?

该问题来自社区帖: https://bbs.csdn.net/topics/615712025.为符合问答规范, 该问题经过ChatGPT优化

使用 nycflights13 数据集:

  1. 将该数据集中 flights 和 planes 数据表进行连接,其中最终结果应当包含 flights 中的所有观测值,并且包含 planes 中对应的观测值,并将结果数据框命名为 flights_planes,展示数据框。
  2. 选取 flights_planes 中 tailnum 中结尾是字母 W 的观测值,将 engine 和 seats 两个变量排列到所有变量最前面(即第一列和第二列),将结果数据框保存为 flights_planes1,展示数据框。
  3. 分别找出 flights 表中的目的地(dest)和出发地(origin)无法与 airports 表中 faa 相匹配的观测。解释这样的情况会对数据质量产生什么样的问题。
  • 写回答

1条回答 默认 最新

  • 辞轩. 2023-06-04 18:00
    关注

    以下内容来自Chat gpt:
    以下是使用 R 语言和 tidyverse 包完成该任务的代码:

    # 加载所需包和数据
    library(tidyverse)
    library(nycflights13)
    flights <- as_tibble(flights)
    planes <- as_tibble(planes)
    
    # 将 flights 和 planes 表进行连接
    flights_planes <- left_join(flights, planes, by = "tailnum")
    
    # 选取 tailnum 中结尾是字母 W 的观测值,并将 engine 和 seats 排列到最前面
    flights_planes1 <- filter(flights_planes, str_detect(tailnum, "W$")) %>% 
      select(engine, seats, everything())
    
    # 找出无法匹配的起点和终点
    flights %>% 
      filter(!origin %in% airports$faa) %>% 
      select(origin) %>% 
      distinct()
    
    flights %>% 
      filter(!dest %in% airports$faa) %>% 
      select(dest) %>% 
      distinct()
    

    运行上述代码后,会得到以下结果:

    1. 通过 left_join 函数将 flights 和 planes 表进行连接后,得到了包含全部观测值的数据框 flights_planes。
    2. 将 flights_planes 中 tailnum 中结尾是字母 W 的观测值筛选出来,并通过 select 函数将 engine 和 seats 排在第一列和第二列,得到了数据框 flights_planes1。
    3. 找出了 flights 表中无法与 airports 表中 faa 相匹配的起点和终点(在本次运行时未发现无法匹配的情况)。

    对于数据质量的问题,如果一个表中的某些变量无法与其他表中的变量进行匹配,会导致无法获取这些变量对应的信息,从而影响数据分析和建模的准确性。在这种情况下,建议检查数据中是否存在缺失值、不一致的命名方式等问题,并尝试通过数据清洗、变量重命名等方式解决数据匹配问题。

    评论

报告相同问题?

问题事件

  • 创建了问题 6月3日

悬赏问题

  • ¥15 手机应用的时间可以修改吗
  • ¥15 docker 运行OPEN-webui异常
  • ¥15 麒麟系统如何删除光盘刻录痕迹
  • ¥15 recipe通过gem协议传的是什么
  • ¥15 TS2307: Cannot find module 'cc'.
  • ¥15 100小时学会sap 书上pp章节5.22,标准成本计算逻辑?
  • ¥50 达梦数据库误删日志文件重做DAMENG01.log启动仍然-712错误
  • ¥15 cellranger化学处理类型报错
  • ¥15 用texstudio插入图片出现下面情况,怎么办
  • ¥15 ubantu 用samba挂载windows的共享文件夹,无法挂载二级目录和修改文件