m0_68464676 2025-03-26 11:17 采纳率: 0%
浏览 19

如何用excel或stata筛选出注册地于中国大陆以外并删除避税地及港澳台的样本?

论文用到OFDI变量,需要筛选出注册地于中国大陆以外并删除避税地及港澳台的样本,所收集数据有注册地Site一列,里面五花八门。我知道中国大陆的省份是什么,我也知道需要剔除的避税地国家有哪些,但收集到的数据里注册地信息详略不一(比如有河北、河北石家庄、河北省石家庄市、山东省北京路、香港、中国香港、HK、HongKong、USD、美国、英属等乱七八糟的信息),我需要根据这一列进行数据处理。请问怎么利用excel或stata操作,如何筛选出注册地于中国大陆以外并删除避税地及港澳台的样本呢?

  • 写回答

4条回答 默认 最新

  • AI仙人掌 iFLYTEKA.I开发者大赛获奖者 2025-03-26 11:40
    关注

    Excel 筛选非中国大陆且非避税地/港澳台样本的详细方案

    准备工作

    1. 确保您的数据有一个"Site"列(或其他名称的注册地列)
    2. 在工作簿中新建一个工作表命名为"关键词列表"

    步骤一:建立关键词库(在"关键词列表"工作表)

    A列 (中国大陆关键词)B列 (避税地/港澳台关键词)
    河北香港
    石家庄澳门
    山东台湾
    北京开曼
    ...(其他省份城市)英属维尔京
    广东百慕大
    广州HK
    深圳Macao
    ......

    步骤二:在主数据表添加辅助列

    1. 识别中国大陆

      • 在数据表右侧添加两列:"含大陆关键词"和"含避税地关键词"
      • 在"含大陆关键词"列的第一个单元格(假设是B2)输入:
        =SUMPRODUCT(--ISNUMBER(SEARCH(关键词列表!$A$2:$A$100,A2)))>0
        
        这将检查A2单元格是否包含任何中国大陆关键词
    2. 识别避税地/港澳台

      • 在"含避税地关键词"列的第一个单元格(假设是C2)输入:
        =SUMPRODUCT(--ISNUMBER(SEARCH(关键词列表!$B$2:$B$100,A2)))>0
        
        这将检查A2单元格是否包含任何避税地关键词
    3. 双击这两个公式的填充柄,将公式应用到整列

    步骤三:筛选所需数据

    1. 选择整个数据区域(包括标题行)
    2. 点击"数据"选项卡 → "筛选"
    3. 在"含大陆关键词"列的下拉菜单中,选择"FALSE"
    4. 在"含避税地关键词"列的下拉菜单中,选择"FALSE"
    5. 现在显示的就是注册地既不在中国大陆,也不在避税地/港澳台的样本

    步骤四:复制筛选结果

    1. 选中所有可见行(不包括标题)
    2. Ctrl+C复制
    3. 新建工作表,右键 → "粘贴值" → 保存为干净数据集

    高级技巧

    1. 处理大小写问题

      • 修改公式为不区分大小写:
        =SUMPRODUCT(--ISNUMBER(SEARCH(LOWER(关键词列表!$A$2:$A$100),LOWER(A2))))>0
        
    2. 处理中英文混合

      • 在关键词列表中添加英文对应词,如:
        • 中国大陆添加"China", "CHN"
        • 避税地添加"Hong Kong", "Macau", "Taiwan"
    3. 处理缩写

      • 在避税地关键词中添加常见缩写:"HK", "MO", "TW", "BVI"等
    4. 精确匹配(可选)

      • 如果需要完全匹配而非包含关系,改用:
        =COUNTIF(关键词列表!$A$2:$A$100,A2)>0
        

    注意事项

    1. 关键词列表应尽可能全面,建议包含:

      • 所有中国省份、直辖市、自治区名称
      • 主要城市名称
      • 常见避税地的各种表述方式
    2. 执行筛选前建议先备份原始数据

    3. 对于特殊个案(如"山东省北京路"这种混合地址),可能需要:

      • 添加例外规则
      • 或先进行数据清洗(将此类地址替换为纯"山东")
    4. 筛选完成后,可以删除辅助列再保存最终数据集

    评论

报告相同问题?

问题事件

  • 创建了问题 3月26日