论文用到OFDI变量,需要筛选出注册地于中国大陆以外并删除避税地及港澳台的样本,所收集数据有注册地Site一列,里面五花八门。我知道中国大陆的省份是什么,我也知道需要剔除的避税地国家有哪些,但收集到的数据里注册地信息详略不一(比如有河北、河北石家庄、河北省石家庄市、山东省北京路、香港、中国香港、HK、HongKong、USD、美国、英属等乱七八糟的信息),我需要根据这一列进行数据处理。请问怎么利用excel或stata操作,如何筛选出注册地于中国大陆以外并删除避税地及港澳台的样本呢?
4条回答 默认 最新
关注Excel 筛选非中国大陆且非避税地/港澳台样本的详细方案
准备工作
- 确保您的数据有一个"Site"列(或其他名称的注册地列)
- 在工作簿中新建一个工作表命名为"关键词列表"
步骤一:建立关键词库(在"关键词列表"工作表)
A列 (中国大陆关键词) B列 (避税地/港澳台关键词) 河北 香港 石家庄 澳门 山东 台湾 北京 开曼 ...(其他省份城市) 英属维尔京 广东 百慕大 广州 HK 深圳 Macao ... ... 步骤二:在主数据表添加辅助列
识别中国大陆:
- 在数据表右侧添加两列:"含大陆关键词"和"含避税地关键词"
- 在"含大陆关键词"列的第一个单元格(假设是B2)输入:
这将检查A2单元格是否包含任何中国大陆关键词=SUMPRODUCT(--ISNUMBER(SEARCH(关键词列表!$A$2:$A$100,A2)))>0
识别避税地/港澳台:
- 在"含避税地关键词"列的第一个单元格(假设是C2)输入:
这将检查A2单元格是否包含任何避税地关键词=SUMPRODUCT(--ISNUMBER(SEARCH(关键词列表!$B$2:$B$100,A2)))>0
- 在"含避税地关键词"列的第一个单元格(假设是C2)输入:
双击这两个公式的填充柄,将公式应用到整列
步骤三:筛选所需数据
- 选择整个数据区域(包括标题行)
- 点击"数据"选项卡 → "筛选"
- 在"含大陆关键词"列的下拉菜单中,选择"FALSE"
- 在"含避税地关键词"列的下拉菜单中,选择"FALSE"
- 现在显示的就是注册地既不在中国大陆,也不在避税地/港澳台的样本
步骤四:复制筛选结果
- 选中所有可见行(不包括标题)
- Ctrl+C复制
- 新建工作表,右键 → "粘贴值" → 保存为干净数据集
高级技巧
处理大小写问题:
- 修改公式为不区分大小写:
=SUMPRODUCT(--ISNUMBER(SEARCH(LOWER(关键词列表!$A$2:$A$100),LOWER(A2))))>0
- 修改公式为不区分大小写:
处理中英文混合:
- 在关键词列表中添加英文对应词,如:
- 中国大陆添加"China", "CHN"
- 避税地添加"Hong Kong", "Macau", "Taiwan"
- 在关键词列表中添加英文对应词,如:
处理缩写:
- 在避税地关键词中添加常见缩写:"HK", "MO", "TW", "BVI"等
精确匹配(可选):
- 如果需要完全匹配而非包含关系,改用:
=COUNTIF(关键词列表!$A$2:$A$100,A2)>0
- 如果需要完全匹配而非包含关系,改用:
注意事项
关键词列表应尽可能全面,建议包含:
- 所有中国省份、直辖市、自治区名称
- 主要城市名称
- 常见避税地的各种表述方式
执行筛选前建议先备份原始数据
对于特殊个案(如"山东省北京路"这种混合地址),可能需要:
- 添加例外规则
- 或先进行数据清洗(将此类地址替换为纯"山东")
筛选完成后,可以删除辅助列再保存最终数据集
评论 打赏 举报解决 1无用