如何用Stata筛选并保留上市A股公司样本？

在使用Stata进行实证研究时，如何准确筛选并保留上市A股公司样本是金融与会计研究中的关键步骤。A股上市公司数据通常来源于CSMAR、Wind或手工整理数据库，但如何在Stata中高效筛选出仅包含A股公司的观测值，避免B股、H股或其他非上市公司干扰，是常见难题。技术难点包括：识别唯一证券代码、处理多重上市情况、筛选特定交易所（如沪深交易所）公司、利用行业分类或上市状态变量进行筛选等。本文将围绕这些技术问题，讲解如何通过`keep if`、`merge`、`egen`等Stata命令，结合股票代码、上市地点和行业分类变量，高效筛选并保留符合研究要求的A股公司样本。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
祁圆圆 2025-08-19 10:25
关注
使用Stata高效筛选A股上市公司样本的技术实践

在金融与会计实证研究中，A股上市公司的样本筛选是数据预处理的核心环节。由于数据来源（如CSMAR、Wind或手工整理数据库）中通常混杂了B股、H股、非上市公司等无关观测值，如何在Stata中高效、准确地保留仅A股公司样本成为关键挑战。

1. 数据准备与初步识别

首先，确保数据中包含以下关键变量：

stock_code：股票代码（如600000.SH、000001.SZ）
exchange：交易所信息（如SH、SZ）
listed_status：上市状态（如1=上市，0=退市）
stock_type：股票类型（如A股、B股）

通过以下命令查看数据结构与变量分布：

describe tabulate exchange tabulate stock_type tabulate listed_status

2. 利用股票代码识别A股公司

A股公司通常以特定代码格式存在，如：

60开头：上交所A股
000或300开头：深交所A股

使用Stata提取股票代码前缀并筛选：

gen prefix = substr(stock_code, 1, 3) keep if inlist(prefix, "600", "601", "603", "000", "300")

3. 处理多重上市情况

部分公司可能同时在A股与H股上市，需结合股票类型变量进行去重处理。

示例数据结构如下：

company_id stock_code stock_type
1001 600000.SH A股
1001 HK0001 H股
1002 000001.SZ A股

使用以下命令保留每家公司仅A股记录：

sort company_id stock_type by company_id: keep if stock_type == "A股" & _n == 1

4. 按交易所筛选沪深A股公司

若研究仅限于沪深交易所公司，可使用如下命令：

keep if inlist(exchange, "SH", "SZ")

结合股票代码后缀判断交易所：

gen exchange_suffix = substr(stock_code, -3, .) keep if inlist(exchange_suffix, ".SH", ".SZ")

5. 使用行业分类与上市状态进行联合筛选

在实证研究中，通常还需限定行业与上市状态。例如，仅保留制造业中处于上市状态的A股公司：

keep if industry == "制造业" & listed_status == 1

也可使用egen生成行业组内变量，辅助筛选：

egen industry_count = count(company_id), by(industry) keep if industry_count >= 10

6. 数据合并与外部数据库匹配

若A股公司名单来源于外部数据库（如Wind行业分类表），可使用merge命令进行匹配：

use main_data.dta, clear merge 1:1 company_id using a_share_list.dta keep if _merge == 3

流程图如下：

graph TD A[原始数据] --> B{是否为A股?} B -->|是| C[保留样本] B -->|否| D[剔除样本] C --> E{是否为沪市或深市?} E -->|是| F[保留样本] E -->|否| G[剔除样本] F --> H[最终A股样本]
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

company_id	stock_code	stock_type
1001	600000.SH	A股
1001	HK0001	H股
1002	000001.SZ	A股

报告相同问题？

关注问题

查询数据库前十条数据_深入了解如何用Stata从国泰安下载数据
2021-01-08 22:41

weixin_39519554的博客国泰安12月份推出了基于Stata16编程软件的接口命令，命令包括getData、getDataCount、getDbs、getFields、getRecord、getTables、preview、login和setLanguage。接口命令对数据处理自动化有很大的推动作用，克服了...
数据科学Monkey栏目，用R语言量化分析股票市场，20240926B
2024-09-26 18:40

MD Analysis的博客炒股在许多人眼中是一种投资手段，常常被视为获取财富的途径。根据“无利不起早”的常理，投资者进军股市的主要目的是追求收益。然而，炒股的获利方式多种多样...本文将探讨炒股是如何赚钱的，并用R语言进行示例计算。
掌握R语言编程基础的数据框
2016-10-20 12:34

ronghuilin的博客 R语言数据框的创建、管理、访问、数据操作、函数和lapply函数的应用。
数据科学Monkey栏目，用R语言量化分析股票市场，20240926C
2024-09-26 22:50

MD Analysis的博客在金融投资的世界里，量化投资正逐渐成为市场的主流。越来越多的投资者和机构开始采用...而在众多量化投资工具中，R语言以其强大的统计分析能力、开放的社区支持和灵活的编程环境，成为了金融分析师和投资者们的首选。
python pandas详解（一）
2023-12-21 17:43

高亚奇的博客 Pandas 表格中的缺失值默认是使用 Numpy 库的常量np.NaN来表示，np.NaN表示缺失值（NaN 即"Not a number",也就是数值无法精确表示或者不存在的值），它是一个特殊的浮点数。更改后的 DataFrame 的数据类型如下。从...
R语言与统计分析
2015-12-16 11:20

小飞侠-2的博客 R语言与统计分析汤银才主编高等教育出版社二○○八年五月内容介绍本书以数据的常用统计分析方法为基础，在简明扼要地阐述统计学基本概念、基本思想与基本方法的基础上，讲述与之相对应的R函数的实现，...
生成式人工智能的产生发展，神经网络到Transformer架构，再到今天的提示词工程
2024-09-21 16:14

MD Analysis的博客 ELIZA 是用魏泽鲍姆自己创建的 SLIP 编程语言编写的。该程序将模式匹配规则应用于语句以确定其回复。（现在这样的程序被称为聊天机器人）。ELIZA是早期的自然语言处理程序之一，能够进行基于文本的对话。它通过使用...
文本的平均列数python-CDA数据分析师
2020-11-11 13:53

weixin_39535125的博客 CDA数据分析师第一阶段：Excel数据分析1.Excel数据处理技巧和高效方法 2.Excel数据收集、整合、规范化 3.Excel公式、函数、数组及数据分析4.Excel可视化数据分析（排序、筛选、透视表等） 5.Excel图表化数据呈现 6....
Python vs Stata vs SPSS：零基础小白如何选？3个真实案例告诉你哪种工具最适合你
2026-03-05 00:25

周毛的博客文章指出，选择工具的关键在于匹配具体场景：追求自动化与灵活建模可选Python，专注计量经济分析宜用Stata，而需要快速产出标准报告则SPSS更优。文中特别探讨了不同工具的**学习曲线**，为零基础用户提供了清晰的...
Stata应用：将数据“画”在中国地图上|Python数据分析
2025-01-16 16:45

程序员CC_的博客只要几行代码，你就能像“神笔马良”一样，绘制出一张全中国的“上市公司热力图”，看清每个省份有多少家A股上市公司。这时，Stata的spmap 命令就能帮你把枯燥的数剧变成生动的地图，通过颜色的深浅，一眼就能看出各...
python--numpy、pandas
2019-10-04 20:39

dianxunma2886的博客 # 类似于 python range 1-13 步进 1 ，并重塑为 3*4 矩阵 mat_arange = np.arange(1,13,1).reshape(3,4) print(mat_arange) # 1-10 区间，自己计算步长取 12 个值 mat_linspace=np.linspace(1,10,12) # 1-10 取 ...
最新上市公司治理水平与治理指数完整数据集（1999-2020）
2025-09-19 17:50

郑丢丢的博客在正式分析前，首要任务是将外部数据（如CSV、Excel或数据库导出文件）正确加载至Stata环境中。以国泰安CSMAR数据库为例，常见数据格式为.csv，可通过命令实现导入：* 设置工作路径* 导入原始数据* 查看前几行数据* ...
GPT3：使用大型语言模型构建创新的自然语言处理产品（一）
2025-09-14 00:09

绝不原创的飞龙的博客 GPT-3，或称为生成式预训练转换器 3，是由 OpenAI 开发的基于转换器的大型语言模型。它由惊人的 1750 亿参数组成。任何人都可以通过 OpenAI API 访问这个大型语言模型，这是一个简单易用的“文本输入、文本输出”...
标准差（Standard Deviation, SD）是衡量数据离散程度的常用指标
2025-12-26 10:14

MD Analysis的博客 r语言复制数据集-CSDN博客 1篇2章7节：用R读写RDS、RData、CSV和TXT格式文件（更新20250129）_r语言读取rds文件-CSDN博客 1篇2章8节：用R读写Excel、SPSS、SAS、Stata和Minitab等产生的数据文件（更新20250129） ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月19日

如何用Stata筛选并保留上市A股公司样本？

1条回答 默认 最新

使用Stata高效筛选A股上市公司样本的技术实践

1. 数据准备与初步识别

2. 利用股票代码识别A股公司

3. 处理多重上市情况

4. 按交易所筛选沪深A股公司

5. 使用行业分类与上市状态进行联合筛选

6. 数据合并与外部数据库匹配

问题事件

1条回答默认最新