如何解析通达信szs.tnf文件中的股票代码与名称映射？

如何解析通达信szs.tnf文件中的股票代码与名称映射？该文件为通达信软件存储深市股票列表的专有格式，通常采用二进制结构，包含股票代码、名称、上市状态等信息。常见问题是：文件无公开文档说明，结构不透明，直接用文本编辑器打开显示乱码；且不同版本通达信可能格式略有差异，导致解析结果不一致。开发者常尝试通过逆向分析或参考社区经验提取字段偏移与编码方式（如GBK编码的股票名称），但面临字段对齐、校验机制和版本兼容性难题。如何稳定、准确地从szs.tnf中提取完整的股票代码与名称映射表，成为量化系统或自研行情平台对接时的关键技术挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

杨良枝 2025-10-15 21:20

关注

如何解析通达信szs.tnf文件中的股票代码与名称映射

在构建量化交易系统或自研行情平台时，对接本地数据源是常见需求。通达信作为国内主流的行情软件之一，其本地数据文件（如szs.tnf）存储了深市股票的基础信息，包括股票代码、名称、上市状态等关键字段。由于该文件为专有二进制格式，缺乏官方文档说明，直接解析面临诸多挑战。本文将从基础认知到深度实现，系统性地剖析szs.tnf文件的结构解析方法。

1. 文件背景与基本特征

文件路径：通常位于通达信安装目录下的T0002\hq_cache\或vipdoc\sz\lday\等子目录中。
文件作用：szs.tnf用于缓存深市证券列表，供软件快速加载股票池。
编码特性：股票名称采用GBK编码，非UTF-8，需注意解码错误。
二进制结构：文件由多个固定长度记录组成，每条记录代表一只股票。
版本差异：不同版本通达信（如经典版、金融终端）可能使用不同记录长度（常见为77字节或84字节）。

2. 解析流程设计

graph TD A[打开 szs.tnf 文件] --> B{判断文件大小} B --> C[计算记录数量 = 文件大小 / 单条记录长度] C --> D[尝试常用长度: 77, 84, 92] D --> E[逐条读取二进制记录] E --> F[按偏移提取字段] F --> G[GBK解码股票名称] G --> H[校验股票代码格式] H --> I[输出映射表 {代码: 名称}]

3. 字段结构逆向分析

通过Hex编辑器观察多个版本的szs.tnf，可归纳出典型结构如下表所示（以77字节为例）：

偏移（十进制）	长度（字节）	字段名	数据类型	说明
0	6	股票代码	ASCII字符串	左对齐，空格填充
6	1	分隔符	byte	通常为0x00
7	18	股票名称	GBK编码字符串	定长，不足补空格
25	1	市场类型	byte	0x01表示主板，0x02创业板等
26	4	未知字段A	int32	可能为内部标识
30	1	上市状态	byte	0x01正常，0x02停牌，0x03退市
31	46	保留字段/扩展区	bytes	内容随版本变化

4. Python 实现示例

以下为稳定解析szs.tnf的核心代码片段：

import struct
import codecs

def parse_szs_tnf(filepath):
    with open(filepath, 'rb') as f:
        data = f.read()
    
    record_length_candidates = [77, 84, 92]
    records = []
    
    for rec_len in record_length_candidates:
        if len(data) % rec_len != 0:
            continue
        
        num_records = len(data) // rec_len
        print(f"尝试记录长度: {rec_len}, 记录数: {num_records}")
        
        valid_count = 0
        for i in range(num_records):
            offset = i * rec_len
            record = data[offset:offset + rec_len]
            
            try:
                # 提取股票代码 (6字节 ASCII)
                code_bytes = record[0:6].strip(b'\x00 ')
                code = code_bytes.decode('ascii')
                
                # 提取股票名称 (18字节 GBK)
                name_bytes = record[7:25].strip(b'\x00 ')
                name = codecs.decode(name_bytes, 'gbk', errors='ignore')
                
                # 校验代码格式
                if not (code.startswith('0') or code.startswith('3') or code.startswith('2')):
                    continue
                
                records.append({'code': code, 'name': name})
                valid_count += 1
                
            except Exception as e:
                continue
        
        # 若有效记录超过一定比例，认为此长度正确
        if valid_count > num_records * 0.8:
            return records
    
    return []

# 使用示例
stock_list = parse_szs_tnf('T0002/hq_cache/szs.tnf')
for item in stock_list[:10]:
    print(f"{item['code']} - {item['name']}")

5. 兼容性与健壮性优化

为应对不同版本通达信的格式差异，建议采取以下策略：

多长度试探：预设多种可能的记录长度，通过校验股票代码前缀（如0/3开头）判断解析是否合理。
动态偏移探测：对名称区域进行GBK解码测试，若连续出现乱码则跳过该长度假设。
校验和辅助：部分版本在文件末尾包含CRC32校验，可用于验证完整性。
缓存结构指纹：记录成功解析的文件大小与长度组合，建立版本指纹库。
结合其他文件交叉验证：参考ldbgz.dat或blocknew.cfg中的股票列表进行比对。
异常处理机制：对解码失败、长度不匹配等情况进行日志记录与降级处理。
支持内存映射：对于大文件，使用mmap提高读取效率。
自动化测试集：收集多个版本的szs.tnf样本，构建回归测试用例。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

C++读取通达信shm.tnf文件股票代码/名称
2021-12-05 20:40

本话题主要聚焦于如何使用C++编程语言读取通达信特有的shm.tnf文件，从中提取股票代码和名称以及其缩写信息。 shm.tnf文件是通达信用来存储股票数据的一种二进制格式，通常包含了股票的基本信息，如股票代码、名称...
通达信股票代码数据结构shm.tnf
2016-03-04 01:13

通达信股票代码文件名由shex.tnf,szex.tnf变更为shm.tnf,szm.tnf,每条记录的长度由250字节增加到314字节，相应字段的地址偏移量发生变化
通达信股票代码与名称解析实战指南.zip
2025-07-14 14:38

土城三富的博客 1.1 界面布局与基本操作通达信的界面布局直观易懂，从市场行情、技术分析到财务数据，各类信息一目了然。启动软件后，用户首先会看到一个动态更新的市场行情界面，其中展示了各大指数的实时走势。通过顶部的菜单栏，...
利用飞狐交易师,通达信打造自己的量化交易系统第一节怎么获得通达信的股票代码和股票名称
2023-07-09 13:19

利用vb获取股股票软件(通达信)shm.tnf,szm.tnf 股票信息
通达信-申万宏源金融终端本地数据转sqlite3，1、解析申万宏源的tnf中的股票名称
2025-03-05 17:50

wuyaqi的博客解析申万宏源的tnf文件中的股票名称及代码
通达信.day文件解析[代码]
2026-03-28 06:13

其中.day文件是通达信软件用于存储股票历史数据的二进制文件格式，它包含了股票的K线数据，对于量化交易投资者来说非常重要。.day文件的每一条记录对应一根K线，这些记录按照时间顺序排列，每32字节包含一条K线数据...
C#获取通达信股票代码
2022-07-13 20:56

在IT行业中，C#是一种广泛使用的编程语言，尤其在开发Windows桌面应用和.NET框架相关项目时。本主题聚焦于如何利用C#来获取通达信（TongDaXin，一款国内流行的股票软件）的股票代码。通达信提供了丰富的股票数据和...
TDX通达信名称代码对照表（szm,shm）版
2017-10-20 15:32

这个资源是2017年闲暇配置的，也没有深入，看到几个...通达信的代码与名称对照表由shex.tnf,szex.tnf变更为shm.tnf,szm.tnf，数据结构发生了变化，数据块大小也由250字节变化为314字节。共享代码片段，省去分析时间。
通达信图标代码及颜色代码大全_上海涨停板_20210220_171414.txt
2021-02-20 17:26

通达信指标公式编写颜色代码寻觅和参考
利用Fexplorer 分析股票代码TNF文件数据结构.pdf
2021-09-25 22:12

在本文中，我们将深入探讨如何利用Fexplorer工具来分析股票代码TNF文件的数据结构，这对于理解股票市场数据的存储和处理至关重要。首先，让我们回顾一下“通达信行业、板块与自定义指数等dat文件文件头”中提到的...
TDX通达信名称代码对照表
2026-02-22 16:22

关于通达信的代码与名称对应关系表，已从shex.tnf、szex.tnf调整为shm.tnf、szm.tnf，数据构造方式随之更迭，数据单元的尺寸也从250字节调整为314字节。提供公共代码片段，旨在节省解析所需的时间。
Python同步通达信财务数据[代码]
2025-11-16 06:13

因此，本文重点介绍了使用Python编程语言实现自动化同步通达信财务数据的方法，帮助开发者和投资者有效地处理大量数据，提高工作效率。文章首先展示了如何通过Python代码读取通达信专业财务数据。这包括了对财务...
通达信V6股票代码文件格式分析
2013-09-30 08:59

通达信V6股票代码文件格式分析...在上面的示例代码中，我们定义了TStockDataStream_Tnf类，该类用于读取和解析通达信V6股票代码文件。该类包括文件头部信息和股票代码数据格式信息，能够对股票代码文件进行读取和解析。
通达信名称代码对应.rar
2021-05-11 21:58

本文将详细解析与“通达信名称代码对应.rar”相关的知识点，包括shm.tnf和szm.tnf文件的作用以及如何理解和利用它们。首先，shm.tnf和szm.tnf是通达信软件中的两个关键文件，它们存储了股票市场的名称和代码的对应...
通达信DLL编程，在通达信公式中调用实现一机一码
2024-12-06 23:14

从提供的文件名称列表中，我们可以看到这些文件都是与开发通达信DLL插件相关的源代码文件和项目文件。例如，“TestPluginTCale.cpp”很可能是用来测试插件功能的源代码文件，而“PluginTCalcFunc.h”和...
通达信DLL函数编程规范[可运行源码]
2025-11-15 09:31

通达信DLL函数编程规范是由通达信软件公司推出的一项编程规范，旨在为用户提供一种通过编程方式扩展通达信软件功能的方法。该规范详细阐述了在Delphi环境下如何编写DLL（动态链接库）函数，以便用户可以在通达信软件...
通da信股本文件解密[项目代码]
2025-11-20 12:05

本文详细论述了在金融信息技术领域内，如何解析通达信软件中的gbbq和gbbq.map文件。gbbq文件中储存了中国证券市场自成立以来的股本和权息等信息，这些数据最初是以加密形式存在。文章通过作者的一个亲身经历开始，...
解析通达信代码表上传到数据库
2016-05-06 16:48

通达信的股票代码放在shm.tnf和szm.tnf 新版的略有变化，解析后直接存入数据结合上期数据采集，可以看到完整的股票数据了用到存储过程 BEGIN select count(*) into @code from codes where code=st_code; if ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月15日