Pandas怎么处理股票代码转换？6位数字转代码！

作为从业多年的开户经理，我发现很多量化新手在数据清洗阶段就浪费了大量时间。其实选个好用的炒股软件能省去不少麻烦。比如我们券商提供的量化接口，已经帮你统一了各种代码格式，还支持多种数据格式的自动转换。如果你正在搭建自己的量化系统，不妨考虑下我们的一站式解决方案——开户即送Level-2行情，API文档详尽，还有专业团队提供技术支持。毕竟把时间花在策略开发上，比折腾数据格式要有价值得多，对吧？

程序化交易助手

1345人浏览 · 2025-05-29 07:26:00

程序化交易助手 · 2025-05-29 07:26:00 发布

Pandas怎么处理股票代码转换？6位数字转代码！

股票代码那些事儿

刚入市的朋友可能都遇到过这样的困惑：为什么有的股票代码是6位纯数字，有的又带字母？比如贵州茅台是600519，而创业板的天山生物却是300313.SZ。这其实涉及到不同交易所的编码规则。

A股市场主要有三个交易所：上交所、深交所和北交所。上交所的股票代码是6开头，比如600519（贵州茅台）；深交所主板是000开头（如000858五粮液），创业板是300开头；北交所则是8开头。

为什么需要代码转换？

做量化分析时，我们经常需要从不同数据源获取股票数据。但你会发现，同花顺、东方财富、Wind等平台对同一只股票的代码表示方式可能不同。有的用纯数字，有的加交易所后缀，比如".SH"、".SZ"。

举个例子：

同花顺：600519
Wind：600519.SH
聚宽：SH600519

这种混乱的格式会给数据分析带来麻烦。比如你想合并两个来源的数据，如果代码格式不统一，Pandas就无法正确匹配。

Pandas处理代码转换的基本方法

假设我们有个DataFrame，里面是股票代码和价格数据：

import pandas as pd

data = {
    'code': ['600519', '000858', '300313'],
    'price': [1800, 150, 25]
}
df = pd.DataFrame(data)

方法1：简单添加后缀

# 上交所股票添加.SH，深交所添加.SZ
def add_suffix(code):
    if code.startswith('6'):
        return code + '.SH'
    elif code.startswith('0') or code.startswith('3'):
        return code + '.SZ'
    else:
        return code

df['full_code'] = df['code'].apply(add_suffix)

方法2：使用向量化操作

Pandas的向量化操作通常比apply更快：

df['exchange'] = 'SZ'  # 默认深交所
df.loc[df['code'].str.startswith('6'), 'exchange'] = 'SH'
df['full_code'] = df['code'] + '.' + df['exchange']

处理特殊情况

现实中的数据往往没那么规整。我们可能会遇到：

已经带后缀的代码
科创板股票（688开头）
北交所股票（8开头）
港股、美股等其他市场

改进版的转换函数：

def convert_stock_code(code):
    if isinstance(code, str):
        if '.' in code:  # 如果已经有后缀
            return code
        if code.startswith('6'):
            return f"{code}.SH"
        elif code.startswith('0') or code.startswith('3'):
            return f"{code}.SZ"
        elif code.startswith('8'):
            return f"{code}.BJ"  # 北交所
        else:
            return code  # 其他情况原样返回
    return code

df['full_code'] = df['code'].apply(convert_stock_code)

反向转换：去掉后缀

有时候我们需要反向操作，把带后缀的代码转回纯数字：

def remove_suffix(code):
    if isinstance(code, str) and '.' in code:
        return code.split('.')[0]
    return code

df['pure_code'] = df['full_code'].apply(remove_suffix)

实际应用场景

场景1：合并不同数据源

假设我们有两个数据源：

源1：使用600519.SH格式
源2：使用600519格式

# 统一格式后再合并
df1['code'] = df1['code'].apply(remove_suffix)
df2['code'] = df2['code'].apply(remove_suffix)
merged_df = pd.merge(df1, df2, on='code')

场景2：对接交易API

很多券商API要求特定格式的股票代码。比如某券商要求沪市股票前加"sh"，深市加"sz"：

def for_trading_api(code):
    if code.startswith('6'):
        return f"sh{code}"
    else:
        return f"sz{code}"

df['api_code'] = df['code'].apply(for_trading_api)

性能优化技巧

当处理大量股票代码时，性能很重要。几个优化建议：

尽量使用Pandas内置的字符串方法，它们是用C实现的，比Python循环快得多
避免在循环中反复调用转换函数
可以考虑预先建立代码映射表

# 预先生成映射字典
code_mapping = {
    '600519': '600519.SH',
    '000858': '000858.SZ',
    # ...其他代码
}
df['full_code'] = df['code'].map(code_mapping)

封装成实用工具

我们可以把这些功能封装成一个StockCodeConverter类：

class StockCodeConverter:
    @staticmethod
    def to_full(code):
        # 实现完整转换逻辑
        pass
    
    @staticmethod
    def to_pure(code):
        # 实现去除后缀逻辑
        pass
    
    @staticmethod
    def for_api(code):
        # 实现特定API格式
        pass

# 使用示例
df['full_code'] = StockCodeConverter.to_full(df['code'])

常见问题解答

Q：为什么我的转换函数对某些股票无效？ A：可能是遇到了特殊情况，比如北交所股票（8开头）、科创板股票（688开头），或者数据本身有问题（比如代码列混入了其他内容）。建议先检查数据质量。

Q：处理几百万行数据时速度很慢怎么办？ A：可以尝试以下方法：

使用Pandas的向量化操作替代apply
考虑使用Dask等库处理大数据
预先过滤掉无效代码

Q：港股、美股代码怎么处理？ A：这些市场的代码规则不同。港股通常是5位数字，美股是1-5个字母。需要单独处理，建议先确定数据源的标准格式。

最后的小建议

作为从业多年的开户经理，我发现很多量化新手在数据清洗阶段就浪费了大量时间。其实选个好用的炒股软件能省去不少麻烦。比如我们券商提供的量化接口，已经帮你统一了各种代码格式，还支持多种数据格式的自动转换。

如果你正在搭建自己的量化系统，不妨考虑下我们的一站式解决方案——开户即送Level-2行情，API文档详尽，还有专业团队提供技术支持。毕竟把时间花在策略开发上，比折腾数据格式要有价值得多，对吧？

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

超越工具，重塑核心：构建企业AI价值中枢的深度范式

企业AI应用正从"技术项目"转向"业务价值中枢"，通过构建智能能力中间层实现AI价值转化。报告提出三大核心操作：1）能力组件化，将AI封装为可复用的业务积木；2）流程自动化，实现端到端智能业务流；3）交互Agent化，打造拟人化业务伙伴。实施路径分为四阶段：价值锚定、平台构建、生态扩展和原生进化。成功关键在于组织转型，从项目制转向产品制运营，建立跨职能团队和