【解决】调用通义千问嵌入模型报错：batch size is invalid, it should not be larger than 10

摘要在使用LangChain框架和Chroma数据库处理本地文件向量化时，遇到批量大小限制错误（batch size不能超过10）。解决方案是将文档分割成10个一批次处理，首批创建数据库，后续批次追加。通过分批次处理避免了嵌入模型的批量限制问题。

Run_youngman

631人浏览 · 2025-09-10 16:28:33

Run_youngman · 2025-09-10 16:28:33 发布

基本情况说明

应用功能：
读取本地文件，向量化后存储到本地文件数据库中。

开发框架：
langchain

嵌入模型：
text-embedding-v4

数据库
chroma

报错全部信息：
ValueError: status_code: 400 code: InvalidParameter message: <400> InternalError.Algo.InvalidParameter: Value error, batch size is invalid, it should not be larger than 10.: input.contents

报错情况说明

参考百炼控制台，最大行数有限制存在。
在这里插入图片描述

由于整个调用过程未显式传递batch_size参数，且整个调用过程由Chroma内部调用，导致问题不好定位。

解决方案：

将读取的文档内容进行分割，批量入库。

# 分批处理文档
batch_size = 10
for i in range(0, len(split_docs), batch_size):
    batch_docs = split_docs[i:i+batch_size]
    if i == 0:
        # 第一批文档创建数据库
        vectordb = Chroma.from_documents(
            documents=batch_docs,
            embedding=embedding,
            persist_directory=persist_directory
        )
    else:
        # 后续批次添加到数据库
        vectordb.add_documents(batch_docs)

说到最后

以上。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插