SpringAI之多模态

多模态是指表达或感知事物的方式，例如视觉、听觉、嗅觉。对应的信息传递媒介可以是不同类型的数据，如文本、图像、声音、视频等。多模态就是从多个模态表达或感知事物。大部分情况与大模型交互都是基于普通文本输入，只有需要解析图片等其他类型数据时才会用到多模态模型。deepseekqwen-plus等模型都是纯文本模型，在 Ollama 和百炼平台，也能找到很多多模态模型。以 Ollama 为例，在搜索时点击

m0_62943934

759人浏览 · 2025-07-24 00:31:03

m0_62943934 · 2025-07-24 00:31:03 发布

文章目录

1_多模态介绍

多模态是指表达或感知事物的方式，例如视觉、听觉、嗅觉。

对应的信息传递媒介可以是不同类型的数据，如文本、图像、声音、视频等。

多模态就是从多个模态表达或感知事物。

大部分情况与大模型交互都是基于普通文本输入，只有需要解析图片等其他类型数据时才会用到多模态模型。

deepseek 、qwen-plus 等模型都是纯文本模型，在 Ollama 和百炼平台，也能找到很多多模态模型。

以 Ollama 为例，在搜索时点击 Vision，就能找到支持图像识别的模型：

在阿里云百炼平台也一样：

阿里云百炼平台的 qwen-omni 模型是支持文本、图像、音频、视频输入的全模态模型，还能支持语音合成功能，非常强大。

2_定义模型

创建用于多模态对话的 ChatClient：

@Bean
public ChatClient chatClient(OpenAiChatModel model, ChatMemory chatMemory) {
    return ChatClient.builder(model)
            .defaultOptions(ChatOptions.builder().model("qwen-omni-turbo").build())
            .defaultSystem("你是我的助手，名字叫小微")
            .defaultAdvisors(
                    new SimpleLoggerAdvisor(),
                    MessageChatMemoryAdvisor.builder(chatMemory).build()
            ).build();
}

application.yaml 配置文件中 spring.ai.openai.chat.options.model 属性已经指定了 qwen-plus 为默认的 Chat 模型（由于其他业务使用的原因，不能改变）。

也就是说会产生冲突，因此创建 Bean 时使用 defaultOptions 方法指定了模型名称。

3_多模态对话

定义 ChatController 接口，让它支持文件上传和多模态对话。

@RestController
@RequestMapping("/ai")
@RequiredArgsConstructor
public class ChatController {

    private final ChatClient chatClient;

    private final ChatHistoryRepository chatHistoryRepository;

    @RequestMapping(value = "/chat", produces = "text/html;charset=utf-8")
    public Flux<String> chat(String prompt, String chatId, List<MultipartFile> files) {
        // 请求聊天前先保存会话id,已经做了重复添加的校验
        chatHistoryRepository.save("chat", chatId);
        // 请求文本模型
        if (files == null || files.isEmpty()) {
            return textChat(prompt, chatId);
        }
        // 多模态模型
        return multiModelChat(prompt, chatId, files);
    }

    private Flux<String> multiModelChat(String prompt, String chatId,
                                        @RequestParam(required = false) List<MultipartFile> files) {
        //1.解析多媒体
        List<Media> medias = files.stream().map(file ->
                new Media(
                        MimeType.valueOf(Objects.requireNonNull(file.getContentType())),
                        file.getResource()
                )).toList();
        return chatClient.prompt()
                .user(u -> u.text(prompt).media(medias.toArray(Media[]::new)))
                .advisors(a -> a.param(ChatMemory.CONVERSATION_ID, chatId))
                .stream().content();
    }

    private Flux<String> textChat(String prompt, String chatId) {
        return chatClient.prompt()
                .user(prompt)
                .advisors(a -> a.param(ChatMemory.CONVERSATION_ID, chatId))
                .stream().content();
    }

}

4_测试

进入聊天页面，可以上传图片让 AI 来识别了：

但是存在其他问题，比如对于音频数据格式的解析 qwen 与 OpenAI 并不兼容，所以会报错。

可以使用 spring-alibaba-ai ，或者重写 OpenAiModel 的实现逻辑。

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OBS Studio音频分离：人声与背景音乐分离全攻略

你是否曾在直播或录屏时遇到这样的困境：想要单独调整人声音量却影响了背景音乐，或是后期剪辑时无法消除环境噪音？OBS Studio（Open Broadcaster Software Studio，开放广播软件工作室）作为免费开源的音视频录制与直播工具，提供了强大的音频处理框架，通过合理配置滤镜链与外部工具组合，可实现专业级别的人声与背景音乐分离。本文将系统讲解3种分离方案，从基础声道分离到AI驱动

火山引擎开发者社区

lmstudio-python：简化LLM操作的强大Python SDK

lmstudio-python 是一款功能强大的 Python SDK，旨在帮助开发者轻松地使用大型语言模型（LLM）进行文本生成、对话系统搭建以及其他相关应用。通过简单易用的API，lmstudio-python 能够让用户快速集成 LLM 功能，无论是进行基础文本补全还是复杂的对话系统设计。## 项目技术分析lmstudio-python SDK 以 Python 为基础，提供了一个同

火山引擎开发者社区

OBS Studio AI增强：智能场景识别与自动优化全攻略

你是否曾在直播切换场景时手忙脚乱？是否因复杂的参数配置而错失最佳直播时机？OBS Studio作为开源直播软件的佼佼者，虽提供强大的自定义功能，但传统手动操作已难以满足专业创作者对效率和质量的双重需求。本文将系统介绍如何通过AI技术增强OBS Studio的核心能力，重点实现智能场景识别与自动参数优化，让你的直播制作流程效率提升300%。读完本文你将获得：- 基于OpenCV的实时场景分析插