Dify v1.11.0发布：知识库支持多模态检索，AI真正看懂图文内容-游侠源码网

Dify v1.11.0发布：知识库支持多模态检索，AI真正看懂图文内容

AI Skills 2026-04-29 0 59

统一声明：

1.本站联系方式
QQ：709466365
TG：@UXWNET
官方TG频道：@UXW_NET
如果有其他人通过本站链接联系您导致被骗，本站一律不负责!
2.需要付费搭建请联系站长QQ：709466365 TG：@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠网云服务

翻开任何一份企业文档，你会发现知识从来不只是文字。产品说明书中有实拍图，技术报告附带架构图，各类培训手册和操作指南也包含大量截图。这些视觉内容承载的信息量往往不亚于文字本身。

尽管多模态 Embedding 能力早已出现，真正将其落地到知识库产品中的方案并不多见。现在，Dify v1.11.0 正式支持多模态能力，让AI真正看懂图文内容，企业文档处理迎来全新升级。

统一语义空间：图文跨模态检索

从 Dify v1.11.0 开始，引入统一语义空间的多模态向量，让图片和文本 Embedding 具有共同的语义坐标体系，使得“以图搜文、以文搜图、以图搜图”成为现实，提升用户检索准确度。

这意味着：

用户可以用自然语言描述问题，同时检索语义相关的文本和图片
用户可以上传相关图片，快速定位要点信息
AI不再局限于文本引用，还可以将相关配图一并带入推理过程

多模态支持：从文档到知识的完整链路

在最新版本中，系统可自动提取文档中通过 Markdown 语法引用、且链接可访问的图片（支持 JPG、PNG、GIF，单图不超过 2MB）。选择多模态嵌入模型后，这些图片将进一步进行向量化处理，与文本一同参与检索。

广泛的模型生态

在模型侧，Dify 支持多家云厂商与开源生态的多模态 Embedding 和 Rerank 模型：

AWS Bedrock：亚马逊云的多模态嵌入服务
Google Vertex AI：谷歌云的AI平台
Jina：开源多模态嵌入模型
通义：阿里云的多模态模型

支持的多模态模型在面板中都会带有统一的 VISION 标识，便于识别和选择。

更完整的RAG推理路径

在使用支持 VISION 的 LLM 生成回答时，AI 不再局限于文本引用，还可以将相关配图一并带入推理过程，根据图片中的细节进行解释，让回答更贴近用户需求。

完整的RAG路径包括：

文档解析：自动提取文档中的文本和图片
多模态嵌入：将文本和图片转换为统一语义空间的向量
混合检索：支持文本检索、图片检索和跨模态检索
Rerank重排：对检索结果进行智能重排序
多模态生成：LLM结合文本和图片生成回答

Dify 2025年技术演进

回顾2025年，Dify在技术上取得了显著进展：

v1.11.0：知识库支持多模态检索（本文介绍）
v1.11.2：向量数据库、安全增强、测试优化与多语言支持全面升级
全年迭代：持续优化性能、稳定性和用户体验

Dify 已成为全球最受欢迎的开源AI应用开发平台之一，GitHub Star 超过 8.8万，被广泛应用于企业知识库、智能客服、内容生成等场景。

快速体验

想要体验Dify的多模态知识库功能？只需：

升级到 Dify v1.11.0 或更高版本
在知识库设置中启用多模态嵌入
选择支持 VISION 标识的嵌入模型
导入包含图片的文档
在Workflow应用中使用知识库检索节点

Dify 的多模态知识库能力，让AI真正”看见”文档中的信息，从”语义匹配”进化到”图片理解”，为企业知识管理开启了新的可能。

📌 本文来源：53AI
🔗 原文链接：点击查看原文全文

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！
7. 如遇到加密压缩包，请使用WINRAR解压,如遇到无法解压的请联系管理员！
8. 精力有限，不少源码未能详细测试（解密），不能分辨部分源码是病毒还是误报，所以没有进行任何修改，大家使用前请进行甄别！
站长QQ：709466365 站长邮箱：709466365@qq.com

统一声明：

统一语义空间：图文跨模态检索

多模态支持：从文档到知识的完整链路

广泛的模型生态

更完整的RAG推理路径

Dify 2025年技术演进

快速体验

本站导航

外部推荐

其他页面

官方TG

统一声明：

统一语义空间：图文跨模态检索

多模态支持：从文档到知识的完整链路

广泛的模型生态

更完整的RAG推理路径

Dify 2025年技术演进

快速体验

相关文章