游侠网云服务,免实名免备案服务器 游侠云域名,免实名免备案域名

统一声明:

1.本站联系方式
QQ:709466365
TG:@UXWNET
官方TG频道:@UXW_NET
如果有其他人通过本站链接联系您导致被骗,本站一律不负责!

2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠网云服务

翻开任何一份企业文档,你会发现知识从来不只是文字。产品说明书中有实拍图,技术报告附带架构图,各类培训手册和操作指南也包含大量截图。这些视觉内容承载的信息量往往不亚于文字本身。

尽管多模态 Embedding 能力早已出现,真正将其落地到知识库产品中的方案并不多见。现在,Dify v1.11.0 正式支持多模态能力,让AI真正看懂图文内容,企业文档处理迎来全新升级。

统一语义空间:图文跨模态检索

从 Dify v1.11.0 开始,引入统一语义空间的多模态向量,让图片和文本 Embedding 具有共同的语义坐标体系,使得“以图搜文、以文搜图、以图搜图”成为现实,提升用户检索准确度。

这意味着:

  • 用户可以用自然语言描述问题,同时检索语义相关的文本和图片
  • 用户可以上传相关图片,快速定位要点信息
  • AI不再局限于文本引用,还可以将相关配图一并带入推理过程

多模态支持:从文档到知识的完整链路

在最新版本中,系统可自动提取文档中通过 Markdown 语法引用、且链接可访问的图片(支持 JPG、PNG、GIF,单图不超过 2MB)。选择多模态嵌入模型后,这些图片将进一步进行向量化处理,与文本一同参与检索。

广泛的模型生态

在模型侧,Dify 支持多家云厂商与开源生态的多模态 Embedding 和 Rerank 模型:

  • AWS Bedrock:亚马逊云的多模态嵌入服务
  • Google Vertex AI:谷歌云的AI平台
  • Jina:开源多模态嵌入模型
  • 通义:阿里云的多模态模型

支持的多模态模型在面板中都会带有统一的 VISION 标识,便于识别和选择。

更完整的RAG推理路径

在使用支持 VISION 的 LLM 生成回答时,AI 不再局限于文本引用,还可以将相关配图一并带入推理过程,根据图片中的细节进行解释,让回答更贴近用户需求。

完整的RAG路径包括:

  1. 文档解析:自动提取文档中的文本和图片
  2. 多模态嵌入:将文本和图片转换为统一语义空间的向量
  3. 混合检索:支持文本检索、图片检索和跨模态检索
  4. Rerank重排:对检索结果进行智能重排序
  5. 多模态生成:LLM结合文本和图片生成回答

Dify 2025年技术演进

回顾2025年,Dify在技术上取得了显著进展:

  • v1.11.0:知识库支持多模态检索(本文介绍)
  • v1.11.2:向量数据库、安全增强、测试优化与多语言支持全面升级
  • 全年迭代:持续优化性能、稳定性和用户体验

Dify 已成为全球最受欢迎的开源AI应用开发平台之一,GitHub Star 超过 8.8万,被广泛应用于企业知识库、智能客服、内容生成等场景。

快速体验

想要体验Dify的多模态知识库功能?只需:

  1. 升级到 Dify v1.11.0 或更高版本
  2. 在知识库设置中启用多模态嵌入
  3. 选择支持 VISION 标识的嵌入模型
  4. 导入包含图片的文档
  5. 在Workflow应用中使用知识库检索节点

Dify 的多模态知识库能力,让AI真正”看见”文档中的信息,从”语义匹配”进化到”图片理解”,为企业知识管理开启了新的可能。


📌 本文来源:53AI
🔗 原文链接:点击查看原文全文