国内外知名大模型及应用——模型/应用维度（2026/03/20）-游侠源码网

统一声明：

1.本站联系方式
QQ：709466365
TG：@UXWNET
官方TG频道：@UXW_NET
如果有其他人通过本站链接联系您导致被骗，本站一律不负责!
2.需要付费搭建请联系站长QQ：709466365 TG：@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠云服务

国内外知名大模型及应用——模型/应用维度（2026/03/20）

本周更新（2025/03/16~2025/03/20）

经过了两年的发展，国内外 AI 大模型的差距在不断缩小，但整体国外仍有一个身位的领先优势，尤其是通用模型。Google，OpenAI，Anthropic 这三家公司除了性能交替领先，更重要的是行业趋势目前仍然一直由这几家公司把握。

国外的大模型大多数都需要架梯翻墙才能访问，而且由于生成的内容相对自由，国内企业使用起来可能会要注意合规风险。

一、国外通用大模型

1. OpenAI GPT-5.4

OpenAI 研发的大模型应用。2026 年 3 月推出最新的通用模型 GPT-5.4。拥有 1M token 的上下文窗口，同时也是 OpenAI 首个支持上下文压缩的主线模型；新增原生计算机操控能力（Computer Use），可直接解析屏幕截图并发出键鼠指令，跨应用程序执行复杂工作流；对电子表格、演示文稿、法律分析和金融建模等知识密集型任务进行了专门强化，扩展企业级应用场景；通过 Tool Search 机制增加效率和准确率。

目前 OpenAI 模型整体实力确实不如 Deepmind，但加上整个应用生态还是有一战之力。

2. Google Gemini 3

Google Deepmind 研发的大模型。2025 年 12 月份发布了 Gemini 3 Flash，成为 Gemini App 和 Google AI 模式的默认模型，其 AI 模式在捕捉问题细节和语义色彩方面表现得更加出色，可以实时整合本地信息与全网优质链接，提供逻辑严密、全面且视觉化呈现的回答。尽管官网介绍该版本也拥有 thinking 和 deep think 模型，但其主要定位是提升问题解决效率，于是将其归到通用模型一类。

Gemini 目前模型性能综合实力最强，结合搜索业务的 Deep Research 是行业标杆。

3. Anthropic Claude 4.6

Anthropic 研发的大模型。2026 年 2 月发布 Opus 4.6，目前 Anthropic 最强的模型。新版模型具备更周密的规划能力，能够更持久地执行智能体任务，并拥有卓越的代码审查与调试技能；Opus 4.6 还能将其增强的能力应用于多种日常办公场景，包括财务分析、课题研究，以及文档、电子表格和演示文稿的创建与处理。Claude Code 中，现已支持组建智能体团队（Agent Swarm）协作完成任务；通过 API 接入可以利用压缩技术对上下文进行摘要，从而在不突破配额限制的前提下执行长时间任务；自适应思维功能也已推出，使模型能够根据上下文线索自主判断扩展思维的使用强度；Opus 4.6 也是 Anthropic 迄今为止发布的最安全最稳健的对齐模型。

2 月发布 Sonnet 4.6，支持 1M token 的上下文窗口，在编程、Computer Use、长上下文推理、智能体规划、知识工作和设计等能力上实现了全面升级。其中模型在编程任务中幻觉和降智行为相对于 Opus 4.5 更少，在 Computer Use 任务中完成度达到了 72.5%，是一年半之前该功能刚推出时的 5 倍。

10 月发布 Haiku 4.5，在保持与 Claude Sonnet 4 相近性能的同时，实现了超过 2 倍的响应速度和仅为 1/3 的运营成本；

公认最强的领域是 Coding。封号最猛也是唯一家公开反华的模型厂，倡议大家在有平替的前提下尽量不要为它家充值。

4. xAI Grok 4.1

一龙马斯克旗下的 xAI 研发的大模型，采用最新版本闭源早期版本开源的策略，其中 v3.0 版本已经开源。2025 年 11 月发布最新版本 v4.1。在 LMSYS 当了一天的老大就被友商 Gemini 超越。和 4.0 版本相比，4.1 通过创新的智能体奖励模型训练方法，提升了模型的情商以及写作时”人味”，并大幅降低幻觉率。

5. Mistral AI

法国 Mistral AI 发布的闭源大模型。2025 年 5 月发布 Mistral 3 Medium。除了便宜，没有更多量化的公开指标。2024 年 7 月发布了 Mistral Large 2，拥有 128K 上下文，参数 123B。尽管作为欧洲独苗，MistralAI 最近不太参与通用模型的竞争，专注于小模型和一些细分领域的小创新，但业内人士应该还记得 Mixtral 8x7B 发布时对行业的贡献。

二、推理模型

1. GPT-5.4 Thinking / Pro

2026 年 3 月发布专业推理模型 GPT-5.4 Pro。除了 $30/每百万 token 的 API 输出价格比 5.2 Pro 友好了不少。配备了最完整的推理架构和更多的算力资源，能够处理需要多步复杂推理、跨领域知识整合和深度分析的任务。

模型引入执行前”Planning”、执行中”interrupting”机制改变了人机协作模式，将错误纠正从”完成后返工”转变为”执行中调整”，增加推理过程的可控性。

2. Gemini 3.1 Pro / Deep Think

Google Deepmind 发布的推理模型，2026 年 2 月份发布了 Gemini 3.1 Pro，在基于代码的动画、复杂系统综合能力、交互式设计、创意编程等各维度能力提升。

2025 年 11 月发布 Gemini 3 Deep Think。在推理、多模态理解和智能体能力上实现了质的飞跃。Gemini 3 Pro 在几乎所有主要的 AI 基准测试中都显著优于 2.5 Pro；Gemini 3 Deep Think 作为全新的增强推理模式，在高难度测试中表现卓越，并在 ARC-AGI-2 上取得了 45.1% 的突破性成绩。

3. Claude Opus 4.6 Adaptive Thinking

Anthropic 发布的推理模型，2026 年 2 月发布 Claude Opus 4.6 Adaptive Thinking。通过自适应思维，Claude 能够自主判断何时需要进行深度推理。

4. Grok 4.1 Thinking

xAI 发布的推理模型，2025 年 11 月发布 Grok 4.1 Thinking。

5. Magistral Medium v1.2

Mistral 发布的推理模型，2025 年 9 月发布了的 Magistral Medium v1.2，增加了多模态支持，提升了模型本身和工具使用时的智能。整体性能在第二梯队，主要优点是快。

三、图像生成模型

1. Nano Banana 2 (Gemini 3.1 Flash Image)

2026 年 2 月 Google Deepmind 更新的 Gemini 原生的图像生成能力。模型依托 Gemini 的广泛世界知识和实时网络搜索能力，能够更准确地还原特定主题，并支持将笔记转化为图表、生成数据可视化信息图等复杂任务。在文本渲染方面，Nano Banana 2 实现了显著升级，可在图像中生成清晰可读的文字，并支持多语言翻译和本地化，满足营销物料和全球化内容创作需求。创作控制层面，模型可在单个工作流中保持最多五个角色的形象一致性和最多 14 个物体的保真度，同时严格遵循复杂的多层指令，支持从 512 像素到 4K 的多种分辨率以及包括 4:1、1:4、8:1、1:8 在内的多种宽高比。

2. Nano Banana Pro (Gemini 3 Pro Image)

2025 年 11 月 Google Deepmind 更新的 Gemini 原生的图像生成能力。相比于前一个版本更擅长二创的 Nano Banana，Pro 版本基于 Gemini 3 强大的推理能力和世界知识，文生图的能力也显著加强，多语言文本的渲染大幅升级；二创时支持参考多达 14 张图像，并保持多达 5 个人物的一致性和相似度，以及更加精细化的图片局部编辑。

3. Imagen 4

Google Deepmind 2025 年 5 月发布的 AI 图像生成模型。在 LMSYS 竞技场 T2I 子榜上 Image 3 长期霸榜，Imagen 4 生图质量比 3 高，速度比 3 快，很可能扩大领先优势。

4. GPT-Image 1.5

OpenAI 2025 年 12 月发布的 GPT 原生的图像生成能力。和前个版本相比，指令遵循能力更强，文本渲染更出色，可以生成更多、更小的文字，但生成中文时存在不足；二次编辑更精准，保留更多重要细节；更准确保留人物 ID，但多人物 ID 保持不足。低配版 Nano Banana。

5. FLUX.2

Black Forest Labs 2025 年 11 月发布的生图模型，建立在潜在流匹配（latent flow matching）架构之上，并将图像生成与编辑功能结合在单一架构中。旗舰模型 FLUX.2 [pro] 在图像生成质量、在指令遵循和视觉保真度方面可以匹配 SOTA 模型，同时以更快的速度和更低的成本生成图像。

四、视频生成模型

1. Veo 2

Google Deepmind 在 2025 年 10 月发布的 AI 视频生成模型。相比 5 月份发布的 3.0 版本，音频生成、指令遵循、视频真实感这几个维度都有显著增强的同时，新增”插入”工具，可在视频中添加新元素并自动匹配光影。

2. Gen-5

Runway 在 2025 年 12 月发布的 AI 视频生成模型，保持了 Gen-4 的速度和效率，在不牺牲性能的前提下提供了突破性的质量，但在视频生成时，因果倒置、物体消失、场景成功率过高等局限性依然存在。

3. Sora 2

OpenAI 在 2025 年 9 月发布的 AI 视频生成模型，其 Pro 版本能够生成 20 秒的 1080p 视频，而 plus 版本则生成 10 秒的 720p 视频。和去年 12 月被迫上线的 Sora 相比，其进步体现在对真实物理世界的模拟、多模态的整合以及对生成过程的精细控制上。

五、音频生成模型

1. MusicLM 2

Google Deepmind 2026 年 2 月发布的音乐模型，生成音乐时长 30 秒，支持文本、图片和视频多种输入方式。系统会根据提示词自动生成歌词；用户获得了更强的创作控制权，可以精细调整音乐风格、人声和节奏等元素；模型能够创作出更加真实且音乐复杂度更高的曲目。

2. Suno v5

Suno AI 2025 年 9 月发布的音乐模型。相对于 v4.0，完成了音质升级，达到了录音室级别；还能像专业工作站一样，拆解歌曲的鼓点、合成器、人声等 12 个分轨，随意替换、重组；对音乐风格也有更强的掌控力。

📰 来源：知乎专栏 | 作者：AI 大模型

🔗 原文链接：https://zhuanlan.zhihu.com/p/670574382

📅 发布日期：2026-03-20

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！
7. 如遇到加密压缩包，请使用WINRAR解压,如遇到无法解压的请联系管理员！
8. 精力有限，不少源码未能详细测试（解密），不能分辨部分源码是病毒还是误报，所以没有进行任何修改，大家使用前请进行甄别！
站长QQ：709466365 站长邮箱：709466365@qq.com

统一声明：

本周更新（2025/03/16~2025/03/20）

一、国外通用大模型

1. OpenAI GPT-5.4

2. Google Gemini 3

3. Anthropic Claude 4.6

4. xAI Grok 4.1

5. Mistral AI

二、推理模型

1. GPT-5.4 Thinking / Pro

2. Gemini 3.1 Pro / Deep Think

3. Claude Opus 4.6 Adaptive Thinking

4. Grok 4.1 Thinking

5. Magistral Medium v1.2

三、图像生成模型

1. Nano Banana 2 (Gemini 3.1 Flash Image)

2. Nano Banana Pro (Gemini 3 Pro Image)

3. Imagen 4

4. GPT-Image 1.5

5. FLUX.2

四、视频生成模型

1. Veo 2

2. Gen-5

3. Sora 2

五、音频生成模型

1. MusicLM 2

2. Suno v5

本站导航

外部推荐

其他页面

官方TG

统一声明：

本周更新（2025/03/16~2025/03/20）

一、国外通用大模型

1. OpenAI GPT-5.4

2. Google Gemini 3

3. Anthropic Claude 4.6

4. xAI Grok 4.1

5. Mistral AI

二、推理模型

1. GPT-5.4 Thinking / Pro

2. Gemini 3.1 Pro / Deep Think

3. Claude Opus 4.6 Adaptive Thinking

4. Grok 4.1 Thinking

5. Magistral Medium v1.2

三、图像生成模型

1. Nano Banana 2 (Gemini 3.1 Flash Image)

2. Nano Banana Pro (Gemini 3 Pro Image)

3. Imagen 4

4. GPT-Image 1.5

5. FLUX.2

四、视频生成模型

1. Veo 2

2. Gen-5

3. Sora 2

五、音频生成模型

1. MusicLM 2

2. Suno v5

相关文章