英伟达发布Eagle 2.5视觉语言AI模型：8B参数媲美GPT-4o-游侠源码网

英伟达发布Eagle 2.5视觉语言AI模型：8B参数媲美GPT-4o

AI资讯 2026-04-29 0 68

统一声明：

1.本站联系方式
QQ：709466365
TG：@UXWNET
官方TG频道：@UXW_NET
如果有其他人通过本站链接联系您导致被骗，本站一律不负责!
2.需要付费搭建请联系站长QQ：709466365 TG：@UXWNET
3.免实名域名注册购买- 游侠云域名
4.免实名国外服务器购买- 游侠网云服务

4月23日，英伟达最新推出Eagle 2.5，一款专注于长上下文多模态学习的视觉-语言模型（VLM）。该模型专注于理解大规模视频和图像，尤其擅长处理高分辨率图像和长视频序列。

8B参数挑战72B大模型

尽管参数规模仅为8B，Eagle 2.5在Video-MME基准测试（512帧输入）中得分高达72.4%，媲美Qwen2.5-VL-72B和InternVL2.5-78B等更大规模模型。这意味着在视觉-语言理解任务中，小模型也能达到大模型的效果。

两大关键训练策略

Eagle 2.5的成功离不开两项关键训练策略：

信息优先采样（Information-First Sampling）：通过图像区域保留（IAP）技术，保留超过60%的原始图像区域，同时减少宽高比失真；自动降级采样（ADS）则根据上下文长度动态平衡视觉和文本输入，确保文本完整性和视觉细节的优化。

渐进式后训练（Progressive Post-Training）：逐步扩展模型上下文窗口，从32K到128K token，让模型在不同输入长度下保持稳定性能，避免过拟合单一上下文范围。

专用训练数据集

Eagle 2.5的训练数据管道整合了开源资源和定制数据集Eagle-Video-110K，该数据集专为理解长视频设计，采用双重标注方式：

自上而下：采用故事级分割，结合人类标注章节元数据、GPT-4生成的密集描述
自下而上：利用GPT-4o为短片段生成问答对，抓取时空细节

这些策略结合SigLIP视觉编码和MLP投影层，确保了模型在多样化任务中的灵活性。

📌 本文来源：新浪科技
🔗 原文链接：点击查看原文全文

1. 本站所有资源来源于用户上传和网络，如有侵权请邮件联系站长！
2. 分享目的仅供大家学习和交流，您必须在下载后24小时内删除！
3. 不得使用于非法商业用途，不得违反国家法律。否则后果自负！
4. 本站提供的源码、模板、插件等等其他资源，都不包含技术服务请大家谅解！
5. 如有链接无法下载、失效或广告，请联系管理员处理！
6. 本站资源售价只是赞助，收取费用仅维持本站的日常运营所需！
7. 如遇到加密压缩包，请使用WINRAR解压,如遇到无法解压的请联系管理员！
8. 精力有限，不少源码未能详细测试（解密），不能分辨部分源码是病毒还是误报，所以没有进行任何修改，大家使用前请进行甄别！
站长QQ：709466365 站长邮箱：709466365@qq.com

AI 大模型 AI人工智能 AI资讯网页版谷歌验证器

统一声明：

8B参数挑战72B大模型

两大关键训练策略

专用训练数据集

本站导航

外部推荐

其他页面

官方TG

统一声明：

8B参数挑战72B大模型

两大关键训练策略

专用训练数据集

相关文章