统一声明:
1.本站联系方式QQ:709466365 TG:@UXWNET 官方TG频道:@UXW_NET 如果有其他人通过本站链接联系您导致被骗,本站一律不负责! 2.需要付费搭建请联系站长QQ:709466365 TG:@UXWNET 3.免实名域名注册购买- 游侠云域名 4.免实名国外服务器购买- 游侠网云服务4月23日,英伟达最新推出Eagle 2.5,一款专注于长上下文多模态学习的视觉-语言模型(VLM)。该模型专注于理解大规模视频和图像,尤其擅长处理高分辨率图像和长视频序列。
8B参数挑战72B大模型
尽管参数规模仅为8B,Eagle 2.5在Video-MME基准测试(512帧输入)中得分高达72.4%,媲美Qwen2.5-VL-72B和InternVL2.5-78B等更大规模模型。这意味着在视觉-语言理解任务中,小模型也能达到大模型的效果。
两大关键训练策略
Eagle 2.5的成功离不开两项关键训练策略:
信息优先采样(Information-First Sampling):通过图像区域保留(IAP)技术,保留超过60%的原始图像区域,同时减少宽高比失真;自动降级采样(ADS)则根据上下文长度动态平衡视觉和文本输入,确保文本完整性和视觉细节的优化。
渐进式后训练(Progressive Post-Training):逐步扩展模型上下文窗口,从32K到128K token,让模型在不同输入长度下保持稳定性能,避免过拟合单一上下文范围。
专用训练数据集
Eagle 2.5的训练数据管道整合了开源资源和定制数据集Eagle-Video-110K,该数据集专为理解长视频设计,采用双重标注方式:
- 自上而下:采用故事级分割,结合人类标注章节元数据、GPT-4生成的密集描述
- 自下而上:利用GPT-4o为短片段生成问答对,抓取时空细节
这些策略结合SigLIP视觉编码和MLP投影层,确保了模型在多样化任务中的灵活性。
📌 本文来源:新浪科技
🔗 原文链接:点击查看原文全文
🔗 原文链接:点击查看原文全文
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!
站长QQ:709466365 站长邮箱:709466365@qq.com
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,请使用WINRAR解压,如遇到无法解压的请联系管理员!
8. 精力有限,不少源码未能详细测试(解密),不能分辨部分源码是病毒还是误报,所以没有进行任何修改,大家使用前请进行甄别!
站长QQ:709466365 站长邮箱:709466365@qq.com



