信息发布→ 登录 注册 退出

智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

发布时间:2025-12-12

点击量:

智元机器人团队正式开源 videodataset——一款面向真实 ai 训练场景深度优化的高性能视频数据加载库。

  • 极致加速:将解码任务由传统 CPU 迁移至 GPU,全面释放硬件解码潜能,整体吞吐量提升达 4 倍。
  • 精准随机访问:突破硬件解码普遍不支持随机寻帧(Random Seek)的技术瓶颈,专为 AI 训练定制高效随机采样能力。
  • 开箱即用:原生兼容 PyTorch Dataset 接口,提供轻量级 Mixin 类,开发者仅需修改少量代码即可无缝嵌入现有训练流程。

智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

为直观展现 VideoDataset 的实际性能优势,智元团队开展了与主流 CPU 软件解码方案的系统性对比测试,涵盖 OpenCV、Torchvision(Py*)、Torchvision(VideoReader)及 TorchCodec 等典型实现。

实测表明,VideoDataset 在解码吞吐量上相较上述 CPU 方案提升 3–4 倍;同时显著降低 CPU 负载,近乎将解码任务从 CPU 完全卸载。该特性使其在大规模视频训练任务中,不仅大幅加快数据供给速度,更可充分释放 GPU 算力,全面提升端到端训练效率。

智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

此外,得益于多解码器复用机制,在面对海量视频随机解码的实际训练场景时,VideoDataset 相比主流 GPU 硬件解码方案仍展现出显著吞吐优势。

Ghiblio Ghiblio

专业AI吉卜力风格转换平台,将生活照变身吉卜力风格照

Ghiblio 157 查看详情 Ghiblio

智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器

VideoDataset 基于 NVIDIA Video Codec SDK 构建,融合多解码器动态调度、生产者—消费者异步模型等关键技术,构建起解码与模型训练完全解耦的异步流水线,解码器利用率稳定超过 90%,持续拉升性能上限。

通过 GOP 级视频切分策略,支持毫秒级关键帧定位——解码器无需完整解析整个 GOP,仅需解码至目标帧即可终止,从而实现真正高效的随机寻帧。同时,项目已妥善解决 Python 多进程(spawn/fork)与 CUDA Context 共存引发的冲突问题,确保在 DataLoader 多 worker 模式下长期稳定运行。

据官方透露,VideoDataset 后续版本将持续演进,重点规划包括:

  • 引入多级流水线优化机制,增强训练流程的可配置性与执行效率;
  • 全面适配 Lerobot 框架,加速跨平台生态协同;
  • 支持 PB 级视频数据的分布式存储与并行加载,应对超大规模数据挑战;
  • 扩展更多视频编码格式支持,深化与 HuggingFace 生态的原生集成。

源码地址:点击下载

以上就是智元开源 VideoDataset:基于 GPU 硬件解码的 VLM 训练加速利器的详细内容,更多请关注其它相关文章!


相关文章: 快手极速版在线观看 官方网页版登录地址  必由学官方登录入口 必由学教师学生账号快速访问  QQ邮箱登录首页官网地址2026 QQ邮箱官方网页入口  Go语言实现持久化与原子性文件存储的教程  如何在PHP中实现基于MySQL的动态分页查询  腾讯QQ邮箱官方网站_QQ邮箱网页版在线登录  如何在CSS中使用visited与link控制链接颜色_visited link伪类配合  Win11输入法不见了怎么办_Windows11恢复语言栏显示方法  C++如何实现一个装饰器模式_C++设计模式之动态地给对象添加额外职责  Win11怎么开启卓越性能模式 Win11电源选项启用高性能释放硬件潜力【方法】  Go语言中构建可靠数据存储的原子性与持久化策略  12306选座系统怎么选连座_12306选座多人连坐操作方法  Win10怎么设置静态IP地址 Win10手动配置IP地址步骤【指南】  DLsite中文平台入口 DLsite官网内容在线查看  sublime如何配置Go语言开发环境_sublime搭建Golang编译运行系统  SteamMachine定价或为699美元 大家想入手吗?  Python复杂任务中断策略:通过回调函数实现优雅停止  现代化 SciPy 一维插值:interp1d 的替代方案与最佳实践  12306几点到几点不能订票? | 官方最新系统维护时间全解析  迅雷下载到U盘速度很慢怎么办_迅雷U盘下载慢优化方法  Log4j Console Appender性能瓶颈与高并发优化策略  Adobe PDF表单中利用J*aScript解析与格式化日期组件的教程  钉钉视频会议画面卡顿如何解决 钉钉会议画面优化方法  处理嵌套交互式控件:前端可访问性指南  优化Django表单:提交验证失败后保留用户输入  vivo手机互传视频怎么操作_vivo手机互传视频详细传输方法  微博网页版怎么开启两步验证_微博网页版账号安全两步验证设置方法  J*a递归快速排序中静态变量导致数据累积问题的解决方案  c++如何使用TBB库进行任务并行_c++ Intel线程构建模块  Lar*el的路由模型绑定怎么用_Lar*el Route Model Binding简化控制器逻辑  Win11怎么设置开机NumLock亮 Win11修改注册表InitialKeyboardIndicators值  理解Python模块与全局变量的作用域管理  漫蛙2正版漫画站 漫蛙2网页版快速访问入口  css链接悬停下划线样式如何自定义_使用::after结合content和transition  NVIDIA股价11月重挫12%:下月有望好转 但难回5万亿美元巅峰  如何创建没有密码的Windows本地账户_跳过微软账户登录的技巧【教程】  怎样把文件彻底粉碎无法恢复_Windows下安全删除敏感数据【隐私保护】  百度网盘网页版入口 百度网盘网页版官方登录网址  4399体育竞技小游戏_4399小游戏赛事入口  C++编译期如何执行复杂计算_C++模板元编程(TMP)技巧与应用  抓大鹅无需下载版 抓大鹅秒玩版入口  利用5118提升短视频内容效果_5118短视频关键词优化方法  J*aScript Promise链中如何正确终止后续.then执行并处理错误  AO3官网镜像链接 Archive of Our Own同人文在线浏览  Win11怎么查看显卡显存 Win11显示适配器属性及专用视频内存查询  精准捕获:如何在页面中监听除特定元素外的所有点击事件  Odoo 16:在表单视图中基于当前记录动态修改Tree视图属性  漫蛙漫画官方首页 漫蛙2漫画在线阅读入口  必由学官方平台入口 必由学在线课堂登录地址  如何修改开机登录密码_Windows账户安全设置超详细教程【必学】 

在线客服
服务热线

服务热线

4008988990

微信咨询
二维码
返回顶部
×二维码

截屏,微信识别二维码

打开微信

微信号已复制,请打开微信添加咨询详情!