手机版
搜索
帮助
微博
微信

互联网快讯

首页科技快讯 Video-LLaMA:一种用于视频的指令调谐视听语言模型

Video-LLaMA:一种用于视频的指令调谐视听语言模型

来源：晰数塔互联网快讯时间：2023年06月08日 15:07

品玩6月6日讯，研究人员提出一种多模态框架：Video-LLaMA，，使语言模型能够理解视频中的视听内容。通过跨模态训练，解决了视频难以理解的挑战，包括捕捉时间变化和整合音视频信号。研究表明Video-LLaMA能够感知和理解视频内容，并生成基于视听信息的有意义回答。该研究为开发音视频AI助手提供了潜在的原型。已提供代码、预训练模型和演示。

论文链接：https://huggingface.co/papers/2306.00958

发布于：北京

相关推荐

Video-LLaMA:一种用于视频的指令调谐视听语言模型
 首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升
 语言与大模型：通向AGI之路
 AI大语言模型，国内大厂能否弯道超车？
部署像ChatGPT这样的大语言模型，到底要花多少钱？
微软发布史上最大AI模型：170亿参数横扫各种语言建模基准，将用于Office套件
 谷歌发布万亿参数语言模型, AI的语言功能真的可以超越人类吗？
大模型“涌现”的思维链，究竟是一种什么能力？
大语言模型能拯救互联网大厂吗？
百度正式推出大语言模型“文心一言”

网址: Video-LLaMA:一种用于视频的指令调谐视听语言模型 http://www.xishuta.com/newsview77983.html

所属分类：行业热点

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

最新科技快讯

荣耀李健：Magic8全面重塑软硬件体验

荣耀李健：Magic8全面重塑软硬件体验

刘强东上新闻联播稳坐第一排，放话：未来让大家每周工作1小时

刘强东上新闻联播稳坐第一排，放话：未来让

Meta 加速内部 AI 化应用，以“C 于东来太敢说了！自曝20年前倒卖香烟被手刹不住车了！于东来控速失败，胖东来狂揽2 无打孔真全面屏 iPhone，明年见！黄仁勋难道惹了不该惹的人？美媒调转枪口：三季度全球智能手机面板出货量达5.86亿高瓴创投携手智元机器人，投资一家陪伴机器蚂蚁集团领投了一家核聚变公司，背靠中科大

科技快讯热点排名

科技快讯热点

人类唯一的出路: 变成人工智能（五）

人类唯一的出路: 变

报告：抖音海外版下载量突破10亿大关挑战Facebook

报告：抖音海外版下载

苏宁易购2018年报:营收破2453亿线下门店超万家

苏宁易购2018年报

阿里巴巴钉钉宣布1月30日上线企业拜年红包

阿里巴巴钉钉宣布1月

即时专业知识

精选专栏

Lofree（洛斐）数字键盘可以控制方向