马斯克称用于训练AI的数据所剩无几
【#马斯克称用于训练AI的数据所剩无几#】据 TechCrunch 报道,马斯克与其他人工智能专家一致认为,现实世界中用于训练 AI 模型的数据几乎已经耗尽。在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”
马斯克此番言论与前 OpenAI 首席科学家伊利亚・苏茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 会议上的观点相似。苏茨克弗曾指出,AI 行业已经达到了所谓的“数据峰值”,并预测未来缺乏足够的训练数据,将迫使 AI 模型的开发方式发生改变。
马斯克认为,合成数据(IT之家注:即人工智能模型自我生成的数据)是未来的解决方案。“补充现实世界数据的唯一途径是通过合成数据,也就是让 AI 自己生成训练数据。AI 会进行自我评估,并通过这一自我学习的过程不断优化自己。”
目前,许多科技公司,包括微软、Meta、OpenAI 和 Anthropic 等,已经开始使用合成数据来训练他们的主力 AI 模型。据 Gartner 估计,到 2024 年,用于人工智能和数据分析项目的 60% 数据将是通过合成方式生成的。
使用合成数据的一个显著优势是降低成本。人工智能初创公司 Writer 表示,其 Palmyra X 004 模型几乎完全依赖合成数据进行开发,开发成本仅为 70 万美元,而一个规模相似的 OpenAI 模型的开发成本大约为 460 万美元。
然而,合成数据也存在一定的风险。研究表明,合成数据可能会导致模型性能下降,输出结果不仅缺乏创新性,而且可能变得更加偏颇,最终严重影响其功能性。因为模型是通过自己生成合成数据进行训练的,如果这些数据本身带有偏见或局限性,那么最终模型的输出也会受到这些因素的影响。(IT之家)
发布于:北京
相关推荐
马斯克称用于训练AI的数据所剩无几
马斯克怒了!马斯克将使用大量特斯拉数据训练AI模型
因为这事,马斯克怒斥微软非法使用推特数据训练AI,称将提起诉讼
OpenAI称短期内不会训练GPT-5,马斯克TruthGPT曝光
马斯克又放豪言:开始在“最强大AI训练集群”上训练 年底开发出全球最强AI
AI要被卡脖子了?训练大模型的数据或在2026年耗尽
X/Twitter更新隐私政策,马斯克要拿用户数据喂AI了
Meta更新隐私政策,从月底起将把用户数据用于训练AI
AI数据荒下的创业众生相:盗用GPT-4生成数据训练模型,引发投资人担忧
马斯克来中国看“AI最大的应用场景”
网址: 马斯克称用于训练AI的数据所剩无几 http://www.xishuta.com/newsview131379.html
推荐科技快讯

- 1问界商标转让释放信号:赛力斯 95658
- 2报告:抖音海外版下载量突破1 25115
- 3人类唯一的出路:变成人工智能 24556
- 4人类唯一的出路: 变成人工智 24022
- 5移动办公如何高效?谷歌研究了 23679
- 6滴滴出行被投诉价格操纵,网约 11385
- 72023年起,银行存取款迎来 10660
- 8五一来了,大数据杀熟又想来, 9680
- 9“涉黄”擦边新闻不断,上门按 9152
- 10手机中存在一个监听开关,你关 9051