划重点:
⭐️ AI 公司面临高质量数据短缺,OpenAI 计划建立「数据市场」
⭐️ 数据供不应求[]可能导致人工[]智能发展受阻[]
⭐️ 公司探索合成数据训练方法以解决数据短缺问题
站长之家(ChinaZ.com) 4月8日 消息:全网高质量数据集告急!据报道,AI 公司如 OpenAI、Anthropic 等正在努力寻找足够的信息来训练下一代人工智能模型。数据短缺问题日益突出,对训练下一代强大模型至关重要。面对这一挑战,AI 初创、互联网大厂开始寻找新的方法来解决算力和数据的瓶颈问题。
图源备注:图片由AI生成,图片授权服务商Midjourney
据悉,GPT-5等强大系统的开发需要大量海量数据作为训练材料,然而高质量公共数据在互联网中已变得稀缺。
研究机构Epoch研究人员Pablo Villalobos估计,GPT-4是在多达12万亿个token上训练的。他继续表示,基于Chinchilla缩放定律的原理,如果继续遵循这样扩展轨迹,像GPT-5这样的AI系统将需要60万亿-100万亿token的数据。也就是,利用所有可用的高质最语言和图像数据后,训出 GPT-5仍短缺20万亿 token。
一些数据所有[]者如 Reddit[] 等机构也制定[]政策限制 AI 公司访问数据[],加剧了数据[]短缺的困境。[]为解决这一难[]题,一些公司[]正在尝试通过[]合成数据训练[]模型,但可能[]会面临「模型[]自噬障碍」等[]问题。
对于数据稀缺[]问题,AI 研究人员和公[]司纷纷寻求解[]决之道。Op[]enAI 的 Ari Morcos[] 指出,数据短[]缺是一个前沿[]的研究问题,[]他的公司 Datolo[]gyAI 致力于改进数[]据选择工具,[]以降低训练 AI 模型的成本。[]此外,Ope[]nAI 还在讨论建立[]「数据市场」[],通过确定数[]据点对模型训[]练的贡献来支[]付费用,以帮[]助缓解数据短[]缺问题。
数据短缺对 AI 发展构成重大挑战,各公司正在探索不同的方法来解决这一问题。从合成数据到建立数据市场,AI 领域正在不断寻求突破,以确保训练下一代强大人工智能模型所需的数据资源。
评论区
提示:本文章评论功能已关闭