划重点:
⭐ Galileo 推出 Luna,一套革命性的 Evaluation Foundation Models,重新定义企业 GenAI 评估,速度、成本和准确性均突破前所未有的境界。
⭐ Luna 的创新核心在[]于其专为特定[]评估任务设计[]的小型语言模[]型,大幅提升[]了速度、成本[]和准确性。
⭐ Luna 不仅速度更快、成本更低,还可在没有传统基准数据集的情况下运行,极大地简化了评估流程。
6月7日 消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品,这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。
“Galileo 推出 Luna,旨在解决当前 GenAI 评估方法的局限性,这些方法通常速度缓慢、成本高昂,而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”
Luna 的研发标志着[] Galile[]o 取得了重要的[]里程碑,该公[]司自2021[]年初成立以来[]一直处于企业[] GenAI 的最前沿。公[]司对推动人工[]智能评估边界[]的执着可从 Luna 的开发过程中[]窥见端倪,该[]过程历时近一[]年,进行了密[]集的研发工作[]。
Luna,G[]alileo[] 划时代的 Evalua[]tion Founda[]tion Models[] 套件,在接收[]器操作特征曲[]线下面积(A[]UROC)得[]分的基准比较[]中胜过了领先[]的人工智能评[]估方法。更高[]的 AUROC 值达到了0.[]78,表明 Luna 在评估企业生[]成式人工智能[]系统的准确性[]方面更胜一筹[],超越了 GPT-3.[]5、Trul[]ens Ground[]edness[] 和 RAGAS Faithf[]ulness[] 等竞争对手。[]
Luna 创新的核心在[]于其专为特定[]评估任务设计[]的小型语言模[]型,精心为幻[]觉检测、语境[]质量评估、数[]据泄漏防护和[]恶意提示识别[]等任务量身定[]制。这种专业[]设计使得 Luna 在速度、成本[]和准确性三个[]关键指标上表[]现卓越。
“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面,”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型,大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%,速度则比使用 GPT-3.5快11倍。”
然而,这并不[]仅仅是关于速[]度和成本。L[]una 还以行业领先[]的准确性脱颖[]而出,在检测[]幻觉、提示注[]入、个人可识[]别信息(PI[]I)等方面,[]其性能比以往[]方法高出多达[]20%。“多[]头小型语言模[]型和智能分块[]等先进技术确[]保 Luna 模型更好地保[]持上下文并提[]供更准确的评[]估,”Cha[]tterji[] 补充道。
在对评估100万次查询的月度成本进行比较时,Galileo 的 Luna 大幅低于其他方法,仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估,使其比 GPT-3.5(每月6248美元)、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。
Luna 最引人注目的[]一个方面是其[]能够在不需要[]传统基准数据[]集的情况下运[]行。通过利用[]在多样、领域[]特定数据集上[]微调的预训练[]评估模型,L[]una 消除了创建定[]制测试集的耗[]时和昂贵过程[]。这一创新简[]化了评估流程[],减少了对大[]量人工生成数[]据的依赖。
Luna 的潜在应用广[]泛,Chat[]terji 强调了它在需[]要人工智能评[]估具有高可靠[]性和速度的行[]业中的相关性[]。“Luna[] 在需要大规模[]应用、吞吐量[]大的企业应用[]中尤为强大([]比如每月数百[]万次查询)。[]我们发现在医[]疗保健、金融[]和电信等行业[],财富100[]强企业特别喜[]欢使用 Luna。”[] 他说道。
Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度,处理单个查询的延迟仅为0.232秒。这较之其他方法,例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒,有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估,使其比竞争方法快至多达11倍。
用例涵盖了对[]人工智能输出[]的实时监控、[]检测人工智能[]生成内容中的[]幻觉,以确保[]聊天机器人交[]互的安全性和[]质量。通过 Galile[]o 的 Fine Tune 产品,Lun[]a 可定制以满足[]特定客户需求[],为制药和金[]融服务等行业[]的关键任务实[]现95% 以上的准确性[]。
随着生成式人[]工智能领域的[]快速发展,G[]alileo[] 致力于保持创[]新的最前沿。[]Chatte[]rji 强调,Lun[]a 将在三个关键[]方面扩展规模[]:扩大对更多[]评估任务类型[]的支持、持续[]提高准确性,[]以及进一步降[]低成本和延迟[]。
“Galileo 致力于突破人工智能评估的可能边界,帮助组织将可信赖的人工智能引入生产环境,激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进,Galileo 将继续致力于为客户提供尖端的评估能力,使人工智能在业务部署中变得实用,并在消费者中产生信心和信任。”
随着 Luna 的推出,Ga[]lileo 在企业 GenAI 评估领域巩固[]了其领先地位[]。随着越来越[]多的组织寻求[]利用生成式人[]工智能的力量[],Luna 提供快速、成[]本效益高和准[]确的评估能力[]将成为推动广[]泛采用和释放[]这一变革性技[]术全部潜力的[]关键因素。
官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models
评论区
提示:本文章评论功能已关闭