AI日报：Claude 3 Haiku支持微调；Heygen推对口型工具；百度称萝卜快跑安全水平接近C919飞机

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、Anthropic宣布Claude 3 Haiku支持微调

Anthropic宣布用户现在可以在Amazon Bedrock中微调最新模型Claude 3 Haiku，提高模型在特定任务上的效果。微调功能使用户能根据业务需求定制模型知识和能力，带来诸多好处。

AI日报：Claude 3 Haiku支持微调；Heygen推对口型工具；百度称萝卜快跑安全水平接近C919飞机

【AiBase提要:】
🛠️ 用户可以通过[]高质量的提示[]-完成对进行[]微调，提升模[]型的专业能力[]。
⚡ Claude[] 3 Haiku是[]最快和最具成[]本效益的模型[]，适合专门任[]务使用。
🔒 客户的专有训[]练数据保持在[]AWS环境内[]，确保安全性[]和低风险。
详情链接:https://aws.amazon.com/cn/bedrock/claude/

2、Heygen推对口型工具上传照片+音频即可说话、唱歌

最近，AI照[]片“复活术”[]在网络上掀起[]波澜，Hey[]gen推出对[]口型工具，让[]照片中人物根[]据音频内容说[]话、唱歌，支[]持长达20秒[]音频，唇形与[]表情同步。H[]eygen融[]资5亿美元，[]由Bench[]mark领投[]，发展势头强[]劲。中国区用[]户受限制，令[]部分用户失望[]。Heyge[]n利用生成式[]AI技术制作[]影片，已筹集[]7400万美[]元。

【AiBase提要:】
🌟 Heygen[]推出对口型工[]具，让照片中[]人物根据音频[]内容说话、唱[]歌，支持长达[]20秒音频。[]
💡 Heygen[]融资5亿美元[]，由Benc[]hmark领[]投，发展势头[]强劲。
🔒 中国区用户受[]限制，令部分[]用户失望。H[]eygen利[]用生成式AI[]技术制作影片[]，已筹集74[]00万美元。[]
详情链接:https://labs.heygen.com/guest/expressive-photo-avatar

3、百度飞桨PaddleOCR发布v2.8.0新版本

PaddleOCR v2.8.0作为飞桨深度学习开源框架下的文字识别开发套件，发布了里程碑式的更新。这个版本引入了前沿的OCR技术，包括PaddleOCR算法模型挑战赛的冠军方案，如场景文本识别算法SVTRv2和表格识别算法SLANet-LCNetV2，为OCR领域树立了新的标准。项目结构经过深度优化，非核心模块被迁移至新仓库，使项目更专注于OCR核心技术。新版本解决了历史疑难问题，提升了用户体验，增强了稳定性、兼容性和性能。

【AiBase提要:】
🚀 Paddle[]OCR v2.8.0[]引入了前沿的[]OCR技术，[]包括SVTR[]v2和SLA[]Net-LC[]NetV2，[]树立了OCR[]领域新标准。[]
🔧 项目结构优化[]，非核心模块[]迁移至新仓库[]，专注于OC[]R核心技术。[]
🌟 新版本解决历[]史疑难问题，[]提升用户体验[]，增强稳定性[]、兼容性和性[]能。
详情链接:https://github.com/PaddlePaddle/PaddleOCR

4、百度称萝卜快跑安全水平接近C919飞机

萝卜快跑公司推出第六代无人车，成功接入百度ApolloADFM大模型，安全性超过人类驾驶员10倍以上。百度对无人车安全性充满信心，每辆车及乘客投保500万元保险。运行数据显示出险率仅为人类司机的1/14，安全性表现卓越。百度Apollo自动驾驶技术已行驶超过1亿公里，无重大伤亡事故，成功实现武汉全域、全时空自动驾驶服务覆盖。

【AiBase提要:】
🚗 无人车安全性[]超过人类驾驶[]员10倍以上[]
💼 每辆车及乘客[]投保500万[]元保险
🛣️ 运行数据显示出险率仅为人类司机的1/14

5、智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI最新开源的CogVLM2-Video模型在视频理解领域取得显著进展，通过解决时间信息丢失问题，实现了优异的性能表现。该模型不仅在视频字幕生成和时间定位方面表现出色，还为视频生成和摘要等任务提供了强大工具。通过自动生成丰富的时间定位数据集，模型在公共视频理解基准上达到最新性能，展现出卓越的性能。

【AiBase提要:】
⏰ CogVLM[]2-Vide[]o通过引入多[]帧视频图像和[]时间戳作为编[]码器输入，解[]决了现有视频[]理解模型在处[]理时间信息丢[]失问题上的局[]限。
💡 模型利用自动[]化的时间定位[]数据构建方法[]，生成了3万[]条与时间相关[]的视频问答数[]据，为训练提[]供丰富的时间[]定位数据。
🚀 CogVLM[]2-Vide[]o在多个公开[]评测集上展现[]了卓越性能，[]包括在Vid[]eoChat[]GPT-Be[]nch和Ze[]ro-sho[]t QA以及MV[]Bench等[]量化评估指标[]上的优异表现[]。
详情链接:https://github.com/THUDM/CogVLM2

6、腾讯AI实验室的项目vta-ldm：输入视频生成对齐音频

随着文本到视频生成技术的进步，研究者们关注如何生成与视频输入在语义和时间上对齐的音频内容。腾讯AI实验室推出VTA-LDM模型，通过隐含对齐技术提供高效音频生成解决方案，拓展视频生成应用场景。

【AiBase提要:】
🎬 研究聚焦于生[]成与视频输入[]在语义和时间[]上对齐的音频[]内容。
🔍 探讨了视觉编[]码器、辅助嵌[]入和数据增强[]技术的重要性[]。
📈 实验结果显示[]模型在视频到[]音频生成领域[]达到先进水平[]，推动相关技[]术发展。
详情链接:https://top.aibase.com/tool/vta-ldmVTA-LDM

7、GPT-4o和Sonnet-3.5在视力测试中败北，VLM们竟是“盲人”？

这篇文章揭示了视觉语言模型（VLMs）在图像处理能力上的局限性，通过BlindTest测试发现它们并非像人类一样能准确理解图像细节。文章呼吁对VLMs的视觉理解能力持谨慎态度，警示AI并未达到完全替代人类的水平。

【AiBase提要:】
👓 VLMs在B[]lindTe[]st测试中表[]现不佳，平均[]准确率仅56[].20%
🔍 VLMs处理[]图像时缺乏精[]确的空间信息[]，难以判断图[]形重叠或相交[]
🔢 VLMs在数[]数时存在偏好[]，对数字5特[]别熟悉，表现[]不稳定
论文地址:h[]ttps:/[]/arxiv[].org/p[]df/240[]7.0658[]1
文章详细内容：https://www.chinaz.com/ainews/10186.shtml

8、商汤科技发布「东风」泰语大模型

商汤科技与泰国DTGO集团及Quinnnova联合发布了名为「东风」的泰语大模型（DTLM），这是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。该模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解，旨在提供本地化的生成式AI体验。

【AiBase提要:】
⚙️ 「东风」是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。
🌏 模型结合了商[]汤的基模型和[]算力优势以及[]DTGO对泰[]国语言文化的[]深入了解，旨[]在提供本地化[]的生成式AI[]体验。
💡 模型将服务于泰国的个人用户和企业，满足多语言需求，同时为当地企业和政府客户提供创新的AI解决方案，推动泰国AI生态系统的发展。

9、三星 Galaxy AI 推出“数学辅导”新模式告诉孩子解题技巧

三星在昨日的Unpacked活动上宣布了Galaxy AI的重大进展，推出了专为帮助儿童完成家庭作业而设计的AI助手。这一举措展现了三星在人工智能领域的雄心壮志，为智能手机市场带来新的竞争维度，推动整个行业向更智能、更有教育价值的方向发展。

【AiBase提要:】
🚀 三星发布Ga[]laxy AI，覆盖高[]达2亿台设备[]，展现雄心壮[]志。
🔍 家庭作业助手[]基于Gala[]xy AI的“圆圈[]搜索”功能，[]引导孩子完成[]问题解决过程[]。
📚 家庭作业助手提供数学问题解决，培养孩子独立思考能力。

10、三家欧洲汽车制造商将集成ChatGPT功能提升驾驶体验

Stellantis旗下的法国标致、德国欧宝和英国沃克斯豪尔将整合ChatGPT人工智能技术，通过SoundHound的ChatAI系统提供语音助手功能，改善驾驶体验。这一合作标志着汽车科技的发展，将带来更自然、流畅的驾驶交互体验。

【AiBase提要:】
🚗 Stella[]ntis旗下[]Peugeo[]t、Opel[]和Vauxh[]all将集成[]ChatGP[]T人工智能技[]术，提升汽车[]产品功能。
🌍 跨越17个国[]家，支持12[]种语言的语音[]助手系统，为[]更多驾驶者提[]供便利。
📱 SoundHound的ChatAI将带来更自然的驾驶交互体验，推动汽车科技发展。

11、谷歌正通过Gemini AI训练机器人，提高导航和任务完成能力

谷歌正在利用Gemini AI训练机器人，提高其导航和任务完成能力。通过Gemini1.5Pro，机器人可以执行自然语言指令，计划执行超出导航范围的任务。研究表明，Gemini让机器人成功执行用户指令的成功率高达90%。尽管处理指令需要一定时间，但这些机器人有望帮助人们完成各种任务，如找到遗失物品。