2025-09-24 01:24来源:本站
上海财经大学前沿人工智能实验室最新发布了Fin-eval 6.0评估基准,这是一项专门用于测试大型语言模型在金融领域专业能力和安全性的重要工具。该基准在原有Fineval评估集基础上进行了全面升级,新增了金融严谨性和金融多模态两个关键评估维度,题目总量超过16,000道,能够更好地满足金融行业对AI评估工具的专业化需求。
Fin-eval 6.0具有三大显著特点:首先是全面的领域覆盖,包含金融学术知识、行业理解、安全认知等六大核心模块;其次是海量高质量试题,通过模拟真实金融工作场景来检验模型能力;最后是聚焦前沿,创新性地引入了金融多模态能力和严谨性测试等评估维度。
这套评估体系通过六个核心领域构建了完整的金融场景测试矩阵。其中金融学术知识模块考察基础理论,金融行业理解侧重实践应用,金融安全认知评估模型安全性,金融智能体应用测试复杂任务处理能力,金融多模态能力关注图表理解,金融严谨性测试则检验输出的准确性。
Fin-eval 6.0的推出具有重要意义。它不仅为金融AI研究设立了新标准,也为金融机构选择AI模型提供了可靠依据。通过公开排行榜和持续更新的数据集,将促进研究者和开发者的交流合作,推动金融AI技术的整体进步。
上海财经大学校长刘元春表示,这项研究既能为监管部门提供参考,又能指导商业机构优化模型开发。项目负责人张立文教授指出,Fin-eval 6.0在金融AI评估领域迈出了关键一步,特别是在安全性和多模态能力评估方面做出了重要创新。
未来,研究团队将继续完善评估体系,重点关注金融安全合规、能力建设和智能体评测等方向。他们将依托学校在金融学科的优势,持续开发更具代表性的金融基准测试集,并筹备金融智能体的评测标准建设。
9秒完成上海中考作文"相互成全",你能得几分?
6月14日,上海中考语文科目考试结束后,备受关注的作文题目"相互成全"正式公布。题目要求考生根据《现代汉语词典》对"成全"的解释,以"相互成全"为题完成一篇600字左右的文章。解放日报·上观新闻记者第一时间邀请本地AI参与同题作文创作,测试...
2025-06-16 19:00
阿里云领投硅基流动A轮融资 半年完成两轮融资 开源大模型推动业务爆发
近日,AI初创企业硅基流动(SiliconFlow)宣布完成数亿元人民币A轮融资。本轮融资由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问。硅基流动创始人袁进辉表示,随着阿里巴巴通义千问Qwen、DeepSeek等开源大模型...
每日经济新闻|2025-06-11 11:16
美团酒旅战略升级:低调布局转向主动出击
美团近日首次公开了其在旅游AI领域的最新进展,推出国内首个面向酒店商家的AI工具"美团既白"。这款工具将从高效获客、长效经营和重塑服务三个维度,帮助酒店从业者实现从经验决策到数据决策的转变,提升客户入住体验。一直以来,美团在AI领域的布局都...
每日经济新闻|2025-06-07 13:56
AI盛会再掀热潮,具身智能成新焦点
第七届北京智源大会于6月6日正式开幕,这场被誉为"AI春晚"的盛会再次成为行业焦点。与往年不同,今年的主角从大语言模型转向了具身智能和机器人2.0领域。宇树机器人、天工机器人等企业带来的展示吸引了众多观众围观,现场气氛热烈。大会反映出AI产...
每日经济新闻|2025-06-07 12:48
华为昇腾鲲鹏联手,大模型训练效率飙升
这篇文章详细介绍了华为在MoE(混合专家)模型训练优化方面的技术突破。文章首先回顾了MoE模型的发展历程,从三十多年前加拿大提出的原始架构,到硅谷科技巨头的工程突破,再到如今中国企业的创新优化。华为提出的MoGE架构解决了传统MoE模型负载...
虎嗅APP|2025-06-06 11:24
医疗大模型热销背后:医院应用遇冷
2025年6月3日,国产大模型DeepSeek在医疗领域掀起热潮。短短三个多月,全国已有上千家医院完成该模型的本地化部署。医院普遍期待通过大模型提升预问诊、临床诊断、影像分析等环节的效率。例如上海华山医院接入后,患者排队时间减少40分钟,满...
第一财经资讯|2025-06-04 21:14
训练大模型,50%时间在空转?
这篇文章详细介绍了华为在混合专家(MoE)模型训练领域的技术突破。文章首先回顾了MoE模型的发展历程,从三十年前加拿大学者的理论奠基,到硅谷巨头的工程实践,再到如今中国科技企业的创新优化。华为提出的MoGE架构解决了传统MoE模型负载不均衡...
虎嗅APP|2025-06-04 18:56
蚂蚁集团数据安全总监杨小芳:AI安全与创新如何双赢
随着生成式人工智能技术的快速发展,AI在提升效率和创新应用方面展现出巨大潜力,但同时也带来了新的安全挑战。近期AI换脸诈骗、大模型失控等事件频发,引发了社会各界对技术滥用、隐私保护和伦理风险的广泛讨论。《每日经济新闻》记者专访了蚂蚁集团大模...
2025-06-04 14:00
华为发布千亿级大模型,实力领跑AI赛道
华为近日在人工智能领域取得重大突破,推出了参数规模高达7180亿的全新模型——盘古Ultra MoE。这一准万亿级MoE模型完全基于昇腾AI计算平台训练完成,标志着国产AI基础设施自主创新能力迈上新台阶。华为团队通过创新性的Depth-Sc...
每日经济新闻|2025-06-01 22:00
"R1低调升级,性能碾压大模型"
DeepSeek近期发布了R1-0528版本,虽然官方将其定位为小版本升级,但实际带来的性能提升远超预期。该版本已在官网、APP和小程序全量上线,API接口也已开放。此次升级在编程能力上表现尤为突出,不仅保持了原有价格优势,还在Extend...
字母榜|2025-05-31 19:28
中国奶粉创新配方引领行业新标准
2025年5月,君乐宝乳业以一场高规格的战略发布会震撼了整个奶粉行业。发布会上,君乐宝全球首发的"脑体双优"科研成果获得国际领先水平认证,标志着中国奶粉在核心配方领域实现了历史性突破。这项创新成果不仅改写了国产奶粉的发展轨迹,更向世界展示了...
一点财经|2025-05-31 14:21
9月起新国标电动车5大升级2项减配,买车必看!
准备购买电动自行车的消费者需要关注一个重要消息。我国将于2025年9月1日起实施新的电动车国家标准GB17761-2024《电动自行车安全技术规范》,这项新规将对电动车的设计和性能产生重大影响。新标准主要体现为"5提升2减少"的改进方向。在...
小鹏财经|2025-05-30 19:14
本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/71306/