港中深团队打造新型AI评测集,或可成为数学大模型检验的重要基准
近日,港中来自香港中文大学(深圳)的深团数学一支科研团队通过求解器的引入,把大模型回答的队打大模泰安市某某商贸运营部数学模型交给求解器解决,进而通过比对求解器的造新重基准答案,得以成功判断数学模型的型A型检正确性。
这相当于为参加考试的测集成考生准备了高级计算器,只需输入方程就能得出准确答案。港中这样一来,深团数学就可以判断学生所写的队打大模方程是否正确。
基于这个理念,造新重基准该团队构建了一款名为 Mamo 的型A型检评测集,能够结合不同的测集成求解器评测大模型相应的建模能力。
未来,港中泰安市某某商贸运营部这一评测集可能会成为数学大模型检验的深团数学重要基准,从而能够用于测试新训练大模型的队打大模建模能力。
同时,本次评测集的出现,也让评测中间过程成为可能,有望带动运筹大模型的发展。
谈及本次课题的初衷,研究人员表示在讨论 AI for math、特别是讨论大模型 for math 的时候,他们重点讨论了使用大模型做定理证明的任务。
借此发现采用现有的形式化定理证明工具,可以自动地验证证明过程的正确性,从而确定大模型的证明是否正确。否则,用自动化的方式判断一段数学证明的正确性是比较困难的。
以此为启发:他们想知道在其他任务中,是否存在和形式化定理证明工具一样的东西?如果有的话,能否让他们以简单的方式判断大模型的答案是否正确?
于是他们想到了求解器。当给定目标之后,求解器可以帮助运行出对应问题/对应方程的解。
通过对不同解答的比对,就可以判断中间过程、也就是判断数学模型的正确性。
此外,一直以来,人们对于大模型的数学能力的比较,一直是在最终结果(即一道题的最终答案)上,但却缺乏对于中间过程的关注。
打个比方,就是像数学考试解答题的判卷中,只考虑最后的答案正不正确,而忽略了中间的解题过程。但是,中间的解题过程和答案一样重要。
因此,课题组希望把这个评价体系拆开,不再只是关注最终答案,而是关注中间的解题过程。于是,便开展了本次研究并发表了相关论文。
![]()
图 | 论文作者黄旭函(来源:黄旭函)
日前,相关论文以《Mamo: 一个带有求解器的数学建模基准》(Mamo: a Mathematical Modeling Benchmark with 求解器 s)为题发在arXiv[1]。
![]()
图 | 相关论文(来源:arXiv)
下一步,他们将扩充数据,同时探索能够适配 Mamo 的不同求解器种类,以及构建相应的评测集。
参考资料:
1.https://arxiv.org/pdf/2405.13144
(责任编辑:娱乐)
-
在近日刚刚闭幕的2025年全国青少年信息学奥林匹克联赛中来自金陵河西学校信息学队的8名学子达到全国一等奖分数线3名学子达到全国二等奖分数线值得一提的是在这场以高中生为主的比赛中金陵河西有5名初中生达到
...[详细]
-
图片来源:央视新闻客户端美国西南航空公司16日通报,该公司一架客机15日晚在得克萨斯州达拉斯市一机场起飞前突然被一颗子弹击中机身,不得不返回登机口,取消本次航班。当地警方正在调查这起安全事件。通报说,
...[详细]
-
终于来了!二环1.3万/㎡起,8号线开通,周边这些地铁盘燃翻全场!
这两天,西安地铁线网中名副其实的“换乘之王”8号线已进入通车试运行阶段,全部安全评估通过后,将会在12月26日实现通车。 最终通车时间以官宣为准 )随着地铁的开通,有很多人开始关注周边沿线的楼盘,因此
...[详细]
-
契税调整以后,我们发现得益的是90-140平米之间的户型。因为原先这部分,不管是首套的1.5%还是二套的3%,现在统一都变成了1%,所以交契税确实是实惠的。怕大家不理解契税政策是怎么变的,在此给大家做
...[详细]
-
当地时间12月17日,欧盟方面透露,在结束谈判的六个月后,欧盟和英国最终敲定了欧盟和直布罗陀在英国脱欧后新关系的相关法令文本,这标志着法令的批准又向前迈进了一步,但尚未达到生效的最终阶段。 据悉
...[详细]
-
2024年6月,苹果园街道远洋春秋里商务楼宇周边启动改造详见)。历时4个多月,目前远洋春秋里项目已经基本完工。作为苹果园街道疏解整治促提升的重要项目,苹果园街道工作人员多次现场调研,结合居民需求进行改
...[详细]
-
激动!1.4万/㎡起!新盘批量爆发,含保利软新项目、众邦第五代智慧宅!
西安又双叒叕有新项目了!保利软新旁纯新盘曝光案名,众邦西安首个高端第五代智慧住宅户型曝光,同时,据透露,中粮在奥体的热销红盘即将加推最后4栋楼……等新房源批量来袭~Part.01保利云谷和著保利又一纯
...[详细]
-
北京二手房住宅网签、新房住宅网签和库存数据,11月14日已更新!二手房挂牌量比高点下降约22900套,比昨日下降约100套。新房住宅库存80934套,比昨日下降163套。11月13日二手住宅网签730
...[详细]
-
近日,2025年全国青少年信息学奥林匹克联赛NOIP)成绩揭晓,我校学子再创佳绩:6人斩获全国一等奖!高三年级2人)高三7)班张保霖、李竹指导老师:董登丰高二年级1人)高二9)班李唯一指导老师:董登丰
...[详细]
-
每秒200次对垃圾分类计算和校对准确率95%以上物业整改时效缩短至17分钟……近年来瀛海镇率先在全市推行镇街级垃圾分类AI管理设备及全流程智慧化管理系统全覆盖应用做到实时监管实现垃圾分类精准治理“无人
...[详细]

福建舰、山东舰的两个相同点