覆盖从小学至高中五款主流AI大模型的数学考试

正文

2023/9/11 9:39:45
类型：原创
来源：电脑报
报纸编辑：吴新
作者：

【电脑报在线】随着牌照的落地，国内AI领域“百模大战”或将出现分化。随着AI大模型进入为公众服务阶段，未来大模型会进一步分化为通用、专用和特定场景，细分将是AI大模型当下的重要发展方向。

中文大模型扬帆起航

垂直大模型成AI应用落地关键

随着牌照的落地，国内AI领域“百模大战”或将出现分化。随着AI大模型进入为公众服务阶段，未来大模型会进一步分化为通用、专用和特定场景，细分将是AI大模型当下的重要发展方向。

首批八家大模型正式上线

从申请内测到为全民服务，我国中文大模型终于进入全面落地阶段。

今年7月10日《生成式人工智能服务管理暂行办法》发布，由国家网信办联合国家发改委、教育部、科技部等七部门审议通过，自2023年8月15日起施行。办法鼓励生成式人工智能技术在各行业、各领域的创新应用，生成积极健康、向上向善的优质内容，探索优化应用场景，构建应用生态体系。法律、行政法规规定提供生成式人工智能服务应当取得相关行政许可的，提供者应当依法取得许可。外商投资生成式人工智能服务，应当符合外商投资相关法律、行政法规的规定。

8月31日，中国国内首批八家大模型通过《生成式人工智能服务管理暂行办法》（下称《办法》）备案，包括百度、智谱、百川、字节、商汤、中科院（紫东太初）、MiniMax、上海人工智能实验室等8个企业/机构的大模型可正式上线面向公众提供服务。当天百度搜索有超3亿次需求由生成式智能引擎解决，AI伙伴访问用户数突破400万，文心一言回答3342万个问题。在百度搜索界面点击AI按钮即可进入AI伙伴，提供文字、图像生成、智能搜索等功能。

首批通过备案的大模型公司：

·五家北京企业机构：百度（文心一言）、抖音（云雀大模型）、智谱 AI（GLM 大模型）、中科院（紫东太初大模型）、百川智能（百川大模型）

·三家上海企业机构：商汤（日日新大模型）、MiniMax（ABAB 大模型）、上海人工智能实验室（书生通用大模型）

首批8家大模型获批上线，标志着大模型行业在中国正式进入产品化落地阶段。后续，阿里、腾讯、科大讯飞等公司的大模型产品也有望陆续获批，进一步加速AI产品化落地。国内大模型产品的生态将逐步得以构建，服务也将逐步规范化，大模型行业将进入产品化落地的快车道。

“百模大战”必将出现分化

未来大模型会进一步分化为通用、专用和特定场景。

市场普遍认为，从行业特征来看，通用大模型未来只可能是少数巨头最后胜出，主要考虑巨大的资金投入，基础大模型并不适用于数量众多的中小企业。通用大模型并不能解决很多企业的具体问题，而模型的大小，主要还是取决于企业用户的自身需求，企业的大模型应用需要综合考虑行业专业性、数据安全、持续迭代和综合成本等因素。

垂直行业的模型未来或成为大模型加速普及的关键，通用化域数据叠加行业数据，共同构成了产业大模型的训练数据来源。行业大模型的未来趋势特点还包括：场景集成化，AI原生化以及部署工业化等方面。

面对竞争日益激烈的语言大模型酣战，AI应用落地才是重中之重。大模型的出现革新了人机交互的方式，所有的应用和平台都要基于大模型重新进行开发，大模型不仅激发了个人创新力，也给政企软件等带来了诸如应用效率提升、交互变革等新的机会。尽管这些模型处于扩展的早期阶段，但第一批跨功能的应用程序，在教育、金融、零售等多个行业开始落地践行。各行各业都将迅速整合大模型的能力，创造全新的商业价值。与其他颠覆性技术一样，这种变革一开始会缓慢发展，然后迅速加速。

“全部应用重做一遍”的观点就成为主流，越来越多应用已经开始搭载大模型能力。麦肯锡《生成式人工智能的经济潜力：下一波生产力浪潮》报告显示，如果将分析的63种生成式AI应用于各行各业，将为全球经济每年带来2.6万亿-4.4万亿美元的增长。这一预测还未将所有的生成式AI应用计算在内，若将尚未研究的应用计算在内，生成式AI所产生的经济影响可能会翻倍。

垂直大模型的崛起

华为云CEO张平安在盘古大模型3.0发布会上表示：“盘古大模型没有时间作诗和聊天。参数再多、对话能力做得再好，但如果解决不了实际问题，也没有多大用处。”

ChatGPT的革命性意义在于对于生产力的巨额提升，比如微软把GPT产品接入搜索引擎和办公软件。中国的大模型参与者们也需要面对这个问题——要为其寻找对应的应用场景和商业化途径。

今年7月，腾讯发布了《人机共生——大模型时代的AI十大趋势报告》，该报告指出，垂直领域应用将是大模型的主战场。随着生成式人工智能技术的飞速发展，它已经在多个领域展现出全新的商业价值。报告指出，金融行业、文化娱乐行业等头部机构预计会在一年内，在相对成熟的场景中尝试引入大模型以及生成式AI能力。

实际上，对垂直领域大模型的看好已经成为业界的共识。不少行业人士认为：能跑出来的中国大模型创业公司，很可能是垂直整合型。即，在做底层大模型的同时，自己找准一个主应用场景，收集用户数据并做快速迭代，两条腿走路，缺一不可。

而对于大模型的垂直化发展趋势，360创始人周鸿祎表示，在产业数字化的战略背景下，人工智能大模型未来机会在企业级增量市场，把大模型拉下“神坛”的关键就是发展“垂直化”大模型。周鸿祎认为，大模型的“垂直化”蕴含着产业数字化的巨大机会，并将成为中国在全球大模型技术竞争格局中的另一条突破路径。

周鸿祎表示，很多企业讨论大模型发展都隐含着走OpenAI之路的前提，但这条路短期内走起来面临着资源和资金等诸多难度。同时，OpenAI缺乏对行业的深刻理解，无法理解企业的通用数据集，并且存在着成本问题。周鸿祎认为，目前中国已经是“百模大战”了，未来可能“万模群舞”，如果企业都训练出来自己的小规模大模型，当大模型无处不在时，就会产生很多产业创新的机会。

重新定义教育行业的愿景

通用大模型“重文轻理”，在数学问题的解决、讲解、问答和推荐方面则存在明显的短板而在另一个层面，在通往通用人工智能的路上，数学推理能力很重要，全球有很多大型公司在做这方面的研究。

而根据好未来方面披露的MathGPT技术报告，在CEval-Math、AGIEval-Math、APE5KCMMLU-Math、高考数学和Math401等6个公开数学评测集合的测试结果中，好未来的MathGPT取得了多项测试的最高分数。同时，MathGPT在C-Eval的初高中的全科测试集合上均有不错表现。

对于使用者而言，研究数学问题不仅在于得到答案本身，更在于答案背后的解题原理、思路逻辑。与其他通用大模型相比，MathGPT能实现更高准确度的解题，也能把答案解析得更清楚、讲解得更明白，更好地满足用户使用AI产品解答数学问题的核心需求。

AI带来了重新定义教育行业的机会，大模型技术使得大规模的因材施教真正有了实现的可能。大模型的本质，是一种更高效的、从数据中学习知识并加以应用的方式。在AI能力的加持下，“学生自学+AI答疑”的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低，获得的教学内容个性化、精细化程度持续升高，可以实现千人千面的AI教学和答疑辅导，每个学生都能得到最适合自己的学习内容。

从小学到高中

五款主流AI大模型的数学考试

在专用模型落地的众多赛道中，教育具有相当强的吸引力。近年来，不少教培企业都在积极进行转型，比如发展素质教育、布局教育智能硬件、发力直播带货等等。最近一段时间，大模型热度居高不下，学而思、网易有道等教育企业也先后公布了自己在AI大模型领域方面的布局和进展。

目前包括Chat-GPT、文心一言、通义千问等国内外大模型所具备的自然语言处理、逻辑推演、多模态生成等能力与教育领域天然适配。2023年5月5日网易有道的“子曰”大模型现已在AI口语老师和中文作文批改功能中应用，研发工作已取得阶段性进展；好未来也宣布了数学专用大模型的研发计划。

随后，科大讯飞基于星火认知大模型推出AI学习机T20，淘云科技也开发出应用于阿尔法蛋儿童GPT机器人的阿尔法蛋儿童认知大模型。9月初，作业帮最近在2023中国国际服务贸易交易会上正式发布了自研银河大模型。该模型支持AI解题、多语言AI问答等能力，号称精通诗词字句和课文常识；并支持AI写作功能，可用于提高写作技巧、优化写作结构，并提供文章润色、语法纠错和创意启发等场景。

各教育头部公司相继出台了教育专用的大模型，并与自身业务相结合，有望加速AI在教育领域应用落地。由于不同企业的业务模式和品牌沉淀截然不同，因而对AI大模型的落地场景有不同的判断。以网易有道为例，其起家于翻译类业务，并在消费者市场留有“翻译企业”的印象，网易有道入局大模型的首站，就选择了 AI 口语老师。而科大讯飞之所以推出 AI学习机硬件，也是因为教育硬件是其重要的营收支柱，旗下AI学习机天然就是星火认知大模型的承载体。

而在众多垂直教育大模型中，学而思MathGPT无疑是最具吸引力的存在，除学而思本身在教育领域的深厚积淀和品牌号召力外，作为国内首个专为数学领域打造的产品，MathGPT以讲题、解题、算法等为核心，既能随机生成数学题，也能系统自动给出答案，其支持中英文，并可在移动端和PC端体验。而据MathGPT官网显示，MathGPT的数学计算能力已覆盖小学、初中、高中的数学题，题目类型涵盖计算题、应用题、代数题等多个类型，还可以针对题目进行追问，暂未开放数学之外的问答互动。

对于这样一款走垂直细分路线的大模型，其在解题上的表现究竟如何呢？《电脑报》记者特围绕小学、初中、高中数学选取了部分提优和竞赛题目进行测试，让大家有机会全面了解学而思MathGPT目前的实力。

考生：除学而思MathGPT外，我们还选择了“文心一言”“天工AI助手”“通义千问”“讯飞星火”�四款当前主流的大模型进行对比。

测试结果：

从测试结果看，目前中文大模型在面对数学思维题目的时候，依旧只能停留在小学生水平，定位垂直赛道的学而思MathGPT在数学上并未表现出全面领先其他大模型的水平，不过在小学组思维题目上，学而思MathGPT相对其他四个模型的优势还是比较明显的，不过从题目难度上看，三年级的提优部分内容基本可以拿下，但学而思MathGPT在面对4年级的提优内容时同样有些“无力”。

不过作为一款针对数学的大模型，学而思MathGPT除在答题上领先其他通用大模型外，解答模式也有一定的优势。以一道数列题为例，MathGPT给出的答案包含“分析”“详解”“点睛”三个部分比通用大模型的粗略讲解方式更为细致，“分析”提供了题目的解题思路、思考方式，帮助用户更好地理解题目，“详解”则给出具体的计算方式和答案，最后“点睛”的环节，对题目的考点、难点、关键点进行提示。

而其他通用模型在解答过程中还会出现“作为一个人工智能语言模型，目前我还没有学会如何回答这个问题，我会持续学习，为您提供更好的服务。”的答案，让笔者忍俊不禁的同时，也从侧面反映了通用模型在定位上的差异。

点评：包括学而思MathGPT在内大模型在面对初高中提优层次的数学题目时，明显还需要更多的训练和引导，而数论、组合这些需要较强逻辑思维能力的题目几乎就是AI大模型们的软肋，仅能在面对三四年级题目时游刃有余，而校内基础题目并未在本次测试范围，毕竟夸克学习、作业帮等专用答题APP足以满足校内基础题目的解答，人们需要AI大模型解答的还是一些相对复杂的思维题目。

当然，好的一点是学而思MathGPT在答题架构设计上明显有了专业的构架，按照这个态势发展下去，只要有足够的训练和语料，再在算法的帮助下，未尝不能在垂直大模型领域闯出一条属于自己的路。

高质量数据是垂直大模型成败关键

大模型的竞争将是一场残酷的大浪淘沙，这已成为许多业内人士的共识，而能抢滩登陆的关键，是快速与场景相结合。

当大模型正在卷算法、卷算力时，对于场景落地来说，最需要的却是数据。接下来，真正的价值将会变成可持续性的高质量数据。如何持续获取合法合规、合商业逻辑的数据源，将成为大模型性能提升的关键因素。

让大模型与细分行业做结合，是大模型落地的常见模式，但这种结合模式并不需要足够“大”，而需要足够“专”。在细分行业中专业的小模型，或许反而能在B端脱颖而出。以学而思MathGPT为代表的数学大模型想要进一步成长并满足教育需求，就需要源源不断地“投喂”高质量的数据进行训练，而这也是各教育领域AI大模型比拼的关键。

MathGPT的表现多少让笔者有些失望，毕竟测试题目中的初高中题目并不生僻而且属于原题，只要学而思在训练时候覆盖了历年中学生数学联赛试题就完全可以轻松拿下，可结果却让人不得不怀疑“数据投喂”时是否有偷懒的嫌疑。

此外，作为一个生产力工具，AI带来的是效率的提升，而非真正的创新，在学习领域，AI可以给用户一些思路和启发，适当交互能够起到事半功倍的效果，但过度依赖绝对会成为学习大忌。

编辑｜张毅

审核｜吴新

本文出自2023-09-11出版的《电脑报》2023年第36期 A.新闻周刊
(网站编辑：ChengJY)

读者活动

48小时点击排行

编辑推荐

覆盖从小学至高中五款主流AI大模型的数学考试

论坛热帖