IT之家 1 月 25 日新闻,IT之家从中国电信人工智能研讨院得悉,其“庞杂推理年夜模子”TeleAI-t1-preview 现已正式宣布,行将上线天翼 AI 开放平台。TeleAI-t1-preview 应用了强化进修练习方式,经由过程引入摸索、反思等思考范式,年夜幅晋升模子在逻辑推理、数学推导等庞杂成绩的正确性。官方表现,在美国数学比赛 AIME 2024 、MATH500 两项数学基准评测中,TeleAI-t1-preview 分辨以 60 跟 93.8 分的成就,年夜幅超出 OpenAI o1-preview、GPT-4o 等标杆模子。在研讨生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超越 GPT-4o,并比肩 Claude 3.5 Sonnet 的机能水准。评测表现,将《九章算术》中的一道标题给到 TeleAI-t1-preview 后,其可能先针对白话文停止懂得跟简化,再转换成古代汉语,随之给出数学推导跟谜底。据先容,在此进程中,TeleAI-t1-preview 可将抽象头脑与形象头脑联合,对所波及的场景停止具象化思考,帮助懂得标题。不只如斯,其还可能谨严地停止古今单元换算。TeleAI?引入了翻新的练习战略,从而保证思考推理进程正确无效。数据筹备阶段:网络、构建了一个以数学为中心、多学科为弥补的高品质推理数据集,确保模子可能顺应差别范例的推理义务。Judge Model(评价模子):练习了一个 Judge Model 专门用于剖析跟评价模子长思考链路的准确性,为模子的反思跟过错修改供给领导。SFT(监视微调)阶段:用 MCTS(蒙特卡洛树搜寻)结构高品质长推理数据,联合每个步调的正确率跟处理计划长度来抉择最优的完全门路,在保障推理谜底正确性的同时无效拉长思考链路以取得更细粒度的推理进程。同时应用 Judge Model 对推理进程中准确率较低的门路停止剖析,领导模子对过错的推理步调停止反思跟修改,从而结构出高品质的头脑链数据停止 SFT 练习。强化进修阶段:额定结构了 Rule-based Reward Model(基于规矩的嘉奖模子),以供给充足正确的嘉奖旌旗灯号,经由过程在线强化进修算法进一步晋升模子的逻辑推理才能。