ChatGPT是高考下场美国OpenAI公司去年11月宣告的一款家养智能技术驱动的做作语言处置工具,去年11月30日推出以来 ,养智60天内月活用户直接破亿,然也被以为是偏科史上用户削减最快的破费级运用 。
写代码 、高考下场文案,养智做数学题 ,然也妨碍差距语言之间的偏科翻译 ,ChatGPT的高考下场强盛功能让学习家养智能相关业余的复旦大学硕士钻研生张啸天感应既震撼又欢喜。
“我主要让它写代码,养智搜罗一些技术下场,然也处置妄想。偏科我觉患上到它很智慧,高考下场笃定它可能经由图灵测试。养智但它的然也极限是甚么?我想知道它事实有多智慧 。”
于是 ,去年12月,张啸天以及两位同砚一起群集了2010年到2022年的高考天下卷试题 ,剔除了部份含有图片的问题 ,让ChatGPT作答。
经由近5个月的测试 ,克日,ChatGPT的高考测试陈说别致出炉。搜罗抉择题 、填空题以及问答题在内,ChatGPT共回覆了2811道问题。服从展现, ChatGPT更长于文科,在历史、地舆、政治上取患了不错的下场;而在生物 、化学 、物理等理迷信科上展现欠安,特意在物理上。
高考天下卷满分为750分。复旦大学合计机迷信技术学院硕士钻研生宗一见告看看往事Knews记者 ,“综合历年患上分情景,ChatGPT做文科卷的患上分会更高一些 ,挨近400分;文科题的话,惟独300分出面 。” 。
对于ChatGPT“文强理弱”的偏科情景 ,该名目的负责人 、复旦大学合计机迷信技术学院教授邱锡鹏批注说,与文科试题着重审核知识差距,文科试题更关注逻辑推理能耐,这恰正是当初通用家养智能模子的短板。
据悉 ,经由对于逾越1万亿总体类辞汇以及1700亿个模子参数妨碍高效迭代磨炼,ChatGPT具备强盛的自我学习 、推理以及演绎总结能耐 。既然如斯,为甚么它的“高考”下场却不太事实呢 ?
邱锡鹏以为,一方面是由于高魔难题简直有难度;另一方面,测试下场与评估方式相关。“早期咱们接管的是家养评分,发现ChatGPT的水平约莫可能抵达500分 。如今咱们运用了更严厉的方式 ,也便是机械评分,以是下场有确定的晃动 。”
值患上留意的是,这次测试的版本为ChatGPT-3.5。随着该模子不断降级迭代,它的能耐会越来越强。这次测试除了清晰ChatGPT的高考水平外,钻研团队尚有一个更斗果敢胆的想象 。
“咱们计划一个数据集 ,这个数据集可能用来掂量差距大型语言模子的下场。由于如今差距的公司、单元、机构都在做自己的大模子,那末便是说咱们就要有一个主不雅的评估尺度。巨匠都说自己的模子水平可能抵达ChatGPT的百分之七八十,事实奈何样样,需要有一个主不雅的测试。我以为高考评测是比力主不雅综合的一种测试方式。”邱锡鹏展现 ,未来该数据集将大有可为。
(看看往事Knews记者:周智敏 徐玮)返回搜狐,魔难更多
责任编纂: