时间:2023-06-07 18:20:08
6月7日,上海人工智能实验室(上海AI实验室)商汤科技联合香港中文大学、复旦大学及上海交通大学发布了一个千亿级参数的大语言模型“书生・浦语”(InternLM),并取得了优秀的考试评测成绩。
书生・浦语具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。全面评测结果表明,书生・浦语不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各科目的数据集(GaoKao)。
书生・浦语联合团队选取了20余项评测对其进行检验,包括全球最具影响力的四个综合性考试评测集,分别是:
由伯克利加州大学等高校构建的多任务考试评测集MMLU,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
微软研究院推出的学科考试评测集AGIEval,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的SAT、LSAT、GRE和GMAT等重要考试。
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。
由复旦大学研究团队构建的高考题目评测集Gaokao。
实验室联合团队对书生・浦语GLM130BLLaMA65BChatGPT和GPT4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分):
模型
MMLU
AGIEval
C-Eval
Gaokao
书生・浦语
96.2
94.5
91.2
93.8
GLM130B
94.5
91.7
89.2
91.2
LLaMA65B
94.2
91.5
88.5
91.0
ChatGPT
96.2
94.0
90.5
93.0
可以看到,书生・浦语不仅显著超越了GLM130B和LLaMA65B等学术开源模型,还在AGIEval、CEval以及Gaokao等多个综合性考试中领先于ChatGPT,在以美国考试为主的MMLU上实现和ChatGPT持平。
《上海 AI 实验室发布“书生・浦语”大模型》不代表本网站观点,如有侵权请联系我们删除
精彩推荐