记者 俞陶然
昨天,上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布新一代大语言模型书生·浦语2.0(InternLM2)。这个大模型包含70亿和200亿两种参数规格,以及基座、对话等版本,向全社会开源并提供免费商用授权。
与第一代大模型相比,第二代书生·浦语在数理、代码、对话、创作等各方面都有长足进步,综合性能达到同量级开源模型的领先水平。
上海人工智能实验室联合团队认为,大模型各项性能提升的基础在于语言建模能力的增强,对大模型的研究应回归语言建模本质,通过更高质量的语料和更高的信息密度,筑牢大模型能力基础。为此,联合团队开发了第三代数据清洗过滤技术,发展了多维度数据价值评估、高质量语料驱动的数据富集、针对性的数据补齐等技术方法,大幅提升了模型训练效率。
InternLM2能够一次性处理约30万汉字的输入内容,从中准确提取关键信息,实现对长文本的“大海捞针”。为测试InternLM2在长文本处理任务中的能力,研究人员将一份时长3小时的会议录音转录稿输入模型,要求它从中提取出关键信息。测试结果显示,虽然在未校对的文本中有较多错别字,但InternLM2仍从中准确提炼出关键信息,并总结了发言人的主要观点。
在55个主流评测集上,InternLM2与多个同量级模型接受了综合评测,结果显示:InternLM2的轻量级(70亿参数)和中量级(200亿参数)版本性能处于领先水平;200亿参数版本尽管只是中等规模,但在整体表现上达到了与ChatGPT比肩的水平。
书生·浦语2.0不仅在客观性能指标上提升显著,在主观体验上也有明显改善,可以为用户提供更好的对话和交互体验。研究测试表明,InternLM2-Chat能精准地理解和遵循用户意图,具备较强的“共情”能力和丰富的结构化创作能力。它还具有想象力,根据用户输入的电影《流浪地球1》和《流浪地球2》剧情梗概,编写《流浪地球3》的剧本。
“我们实验室在黄浦江畔,希望成为我国人工智能产业的源头,为产业生态提供基座和支撑。”上海人工智能实验室领军科学家林达华教授告诉记者。在他看来,国内企业可以利用开源的书生·浦语2.0,更低成本、更高效开发各种大模型应用产品。
为推动大模型应用落地,书生·浦源大模型挑战赛同日启动。首期赛事包含行业应用和创新创意两个赛道,面向全球进行场景和赛队征集。