上海

首页>地方频道>上海>要闻

上海高校企业去年就在用DeepSeek做开发

  记者 俞陶然

  深度求索公司研发的DeepSeek大模型最近“出圈”。其实,国内学术界和产业界使用这个系列的大模型已有一段时间。记者昨天采访时了解到,上海交通大学计算机科学与工程系教授赵海去年已弃用GPT-4,改用DeepSeek-V3生成合成数据,开发垂类大模型。

  达观数据公司去年5月引入DeepSeek-V2大模型,开发办公智能体(Agent),取得很好的效果。“DeepSeek的性价比极高,而且全面开源,对产业应用很友好。”达观数据董事长、首席执行官陈运文说。

  近年来,赵海团队利用GPT-4等基座大模型,为政府和企业开发了十多个垂类大模型。在开发过程中,基座大模型的主要作用是生成合成数据。这类数据通过人工方式生成,而不是从真实世界中获取,用于训练大模型。“我用过一些国产基座大模型,它们的效果和GPT-4比起来,还是有一定差距。”赵海告诉记者,“但使用DeepSeek-V3后,我发现它的性能与GPT-4处于同一量级,而价格只有GPT-4的十分之一,所以现在不用GPT-4了。”

  与赵海团队相比,达观数据使用DeepSeek更早。陈运文介绍,DeepSeek-V2是一个精简高效的开源模型,只需要相对低配的GPU和显卡内存,就能让办公智能体获得很好的推理效果。DeepSeek-V3发布后,这家上海人工智能企业立即成为它的用户。陈运文介绍,“V3对GPU资源的使用效率极高,DeepSeek这种低资源、高效果的特性有利于今后大规模推广应用。”

  本月发布的推理大模型DeepSeek-R1在复杂的数学和逻辑任务上表现优秀,达观数据使用后,大幅度提升了办公智能体在审阅处理复杂工程报告、金融文书、财务报表、招投标书等专业文档上的能力。

  赵海认为,大模型发展历程可分为三个阶段:第一阶段的标志性事件是ChatGPT问世,其表现令人惊艳,但因为不开源,大多数开发者并不清楚这个大模型是如何开发出来的;在第二阶段,很多团队重现了ChatGPT开发过程,涌现出Llama、Qwen等一批开源大模型,这类模型的性能越来越强,但与OpenAI发布的大模型相比,存在一定差距;DeepSeek-V3和DeepSeek-R1则开启了第三阶段,它们的性能可分别比肩GPT-4和OpenAI o1,意味着开源大模型终于追赶上了闭源大模型。

  赵海说,通过深度求索发布的技术报告,全球开发者都分享到了中国研发团队的创新智慧。可以预见,DeepSeek将引发大模型创新和产业生态的变革。

声明:本媒体部分图片、文章来源于网络,版权归原作者所有,如有侵权,请联系删除:025-84707368,广告合作:025-84708755。
1209
收藏
分享