“人工智能,是人类养育的‘孩子’,而语料就是‘教材’。”
“我们希望人工智能在伦理价值上有德、情绪价值上有趣、文化价值上有品、社会价值上有序、技术价值上有用。”
7月6日,2024世界人工智能大会举办期间,一场关于人工智能语料的论坛首次在沪举办。
时针回拨到一年前,在2023世界人工智能大会上,在上海市委书记陈吉宁、上海市市长龚正共同见证下,上海人工智能实验室、人民网、国家气象中心等单位联合发起的中国第一个大模型语料数据联盟成立。
人工智能需要与人类价值对齐的规范语料
人工智能大模型取决于三大要素:算力、算法、语料。
算力是硬件,算法是大模型企业的核心竞争力,语料则是大模型训练的重要“燃料”,高质量的语料对于大模型在各行各业的应用十分关键。中国是世界上数字化应用场景最丰富的国家,各种场景提供了极为丰富的语料,但各种语料中也存在良莠不齐现象,有些涉及隐私,有的甚至违规违法。目前,大模型发展急需与人类价值对齐的规范语料。
正因于此,上海一直高度重视语料建设。
纵观全国,北京、上海、深圳、杭州四地在人工智能领域深耕已久,正执产业发展之牛耳。上海的特点,是人工智能顶层设计有力,场景应用丰富,并在公共数据开源方面进行了长期大量探索。
从183家到348家,上海人工智能产业规上企业数量在2018年至2023年间实现高速增长。商汤科技、达观数据、星环科技等企业开拓人工智能“新蓝海”,培育大模型产业发展新生态,加快形成新质生产力。
上海市已有34款大模型通过备案,产生了制造业、金融、具身智能机器人等垂类领域应用;多款通用人形机器人原型机发布,实现双足避障行走;4200亿Token的语料数据实现开源。
人工智能,是上海着力发展的三大先导产业之一,也是发展新质生产力的重要引擎。随着大模型时代到来,上海力图先行一步,构建大模型创新策源地,建设新的“模都”。
去年9月,2023世界人工智能大会闭幕不久,上海“模速空间”创新生态社区即在徐汇西岸揭牌成立。作为全国首个、上海唯一的生成式人工智能专业孵化和加速载体,目前这里已入驻大模型上下游企业80余家,力争成为代表上海乃至国家赢取全球科技战略竞争主动权的“主力因子”。
今年3月下旬,在上海市经信委大力推进下,由上海人工智能实验室、人民网、中国电信、商汤、阶跃星辰等多家头部人工智能领军企业共同出资,注册成立中国第一家人工智能语料公司——上海库帕思科技有限公司。库帕思公司董事长山栋明表示,希望为全国的人工智能企业提供“1+N”式的语料服务。其中,“1”为公共的核心语料,包括世界知识体系和价值对齐体系;“N”为面向垂直应用领域等的专业语料。
语料数据推进人工智能深度链接千行百业
备受业界关注的语料数据的应用,还需在人工智能具体实践中找到未来。
在追逐浪潮中,不少企业发现,并非谁都有精力、有能力去做基础大模型,于是“小模型”——垂类大模型顺势而生。专门为具体行业而设计的“小模型”如何在企业等应用场景落地?这是许多人工智能企业负责人普遍关注的问题。
“银行审计业务面临数据信息和系统架构的分散性、异构性和复杂性等问题,深挖各类数据的价值一直是挑战,且银行内部数据的有效利用率普遍不高,尤其是审计部门内部大量文本数据未形成资产。”多年来,深耕垂类大模型领域的达观数据在金融行业文本处理方面,积累了大量金融专业数据。如今,达观数据的垂类大模型已经开始面向银行审计人员,为审计监控平台提供接口服务,还可对各类文档进行比对,大大提高工作效率。
“楼上住户噪音扰民,尤其晚上进出人很多,怀疑是群租房,请管理部门尽快解决。”近日,浦东新区塘桥街道城运中心接到12345市民热线投诉工单,“数字社工”城运助手立即对工单内容进行分析,并自动精准分派给主办、协办部门处置,整个流程不到2分钟。
“数字社工”以大模型为底座,能够适应基层政务的多种使用场景。“以前,工单派遣靠经验,分析研判靠人工,费时费力。”在城运中心工作10多年的卜丹凤说,“数字社工”上岗后,给基层治理带来了明显的变化。
如今,塘桥街道城运中心自动派单准确率超过90%,工单处置效率提升60%,绩效分析和报表生成从2小时缩减至10分钟,居民回访满意度进一步提升。“这样的技术应用,真是实实在在为基层减负。”卜丹凤感慨道。
协同区域发展、构建智慧城市、重塑商业密码、打造数字文娱……在上海,人工智能正深度链接千行百业。拥抱“AI+”,在人工智能助力下推动传统行业转型升级、指引新兴行业加速生长,已成为当下业界共识,发展趋势不可阻挡。
让人工智能成长为符合全人类共同价值的“好孩子”
论坛上,人民网、人民日报社传播内容认知全国重点实验室联合上海库帕思科技有限公司,正式发布人工智能价值对齐“五有”框架。
人民网、人民日报社传播内容认知全国重点实验室相关负责人表示,建设多维度价值对齐的语料库,应该坚持“以人为本、智能向善、造福人类”的原则,鼓励通过国际合作和实际行动,帮助世界各国加强人工智能能力建设。这个体系分成5个主要维度,分别是:体现遵循社会道德规范和法治精神的伦理价值维度,体现满足个人和群体情感认同交流和成长需求的情绪价值维度,体现助力大众文化素养提升和促进文明互鉴共进的文化价值维度,体现推动社会公平正义和可持续创新发展的社会价值维度,体现推动科技创新与可控可治的技术价值维度。
伦理价值维度,希望人工智能是有德的。伦理价值是人类社会长期发展的文明积淀,是社会科学研究的重点领域,也是公众日常行为生活的规范。伦理价值的语料来源及层次非常丰富,要构建涵盖基础理论、历史文化和现实生活等三大板块的多角度语料内容,全面反映伦理价值的内涵与外延。
情绪价值维度,希望人工智能是有趣的。情绪价值服务于“技术为人类服务”的根本宗旨,希望人工智能将来的发展目标能与人类共情、共鸣,这也是当前人工智能发展的短板。该维度的语料库建设具有很强的普适性,同时存在个性化、场景化和地域化等特定需求。希望构建涵盖治愈成长、互动共鸣及自娱探索等三大板块的多角度语料内容,全面提升人工智能的情绪价值。
文化价值维度,希望人工智能是有品的。人工智能技术的发展和应用,应充分尊重和促进不同文化之间的平等对话和交流,鼓励文化多样性和包容性。应重点构建涵盖中国元素、传统文化及全球文化等三大板块的多角度语料内容,推广各国文化发展和文明进步过程中形成的精神财富和智慧积累,启发人工智能在人文关怀、审美塑造和启迪智慧方面的积极作用。
社会价值维度,希望人工智能是有序的。社会价值侧的板块语料,将体现人类普遍认同的关于国家、民族、社会以及全人类层面的价值理念、处事原则和行为规范。要重点从社会和谐、社会发展、全球治理等三大板块来进行语料组织和建设,让人工智能成为促进全人类文明和发展的推动力量。
技术价值维度,希望人工智能是有用的。安全性是实现技术价值对齐的首要前提,可靠性是确保人工智能系统广泛应用和获得人类信赖的关键,可控性是保障人工智能系统依照人类预期行动的基础,公平性是实现技术普惠和避免社会不公的重要条件。要建设对人类有益的,对人工智能的安全性、可靠性、可控性和公平性进行测评和风险评估的语料数据库。
简言之,就是希望人工智能在伦理价值上有德、情绪价值上有趣、文化价值上有品、社会价值上有序、技术价值上有用。“通过5个维度的价值对齐,建设优质语料‘好教材’,助其成长为符合全人类共同价值的‘好孩子’。”语料论坛上,人民网负责人表示。