经济观察网 记者 万敏 11月11日下午,2023金融街论坛年会“金融科技创新与合规安全”平行论坛在北京举办。度小满CTO许冬亮在主题发言中表示,大模型高度依赖数据、算力和人才,只有极少的企业能够从头到尾地完成产业级研发,尤其是在金融领域,更需要多方共建生态。
图片来源于网络,如有侵权,请联系删除
许冬亮表示,从今年年初的大模型浪潮以来,行业内为之感到的兴奋远超区块链、元宇宙等新概念。因为大模型看得到、用得到,人们能够体会到它真实的魅力所在。
许冬亮表示,底层的模型发展趋势上,从早期的ChatGPT和文心一言为代表的通用大模型是第一波浪潮。目前,通用大模型的这一波浪潮的参与者基本上已经确定。然而,在此基础上,更大的是分行业的浪潮。通用大模型在通识能力方面表现不错,但由于专业数据等方面的原因,它无法在行业中达到深入的理解。
在许冬亮看来,第二波可以称之为+AIGC,即在现有企业产品服务的基础上,将生成式人工智能技术应用其中,以提升更好的产品服务。然而,这一波应用还处于浅层。它只是在原有基础上对生成人工智能进行简单的应用,而没有能够对整个业务模式进行重新再造。因此,在未来,下一波应用层面的浪潮是使用AI的能力来原生地再造原有的产品服务形态以及B端运行模式。这将推动智能化时代进入一个全新的阶段。
“一方面,金融领域的数据分散在各个金融机构,通用大模型缺少金融数据进行训练,金融专业知识不足;另一方面,如果从底层开始训练大模型,所需要投入的算力成本非常高,比如千亿级别的通用大模型,训练一次需要付出几千万的成本”,许冬亮解释道,“因此,金融大模型的产业应用需要场景应用方(金融机构)、模型提供方、训练工具提供方等多方共建,共同参与”。
许冬亮表示,在金融大模型场景端应用落地时,面临着许多问题,其中最为重要的五大关键问题。第一是基础模型的选择。第二是场景数据的利用,因为场景端存在大量数据如何融入模型中。第三是模型存在的缺陷,如幻觉问题、专业性问题,如何控制?四是在每个人未来都将使用大模型的情况下,如何构建竞争壁垒。最后是底层的安全合规保障。
许冬亮认为,场景端问题需要根据场景自身的能力要求来确定基础模型和对应的训练策略。例如,如果只需要知识问答能力,10亿级别的模型就足够了。如果需要摘要提取抽象能力,百亿级别模型就足够了。如果需要很强的逻辑能力,则需要千亿级别的模型。同时,根据数据量和任务复杂度的不同,选择不同的方式。如果数据量越大且复杂度越高,则需要从预训练开始。如果数据量不大或任务不高,则可以直接使用prompt(提示词)工程解决。
关于场景端的数据利用问题,许冬亮表示,对于拥有大量用户交互数据的机构,如度小满累计了千万小时的对话数据,金融机构手头的数据量更多。如何利用好这些数据?需要做好几个方面。首先是底层的标注,因为对话数据中存在许多低质量和碎片化的问题。如果简单使用人工标注,每个标注需要40分钟,成本较高。因此,使用人机结合协同标注体系来构建高质量的数据,并将数十万的SFT数据纳入场景中激发对话能力。顶层的强化学习是一个精密的系统工程,可以显著提高最终的对话效果,其中包含许多专家经验。
同时,许冬亮也认为,对于大模型的缺陷,如计算精度问题、幻觉问题、专业性问题、时效性问题,需要通过复杂系统工程的方法解决,如搜索增强、与知识库结合、与上游业务引擎结合等。这需要一个完整的工具集在原有技术架构的基础上进行升级,以支持大模型的落地应用。通过这种方法可以控制大模型本身原有的能力欠缺,而这些解决方案都是在经过一段时间的积累后逐渐成熟。
随着大模型技术在越来越多金融机构落地应用,如何防范大模型的潜在合规风险也备受关注。“金融是强监管行业,安全合规是大模型落地的前提条件和重要保障。金融大模型安全合规既需要监管政策的约束,更需要大模型企业自身的主动作为”,许冬亮认为,“大模型需要学习人类的价值观,保护好用户的个人权益,确保输出结果可信可控”。
推荐阅读:
央行:9月末社会融资规模存量为372.5万亿元,同比增长9%