数据是人工智能发展的核心要素,特别是进入2023年大模型时代后,高质量数据集的重要性日益凸显,成为大模型产品研发的瓶颈和焦点。各类大模型的性能不仅取决于数据的数量,也依赖于数据的质量。国内在数据集的数量、质量,以及围绕数据集的生态上与国外存在差距,这限制了我国的人工智能产业的发展。合成数据技术有望解决未来各类大模型发展中的数据缺口问题,特别是在金融、医疗和自动驾驶等领域具有巨大潜力。
人工智能,融合应用,投融资,算力基础设施安全,基础数据服务
张梦轩: 张梦轩,博士,国家工业信息安全发展研究中心人工智能所工程师,主要从事人工智能工业应用、大模型数据集、企业数转智改等方向的研究。
李天舒: 李天舒,博士,国家工业信息安全发展研究中心人工智能所工程师,主要从事人工智能相关领域战略、政策、产业发展研究。