皮书数据库

在线阅读收藏

本报告首先综述了大型语言模型（LLM）安全技术的最新进展，剖析了各类主要风险，涵盖对抗性攻击、数据安全与投毒攻击、隐私泄露风险、价值对齐与滥用风险以及新兴威胁；分析了覆盖LLM全生命周期的防御缓解策略，涉及数据清洗与隐私保护、安全对齐与对抗训练、输入输出过滤与检测以及模型审计与修复等。其次，探讨了用于评估模型安全性和可信赖性的方法和基准，包括红队测试方法、基于LLM的评估等；报告还结合负责任人工智能的原则和治理框架进行讨论，涉及伦理考量与偏见问题、透明度与可解释性等。最后，报告总结了当前领域面临的评估标准化缺失、防御鲁棒性不足、新兴架构带来新攻击面等核心挑战，并展望了未来研究方向，强调应聚焦于构建标准化评估框架、发展鲁棒自适应的防御机制、深入研究新兴架构安全、改进隐私保护技术，并加强模型可解释性与跨学科合作，以促进LLM技术朝着安全、可信且有益于社会的方向发展。

通用人工智能,大模型,数字经济,生成式人工智能

邹权臣: 暂无简介

·医疗人工智能企业名录

·医学人工智能科技投入产出现状及其分析模型建立

·我国医疗人工智能的准入管理政策研究及国际比较

·医疗人工智能重点企业介绍

·医疗人工智能科技投入与产出现状分析

·“2023年度中国医疗人工智能实践典型案例”汇编

文章详细页面