生成式AI安全评估

解决方案

简介
当前,生成式人工智能服务(大模型)的研发和应用大规模兴起,大模型已成为推动各行业技术和业务创新的核心驱动力之一。生成式人工智能产品实现了从技术到应用的全方位进步,产品数量迅猛增长,应用场景持续扩大。

当前,生成式人工智能服务(大模型)的研发和应用大规模兴起,大模型已成为推动各行业技术和业务创新的核心驱动力之一。生成式人工智能产品实现了从技术到应用的全方位进步,产品数量迅猛增长,应用场景持续扩大。人工智能在带来无限机遇的同时,也蕴含着潜在的安全风险,如违反社会主义核心价值观、数据隐私泄露、算法歧视、虚假信息传播等,严重威胁着用户权益、社会秩序乃至国家稳定。

为了促进生成式人工智能健康发展和规范应用,维护国家安全和社会公共利益,保护公民、法人和其他组织的合法权益,国家互联网信息办公室联合多部委出台《生成式人工智能服务管理暂行办法》,对生成式人工智能服务实行包容审慎和分类分级监管。

生成式人工智能服务提供者,特别是“AI+垂直领域”的应用者,在研发、应用生成式人工智能服务过程中面临网络信息安全风险挑战,主要集中在缺乏内容安全管理经验、基座模型不可控、缺乏技术手段支撑等方面。

为全面帮助生成式人工智能服务提供者提升网络信息安全管理水平,保障生成式人工智能服务健康发展和规范应用。本方案从安全风险评估入手,识别差距项,提供整改建议。同时,围绕安全防护建设和监测能力建设等两个方面提供解决方案。

(一)安全风险评估

为充分识别生成式人工智能服务的安全风险、帮助向大模型服务的网络信息安全管控工作提供建设思路,提供生成式人工智能服务安全风险评估服务。以《生成式人工智能服务安全基本要求》等文件为指引,面向大模型服务开展安全风险评估,通过风险评估识别差距项,形成安全评估报告,指导开展定向的整改工作。

(二)安全防护建设

为强化生成式人工智能服务的内容安全管控能力,本方案提供大模型服务接口内容安全管控网关产品,通过服务集成方式,从输入、输出维度管控大模型的内容安全风险,避免出现信息安全事件。面向生成式人工智能服务接口,建设内容安全管控手段,针对大模型输入输出内容进行实时检测,识别并处置内容违规风险。

(三)监测能力建设

本方案支撑面向生成式人工智能服务提供者提供生成式人工智能服务安全监测服务,跟踪最新的大模型安全管理要求,围绕大模型服务接口开展安全检查,帮助大模型服务持续优化改进。通过构建半自动化拨测系统,支持通过API接口调用形态,围绕五类测试类型进行自动化测试,以自动化+专家研判方式识别有害回答,形成监测报告。