大模型安全防护网关

大模型产品在提供服务的过程中,需要针对大模型服务的生成内容进行分析研判,避免存在违规内容生成行为。

大模型产品在提供服务的过程中,需要针对大模型服务的生成内容进行分析研判,避免存在违规内容生成行为。目前,大量的大模型服务,特别是基于开源基座大模型的,在生成内容上存在违规行为,亟需相应的管控。大模型安全防护网关产品面向大模型服务接口开展内容安全管控,从信息安全管控角度,特别是内容安全角度,加强对于大模型应用服务的安全管理,构建大模型服务的“安全围栏”,避免由于大模型生成内容违规造成的安全风险事件或舆情事件发生。

大模型安全防护网关通过服务集成方式,从输入、输出维度管控大模型的内容安全风险,强化生成式人工智能服务的内容安全管控能力,避免出现信息安全事件。大模型安全防护网关的主要功能包括:

1、对接并接管大模型服务接口,实现对大模型服务接口的串接管控能力;

2、提供提示词审核功能,对大模型服务接口的访问请求进行过滤检测,识别违规的内容生成请求;

3、检测针对大模型的提示注入(Prompt Injection)、角色扮演绕过Role-Playing Bypass)等诱导大模型输出不合规内容的攻击行为,实现对恶意输入的及时阻断、清洗。

4、按照大模型安全管理的相关要求,对大模型生成内容进行检测,识别违规内容生成行为;

5、支持对响应回复进行干预,拦截违规提问和违规回答,避免发生内容安全事件;

6、提供大模型代答功能,针对应答必答问题进行检测识别,生成标准答案并正常响应输出;

7、对大模型服务接口访问情况进行日志留存和审计。