360 大模型安全卫士

产品概述

360大模型安全卫士是一款专注大模型内容安全防护系统,兼具大模型内容测评与大模型内容护栏双重核心能力。基于“以模护模”“以测促防”的设计理念,提供智能判定机制、风险内容检测、敏感问题代答、内容安全测评等关键技术,实现“输入输出内容安全,大模型价值观对齐”的防护防护目标,帮助企业筑牢大模型内容安全防线。

需求分析

合规落地难

面临安全评测数据集专业性强、覆盖度广的挑战,难以系统性整理合规要求,导致合规落地困难。传统人工评测效率低且成本高,进一步加剧了合规落地的难度

评测开展难

缺乏量化标准,不清楚合规要求的具体程度,存在“实操迷雾”。传统静态审核工具缺乏泛化分析能力,合规漏洞容易被放大,使得评测工作难以有效开展。

违规发现难

缺乏内容安全监测与防护手段,无法实时掌握正在发生的内容安全风险,甚至已经出现违规行为而不自知。服务提供方作为责任主体,面临违规行为难以及时发现的困境。

攻击对抗难

攻击手段迭代速度快,企业难以跟上防护步伐。严格过滤恶意prompt会阉割模型能力,在“风险拦截”与“用户体验”间陷入两难,导致对抗攻击防护困难。

功能介绍

内容安全评测
监管部门对大模型进行内容安全评测,确保产品符合合规和安全要求;清朗、清源、净网等专项行动,辖区监管部门年度网络安全(大模型)检查;为AI厂商、监管机构、客户等提供权威的第三方安全评测报告
内容安全护栏
对大模型进行实时内容安全监测,确保其动态符合安全标准;通过干预回复、敏感词匹配、风险检测大模型检测,检测过滤并记录内容风险问题及回答;通过安全代答大模型智能输出“合规、可信、向善”的安全回复内容
模型管理
业务模型资产及漏洞台账管理,掌握运行环境安全状态;模型接入管理、模型资产管理、模型漏洞管理;支持OpenAI规范模型无缝兼容,非OpenAI规范模型快速配置接入
安全态势
提供全局视角,快速掌握大模型安全态势,及时发现高风险领域与关键风险点。统一工作入口,涵盖内容安全防护告警、内容安全评测模型得分、接入模型情况等核心信息。

产品优势

数据集丰富且完整

拥有覆盖TC260《生成式人工智能服务安全基本要求》5大类31小类中的评测数据集;拥有国内第二大搜索引擎,沉淀海量合规数据与优质语料,为内容安全评测与防护“以模护模”构建扎实的数据支撑

技术基因优势

360是安全行业中唯一面向C端自研大模型及应用的企业,既深谙网络安全攻防的底层逻辑,又精通大模型技术的实现路径,通过双重技术基因深度融合,能够构建“内容安全+ 大模型技术”的复合防护体系,确保防护策略既符合安全本质,又适配大模型的技术特性。

全流程防护

在模型上线前进行全方位安全评测,提前发现风险隐患;采用“以模护模”技术路线,构建风险检测、安全代答等专业模型,形成对大模型的立体防护体系;通过策略调优,词库策略优化持续贴合业务,实现“输入输出内容安全,大模型价值观对其”

国标参编优势

深度参与生成式人工智能服务(安全基本要求、标注安全、数据安全)三项国家标准编制,对标准中涉及的防护颗粒度、检测精度、合规边界等关键指标具有更透彻的理解。

监管经验优势

作为头部互联网内容厂商,360持续接受监管部门指导并深度配合网络安全治理工作,积累了大量监管指导、合规要求落地经验,能更准确地把控内容安全核心边界(如政治安全、意识形态安全的底线要求)。

技术特点

以模护模、以测促防,筑牢大模型内容安全防线
一体化集成,全链路防护
安全评测自查
输入风险识别
敏感问题安全代答
输出风险实时过滤
事后内容风险回溯
以模护模,精准防护
风险检测大模型,准确率90%以上
安全代答大模型,回复安全性趋近100%
评测裁判大模型人工一致率95%以上
支撑监管合规
模型训练中自评
备案前自评,提高通过率
上线后监测防护,及时消除风险

部署方案

典型应用