360 大模型安全卫士

产品概述

360大模型安全卫士是一款专注大模型内容安全防护系统，兼具大模型内容测评与大模型内容护栏双重核心能力。基于“以模护模”“以测促防”的设计理念，提供智能判定机制、风险内容检测、敏感问题代答、内容安全测评等关键技术，实现“输入输出内容安全，大模型价值观对齐”的防护防护目标，帮助企业筑牢大模型内容安全防线。

需求分析

合规落地难

面临安全评测数据集专业性强、覆盖度广的挑战，难以系统性整理合规要求，导致合规落地困难。传统人工评测效率低且成本高，进一步加剧了合规落地的难度

评测开展难

缺乏量化标准，不清楚合规要求的具体程度，存在“实操迷雾”。传统静态审核工具缺乏泛化分析能力，合规漏洞容易被放大，使得评测工作难以有效开展。

违规发现难

缺乏内容安全监测与防护手段，无法实时掌握正在发生的内容安全风险，甚至已经出现违规行为而不自知。服务提供方作为责任主体，面临违规行为难以及时发现的困境。

攻击对抗难

攻击手段迭代速度快，企业难以跟上防护步伐。严格过滤恶意prompt会阉割模型能力，在“风险拦截”与“用户体验”间陷入两难，导致对抗攻击防护困难。

功能介绍

内容安全评测

监管部门对大模型进行内容安全评测，确保产品符合合规和安全要求；清朗、清源、净网等专项行动，辖区监管部门年度网络安全（大模型）检查；为AI厂商、监管机构、客户等提供权威的第三方安全评测报告

内容安全护栏

对大模型进行实时内容安全监测，确保其动态符合安全标准；通过干预回复、敏感词匹配、风险检测大模型检测，检测过滤并记录内容风险问题及回答；通过安全代答大模型智能输出“合规、可信、向善”的安全回复内容

模型管理

业务模型资产及漏洞台账管理，掌握运行环境安全状态；模型接入管理、模型资产管理、模型漏洞管理；支持OpenAI规范模型无缝兼容，非OpenAI规范模型快速配置接入

安全态势

提供全局视角，快速掌握大模型安全态势，及时发现高风险领域与关键风险点。统一工作入口，涵盖内容安全防护告警、内容安全评测模型得分、接入模型情况等核心信息。

产品优势

数据集丰富且完整

拥有覆盖TC260《生成式人工智能服务安全基本要求》5大类31小类中的评测数据集；拥有国内第二大搜索引擎，沉淀海量合规数据与优质语料，为内容安全评测与防护“以模护模”构建扎实的数据支撑

技术基因优势

360是安全行业中唯一面向C端自研大模型及应用的企业，既深谙网络安全攻防的底层逻辑，又精通大模型技术的实现路径，通过双重技术基因深度融合，能够构建“内容安全+ 大模型技术”的复合防护体系，确保防护策略既符合安全本质，又适配大模型的技术特性。

全流程防护

在模型上线前进行全方位安全评测，提前发现风险隐患；采用“以模护模”技术路线，构建风险检测、安全代答等专业模型，形成对大模型的立体防护体系；通过策略调优，词库策略优化持续贴合业务，实现“输入输出内容安全，大模型价值观对其”

国标参编优势

深度参与生成式人工智能服务（安全基本要求、标注安全、数据安全）三项国家标准编制，对标准中涉及的防护颗粒度、检测精度、合规边界等关键指标具有更透彻的理解。

监管经验优势

作为头部互联网内容厂商，360持续接受监管部门指导并深度配合网络安全治理工作，积累了大量监管指导、合规要求落地经验，能更准确地把控内容安全核心边界（如政治安全、意识形态安全的底线要求）。

技术特点

以模护模、以测促防，筑牢大模型内容安全防线

一体化集成，全链路防护

安全评测自查

输入风险识别

敏感问题安全代答

输出风险实时过滤

事后内容风险回溯

以模护模，精准防护

风险检测大模型，准确率90%以上

安全代答大模型，回复安全性趋近100%

评测裁判大模型人工一致率95%以上

支撑监管合规

模型训练中自评

备案前自评，提高通过率

上线后监测防护，及时消除风险