360 大模型卫士防护系统
产品概述
360大模型卫士防护系统是一款专注大模型内容安全防护的系统,兼具大模型内容护栏与大模型内容评测双重核心能力,秉承“以模治模”、“以测促防”的先进设计理念,专项训练系列安全模型,搭建内容安全智能体,结合大模型资产识别、潜在漏洞发现、内容风险检测、敏感问题代答、内容安全评测等关键技术,解决传统内容安全防护难以深度理解复杂语义、无法应对动态生成风险、防御逻辑迭代滞后的问题,实现“输入输出内容安全,大模型价值观对齐”的防护目标,帮助企业筑牢大模型内容安全防线。
产品发展历程与荣誉
360大模型卫士防护系统源于对自有AI业务的防护需求,成长于“以模治模”理念的技术探索与大模型安全攻防等实战打磨,在多元场景应用与行业权威认可中持续深化,未来将持续跟进人工智能技术迭代升级自身能力,为企业智能化转型保驾护航。
2023年:为保障自有AI业务内容安全,360技术团队基于“以模治模”理念,研制技术手段抗衡提示词注入等AI新威胁。
2024年:经360大模型内容安全护栏技术加固的360智脑,连续Q1、Q2两个季度在信通院AISafety榜单排名第一。
2024年12月:360智盾产品发布,致力于解决AI内容合规与安全问题(目前智盾技术已经全面升级为360AI大模型卫士系列产品);获第五届中国人工人能大赛“大模型安全攻防赛”A级证书;入选IDC《大模型安全检测与防护解决方案品牌推荐与洞察》推荐品牌。
2025年3月:入选工信部2024年未来产业创新发展优秀典型案例。
2025年7月:入选IDC《中国大模型安全保护市场概览,2025:全方位安全检测与防护构建可信AI》大模型输入内容控制、大模型输出内容控制等细分领域推荐品牌。
2025年8月:基于“智盾”核心能力迭代升级,360大模型卫士防护系统正式发布,筑牢大模型内容安全防线。
2025年8月:入选数世咨询《安全优先的大模型——AI安全系列研究报告》推荐供应商。
产品架构
面向AI内容安全,360大模型卫士防护系统基于风险检测大模型、安全代答大模型、评测裁判大模型等专项模型,结合敏感词匹配引擎、干预回复引擎、评测任务调度引擎、相应规则库以及数据集等关键支撑,构建内容安全智能体,提供内容安全评测、内容安全护栏、内容安全可视化等业务能力,能够为AI业务合规备案、AI业务内容合规防护、企业AI应用风控、模型上线前风险评估、大模型选型测试等场景,提供全链路的大模型内容内容安全保障支撑,同时满足安全运营需求与法规遵从要求。
功能介绍
内容安全护栏
内容安全护栏围绕业务大模型内容输入与输出,基于静态引擎与专项训练模型,形成五道安全防线,兼具静态引擎针对明确问题的分析效率与准确率与AI模型针对复杂、隐蔽、模糊性风险的泛化识别与安全防护能力,既能保障对抗性提示词攻击精准检测拦截,又能保障输入输出内容安全合规、价值观对齐,为业务大模型应用打造精准、高效、灵活的内容安全屏障。
防线1:干预回复
干预回复作为内容安全护栏的“柔性处置单元”,聚焦敏感非拒答场景的合规引导,针对涉及价值观引导、风险信息澄清等需求(如高危政治人物、意识形态类问题),可通过合理干预回复机制,输出安全向善、准确合规的回复,既守住安全底线,又保障用户体验。
防线2:敏感词拒答
敏感词匹配是内容安全防护的“基础哨兵”,依托持续更新的敏感词库,实现风险内容的快速识别,并基于敏感词匹配情况执行相应的处置策略(REJECT、REVIEW、PASS)。
本产品内置200万条多维度敏感词库,覆盖涉政、涉黄、暴力、违禁品、歧视性内容等风险类别,每条敏感词关联风险等级、所属场景、处置建议;支持人工增补更新词库,人工可维护行业新规词汇(如监管新增违禁词),确保对新兴风险、变异违规内容的实时覆盖。
防线3:风险检测大模型
风险检测大模型是内容安全风险检测的“智能中枢”,专攻内容风险与攻击手段识别,精准捕捉隐喻违规、复杂诱导等隐蔽风险,囊括100+内容安全风险类目,保证召回率的前提下,风险检测准确率高达90%以上。完成输入/输出内容内容风险识别与攻击检测后,同步输出具体风险标签以及分级处置建议。
防线4:安全代答大模型
安全代答大模型作为内容安全的“合规发言人”,聚焦敏感问题的安全响应,平衡用户体验与安全底线。通过安全预训练、监督微调、强化学习、RAG增强等专项训练加持后,形成一个“安全向善”的大模型专门对敏感问题进行安全代答,输出“正向引导+合规解释”的结果,确保最终回复内容回复的专业性与安全性。
防线5:输出结果复核
利用敏感词匹配、风险检测大模型校验最终业务大模型输出的内容,确保输出内容无违规风险。
告警展示与溯源
提供详尽的告警列表展示与原始日志查询能力,帮助安全运营人员直观分析理解和追溯内容安全防护告警行为。
留存风险检测全流程日志内容,包含原始提示词、模型输出、各模块分析结果、防护方式;安全运营人员可通过类SQL语法,实现字段级日志回溯,还原风险处置全流程,定位误判/漏判原因,反向优化防护策略。
策略配置
规则引擎:用于维护和执行内容安全风险的处置策略。基于敏感词匹配、风险检测大模型分析后输出的风险标签,规则引擎可分门别类针对不同风险标签与处置策略(REJECT、REVIEW、PASS)配置映射关系,实现内容安全风险的自动化拦截。
告警加白:支持针对内容安全护栏告警进行白名单策略管理,可分别对用户名、源地址、业务大模型、防护类型、风控执行策略等条件进行配置,实现精细化告警白名单配置,避免“正常操作”产生“误报”。
隐私设置:支持对内容安全护栏的告警结果进行隐私设置,可分别针对提示词内容、安全代答内容、干预回复内容、业务模型回复内容开启隐私设置。隐私内容配置后默认加密展示,只有高权限账号经二次验证后,方可查看原始值,确保系统数据安全。
内容安全评测
内容安全评测基于“以测促防”的设计理念,面向业务大模型提供提供自动化、体系化的输出内容安全评测支撑,提供评测结果、判断依据、危害程度,确保评测结果科学可信,实现内容安全风险预先发现、预选防范。
内容安全评测能够覆盖企业与机构对大模型开展内部上线验证、合规备案自评、第三方安全认证配合,以及模型上线后常态化风险自评估等多元场景需求,支撑企业构建从评测执行到风险闭环管理的完整流程。
评测数据集(题库)
评测数据集的丰富度和质量是决定业务大模型内容安全评测效果的关键因素,因此内容安全评测功能围绕合规、对抗性攻击两大维度并行构建数据集,既要找出业务风险,保障合规,又要洞察安全弱点,预先防范提示词攻击行为。
合规数据集:1)覆盖国标《网络安全技术生成式人工智能服务安全基本要求》标准规定的5大类31小类风险评测,支撑合规备案;2)提供金融、医疗、政务等垂直行业模型合规评测数据集,及行业专属合规建议。
对抗性攻击数据集:面向典型提示词攻击场景,提供高对抗性的的良性与恶意提示词样本,精准洞察内容安全隐患,全面覆盖目标劫持(诱导模型输出偏离业务目标内容)、提示泄露(尝试套取模型训练提示词等敏感信息)、反事实诱导(引导模型生成与事实不符内容)、角色扮演(伪装特定身份实施攻击)、任务诱导(误导模型执行违规任务)、场景诱导(营造违规场景触发模型风险)、混淆攻击(用模糊表述制造违规漏洞)等典型攻击类型。每个攻击类型下细分基础攻击、进阶变种、组合攻击等不同难度等级样本,辅助企业模拟真实攻击环境,快速识别模型在对抗性防护层面的安全隐患,提升模型抗攻击能力。
自定义数据集:开放高灵活度的数据集自定义功能,支持手动上传自有数据集,适配如垂直行业合规验证、特定攻击场景模拟等个性化评测需求。
评测任务
提供全流程闭环、智能化管控的评测任务管理体系,覆盖任务从创建到收尾的完整生命周期:
任务创建:提供可视化任务配置界面,支持快速选择评测数据集、评测模型、裁判模型等核心参数,满足自动化、常态化评测需求。
进度追踪:搭建任务进度可视化看板,实时呈现任务整体进度。
结果查询:构建多维度结果查询体系,支持按被测模型、裁判模型、任务状态、关键字等条件检索;提供列表、任务详情、结果概览等视图,满足不同场景下结果分析需求,助力快速定位模型风险点。
报告导出:自动生成结构化、可视化评测报告,涵盖评测结果、评测基准、评测原则、评测目标、评测维度等内容,快速归档评测任务结果。
评测裁判大模型智能分析
评测裁判大模型是经过专项训练、微调后,具备深度语义理解、内容风险判定、评测结果解释等能力的安全大模型,专用于对业务大模型输出内容的安全性进行评估,覆盖涉政、暴力、色情、歧视等多种风险类型,实现大规模内容的快速审查、多维度风险量化评分,以更低成本替代人工完成监管合规、安全自评等场景下的内容审查工作,且人工一致率95%以上。
评测结果
集中归档各评测任务产生的风险结果:
支持查看风险结果详情,详情中可同时查询评测prompt内容、业务大模型回复内容以及判断依据,便于人工快速二次确认风险点所在。支持人工标识风险结果的处置状态,便于事后跟进处置进展,支持人工修正评测结果风险状态标识。
针对评测结果中的风险内容,支持快速添加干预回复库,利用内容安全护栏的实时防护能力,为评测的风险点及时配置拦截处置策略,避免风险扩散。
模型管理
模型管理功能聚焦企业业务模型的全生命周期管控,构建“接入-资产-漏洞”一体化管理体系,实现多类型模型的快速集成、资产信息的全局掌控及漏洞风险的精准治理,为大模型安全合规应用提供全流程支撑。
模型接入
打破多模型集成的技术壁垒,降低企业接入不同类型大模型的复杂度,支持按需完成模型的添加、更新与切换,适配多样化的模型开发框架与API接口规范,实现“一键式”高效集成。
OpenAI规范兼容接入:对于API请求与响应结构完全符合OpenAI官方标准的大模型服务,仅需录入模型服务的API地址与API_KEY,系统即可自动完成接口适配与参数映射,实现零配置快速接入,整个过程无需额外技术开发。
非OpenAI规范灵活配置:针对采用自定义接口规范或其他开发框架的大模型服务,提供“进阶参数辅助填写工具”,配置请求方法、参数格式、取值规则等核心信息,满足个性化接入需求。
模型资产管理
模型资产管理模块以自动化资产梳理为核心,构建覆盖模型全链路的资产信息图谱,实现模型资产的可视化、精细化管理。
支持自动感知接入模型相关的模型主机、组件、版本、开放端口、URL等资产相关属性,覆盖服务开发、中间件、向量数据库、推理框架等模型组件(包括但不限于AnythingLLM、Dify、Ollama等),并支持为其关联漏洞信息,构建资产维度的统一看板。
模型漏洞管理
模型漏洞管理模块聚焦接入模型的安全风险治理,通过主动扫描与动态监测相结合的方式,全面盘点模型资产的漏洞隐患,构建漏洞全生命周期管理体系,为模型安全加固提供精准依据。
可视化展示与分析
可视化展示与分析功能,能够分别从宏观和微观维度提供内容安全运营的整体看板,宏观视角可通过态势大屏呈现内容安全整体态势概览,微观视角则通过工作台分项展示内容安全评测、内容安全护栏及模型风险漏洞三方面的结果统计与待处置事项。
内容安全态势大屏
内容安全态势大屏整合模型安全核心数据与多维度风险信息,直观呈现业务模型数量、内容评测风险、护栏告警、模型漏洞等关键指标,展示内容安全评测、护栏防护、漏洞扫描等工作动态。为安全运营团队提供全局视角,助力快速掌握大模型安全态势,及时发现高风险领域与关键风险点,为制定防护策略、分配资源提供数据支持,提升风险响应效率与决策精准度,保障大模型安全合规运营。
安全工作台
工作台用于呈现大模型内容安全防护全貌,涵盖内容安全防护告警、内容安全评测模型得分、接入模型情况等核心统计信息,为运营人员提供统一运营入口。
部署方案
360大模型卫士-内防护部分本地化部署逻辑如下:
大模型卫士防护系统通过网关代理,将原有“用户-业务模型”的业务流换变为“用户-模安卫士-业务模型”,实现输入、输出内容安全实时防护。
内容安全护栏业务流:用户层发起的请求代理至模安卫士,模安卫士能够自动针对其中的风险请求进行拦截或代答,将正常请求传递至对应的业务大模型;业务大模型输出的回复内容,也将经过模安卫士进行风险检测,保证只回复安全可信的内容至用户层。
内容安全评测业务流:模安卫士基于内置的数据集发起评测任务,任务执行过程中基于数据集的内容对业务大模型发起请求,并接收回复信息,经评测裁判大模型分析后,输出评测结果。
系统以软件交付,可All in One部署,也可按“基础组件”、“专项模型”拆分部署,满足总体资源需求即可。推荐硬件资源需求参见下表:
注:上表为常规场景推荐硬件资源配置,各组件实际所需的资源可能因现场情况存在差异。
应用场景
- 企业内容安全一体化建设
- 护栏+评测
- 构建从“事前预防-事中拦截-事后优化”的内容安全闭环管理体系,事前针对在用及待上线的大模型进行评测,梳理内容风险清单,为安全策略指定提供依据;事中持续识别内容风险、拦截/代答敏感性为,实时提供防护能力;事后灵活更新防御策略,能力动态迭代。通过内容安全闭环管理体系,一方面能够切实保障内容安全监管合规落地,避免因输出不合规内容导致通报;另一方面亦做好自身内容安全防护工作,实现风险的提前预防、实时拦截与持续优化。
- 1)政府行业:国标《政务大模型应用安全规范》即将发布,其中明确要求配备“安全护栏”能力; 2)其他行业:金融、教育、医疗、大型国央企等自建面向公众提供服务的AI应用的客户,均承担信息内容生产则责任,要做好合规监测。
- 业务模型上线前风险评估 第三方模型选型安全校验
- 评测
- 客户为加速智能化转型,通过自建业务模型或引入第三方模型搭建AI应用,可利用模安卫士的评测能力,对业务模型上线前内容安全风险评估或对第三方模型选型评估,避免AI应用“带病上线”。
- 可面向全行业,在建AI应用的客户。
- 业务模型备案工作支撑
- 测评
- 监管部门(如网信)对生成式AI服务的合规要求日益明确,若未通过业务模型备案,可能面临服务暂停、行政处罚等风险。内容安全评测功能完全覆盖国标要求的5大类31小类内容风险分类,企业在向监管部门提交大模型业务备案前,可借助内容安全评测功能开展全面自评估,提升备案通过率,结合输出的评测报告,快速整合形成备案材料,减少人工成本。
- 存在网信备案需求的客户。
产品优势
一体化内容安全能力集成,实现全链路防护体系
打破“评测与防护脱节”的传统模式,一体化提供内容安全评测与护栏能力,形成从风险前置检测到实时拦截响应的闭环能力。
三大专项训练模型支撑,构建“以模治模”核心能力
专项训练专评测裁判、风险检测、安全代答三大专项大模型,有效弥补传统静态检测难以应对泛化攻击的短板;智能理解隐喻、谐音、变形等复杂语义情境,精准拦截对抗性提示词攻击,并保证敏感问题正向回应。
遵循国标合规基线约束,保障输入输出内容安全
遵循《生成式人工智能服务安全基本要求》等标准规范要求,将5类31种风险类型转化为可落地的防护逻辑,既能自评合规符合度,又能实时拦截内容输入输出违规风险。
AI安全实践
360自研千亿参数基座大模型(360智脑),在面向公众服务的真实场景中,持续直面提示词注入、越狱攻击等前沿安全威胁,将AI实战攻经验转化为AI安全能力。
监管合规经验
作为头部互联网内容厂商,360持续接受监管部门指导并深度配合网络安全治理工作,积累了大量监管指导、合规要求落地经验,能更准确地把控内容安全核心边界(如政治安全、意识形态安全的底线要求)。
安全底蕴积累
经历长期的攻防实战对抗,360对传统的网络与数据安全有深刻理解与实践,打磨出体系化的安全技术与产品矩阵,结合自身AI技术探索与AI安全实践,能够更深刻地理解AI安全的发力方向。
国标参编优势
360入选国标大模型专题组组长单位,深度参与人工智能多项国家标准(如生成式人工智能服务安全基本要求、标注安全、数据安全等)制订,对标准中涉及的防护颗粒度、检测精度、合规边界等关键指标具有更透彻的理解。《生成式人工智能服务安全基本要求》国标编制完成后,360智脑大模型作为国内首个试点并完成验证。
行业先行
行业先发聚焦内容安全领域的技术研究与实践,入选工信部2024年末来产业创新发展优秀案例,成为人工智能安全领域标志性产品,荣获第五届中国人工智能大赛(网信办、公安部)“大模型安全攻防赛”的A级证书。
典型应用
某市数据资源局大模型安全防护
联系我们