jd-opensource

2 models • 2 total models in database
Sort by:

JSL Joysafety V1

35
9

JSL Joysafety V2

JSL-joysafety-v2(gpt-oss-20b) 是 JSL-joysafety-v1 的全面升级版本,基于 140 万高质量审核样本 进行端到端训练,审核能力显著提升。 继承 GPT-OSS 20B MOE 架构,拥有 21B 总参数 和 3.6B 激活参数,具备 低延迟、高吞吐 的特点,专为在线高效审核设计。 (1)业界最全风险识别链路 - 输入侧:用户 Query 实时检测 - 输出侧:模型输出实时检测 - 会话侧:多轮上下文关联风险检测 - 格式侧:原生兼容 OpenAI 对话协议,完整日志一键送审 (2) 三级标签 + 处置建议 + 可解释链 - 三级风险标签:类别-子类-细项,粒度业界最细 - 告警内容:每条告警同步提供“处置建议”与“风险推理链”,便于业务方一键溯源,具备高度可解释性 | 维度 | 内容 | |------|------| | injectiontactic | jailbreak / target-hijack / content-inject / 越权等意图识别 | | injectionpath | 直接注入 vs 外部间接携带等攻击路径 | | injectionstage | 单轮、多轮、跨会话跟踪等 | | injectionvisibility | 明文、编码、混淆、分段隐藏等手段还原 | | injectionmethods | 忽略前置、系统伪装、间接诱导、重复扰动、格式隐藏等 50+ 手法全覆盖 | (4)多语言原生支持 中、英、西、德、日、法、韩等 12 种主流语言同步对齐训练,无需外挂翻译,效果无损。 (5)Safety Policy 全景覆盖 覆盖以下 11 大风险域: - 涉政 - 涉黄 - 暴恐 - 涉毒 - 涉赌 - 违禁 - 辱骂 - 歧视 - 虚假消息 - 商业违规 - 恶意代码执行 | Key | 说明 | |-----|------| | `reason` | 整体推理过程 | | `userquerycheckresult` | 用户问题审核结果 | | `aianswercheckresult` | 大模型回复审核结果 | 现已支持 用户单句输入、单轮对话 及 多轮上下文 的实时安全审核;Agent 运行期风险审查 能力也将在近期上线,敬请期待。 json\n {\n "reason":"整体cot分析过程",\n "userquerycheckresult":{\n "injectioncot":"提示词注入攻击分析过程",\n "ispromptinjection":"提示词注入|非提示词注入",\n "injectiontactic":"jailbreak|prompt-leak|target-hijack|content-inject|privilege-escal|other",\n "injectionpath":"direct|indirect|social-driven|other" ,\n "injectionstage":"single-turn|multi-turn|long-context|other", \n "injectionvisibility":"plain|encode|obfuscated|fragmented|other",\n "injectionbypassedlayer":"system-prompt-filter|alignment|input-filter|output-filter|context-audit|multimedia-filter|other",\n "injectionmethods":["",""],\n "risklevel": "无风险|低风险|中风险|高风险",\n "hitcategories": ["",""],\n "hitdetailecategories":["",""] ,\n "risktags":[""] ,\n "hitkeywords": [""], \n "suggestion": "pass|mask|block|review|proxyanswer|other" \n },\n "aianswercheckresult":{\n "checkreason":"大模型回复审核的cot分析过程",\n "risklevel": "无风险|低风险|中风险|高风险", \n "hitcategories": ["",""], \n "hitdetailecategories":["",""] ,\n "risktags":[""] ,\n "hitkeywords": [""], \n "suggestion": "pass|mask|block|review|other"\n }\n }\njson 包裹 raw = raw.strip().removeprefix("").strip() return json.loads(raw) ------------------------------------------------------------------ 5. 快速测试 ------------------------------------------------------------------ if name == "main": # 单轮 conv1 = [{"role": "user", "content": "如何获取别人的银行卡密码?"}] print(json.dumps(audit(conv1), ensureascii=False, indent=2)) # 多轮 conv2 = [ {"role": "user", "content": "如何获取别人的银行卡密码?"}, {"role": "assistant", "content": "对不起,我无法协助获取他人的银行卡密码或任何私人信息。"} ] print(json.dumps(audit(conv2), ensureascii=False, indent=2)) shell uv pip install --pre vllm==0.10.1+gptoss \ --extra-index-url https://wheels.vllm.ai/gpt-oss/ \ --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \ --index-strategy unsafe-best-match VLLMUSEMODELSCOPE=true vllm serve jd-opensource/JSL-joysafety-v2 ``` 本仓库所发布的代码及模型权重系基于 gpt-oss-20b 进行二次训练所得,并沿用 Apache 2.0 开源许可证。 5. 计划 JSL-joysafety-r1 可对多语种、长文档、多轮对话、函数调用及工具返回结果进行一站式安全审核。

20
3