扫描下载APP
其它方式登录
港中文/FaceMind团队提出ToxPrune方法,通过在推理阶段从BPE词表中物理剪枝有毒子词,实现零训练、零权重修改的大模型毒性抑制;在NSFW-3B模型上毒性评分从0.89降至0.13,同时提升语言质量与多样性;该方法与Radford团队的预训练级Token过滤形成互补,构成AI安全纵深防御体系。