RLHF、红队测试、模型可解释性实践
随着AI能力增强,确保系统安全、可控、符合人类价值观变得至关重要。
基于人类反馈的强化学习是模型对齐的核心技术,包括奖励建模和策略优化两个阶段。
系统性测试模型漏洞,包括提示注入、越狱攻击等安全评估。