Jailbreak to Protect: Buffering Harmful Fine-Tuning via Temporary Jailbreaking LoRA in Large Language Models Spotlight (Top 2.2%)

International Conference on Machine Learning (ICML), 2026