Diversity Helps Jailbreak Large Language Models

Published in , 2024

Weiliang Zhao, Daniel Ben-Levi, Wei Hao,Junfeng Yang, Chengzhi Mao. "Diversity Helps Jailbreak Large Language Models", arXiv preprint arXiv:2411.04223 (2024). (To appear in NAACL 2025) https://arxiv.org/abs/2411.04223