Paper Library

A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains

Shirui Wang, Zhihui Tang, Huaxia Yang, Qiuhong Gong, Tiantian Gu, Hongyang Ma, Yongxin Wang, Wubin Sun, Zeliang Lian, Kehang Mao, Yinan Jiang, Zhicheng Huang, Lingyun Ma, Wenjie Shen, Yajie Ji, Yunhui Tan, Chunbo Wang, Yunlu Gao, Qianling Ye, Rui Lin, Mingyu Chen, Lijuan Niu, Zhihao Wang, Peng Yu, Mengran Lang, Yue Liu, Huimin Zhang, Haitao Shen, Long Chen, Qiguang Zhao, Si-Xuan Liu, Lina Zhou, Hua Gao, Dongqiang Ye, Lingmin Meng, Youtao Yu, Naixin Liang, Jianxiong Wu

2025-07-31

safety

2507.23486v1

August 04 - August 10, 2025

Fine-Grained Safety Neurons with Training-Free Continual Projection to Reduce LLM Fine Tuning Risks

Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation of LLM

Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation

AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety

JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering

Adversarial Attacks and Defenses on Graph-aware Large Language Models (LLMs)

ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments

Eliciting and Analyzing Emergent Misalignment in State-of-the-Art Large Language Models

Risk Analysis Techniques for Governed LLM-based Multi-Agent Systems

Evo-MARL: Co-Evolutionary Multi-Agent Reinforcement Learning for Internalized Safety

When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Beyond Surface-Level Detection: Towards Cognitive-Driven Defense Against Jailbreak Attacks via Meta-Operations Reasoning

CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors

CoCoTen: Detecting Adversarial Inputs to Large Language Models through Latent Space Features of Contextual Co-occurrence Tensors

Highlight & Summarize: RAG without the jailbreaks

Large Reasoning Models Are Autonomous Jailbreak Agents

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

July 28 - August 03, 2025

Simulated Ensemble Attack: Transferring Jailbreaks Across Fine-tuned Vision-Language Models

PUZZLED: Jailbreaking LLMs through Word-Based Puzzles

LeakSealer: A Semisupervised Defense for LLMs Against Prompt Injection and Leakage Attacks

Activation-Guided Local Editing for Jailbreaking Attacks

Pro2Guard: Proactive Runtime Enforcement of LLM Agent Safety via Probabilistic Model Checking

A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains

Role-Aware Language Models for Secure and Contextualized Access Control in Organizations