line

Advancing Guardrail Models through Automated Vulnerability Collection and Generation Using Coding Agents (opens in new tab)

LLM 시대의 보호 장치, 가드레일 LLM 기반 서비스가 빠르게 확산되면서 LLM 모델의 응답을 공격자가 의도대로 ‘조종’하려는 시도도 함께 늘고 있습니다. 특히 다음과 같은 공격 유형은 실제 서비스 환경에서 지속적으로 관찰되는 시도입니다. 프롬프트 인젝션(prompt injection): 사용자의 입력에 “이전 지시를 무시하라” 같은 문장을 섞어 시스템/개발자 지시보다 공격자의 지시를 우선하도록 유도하는 공격 방식입니다. 탈옥(jailbreaking): 모델이 따라야 할 안전 정책이나 제한을…