본문 바로가기

논문 리뷰

(4)

[논문 리뷰] INJECMEM: MEMORY INJECTION ATTACK ON LLM AGENT MEMORY SYSTEMS (2026.02) memory store에 접근하지 않고도 한 번의 interaction으로 memory injection attack을 제안한다.Introductionagent는user input을 위한 a perception module,reasoning과 response generation을 위한 LLM core,specialized tasks를 위한 tools로 구성된다.agent가 memory system store에 쓰거나 읽어올 때 어떤 문제가 생길까?이 논문에서 제안하는 InjecMEM(Injection attack on MEMory systems)은 간단하게 말해, memory system를 attack해서 user가 target topic에 대해 질문할 때마다 target output(harmful ou..

[논문 리뷰] BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning (ICLR 2026) 기존의 Backdoor 공격과 달리 VLM embodied agent backdoor로, 어떤 object trigger를 보면 위험한 행동을 하도록 유도하는 backdoor attack 방식을 제안한다.Introduction최근 VLM의 발전으로 embodied agent는 별도의 시각적 모듈없이도, egocentric visual input만으로 "see-think-act"가 가능해졌다.-> visual backdoor attack의 범위도 넓어진다.예를 들어, 평상시에는 제대로 동작했다가도, visual trigger인 칼이 보이면 갑자기 소파에 칼을 올려놓는다든지 등의 위험한 행동을 하도록 공격하는 것이다. 이 논문에서는 two-stage 방식으로 진행되는데,첫번째는 SFT(Supervised f..

[논문 리뷰] ARMOR: ALIGNING SECURE AND SAFE LARGE LAN- GUAGE MODELS VIA METICULOUS REASONING(ICLR 2026) OOD jailbreak attack에 대해서도 robust하기 위해 ternary inference step을 통해 core jailbreak intent을 알아내는 방식을 제안함IntroductionLLM의 safety 문제를 해결하기 위해 SFT, RLHF와 같은 post-training alignment methods가 존재해 옴여기서 SFT란 Supervised Fine-Tuning으로 이미 학습된 LLM에 대해서 prompt와 reponse를 이용해서 지도학습을 통해 fine-tuning되는 것을 말하고,RLHF란 Reinforcement Learning from Human Feedback으로, 사람에게 어떤 답변이 더 나은지 피드백을 통해 강화학습하는 것을 말함but 이러한 방법들은 jail..

[논문 리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens (2025.11) VLM이 text와 vision을 이해하고 추론하는 데 많은 발전을 해왔지만, 여전히 image를 text로 이해하는 방식 때문에 성능 저하가 있었음따라서 성능 저하 없이 vision 그대로를 이해하는 방식을 제안하고자 함introductionVLM은 text와 vision을 이해하고 추론하는 데 remarkable progress를 달성함-> CoT가 logic, mathmetics, knowledge grounding을 향상시킴but 이러한 성공에도 불구하고 language_bound에 불과함 continuous visual information을 discrete한 text space로 preject하는 과정에서 lost and poorly한 representation이 생김-> counting, s..

이전 1 다음

티스토리툴바