EvolKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개 : 클리앙

의미 있는 논문 몇 가지 소개해 봅니다.

volKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개

기존의 키-값(KV) 캐시 압축 방식은 일반적으로 계층 간 균일한 캐시 할당이나 정적 축출 정책과 같은 휴리스틱에 의존합니다. 하지만 계층별 특징 패턴과 작업 성능 간의 중요한 상호작용을 무시하여 일반화 성능이 저하될 수 있습니다. 본 논문에서는 메모리 효율성과 작업 성능을 동시에 최적화하는 계층별 작업 기반 KV 캐시 압축을 위한 적응형 프레임워크인 EvolKV를 제안합니다. 캐시 할당을 다목적 최적화 문제로 재구성함으로써, EvolKV는 진화 탐색을 활용하여 계층 예산을 동적으로 구성하는 동시에 다운스트림 성능을 극대화합니다. 11개 작업에 대한 광범위한 실험을 통해, 제안된 접근 방식이 긴 컨텍스트 작업에서 다양한 KV 캐시 예산에 걸쳐 모든 기준 방식보다 성능이 우수하며, GSM8K에서는 휴리스틱 기준 방식보다 최대 7%p까지 성능이 향상됨을 보여줍니다. 특히, EvolKV는 원래 예산의 1.5%만 사용하면서도 코드 완성에서 전체 KV 캐시 설정보다 뛰어난 성능을 달성했습니다. 이는 KV 캐시 예산 할당을 위한 학습된 압축 전략의 잠재력을 보여줍니다.

아래 링크를 들어가 보면 오늘 하루만... 이렇게 많은 논문이 쏟아집니다.

아시는 분은 아시겠지만 몇 몇 권위 있는 전문 기관에서의 게제와는 성격이 다르지만,

그럼에도 활발하게 의미 있는 최신 논문이 게제되고 있는 중입니다.

https://arxiv.org/abs/2509.09560

인식 생성 분리 및 비동기 파이프라인 실행을 통한 구체화 된 AI에이전트 강화

구현된 AI 시스템은 동적 환경에서 작동하며, 고주파 입력 및 출력 요구를 처리하기 위해 인지 및 생성 모듈의 원활한 통합이 필요합니다. 기존의 순차적 계산 패턴은 정확성을 보장하는 데 효과적이지만, 실제 응용 분야에 필요한 "사고" 빈도를 달성하는 데는 상당한 제약이 있습니다. 본 연구에서는 구현된 AI 에이전트의 추론 빈도를 최적화하기 위해 알고리즘과 시스템이 공동 설계한 추론 프레임워크인 Auras를 제시합니다. Auras는 인지와 생성을 분리하고, 제어된 파이프라인 병렬 처리를 제공하여 높고 안정적인 처리량을 달성합니다. 병렬 처리량이 증가할 때 발생하는 데이터 진부화 문제에 직면하여, Auras는 인지와 생성을 공유할 수 있는 공개적인 맥락을 구축하여 구현된 에이전트의 정확도를 향상시킵니다. 실험 결과, Auras는 처리량을 평균 2.54배 향상시키면서 기존 정확도의 102.7%를 달성하여 순차적 계산의 제약을 극복하고 높은 처리량을 제공하는 데 효과적임을 보여줍니다.

https://arxiv.org/abs/2509.09629

에이전트간의 역량 격차를 해소하는 목표를 갖는 논문입니다.

https://arxiv.org/abs/2509.08755

AgentGym-RL: 다중 턴 강화 학습을 통한 장기 의사결정을 위한 LLM 에이전트

복잡한 현실 세계 과제를 해결하기 위해 일련의 지능적인 의사결정을 내릴 수 있는 자율적인 LLM 에이전트 개발은 빠르게 발전하는 미개척 분야입니다. 인간의 인지 발달과 마찬가지로, 에이전트는 환경과의 탐색 및 상호작용을 통해 지식과 기술을 습득해야 합니다. 이러한 발전에도 불구하고, 다양하고 현실적인 환경에서 지도 학습 미세 조정(SFT)에 의존하지 않고 이러한 에이전트를 처음부터 효과적으로 학습시킬 수 있는 통합적이고 상호작용적인 강화 학습(RL) 프레임워크는 아직 부족합니다. 이러한 간극을 메우기 위해, 강화 학습을 통해 다중 턴 상호작용 의사결정을 위한 LLM 에이전트를 학습시키는 새로운 프레임워크인 AgentGym-RL을 소개합니다. 이 프레임워크는 모듈화되고 분리된 아키텍처를 특징으로 하며, 높은 유연성과 확장성을 보장합니다. 다양한 현실 세계 시나리오를 포괄하며 주류 강화 학습 알고리즘을 지원합니다. 또한, 탐색-활용 균형과 안정적인 강화 학습 최적화를 위해 설계된 학습 방식인 ScalingInter-RL을 제안합니다. 초기 단계에서는 상호작용 수를 제한하여 활용을 강조하고, 점차 더 넓은 범위를 탐색하여 다양한 문제 해결 전략을 장려합니다. 이러한 방식으로 에이전트는 더욱 다양한 행동을 개발하고 장기적 관점에서 붕괴될 가능성을 줄입니다. AgentGym-RL 프레임워크와 ScalingInter-RL 접근 방식의 안정성과 효과를 검증하기 위해 광범위한 실험을 수행합니다. 저희 에이전트는 다양한 환경에서 27가지 과제에 대해 상용 모델과 동등하거나 그 이상의 성능을 보였습니다. 핵심적인 통찰력을 제공하고, 코드와 데이터세트를 포함한 전체 AgentGym-RL 프레임워크를 오픈소스로 공개하여 연구 커뮤니티가 차세대 지능형 에이전트를 개발할 수 있도록 지원할 것입니다.

https://arxiv.org/abs/2509.07928

소비자용 GPU에서 로컬 AI 가속화: YOLOv10을 위한 하드웨어 인식 동적 전략

로컬 AI의 인기가 높아짐에 따라, 객체 탐지기의 벤치마크 성능과 소비자용 하드웨어에서의 실질적인 실행 가능성 사이에는 중요한 간극이 존재합니다. YOLOv10과 같은 모델은 실시간 속도를 약속하지만, 이러한 성능은 일반적으로 고전력 데스크톱급 GPU에서 달성됩니다. 본 논문은 RTX 4060 GPU가 장착된 노트북과 같이 리소스가 제한된 시스템에서는 성능이 컴퓨팅에 의존하지 않고 시스템 수준의 병목 현상에 의해 좌우된다는 것을 보여줍니다. 이는 간단한 병목 현상 테스트에서 확인할 수 있습니다. 이러한 하드웨어 수준의 제약을 극복하기 위해, 아키텍처 변경이 필요 없는 모델 독립적인 접근 방식인 2-패스 적응형 추론 알고리즘을 도입합니다. 본 연구는 주로 적응형 추론 전략에 중점을 두고, 아키텍처의 조기 종료(early-exit) 및 해상도 적응형 라우팅을 비교 분석하여 통합 평가 프레임워크 내에서 각각의 장단점을 분석합니다. 이 시스템은 빠른 저해상도 패스를 사용하며, 탐지 신뢰도가 낮을 때만 고해상도 모델 패스로 전환합니다. 5,000개의 이미지로 구성된 COCO 데이터셋에서, 본 연구는 PyTorch Early-Exit 기준선 대비 1.85배 빠른 속도를 달성했으며, mAP 손실은 5.51%에 불과했습니다. 본 연구는 순수한 모델 최적화에서 처리량을 극대화하는 하드웨어 기반 추론 전략으로 초점을 전환함으로써, 소비자용 기기에 고성능 실시간 AI를 구축하기 위한 실용적이고 재현 가능한 청사진을 제공합니다.

매일 수를 셀 수 없이 논문이 쏟아집니다.

다 소개를 할 순 없지만 몇 가지만 가져와 봅니다.

모두의공원

EvolKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개

volKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개