CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·일본산당 ·방탄소년당 ·자전거당 ·개발한당 ·소시당 ·이륜차당 ·안드로메당 ·나스당 ·걸그룹당 ·영화본당 ·골프당 ·가상화폐당 ·클다방 ·AI당 ·육아당 ·사과시계당 ·디아블로당 ·패스오브엑자일당 ·리눅서당 ·IoT당 ·젬워한당 ·노젓는당 ·창업한당 ·소셜게임한당 ·노키앙 ·축구당 ·윈폰이당 ·여행을떠난당 ·바다건너당 ·물고기당 ·라즈베리파이당 ·캠핑간당 ·패셔니앙 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·키보드당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·MTG한당 ·소리당 ·적는당 ·방송한당 ·PC튜닝한당 ·찰칵찍당 ·그림그린당 ·소풍간당 ·심는당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·터치패드당 ·트윗당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

EvolKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개

3
2025-09-14 18:29:52 수정일 : 2025-09-14 18:32:07 122.♡.56.205
천문공

의미 있는 논문 몇 가지 소개해 봅니다.


https://arxiv.org/abs/2509.08315

volKV: LLM 추론을 위한 진화적 KV 캐시 압축 소개

기존의 키-값(KV) 캐시 압축 방식은 일반적으로 계층 간 균일한 캐시 할당이나 정적 축출 정책과 같은 휴리스틱에 의존합니다. 하지만 계층별 특징 패턴과 작업 성능 간의 중요한 상호작용을 무시하여 일반화 성능이 저하될 수 있습니다. 본 논문에서는 메모리 효율성과 작업 성능을 동시에 최적화하는 계층별 작업 기반 KV 캐시 압축을 위한 적응형 프레임워크인 EvolKV를 제안합니다. 캐시 할당을 다목적 최적화 문제로 재구성함으로써, EvolKV는 진화 탐색을 활용하여 계층 예산을 동적으로 구성하는 동시에 다운스트림 성능을 극대화합니다. 11개 작업에 대한 광범위한 실험을 통해, 제안된 접근 방식이 긴 컨텍스트 작업에서 다양한 KV 캐시 예산에 걸쳐 모든 기준 방식보다 성능이 우수하며, GSM8K에서는 휴리스틱 기준 방식보다 최대 7%p까지 성능이 향상됨을 보여줍니다. 특히, EvolKV는 원래 예산의 1.5%만 사용하면서도 코드 완성에서 전체 KV 캐시 설정보다 뛰어난 성능을 달성했습니다. 이는 KV 캐시 예산 할당을 위한 학습된 압축 전략의 잠재력을 보여줍니다.


아래 링크를 들어가 보면 오늘 하루만... 이렇게 많은 논문이 쏟아집니다.

아시는 분은 아시겠지만 몇 몇 권위 있는 전문 기관에서의 게제와는 성격이 다르지만,

그럼에도 활발하게 의미 있는 최신 논문이 게제되고 있는 중입니다.


https://arxiv.org/abs/2509.09560

인식 생성 분리 및 비동기 파이프라인 실행을 통한 구체화 된 AI에이전트 강화

구현된 AI 시스템은 동적 환경에서 작동하며, 고주파 입력 및 출력 요구를 처리하기 위해 인지 및 생성 모듈의 원활한 통합이 필요합니다. 기존의 순차적 계산 패턴은 정확성을 보장하는 데 효과적이지만, 실제 응용 분야에 필요한 "사고" 빈도를 달성하는 데는 상당한 제약이 있습니다. 본 연구에서는 구현된 AI 에이전트의 추론 빈도를 최적화하기 위해 알고리즘과 시스템이 공동 설계한 추론 프레임워크인 Auras를 제시합니다. Auras는 인지와 생성을 분리하고, 제어된 파이프라인 병렬 처리를 제공하여 높고 안정적인 처리량을 달성합니다. 병렬 처리량이 증가할 때 발생하는 데이터 진부화 문제에 직면하여, Auras는 인지와 생성을 공유할 수 있는 공개적인 맥락을 구축하여 구현된 에이전트의 정확도를 향상시킵니다. 실험 결과, Auras는 처리량을 평균 2.54배 향상시키면서 기존 정확도의 102.7%를 달성하여 순차적 계산의 제약을 극복하고 높은 처리량을 제공하는 데 효과적임을 보여줍니다.


https://arxiv.org/abs/2509.09629

에이전트간의 역량 격차를 해소하는 목표를 갖는 논문입니다.


https://arxiv.org/abs/2509.08755

AgentGym-RL: 다중 턴 강화 학습을 통한 장기 의사결정을 위한 LLM 에이전트

복잡한 현실 세계 과제를 해결하기 위해 일련의 지능적인 의사결정을 내릴 수 있는 자율적인 LLM 에이전트 개발은 빠르게 발전하는 미개척 분야입니다. 인간의 인지 발달과 마찬가지로, 에이전트는 환경과의 탐색 및 상호작용을 통해 지식과 기술을 습득해야 합니다. 이러한 발전에도 불구하고, 다양하고 현실적인 환경에서 지도 학습 미세 조정(SFT)에 의존하지 않고 이러한 에이전트를 처음부터 효과적으로 학습시킬 수 있는 통합적이고 상호작용적인 강화 학습(RL) 프레임워크는 아직 부족합니다. 이러한 간극을 메우기 위해, 강화 학습을 통해 다중 턴 상호작용 의사결정을 위한 LLM 에이전트를 학습시키는 새로운 프레임워크인 AgentGym-RL을 소개합니다. 이 프레임워크는 모듈화되고 분리된 아키텍처를 특징으로 하며, 높은 유연성과 확장성을 보장합니다. 다양한 현실 세계 시나리오를 포괄하며 주류 강화 학습 알고리즘을 지원합니다. 또한, 탐색-활용 균형과 안정적인 강화 학습 최적화를 위해 설계된 학습 방식인 ScalingInter-RL을 제안합니다. 초기 단계에서는 상호작용 수를 제한하여 활용을 강조하고, 점차 더 넓은 범위를 탐색하여 다양한 문제 해결 전략을 장려합니다. 이러한 방식으로 에이전트는 더욱 다양한 행동을 개발하고 장기적 관점에서 붕괴될 가능성을 줄입니다. AgentGym-RL 프레임워크와 ScalingInter-RL 접근 방식의 안정성과 효과를 검증하기 위해 광범위한 실험을 수행합니다. 저희 에이전트는 다양한 환경에서 27가지 과제에 대해 상용 모델과 동등하거나 그 이상의 성능을 보였습니다. 핵심적인 통찰력을 제공하고, 코드와 데이터세트를 포함한 전체 AgentGym-RL 프레임워크를 오픈소스로 공개하여 연구 커뮤니티가 차세대 지능형 에이전트를 개발할 수 있도록 지원할 것입니다.


https://arxiv.org/abs/2509.07928

소비자용 GPU에서 로컬 AI 가속화: YOLOv10을 위한 하드웨어 인식 동적 전략

로컬 AI의 인기가 높아짐에 따라, 객체 탐지기의 벤치마크 성능과 소비자용 하드웨어에서의 실질적인 실행 가능성 사이에는 중요한 간극이 존재합니다. YOLOv10과 같은 모델은 실시간 속도를 약속하지만, 이러한 성능은 일반적으로 고전력 데스크톱급 GPU에서 달성됩니다. 본 논문은 RTX 4060 GPU가 장착된 노트북과 같이 리소스가 제한된 시스템에서는 성능이 컴퓨팅에 의존하지 않고 시스템 수준의 병목 현상에 의해 좌우된다는 것을 보여줍니다. 이는 간단한 병목 현상 테스트에서 확인할 수 있습니다. 이러한 하드웨어 수준의 제약을 극복하기 위해, 아키텍처 변경이 필요 없는 모델 독립적인 접근 방식인 2-패스 적응형 추론 알고리즘을 도입합니다. 본 연구는 주로 적응형 추론 전략에 중점을 두고, 아키텍처의 조기 종료(early-exit) 및 해상도 적응형 라우팅을 비교 분석하여 통합 평가 프레임워크 내에서 각각의 장단점을 분석합니다. 이 시스템은 빠른 저해상도 패스를 사용하며, 탐지 신뢰도가 낮을 때만 고해상도 모델 패스로 전환합니다. 5,000개의 이미지로 구성된 COCO 데이터셋에서, 본 연구는 PyTorch Early-Exit 기준선 대비 1.85배 빠른 속도를 달성했으며, mAP 손실은 5.51%에 불과했습니다. 본 연구는 순수한 모델 최적화에서 처리량을 극대화하는 하드웨어 기반 추론 전략으로 초점을 전환함으로써, 소비자용 기기에 고성능 실시간 AI를 구축하기 위한 실용적이고 재현 가능한 청사진을 제공합니다.


매일 수를 셀 수 없이 논문이 쏟아집니다.

다 소개를 할 순 없지만 몇 가지만 가져와 봅니다. 

천문공 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [0]
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.