subvisual


김영재 교수

데이터 중심 컴퓨팅 및 AI 시스템 연구실

위     치      AS911
연 락 처      02-705-8933
홈페이지     http://discos.sogang.ac.kr

연구분야
LLM 추론을 위한 GPU 스케줄링 및 실행 최적화
대규모 LLM 추론에서 토큰 길이 예측과 컨티뉴어스 배칭을 활용하여 요청 간 실행 특성을 분류하고, GPU 활용도와 처리량을 극대화하는 추론 실행 및 스케줄링 기법을 연구한다.


클라우드 LLM 서빙 및 Infrastructure-Aware KV Cache 관리
클라우드 환경에서 GPU–CPU–SSD로 구성된 계층적 인프라를 고려하여 KV cache의 배치, 이동, eviction을 최적화하고, SLO를 만족하는 비용 효율적 LLM 서빙 아키텍처를 연구한다. 


RAG를 위한 VectorDB 및 스토리지 가속
RAG를 위한 VectorDB 워크로드를 대상으로 대규모 임베딩 데이터의 저장, 검색을 가속하고, 검색–추론 파이프라인 전반에서 GPU 활용률을 높이기 위한 데이터 접근 및 실행 스케줄링 기법을 연구한다.


메모리–스토리지–VectorDB–GPU 크로스레이어 LLM 시스템 설계
LLM 런타임, KV cache, VectorDB, 파일 시스템, 스토리지, GPU 스케줄러를 연계하는 크로스레이어 설계를 통해 클라우드 기반 RAG–LLM 서비스의 처리량과 tail latency를 동시에 개선한다.