UNIST, 피지컬 AI에 필수 ‘강화학습’ 연구로 세계 3대 AI 학회 논문 3편 동시 채택
인공지능대학원 한승열 교수팀, ICLR 논문 3편 채택 쾌거
데이터 오류·장기 과업· 협력 환경 변화 대응하는 기술 제시
UNIST가 피지컬 AI 기술의 핵심인 강화학습 분야에서 국제적 연구 경쟁력을 입증했다. 강화학습은 AI가 환경과 상호작용하며 시행착오를 통해 최적의 행동을 스스로 찾아내는 학습 방식으로, 로봇이나 자율주행차가 불확실하고 예측 불가능한 현실 물리 환경에 직접 부딪히며 상황을 인지하고 돌발 변수에 대처하도록 만들 수 있어 피지컬 AI 시대의 필수 기술로 꼽히고 있다. UNIST는 인공지능대학원 한승열 교수팀의 연구 성과 논문 3편이 오는 23일 브라질 리우데자네이루에서 열리는 표현학습국제학회(ICLR)에 채택되는 쾌거를 올렸다고 21일 밝혔다. ICLR은 신경정보처리시스템학회(NeurIPS), 국제머신러닝학회(ICML)와 함께 세계 3대 AI 학회로 꼽힌다. 이번 성과는 3건은 모두 강화학습 분야에서 나왔다. 각각 ‘자기 개선 스킬 학습법(SISL)’, ‘엄격한 하위 목표 실행 기술(SSE)’, ‘연속적 하위 가치 Q-러닝(S2Q) 알고리즘’이다. ■ 엉터리 데이터로 ‘스킬’ 배운 AI, 스스로 깨우쳐 복잡한 임무 완수한다! 자기 개선 스킬 학습법(SISL)은 오류가 섞인 현장 수집 데이터로 AI 로봇 등을 잘 학습시킬 수 있게 하는 기술이다. 강화학습에는 길고 복잡한 작업을 해결하기 위해 로봇 등의 행동을 스킬이라는 단위로 쪼개어 학습시키는 방식이 있다. 예를 들어 주방용 로봇을 만든다면, 냉장고나 싱크대를 ‘여닫는 행위’, 싱크대나 스토브 같은 목표 장소로 ‘이동하는 행위’를 독립된 스킬로 정의해 학습시키는 것이다. 문제는 이 AI 로봇이 스킬을 익힐 때 교재로 삼는 실제 수집 데이터에 기기 노후화나 센서 오류로 인한 심각한 노이즈가 섞여 있는 경우다. 연구팀이 제시한 SISL은 심각한 노이즈가 포함된 저품질 데이터 환경에서도 자가 개선 메커니즘을 통해 더 유용한 스킬을 능동적으로 발견하고, 스킬 모델 내의 노이즈를 지속적으로 제거하여 고품질의 스킬 라이브러리를 구축할 수 있다. 연구팀은 "기존 시스템과 달리 작업을 수행하는 상위 수준 정책과 스킬 자체를 발전시키는 개선 정책을 분리하는 구조에, 보상 예측 모델을 활용한 '최대 리턴 재라벨링(Maximum return relabeling)' 우선순위 기법을 접목한 기술"이라고 설명했다. 연구는 이상현 연구원이 제1저자로 참여했다. ■ 여러 단계 거쳐야 하는 일도 덜 헤매고 끝까지 해낸다! 강화학습 기반 AI가 여러 단계를 거쳐야 하는 복잡한 작업에서, 중간에 엉뚱한 선택을 반복하지 않고 끝까지 수행하도록 만드는 기술도 개발했다. AI 로봇이 ‘컵을 꺼내 식탁에 놓기’ 같은 일을 하려면 이동, 문 열기, 물건 집기처럼 여러 단계를 순서대로 거쳐야 한다. 기존 방식은 이런 과정을 중간 목표로 나눠 학습하지만, 실제로는 수행하기 어려운 단계까지 섞이면서 로봇이 불필요한 행동을 반복하는 문제가 있었다. 엄격한 하위 목표 실행(SSE, Strict Subgoal Execution)은 이런 문제를 줄이기 위해 설계된 계층적 강화학습 기법이다. 도달할 수 없는 목표와 실행 가능한 목표를 엄격하게 분리하고, 완전히 실패한 경우와 일부만 성공한 경우를 구분해 에이전트가 실제로 도달할 수 있는 범위를 학습하도록 함으로써 상위 수준의 의사결정 과정을 획기적으로 간소화했다. 또 어디까지는 수행됐고, 어디부터 막혔는지를 기록해 반복적으로 실패하는 경로는 피하도록 했으며, 탐색이 부족한 영역을 찾아가는 별도의 탐색 전략과 실패 기록을 반영한 경로 정제 기법을 함께 적용해 다단계 과제도 효율적으로 목표를 달성하도록 했다. 다양한 벤치마크 실험에서 이 알고리즘은 복잡하고 장기적인 계획이 필요한 기존 강화학습 방법들을 압도하는 높은 효율성과 임무 성공률을 달성했다. 황재박 연구원이 제1저자로 참여했다. 연구팀은 “성공, 실패, 부분 성공을 나눠 저장해 학습 신호를 정리하는 데이터 재구성 기법인 프론티어 익스피리언스 리플레이(Frontier Experience Replay)를 개발해, 에이전트가 실제로 도달할 수 있는 범위를 학습하도록 한 것이 핵심”이라고 설명했다. ■“협력 AI도 상황 따라 바뀐다”… ‘유연한 뇌’ S2Q 알고리즘 개발 여러 AI가 협력해 움직이는 환경에서는 상황이 바뀌면서 더 나은 선택이 뒤늦게 나타나는 경우가 많다. 예를 들어 게임이나 로봇 협력 작업에서는 처음엔 좋은 선택이었던 행동이 시간이 지나면서 더 이상 최선이 아니게 바뀌기도 한다. 기존 강화학습은 한 시점에서 가장 좋아 보이는 행동 하나에 집중해 학습하기 때문에, 이런 변화가 생기면 새로운 최적 전략을 따라가지 못하고 기존 선택에 머무르는 경우가 많았다. 연구팀의 ‘연속적 하위 가치 Q-러닝(S2Q)’은 여러 개의 대안 행동을 함께 학습하도록 설계된 방법이다. 가장 좋은 선택뿐 아니라 그 다음으로 유망한 선택들까지 유지하면서, 상황이 바뀌면 이를 빠르게 새로운 최적 전략으로 전환할 수 있도록 했다. 제1저자인 조용현 연구원은 “기존의 다중 에이전트 인공지능이 오직 하나의 고정된 최적 행동에만 의존해 학습 중 상황 변화에 대처하지 못하는 ‘경직된 시스템’이었다면, 이번에 개발된 S2Q 기술은 훌륭한 대안이 될 수 있는 여러 차선책들을 미리 기억하고 유지하여 급변하는 상황에 즉각적으로 대처하는 ‘유연한 뇌’ 역할을 하는 기술”이라고 설명했다. 스타크래프트 멀티 에이전트 챌린지(SMAC) 및 구글 리서치 풋볼(GRF) 등 고난이도 벤치마크 테스트 결과, 기존 알고리즘들이 흔히 직면하던 조기 수렴 한계를 극복하고 적응력과 전반적인 성능을 대폭 향상시켰다. 한승열 교수는 “이번 연구는 제한된 데이터와 불확실한 환경에서도 강화학습을 안정적으로 적용할 수 있는 가능성을 보여준 것”이라며 “자율주행, 로봇, 스마트 제조 등 다양한 분야로의 확장이 기대된다”고 말했다. 연구수행은 과학기술정보통신부 정보통신기획평가원의 ‘자율드론상용화를 위한 과제 지향 강화학습 핵심기술 개발’, ‘AI 스타 펠로우십 프로그램’, ‘인공지능대학원 지원 사업’과 한국연구재단의 ‘LLM 기반 다중 에이전트 강화학습을 통한 대규모 자율군집제어 End-to-End 기술 개발 사업’의 지원을 받아 이뤄졌다. 한편, 올해 학회는 오는 4월 23일부터 27일까지 브라질 리우데자네이루에서 열린다.