주요연구

작업 상황 이해 및 추론이 가능한 거대 인공지능 모델 기반 로봇 조작 작업 학습 기술 개발
2025-02-04 hit 405
폰트줄이기 폰트키우기

작업 상황 이해 및 추론이 가능한 거대 인공지능 모델 기반 로봇 작업 학습 기술 개발 (Development of robotic manipulation task learning based on Foundation model to understand and reason about task situations)

인공지능데이터사이언스학과 구영현 교수


1. 서론

최근 자연어를 이해하고 생성하는데 뛰어난 능력을 보여준 거대 언어 모델(Large Language Model, LLM)의 발전은 인공지능 분야에서 혁신적인 변화를 가져오고 있으며, 다양한 산업과 응용 분야에서 활용되고 있다. 특히 거대 언어 모델과 로봇 분야의 결합은 매우 주목받는 주제로, 복잡한 환경에서의 자율적인 의사결정과 인간과의 직관적인 상호작용을 가능하게 하는 엄청난 잠재력을 가지고 있다. 로봇 학습은 기계가 스스로 데이터를 통해 작업을 배우고 적응하는 기술로, 기존에는 주로 센서 데이터와 정형화된 명령어에 의존했다. 그러나 거대 언어 모델의 도입으로 인해 로봇은 비정형적인 자연어 명령을 이해하고, 이를 기반으로 복잡한 작업을 수행할 수 있게 되었다. 


그림 1. 구글 딥마인드 AutoRT[1] - LLM을 통한 명령 이해, 작업 수행, 주변 상황 미학습 물체 이해  및 자율적으로 명령어 생성 가능


예를 들어, 사용자가 “테이블 청소 해줘”라고 말하면, LLM은 문장의 의미를 분석하여 로봇이 실행 가능한 작업 계획(Task Planning)을 생성하고 나아가 해당 작업 계획을 수행하기 위한 액션 코드(Action Code)를 생성하여 로봇 제어가 가능하게끔 한다. 로봇의 작업 계획은 로봇이 수행하고자 하는 특정 임무를 명확하게 정의하고, 이를 수행하기 위해 필요한 요소 행동들을 최적의 순서대로 나열하여 계획하는 것이다. 기존에는 로봇 작업 계획을 효율적으로 수행하기 위해 헝가리안 알고리즘 등 여러 가지 알고리즘을 사용하거나, 조립계획서와 같은 작업 계획에 대한 데이터셋을 딥러닝 모델의 학습을 통해서 수행했다. 그러나 최근에는 거대 언어 모델의 추론 능력을 기반으로 로봇이 수행할 작업을 입력하면 해당 작업을 수행하기 위한 요소 행동들을 계획해 주는 것이 가능하다.


거대 언어 모델은 사전에 학습한 데이터셋의 지식을 기반으로 추론을 수행한다. 모델은 학습 당시 포함되지 않은 최신 정보나 새로운 지식에 대해 알지 못할 수 있다. 이로 인해 이러한 정보와 관련된 추론 결과가 부정확하거나 완전하지 않을 가능성이 있다. 즉 다양한 작업환경 또는 기존에 학습하지 않은 제품이 작업환경에 나타났을 경우 추론 결과가 정확하지 않은 가능성이 있다. 


그림 2. 작업 상황 이해 및 추론이 가능한 거대 인공지능 모델 기반 로봇 작업 학습 기술 개발 개념도


따라서 본 연구에서는 거대 언어 모델 기반의 추론 결과가 부정확한 문제의 해결을 위한 방향성을 제시하고자 한다. 


2. Chain-of-Thought

Chain-of-thought의 특성은 언어모델의 추론 성능을 향상하기 위해 특정 분야에 대한 데이터셋을 추가하고 새롭게 학습하는 방식이 아닌 몇 개의 예제를 통해 원하는 분야의 해답을 도출할 수 있도록 하는 방법이다 [2]. 



그림 3. Standard Prompt와 Chain-of-Thought Prompt의 비교 예시, CoT가 논리적으로 문제를 분해하여 결과의 정확도를 향상하는 것을 확인[2]


이러한 방식은 로봇 인공지능 기술 기반의 작업 계획을 생성하는 분야에서 중요한 역할을 한다. 거대 언어 모델은 단순히 명령을 이해하는 것을 넘어, 복잡한 사고 과정(Chain-of-Thought)을 통해 로봇의 작업 계획을 설계할 수 있다. 이 사고 과정은 인간의 사고 흐름과 유사하게 정보를 단계적으로 분석하고 종합하여 결론을 도출하는 과정을 뜻한다. 


사용자가 “테이블을 정리해줘”라고 명령하면, 거대 언어 모델은 해당 문장의 의도를 분석하고 로봇이 어떤 물건을 어디로 옮길지 계획하고, 작업의 순서를 최적화하여, 체계적으로 계획한다. 또한 로봇이 여러 가능한 작업 방법 중에서 가장 효율적이고 적합한 방법을 선택하도록 도와준다. 이는 인간의 논리적 사고 과정을 모방하여 문제를 분해하고 분석하며, 최적의 솔루션을 결정하기 때문에 기존의 방법보다 유연하고 직관적이라고 할 수 있다. Chain-of-Thought 기법은 로봇이 예상치 못한 상황에서도 효과적으로 대응할 수 있도록 도와준다. 사용자의 의도 해석을 통해 단순히 물건을 옮기는 것이 아니라, “테이블 정리”가 필요한 이유를 추론하고, 이를 바탕으로 논리 및 근거에 따라 최적의 작업 순서를 포함한 작업 계획을 설계한다. 


Chain-of-Thought 기법은 로봇의 작업 수행 능력을 한 차원 높여주며, 복잡한 작업 환경에서도 효율적으로 작업을 수행하고, 인간과의 협업을 강화하는데 중요한 역할을 한다. 


3. 미학습 물체 인식 기술

“미학습 물체(unseen/unknow object)”란 인공지능 모델이 사전에 학습하지 않은 물체를 의미한다. 이는 모델의 훈련 데이터에 포함되지 않은 대상이나 클래스, 즉 기존 데이터에서 관찰되지 않은 특성을 가진 물체를 포괄한다. 현실에는 학습 데이터로 모두 커버할 수 없는 많은 물체와 상황이 존재한다. 그리고 모든 물체에 대해 데이터를 수집하고 라벨링하는 것은 비용, 시간, 자원 면에서 비효율적일 뿐 더러 개인 정보 보호 및 데이터 접근성에서도 제약을 받는다. 따라서 사전에 학습하지 않은 물체를 인식할 수 있는 “미학습 물체 인식” 기술이 필요하다. 이러한 “미학습 물체 인식”에서의 “미학습 물체”의 클래스는 “open vocabulary”를 통해 정의된다. 


"Open vocabulary"라는 개념은 머신러닝과 자연어처리(NLP) 연구에서 등장한 개념으로, 기존의 "closed vocabulary" 접근법의 한계를 극복하려는 시도에서 유래되었다. 전통적으로 NLP 모델은 미리 정의된 고정된 어휘(vocabulary)에 의존하여 언어를 처리했는데, 이 방식은 새로운 단어(unknown words)나 특정 도메인에서 자주 발생하는 고유 용어들을 다루는 데 한계를 보였다. 이러한 제약을 극복하기 위해 “open vocabulary”가 제안되었다. 이는 모델이 사전에 고정된 어휘 집합에 의존하지 않고, 학습 과정에서 새로운 단어와 개념을 유연하게 받아들이고 이를 학습할 수 있도록 설계된 것이다. 텍스트뿐만 아니라 이미지, 비디오, 오디오 등의 멀티모달 데이터를 통해 학습하는 시스템에서는 사전 정의된 어휘로 모든 개념을 포괄하기 어렵다. 따라서 새로운 포맷과 컨텍스트를 학습하면서 어휘를 확장하는 것에 대한 필요성이 “open vocabulary”이라는 개념을 촉진했다. 


“미학습 물체 인식” 기술은 기존 데이터만 의존하지 않고, 인간처럼 새로운 상황에서도 유연하게 대응할 수 있는 범용성이 있는 인공지능 모델을 개발하는데 중요한 역할을 한다. 해당 기술은 범용 인공지능 구현을 위한 필요적인 요소로 학계와 산업계 모두에서 지속적으로 연구될 것을 전망하고 있다. 특히 거대 언어 모델과 로봇 분야의 결합에서 중요한 역할을 하고 있으며, 향후에는 자율주행, 보안, 의료 등 다양한 분야에서 핵심 기술로 자리 잡을 것이다. 


로봇이 다양한 작업을 수행하기 위해서는 방대한 양의 학습 데이터와 고도로 특화된 데이터셋이 필요하다. 그러나 현실적으로 특정 작업에 특화된 데이터셋은 부족하며, 이를 확보하는데는 막대한 시간과 자원이 소요된다. 따라서 새로운 환경과 작업에 빠르게 적응하지 못하는 한계를 극복하기 위한, 혁신적인 “미학습 물체 인식 기술”은 로봇분야의 연구방향에서 압도적인 자리를 차지하고 있다. 


로봇에 “미학습 물체 인식” 기술 적용을 통해 미리 학습되지 않은 새로운 물체를 인식할 수 있기 때문에, 다양한 환경에서 작업을 수행할 수 있다. 그리고 작업 환경이 변화하거나 새로운 물체가 추가되어도 로봇의 성능이 유지된다. 또한 사전 학습을 위해 대량의 데이터셋을 수집하거나 학습시키는 과정을 필요하지 않아, 다양한 물체를 인식하고 조작할 수 있으므로 작업의 범위와 효율성이 확대된다. 이는 데이터 라벨링 및 모델 훈련에 소요되는 시간과 비용을 크게 절감할 수 있다. “미학습 물체 인식” 기술은 사전에 학습된 데이터에 의존하지 않고, 패턴이나 특징을 기반으로 물체를 이해하기 때문에, 새로운 물체가 추가되더라도 재학습 과정 없이 새로운 물체를 빠르게 인식하고 대응할 수 있어 동적인 환경에서 유연하게 인간-로봇 상화작용을 진행할 수 있다. 


4. 검색 증강 생성

검색 증강 생성(Retrieval-Augmented Generation, RAG) 모델은 거대 언어 모델과 정보 검색 시스템을 결합하여 질문에 대한 답변을 생성하거나 특정 작업을 수행하는 데 사용되는 첨단 AI 기술이다. 거대 언어 모델은 활발하게 활용되고 있지만, 여전히 환각(Halluciation) 문제, 지식 업데이트 문제, 도메인 별 전문성 부족과 같은 몇 가지의 핵심 문제로 로봇 분야 뿐만 아니라 기타 분야에서도 어려움을 겪고 있다. 외부 지식 데이터베이스를 활용하여 LLM을 증강하는 검색 증강 생성의 등장은 LLM의 이러단 단점을 보완했다[3]. 검색 증강 생성 모델은 주어진 입력에 기반하여 외부 데이터베이스에서 관련 정보를 검색한다. 그 다음 검색된 정보를 융합 기술을 사용하여 입력 데이터와 결합한다. 마지막으로 입력과 해당 검색 정보를 바탕으로 생성기가 예측을 수행한다. 


그림 4. 검색 증강 생성 개요, 검색 증강 생성은 크게 검색기(Retirever), 검색 융합(Retrieval Fusions), 생성기(Generations)로 구성됨[3]


4.1 검색기(Retriever)

검색기는 입력된 쿼리에 대한 관련성 높은 문서나 정보를 데이터베이스에서 찾아내는 구성요소이다. 이 단계에서 사용자는 빠르고 정확하게 필요한 정보를 얻기 위해 고도로 최적화된 검색 알고리즘을 활용한다. 


4.2 검색 융합(Retrieval Fusions)

검색 융합은 검색된 정보를 활용하여 생성 과정을 보강하는 것을 목표로 한다. 이러한 융합 기법은 크게 쿼리 기반 융합(Query-based fusion), 잠재 융합(Latent fusion) 그리고 로짓 기반 융합(Logits-based fusion)으로 나뉜다. 쿼리 기반 융합은 검색된 정보를 생성기에 입력하기 전에 이를 입력 데이터에 추가하여 보강한다. 잠재 융합은 검색된 표현을 생성기의 잠재 표현에 도입하여 모델의 성능을 향상시키는 방식이다. 로봇 기반 융합은 생성기의 출력 로짓에 초점을 맞추며, 검색된 정보의 로짓을 융합하여 더 견고한 로짓 출력을 제공한다.


4.3 생성기(Generator)

생성기는 기본 생성기와 검색 증강 생성기로 분류된다. 기본 생성기에는 대부분의 사전 학습 또는 미세 조정된 대규모 언어 모델이 포함된다. 예를 들면 GPT 계열의 모델, 그리고 Gemini 계열의 모델 등이 있다. 검색 증강 생성기는 검색된 정보를 융합하는 모듈을 포함한 사전 학습 또는 미세 조정된 생성기를 의미한다. 


거대 언어 모델은 사전 훈련된 지식을 기반으로 추론을 진행하기 때문에 새로 업데이트된 지식에 대한 정보가 없다. 또한 미학습 물체 인식 기술 기반으로 작업환경에서 새로 나타나거나 기존에 학습하지 않은 물체의 이름을 알아도 해당 물체의 정의 또는 기능에 대한 정보를 학습하지 않았기 때문에 정확한 추론을 하는데 어려움이 있다. 로봇 작업에 검색 증강 생성 모델을 함께 사용하는 것은 작업환경에서 처음 나타나거나 기존에 학습하지 못한 물체에 대한 관련 정보를 이용하여 거대 언어 모델이 더욱 정확한 조작 계획을 추론할 수 있게끔 하는 도와주는 작용을 한다. 


그림 5. Chain-of-thought,미학습 물체 인식, 검색 증강 생성 등 기술을 통한 모호한 명령 추론 기반 작업 계획 생성 


5. In-Context Learning 

In-Context Learning은 거대 언어 모델이 새로운 작업을 수행하기 위해 별도의 추가 학습(Fine-tuning) 없이, 주어진 문맥 내에서 제공된 예시를 통해 작업의 패턴을 학습하고 수행하는 능력을 의미한다. 이는 언어모델의 능력을 극대화하고, 특정 작업에 빠르게 적응할 수 있도록 설계된 중요한 기법이다. In-Context Learning 기법 적용 시 입력으로 사용되는 프롬프트(Prompt)는 거대 언어 모델이 특정 작업을 수행할 수 있도록 지시를 내리거나 문맥을 제공하는 입력 텍스트를 의미한다. 프롬프트는 모델이 어떤 작업을 수행해야 하는지 이해하고, 적절한 응답을 생성할 수 있도록 설계된다. 


그림 6. In-Context Learning 예시[4]


기존의 로봇은 강화 학습과 지도 학습을 많이 사용하였지만 해당 학습 방법들은 학습 데이터 생성 및 모델 학습에 오랜 시간이 소요되는 문제와, 고가의 센서, 시뮬레이션 환경 구축이 어렵고 모델 학습에 컴퓨팅 자원이 많이 소요되는 문제점이 있다. 또한 로봇은 다양한 작업 수행에 대한 적응성을 필요로 한다. 단일 작업만 수행하는 것이 아니라 다양한 작업을 처리해야 하는 상황에서, 매번 새롭게 학습하거나 프로그래밍하는 것은 비효율적이다.


In-Context Learning 기술은 로봇이 복잡하고 변화하는 환경에서도 인간처럼 유연하게 적응하며 다양한 작업을 효율적으로 수행할 수 있도록 돕는 핵심 기술이다. 예를 들어, 가정 환경에서 사용되던 로봇 모델을 사무실 환경으로 전환할 경우, 작업 환경의 변화로 인해 모델이 적절한 작업 계획을 생성하지 못할 수 있다. 그러나 In-Context Learning 기술을 활용하면, 사무실 환경에 대한 몇 가지 예시만 제공해도 로봇이 새로운 환경에 빠르게 적응할 수 있다. 이는 사무실뿐만 아니라 제조 공장 등 다양한 서비스 환경에서도 효율적인 적용을 가능하게 한다.


그림 7. 로봇 작업에서 거대 언어 모델에 직접 In Context Learning 기법을 적용한 예시와 거대 언어 모델 기반 모호한 명령 이해 및 추론 모델에 In-Context Learning 기법을 적용한 예시 비교


6. 작업 상황 추론 LLM 로봇 기술 개발

앞서 거대인공지능 모델이 로봇 분야에서의 다양한 한계를 극복하기 위해 필요한 기술들을 살펴보았다면, 해당 기술들을 모두 적용할 시 어떤 효과를 얻을 수 있는지 살펴보자. 


Chain-of-Thought 기술은 비록 논리 및 근거에 따라 로봇의 작업 계획을 생성하지만 거대 언어 모델이 사전에 학습한 지식에 의거하기 때문에 생성한 작업계획이 불완정하지 않거나 오류가 있을 수 있다. 미학습 물체 인식 기술은 로봇더러 동적인 작업환경을 더 잘 이해할 수 있게끔, 물체의 클래스(이름)을 거대 언어 모델에 알려준다. 하지만 물체의 이름만 알고 해당 물체의 기능, 해당 환경에서 어떤 작용을 하는지 모르면 여전히 도움이 되지 않기 때문에 검색 증강 생성 기술을 적용하여 미학습 물체 인식 기술 및 Chain-of-Thought 기술 기반 단계별 보다 정확한 추론을 진행할 수 있도록 한다. 마지막으로 해당 기술이 다양한 환경에서의 빠른 적응을 위해 In-Context Learning 기술을 도입한다. 


그림 8. human robot interface 예시


7. 결론 

실시간 대응 로봇 자동화 기술은 국제적인 기술 경쟁이 활발히 이루어 지고 있고 국내 기관에서도 연구 개발을 수행하고 있으나 실환경에서 사용 가능한 수준에 달성하지 못한 상황이다. 제조, 사무 환경뿐만 아니라 다양한 서비스 영역에서도 노동력 부족 현상과 서비스 수요 다양화에 대응하기 위해 로봇 자동화 시스템 수요가 증가하고 있다. 거대 언어 모델을 적용한 로봇 기술을 활용하여 수행할 작업을 분석하는 것을 통해 환경 변화에 유연하게 대처함으로써, 다양한 환경에서 범용적으로 사용할 수 있을 것을 기대하고 있다. 중소기업의 기술 접근 장벽을 낮추고 기술 지원 및 활성화를 기대하고, 특정 산업 외 전 산업에 결쳐 자동화율을 높임과 동시에 다양한 서비스에 접목하여 확장할 수 있을 것으로 기대한다. 뿐만 아니라 의료 전문 서비스 분야의 자동화나, 질병 혹은 고령화로 인해 자립적인 물체 조작과 같은 상황 대응이 어려운 사람을 보조하는 공공 서비스 분야에 자동화 기술을 확장함으로써 서비스 적용 범위가 확대되고 품질이 향상될 수 있을 것으로 기대된다.


8. Reference

[1] Ahn, M., Dwibedi, D., Finn, C., Arenas, M. G., Gopalakrishnan, K., Hausman, K., ... & Xu, Z. (2024). Autort: Embodied foundation models for large scale orchestration of robotic agents. arXiv preprint arXiv:2401.12963.

[2] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., ... & Zhou, D. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35, 24824-24837.

[3 Wu, S., Xiong, Y., Cui, Y., Wu, H., Chen, C., Yuan, Y., ... & Xue, C. J. (2024). Retrieval-augmented generation for natural language processing: A survey. arXiv preprint arXiv:2407.13193.

[4] Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... & Sui, Z. (2022). A survey on in-context learning. arXiv preprint arXiv:2301.00234.