강화 학습을 사용한 이족 보행 로봇의 구현

김동건 장준혁 차건호 유승혁 권민결 박이언 이제율

1. 서론


제어란 시스템을 원하는 방향으로 작동하게 만드는 학문이다. 이족보행 로봇은 사람처럼 걸으며 다양한 지형에서 균형을 유지해야 하는 복잡한 제어 과제를 안고 있다. 이를 위해 다수의 자유도를 가진 다리 관절이 협력해야 하며, 불안정한 동작과 외부 충격에 반응할 수 있는 고도화된 제어 시스템이 요구된다. 기존 제어는 모델 기반의 물리적 접근을 통해 동작을 정밀하게 설계했으나, 복잡한 환경에서 실시간으로 반응하기 어렵고 다양한 환경에 대한 적응력이 떨어졌다.

최근에는 인공지능 발전에 따라, 강화학습이 이러한 문제의 해결책으로 주목받고 있다. DQN(Deep Q-Network)은 상태와 보상을 학습하여 최적의 행동을 찾는 방식으로, 복잡한 제어 문제를 효과적으로 해결한다. 이를 통해 이족보행 로봇은 상태에 따른 보상만으로도 인간의 개입 없이 균형을 유지하고 다양한 지형에서 걸을수 있게 되었다.

따라서 우리는 이러한 강화학습을 Python 환경에서 구현하고, 적합한 하드웨어를설계·제작하여 다양한 환경에서 생성된 보행 패턴이 원활하게 작동함을 확인하고자 한다.

2. 연구과정


3D 모델링을 통하여 로봇의 본체를 설계한 후에 3D 프린팅을 진행하고 조립하여 로 봇을 제작한다. 또한, 이러한 과정에서 발생하는 다양한 관절 포인트들의 각도를 고 려하여 소프트웨어와 유기적으로 매끄럽게 동작할 수 있도록 한다.

그림 1. 하드웨어 제작에 사용된 부품

그림 1. 하드웨어 제작에 사용된 부품

그림 2. 연구를 위해 제작한 Biped Robot

그림 2. 연구를 위해 제작한 Biped Robot

러닝 워크플로우 중 하나인 PyTorch를 사용하여 모델을 구성한다. 시뮬 레이션을 위해 PyBullet환경을 구축하고, 하드웨어 파트에서 제작한 로봇을 본뜬 더 미 모델을 사용한다. 이러한 소프트웨어는 로봇에 라즈베리파이에서 구동한다.

그림 3. PyBullet 시뮬레이션 환경

그림 3. PyBullet 시뮬레이션 환경

3. 연구결과