본문 바로가기

■ 밤샘수다방/디지털|데이터|AI

AI, 스스로 배우는 '경험 시대'로의 대전환 - Welcome to the Era of Experience(2025)

728x90
728x90

안녕하세요. 밤샘입니다.

 

 

구글 DeepMind의 연구원인 데이비드 실버(David Silver)와 캐나다 앨버타 대학교의 컴퓨터 과학자인 리처드 서튼(Richard S. Sutton)은 지난 4월, 공동 연구 논문인  Welcome to the Era of Experience을 발표했습니다. 이 논문에서 실버와 서튼은 AI가 인간이 만들고 정제한 데이터에 의존하는 '인간 데이터 시대'는 한계에 도달했으며, AI가 스스로 환경과 상호작용하며 경험을 통해 학습하는 '경험 시대'로의 근본적인 전환이 불가피하다고 주장했습니다. AI가 더 이상 수동적으로 지식을 습득하지 않고, 능동적인 경험을 통해 비약적인 발전을 이룰 것이라고 예측한 거예요.

 

 

 

 

'인간 데이터'를 벗어나

지금까지 AI는 인간이 수집하고 가공한 방대한 데이터를 학습하며 발전해 왔습니다. 빅데이터와 AI는 뗄레야 뗄 수가 없는 관계인 거죠. 저 역시 그렇게 강의하고 있습니다. 이 방식은 이미지 인식, 자연어 처리 등 다양한 분야에서 놀라운 성과를 거두었지만, 근본적인 한계도 있어요. 인간의 데이터는 편향성을 가지고 있기 때문에 AI의 판단 오류를 야기할 수 있으며, 급변하는 현실 세계의 새로운 정보를 실시간으로 반영하기 어렵습니다. 다시 말해, 과거의 지식에만 의존하여 새로운 상황에 제대로 대처하지 못하는 전문가처럼, 인간 데이터에 갇힌 AI는 인공지능 연구의 궁극적인 목표인 '인공 일반 지능(AGI; Artificial General Intelligence)'에 도달하기 어려울 수 있다는 겁니다.

 

또한, 인간의 지식과 경험이라는 틀 안에서만 학습이 이루어지기 때문에, AI가 진정으로 혁신적인 사고를 하거나 예측 불가능한 문제에 유연하게 대처하는 것도 어렵습니다. 실버와 서튼은 이러한 '인간 데이터 시대'를 벗어나, AI 스스로가 데이터를 생성하고 학습하는 새로운 길을 모색해야 한다는 새로운 패러다임을 제시했어요.

 

즉, AI가 시뮬레이션 환경이나 실제 세계에서 다양한 시행착오를 거치며, 그 과정에서 얻는 경험을 통해 스스로 지식을 습득하고 능력을 향상하는 방식을 제시한 겁니다. 숙련된 장인이 오랜 시간 동안 다양한 경험을 통해 자신만의 노하우를 축적하는 것처럼, AI 또한 능동적인 경험을 통해 더욱 강력하고 유연한 지능을 갖추게 될 것이라는 거죠.

 


'경험'이라는 새로운 엔진

'경험 시대'의 핵심 동력은 AI가 자율적으로 환경과 상호작용하며 얻는 '경험'입니다. AI가 '경험'을 통해 학습한다는 것은 새로운 데이터를 수집하는 차원을 넘어섭니다. AI가 목표를 설정하고, 다양한 행동을 시도하며, 실패로부터 배우는 일련의 과정을 수행하여 얻은 결과를 통해 스스로 학습하는 능동적인 과정을 의미하기 때문입니다.

 

강화 학습과 같은 기술이 이러한 패러다임의 핵심적인 역할을 수행하며, AI는 보상을 최대화하는 방향으로 스스로 행동 전략을 발전시켜 나갑니다. 알파고가 수많은 자기 대국을 통해 인간의 직관을 뛰어넘는 새로운 바둑 전략을 창출했듯이, 미래의 AI는 현실 세계 또는 시뮬레이션 환경에서 다양한 경험을 축적하며 인간이 상상하기 어려운 수준의 지능을 갖게 될 것입니다.

 

이 방식은 인간이 미처 예상하지 못한 새로운 지식이나 해결책을 AI가 스스로 발견할 수 있는 가능성을 열어줍니다. 인간의 지식과 경험에 갇히지 않고, AI 스스로 현실 세계와의 상호작용을 통해 더욱 깊고 넓은 이해를 구축할 수 있기 때문이죠. 정해진 틀 안에서만 생각하던 사람이 새로운 환경에 놓이면서 예상치 못한 창의적인 아이디어를 떠올리는 것과 유사한 효과를 가져올 수 있습니다.


강화 학습과 스트림 학습의 융합

'경험 시대'를 이끌어갈 핵심 기술로는 강화 학습과 스트림 학습이 주목받고 있습니다. 강화 학습은 AI가 특정 목표를 달성하기 위해 시행착오를 거치며 최적의 행동 방식을 스스로 학습하는 패러다임입니다. 명확한 보상 체계만 주어진다면 AI는 인간의 개입 없이도 놀라운 수준의 문제 해결 능력을 보여줍니다. 여기에 인간이 평생 동안 지속적으로 학습하듯이 AI도 장기간의 상호작용을 통해 끊임없이 지능을 발전시키는 스트림 학습 방식이 중요해질 것입니다. 일회성의 학습이 아닌, 지속적인 경험 축적을 통해 AI는 더욱 견고하고 유연한 지능을 갖추게 될 거예요.

 

Welcome to the Era of Experience p.6

 

 

위 그래프는 AI 연구 발전 단계를 세 가지 시대로 구분하고, 각 시대별 주요 AI 모델과 강화 학습에 대한 관심도를 나타냅니다. AI 연구의 흐름과 미래 AI 발전 방향을 보여 주는 거예요.

 

①시뮬레이션 시대(Era of Simulation) - 약 2014~2018년

시뮬레이션 시대에는 Atari 게임을 플레이하는 AI와 바둑 AI인 AlphaGo가 등장하며 강화 학습에 대한 관심이 점차 증가하는 추세를 보입니다. AlphaZero는 이 시대의 정점을 나타내는 모델로, 순수 강화 학습만으로 바둑, 체스, 쇼기에서 인간 최고 수준을 능가하는 성능을 보여주며 큰 주목을 받았습니다.


②인간 데이터 시대(Era of Human Data) - 약 2018~2022년

인간 데이터 시대에는 GPT-3와 ChatGPT와 같은 대규모 언어 모델(LLM)이 등장하며 AI 연구의 중심이 인간이 만든 방대한 데이터 학습으로 이동하는 경향을 보입니다. 그래프에서 강화 학습에 대한 관심도는 AlphaZero 이후 상대적으로 감소하는 것을 확인할 수 있습니다. 자연어 처리 분야의 발전이 AI 연구의 주요 흐름을 이끌었기 때문이라고 여겨집니다.


③경험 시대(Era of Experience) - 약 2024년 이후

경험 시대에는 AI가 스스로 경험을 통해 학습하고 발전하는 방향으로 나아갈 것으로 예상됩니다. 그래프는 Computer Use(컴퓨터 활용)와 AlphaProof(수학 증명 AI)와 같은 모델을 예시로 들며, 강화 학습에 대한 관심이 다시 급격하게 증가하여 '초인적 지능(Superhuman Intelligence)'에 도달할 것으로 예측하고 있습니다. AI가 실제 세계나 시뮬레이션 환경과 능동적으로 상호작용하며 스스로 데이터를 생성하고 학습하는 방식이 중요해질 것이라는 전망을 반영하는 거죠. 즉, '경험 시대'에는 AI가 더욱 자율적이고 능동적으로 학습하여 궁극적으로 초인적 지능에 도달할 수 있을 것이라는 기대감을 나타냅니다.

 

 

인간의 역할, 목표 설정과 보상 설계

'경험 시대'에도 인간의 역할은 여전히 중요합니다. AI가 스스로 학습 방향을 설정할 수는 없기 때문에, 인간은 추구해야 할 목표를 명확하게 제시해야 합니다. 또한, AI의 행동에 대한 보상 체계를 설계함으로써, AI가 바람직한 방향으로 학습하도록 유도해야 합니다. 부모가 아이에게 올바른 가치관을 심어주고 칭찬과 격려를 통해 성장을 돕는 것처럼, 인간은 AI의 잠재력을 최대한으로 끌어올리는 조력자이자 안내자로서의 역할을 수행해야 할 것입니다.

 

AI가 스스로 경험하며 똑똑해진다면, 우리 삶의 다양한 분야에서 혁신적인 변화가 일어날 겁니다. 예를 들어, 헬스케어 분야에서는 AI가 환자와 직접 소통하며 데이터를 모으고 분석해서 더욱 정확하고 개인 맞춤형 치료법을 찾아낼 수 있겠죠. 심각한 환경 문제 역시, AI가 스스로 복잡한 데이터를 학습하고 분석해서 새로운 해결책을 제시할 수 있습니다.

과거에는 인간의 직관에 의존해야 했던 어려운 문제들을, AI가 스스로 데이터를 파악하고 최적의 해결책을 찾아주는 시대가 열릴지도 모릅니다. AI는 도구를 넘어, 인류가 직면한 거대한 문제들을 함께 해결해나가는 든든한 동반자가 될 수 있을 거예요.

 

 

AGI를 향한 필수적인 여정

실버와 서튼은 AI가 '경험 시대'로 진입하는 것이 궁극적으로 인공 일반 지능(AGI)을 달성하기 위한 필수적인 경로라고 강조합니다. 인공지능 일반화라고도 표현하는 AGI는 인간처럼 다양한 지적 능력을 갖추고, 어떤 새로운 작업에도 유연하게 적응하여 수행할 수 있는 AI를 의미합니다. 인간이 만든 데이터에만 의존하는 방식으로는 이러한 수준의 지능을 구현하기 어렵다는 것이 그들의 핵심 주장입니다.

스스로 경험을 통해 학습하는 AI는 특정 분야에 국한된 전문가 수준의 능력을 넘어, 다양한 영역에서 인간과 유사하거나 뛰어넘는 지적 능력을 발휘할 수 있을 것으로 기대됩니다. 이는 특정 분야의 전문가인 '스페셜리스트'가 아닌, 폭넓은 지식과 경험을 바탕으로 다양한 문제 해결에 능숙한 '제너럴리스트'에 더 가까워지는 것을 의미합니다. 

 

 


데이터의 폭발적인 증가와 새로운 도전 과제

물론 AI가 '경험 시대'로 나아가기 위해서는 해결해야 할 과제도 많습니다.  '경험 시대'에는 AI가 스스로 생성하는 데이터의 양이 현재 인간이 만든 데이터를 압도적으로 넘어설 것으로 예상되므로, AI 연구에 새로운 기회를 제공하는 동시에, 데이터 관리, 학습 효율성, 그리고 예상치 못한 부작용에 대한 새로운 도전 과제가 생길 겁니다. 인류는 AI가 생성하는 방대한 데이터를 효과적으로 활용하고, 잠재적인 위험을 예측하고 방지하기 위한 새로운 연구와 기술 개발에 힘써야 해요.

 

또한, 스스로 학습하는 AI의 안전성과 신뢰성을 확보하는 문제, 예상치 못한 방식으로 작동할 가능성에 대한 대비, 그리고 윤리적인 문제 등 다양한 측면에서 심도 있는 연구와 논의가 필요합니다. 새로운 기술이 발전할 때마다 그 기술의 잠재적인 위험을 관리하고 사회적으로 수용 가능한 방향으로 발전시키기 위한 노력이 필요한 것처럼요.

 

그럼에도 불구하고, 실버와 서튼이 제시하는 '경험 시대'는 인공지능 연구의 새로운 가능성을 열어주는 매우 중요한 통찰력을 발휘합니다. 인간 데이터의 한계를 넘어 스스로 학습하고 성장하는 AI는 궁극적으로 인류의 삶을 더욱 풍요롭고 지혜롭게 만들어 줄 잠재력을 지니고 있기 때문이죠. 앞으로 AI가 어떤 놀라운 발전을 이루어낼지, 그리고 그것이 우리 사회에 어떤 혁신적인 변화를 가져올지 기대하며 지켜봐야 할 것입니다.

 

 



데이비드 실버와 리처드 서튼의 논문은 AI 발전의 패러다임 대전환을 예고했습니다. '경험 시대'로의 전환은 AI가 인간의 지능을 뛰어넘는 수준으로 발전할 수 있는 잠재력을 제시하는 동시에, 새로운 윤리적, 사회적 고민을 하게 합니다. 우리는 변화의 흐름을 주시하며, AI가 인류의 삶에 긍정적인 영향을 미칠 수 있도록 지혜롭게 준비해야 할 거예요.

 

방문해주신 모든 분들, 고맙습니다.

오늘 하루도 수고 많으셨어요.

 

728x90
320x100