본문 바로가기

인공지능/논문 번역 및 공부

스튜어드 러셀의 인공지능을 읽어보자(4) : 합리성과 환경

반응형

다시 돌아온 스튜어드 러셀의 인공지능입니다.

혹시 저번 글 읽지 않으셨다면 

startagainbornagain.tistory.com/65

 

스튜어드 러셀의 인공지능을 읽어보자(3) : 지능적 에이전트?

안녕하세요 오늘은 이어서 스튜어드 러셀의 인공지능을 읽고 쓰는 글입니다. 혹시 저번 글을 읽지 않으셨다면 startagainbornagain.tistory.com/58 스튜어드 러셀의 인공지능을 읽어보자(2) : 인공지능이

startagainbornagain.tistory.com

읽고 와주세요~

 

저번에 간략하게 설명했던 합리성부터 시작하겠습니다.

 

합리성

어진 임의의 순간에서 무엇이 합리적인지는 다음 네 가지에 달려 있습니다.

 

  • 성공의 기준을 정의하는 (1)성과 측정.
  • 환경에 대한 에이전트의 (2)사전 지식
  • 에이전트가 수행할 수 있는 (3)동작
  • 에이전트의 지금까지의 (4)지각열

이들로부터 다음과 같은 합리적 에이전트의 정의를 이끌어 낼 수 있습니다.

 

각각의 가능한 지각열(4)에 대해, 합리적 에이전트는 자신의 지각열(4)과 에이전트의 내장 지식(2)이 제공하는 증거에 기초해서 성과 측정치(1)를 극대화할 만한 동작(3)을 선택해야한다.

 

 

예를 들어봅시다

우리 대신 바닥을 깨끗하게 해주는 진공청소기가 한 번 지나갈 때마다 깨끗해지는 공간을 사각형이라 생각하고

더러우면 청소하고 그렇지 않으면 이동하는 청소기 로봇이라고 가정해봅시다.

 

 

 

 

  • 각 시간 단계에서 깨끗한 사각형마다 1점을 획득하는 방식으로 성과를 측정합니다. 진공청소기의 '수명'은 1000개의 시간 단계로 이루어집니다.
  • 환경의 '지리'는 선험적으로(A PRIORI)알려져 있으나 먼지의 분포와 에이전트의 초기 위치는 그렇지 않습니다. 깨끗한 사각형은 깨끗한 상태를 유지하고, 진공청소기가 먼지를 빨아들인(동작) 사각형은 깨끗해집니다. left동작과 right동작은 에이전트를 각각 왼쪽 또는 오른쪽으로 움직입니다. 단, 그 동작 때문에 에이전트가 환경 밖으로 나가게 되는 경우에는 에이전트가 이동 없이 현재 사각형에 남습니다.
  • 가능한 동작은 LeftRight, 빨아들이기뿐입니다.
  • 에이전트는 자신의 위치 및 그 위치의 먼지 유무를 정확히 인식합니다.

우리는 위 상황에서 에이전트가 실제로 합리적이라고 주장합니다.  여기서 더 합리적이게 한다면 깨끗한 공간을 청소하거나 청소한 구역을 또 청소한다면 성과 측정에서 '-'를 하면 더 합리적일 수 있게됩니다.

 

전지, 학습, 자율성

리성과 전지(omniscience)를 신중하게 구분할 필요가 있습니다. 전지한 에이전트는 자신의 동작의 실제 결과를 미리 알고 그에 따라 행동할 수 있습니다. 전지적 에이전트를 만들려는 시도 중 OpenAI의 월드 모델이 있겠네요.

arxiv.org/abs/1803.10122

 

World Models

We explore building generative neural network models of popular reinforcement learning environments. Our world model can be trained quickly in an unsupervised manner to learn a compressed spatial and temporal representation of the environment. By using fea

arxiv.org

하지만 솔직히 현실적으로 전지적 에이전트는 불가능에 가깝습니다.

 

만약 여러분의 친구가 횡단보도를 건너려다 교통사고를 당했다고 가정해봅시다.

이 때 우리는 '멍청하게 도로를 건너려했다'라고 표현하지 않습니다. 실제로 우리는 지금까지 진행해 왔던 지각열에만 의존하기 때문입니다.

 

친구가 당연히 교통사고가 일어나기 전에 '양옆을 확인 한 후 건너자'라는 과정(지각과 지각열)을 통해 횡단보도 건너는 것을 선택했을겁니다. 그렇기에 우리는 향후 지각들을 수정하기 위한 동작들을 수행하는 것은 합리성의 중요한 부분입니다. 정보 수집(information gathering)이라고 불릅니다.

 

마찬가지로 우리는 항상 지각열이 꽉차있는 즉 많은 경험을 한 상태로 에이전트가 시작하지 않습니다.

그래서 우리는 탐험(exploration) 역시 정보 수집의 예입니다.

 

탐험 하나로 에이전트를 진행한다면 아마 옳바른 길을 찾기 어려울 것입니다. 에이전트는 우리가 시험 공부를 하는 것과 마찬가지로 최대한 많은 걸 배우고 학습해야합니다.

 

하지만 이렇게 사전지식만 의존하게 된다면 자율성(autonomy)이 부족하다고 할 수 있습니다 자율성이 부족한 에이전트들은 더 좋은 방법이 있어도 찾아내지 못합니다

 

환경의 본성

리성을 정의했으니 이번에는 과제 환경(task environment)을 생각해 보아야 합니다. 합리성은 문제를 푸는 것이라고 하면 과제 환경은 문제를 제시하는 것이라고 말할 수 있겠습니다.

 

과제 환경의 명시

이전트의 합리성을 논의할 때 우리는 구체적인 성과 측정방식과 환경, 그리고 에이전트의 작동기 및 감지기들을 명시해야 했습니다 그러한 항목들을 통칭해서 과제환경이라고 부릅니다. 이를 두문자어로 PEAS(Performance, Environment, Actuators, Sensors)를 줄인 것입니다.

 

성과 측정은 우리가 앞서 설명했던 성과 측정입니다.

 

환경은 말 그대로 그 상황에 처한 환경입니다 뭐 택시를 예를 들자면 누가 타는가, 어디에서 고객이 기다리는가에 대한 상황들을 말하는 것입니다.

 

작동기는 인간 운전자가 사용하는 것들 가속기(가속 페달), 조타, 핸들같은 것들 입니다.

 

감지기는 과속 단속 카메라 같은 속력이나 그런 것들을 측정하기 위한 것들 입니다.

 

오늘은 이렇게 환경까지 했구요 다음에는 과제 환경의 속성(내용 많을 예정), 에이전트의 종류(간략하게 무엇이 있는지만 설명)에 대해 설명하겠습니다 감사합니다.

반응형
LIST