본문 바로가기

인공지능/논문 번역 및 공부

스튜어드 러셀의 인공지능을 읽어보자(5) : 환경의 속성과 에이전트의 종류

반응형

저번 글을 읽지 않으신 분은

startagainbornagain.tistory.com/70

 

스튜어드 러셀의 인공지능을 읽어보자(4) : 합리성과 환경

다시 돌아온 스튜어드 러셀의 인공지능입니다. 혹시 저번 글 읽지 않으셨다면 startagainbornagain.tistory.com/65 스튜어드 러셀의 인공지능을 읽어보자(3) : 지능적 에이전트? 안녕하세요 오늘은 이어서

startagainbornagain.tistory.com

읽고 오시면 좋을거 같습니다.

 

오늘은 그림이 없을 예정입니다.

 

 

과제 환경의 속성

 

공지능이 활동하는 과제 환경이 아주 다양하다는 점은 우리는 항상 다른 문제들과 환경을 마주한다는 부분에서 확실하다고 생각합니다. 그러나 그러한 과제 환경들을 비교적으로 적은 수의 차원들로 범주화(분류)하는 것도 가능합니다.

 

완전 관찰 기능(fully observable)환경 대 부분 관찰 가능(partially observable)

에이전트의 감지기가 각 시간 지점에서 환경의 완전한 상태에 접근할 수 있는 과제 환경을 가리켜 완전 관찰 기능이라고 말합니다. 만일 감지기들이 동작의 선택에 유관한(relevant) 모든 측면을 감지할 수있다면, 그러한 과제 환경은 사실상 완전 관찰 기능입니다. 한편 유관성(relevance)은 성과 측정에 의존합니다.

 

에이전트에 감지기가 아예 없으면 과제 환경은 관찰 불가능(unobsorvable)이라고 합니다.

 

단일 에이전트(single agent)환경 대 다중 에이전트(multiagent) 환경: 이 분류는 쉽게 말해 모델이 하나인가 혹은 하나 이상인가에 대해 나눈 것 입니다. 여기서 다중 에이전트에서 또 종류가 나뉘어 지는데 체스같은 경쟁을 하는 다중 에이전트에 경우 경쟁적(competitive)라고 하고 자율 주행과 같은 경우는 협동적으로 사고를 내지 않기 위해 학습하니 협동적(cooperative)라고 합니다. 또 다르게 다중 에이전트에서도 2가지 분류로 나뉘는데 서로 의사소통(communication 혹은 통신)이 합리적인 행동을 창발합니다. 일부 경쟁적 환경에서는 무작위 행통(randomized behavior)이 합리적일 때가 있습니다.(단 예측 가능성의 함정을 피한다는 점에서)

 

결정론적(deterministic) 환경확률론적(stochastic) 환경: 만일 환경의 다음 상태가 전적으로 현재 상태와 에이전트가 수행한 동작으로만 결정된다면, 그러한 환경을 가리켜 결정론적이라고 말합니다.

그 반대는 확률론적이게 되는 것이고요.

 

(여기서 줄마다 서로 다른 속성이고요 항상 불확실성에 대해 고민해야합니다)

 

일화적(episodic) 환경순차적(sequential) 환경 :  일시적 과제 환경에서 에이전트의 경험은 원자적인 일화들로 나뉩니다.

 

정적(static) 환경 동적(dynamic)환경 : 에이전트가 다음 행동을 고민하는 동안 변할 수 있는 환경을 가리켜 그 에이전트에 대해 동적인 환경이라고 말합니다. 그리고 준동적인 환경도 존재합니다.

 

이산적(discrete) 환경연속적(continuous)환경 : 계산적으로 처리 할 수 있는 환경을 이산, 그렇지 못하고 방대할 때 연속적이라고 합니다.

 

기지(known) 환경미지(unknown) 환경: 엄밀히 말해서 이구분은 환경 자체가 아니라 환경의 '물리 법칙들'에 관한 에이전트의(또는 설계자의) 지식 상태에 관한 것입니다.

 

여기서 가장 어려운 환경은 부분관찰가능, 다중 에이전트, 확률론적, 순차적, 동적, 연속적, 미지 환경입니다.

 

에이전트의 종류

  • 단순 반사 에이전트: 항상 현재 시각에 근거 해서 동작을 선택
  • 모형 기반 반사 에이전트 : 내부상태(internal state)를 유지하는 에이전트
  • 목표 기반 에이전트 : 현재 상태 서술뿐만 아니라 바람직한 상황들을 서술하는 목표(goal) 정보를 포함한 에이전트
  • 효용 기반 에이전트 :  좀 더 일반적인 성과 측정을 위해 효용(utility)를 이용합니다.
  • 학습하는 에이전트 : 말 그대로 학습과 수행을 하는 에이전트입니다.
반응형
LIST