[논문 리뷰] THE PERCEPTRON: A PROBABILISTIC MODEL FOR INFORMATION STORAGE AND ORGANIZATION IN THE BRAIN(1958)

두 번째 논문 리뷰는 어떤 논문이 좋을까, 고민하던 차에 조금 더 근본적인 논문을 다뤄보기로 했다. The perceptron. 이름부터가 얼마나 근본이 넘치는지... 인공지능의 근간이 되는 퍼셉트론을 처음 고안한 것으로 잘 알려진 이 논문은 Psychological Review라는 심리학 저널에 1958년 게재되었다. (참고로 ACM은 1947년 설립되었고, 저널은 1958년 창간되었다.)

 

논문 이름 : THE PERCEPTRON: A PROBABILISTIC MODEL FOR INFORMATION STORAGE AND ORGANIZATION IN THE BRAIN

발행 년도 : 1958

저자 : F. ROSENBLATT

 

 

연구 배경과 목적

이 논문은 뇌에서 정보 저장과 구성을 하는 방식에서 착안하여 확률론적 모델을 제시한다. 그리고 이를 세 가지 기본적인 질문으로 시작하는데, 그 중 두 번째 질문인 '정보는 어떤 형태로 저장되고 기억되는가?' 에 대해 두 가지 입장을 설명한다.

 

첫 번째는 감각 정보가 '코드화 된 표현' (the form of coded representations) 또는 이미지 형태로 저장되며, 감각 자극과 저장된 패턴 간 일대일 대응이 있다는 가설이고, 이는 사진 필름을 현상하거나, 디지털 컴퓨터의 메모리에 있는 전하 패턴을 변환하는 것과 비슷하다는 내용이다. 즉 우리가 경험한 자극은 뇌 속에 실제로 저장된다는 주장이다. 

 

두 번째는, 우리가 경험한 내용은 실제로 뇌에 직접 저장되지 않고, 복잡한 스위치 네트워크처럼 작동된다는 가설이다. 어떤 경험을 할 때 그 경험과 관련된 새로운 연결이 생기고, 이 연결이 우리의 기억을 형성하게 된다는 것이다. 즉 뉴런 간의 연결을 통해 저장되는 것이다. (첫 번째에 비해 직관적으로 이해하기 어렵고, 뉴런 간 연결이 어떤 방식으로 이뤄지는지 규명하기 어려운 내용이다.)

 

이 논문에서는 이러한 상반된 두 가지 이론 중 연결 주의자의 입장을 취한다. 그리고 이 시기에 폰 노이만 선생님(과 여러 연구자들)은 신경망이 불완전하고 무작위로 연결되는 상황에서도 논리적 기능을 안정적으로 수행하는 방법을 연구했으나, 기존에 있던 논리 구조나 언어 기반으로는 적합하지 않은 한계가 있었다.

 

그렇다면 어떤 구조로 만들어야 '완전한 신경망'을 만들 수 있을까? 라는 질문에 저자는 기존 논리 구조인 '부울 논리' 대신, '확률론'에 기반한 모델인 The Perceptron을 제시한다. 기존 연구에서는 실제로 뇌에서 동작하는 방식을 충분하게 고려하지 않아 몇 가지 측면에서 완전하지 않은 문제가 있고, 이는 단순한 개선과 수정으로는 해결이 불가한 문제라 정의한다.

논문에서는 이를 증명하기 위해 기존 연구들을 언급하면서, 실제 신경계의 구조와 그들이 주장하는 모델의 차이와 한계를 지적하고 있다. (이론적 기반을 아주 튼튼히 다지고 있는 모습이다...)

 

요약하면, 기존에 연구되던 신경망 방식은 한계가 있었다. 그 한계를 넘기 위해 기존의 논리 구조에서 벗어나 확률론적 관점에 기반한 신경망 모델을 제시한다. (당연히 이론적인 내용이니 학계에서는 퍼셉트론의 한계를 이야기 했겠지...? > 64년도에 논문쓰고 69년도엔 책까지 쓰신 분이 있네요...)

 

 

주요 아이디어와 개념

 

이미지 1

논문에서는 포토-퍼셉트론 이라는 예시를 들면서 주요 아이디어를 설명한다. S-point 라 불리는 망막에 자극이 들어오고, 모델에 따라 반응하는 방식이 다르며 여기서는 전부 반응하거나 전부 반응하지 않는 것으로 가정한다.

이 반응은 (S-point에서 전부 반응했음을 가정) Projection Area (A1)에 있는 세포들로 전달되고, 이 Area는 S-point에서 Association Area로 직접 연결되는 일부 모델에서는 생략될 수 있다고 한다.

현대의 구조로 비유하면 input layer와 hidden layer의 관계 정도를 생각하면 될 것 같다. 논문에서는 이 전달되는 자극들이 각 area의 unit들의 임계값에 의해 다시 전달되고 projection area와 association area 간의 연결은 무작위로 연결된다고 가정한다. (여기서부터 Fully Connected layer와 regulration, dropout의 기초가 세워진건가...) 

 

그리고 예시의 Responses는 output layer에 해당하며, A unit들과 거의 동일한 방식으로 반응하는 구조이고, A layer (projection, association)들은 순방향으로 연결되어 있고, 마지막 An Layer와 output layer만 양방향으로 연결되어 있다.

(여기서 조금 의아했던게, 마지막 레이어에서만 양방향으로 되어 있는건 왜지? 싶었다. 그리고 그 다음 문단에 나와있더라...)

 

 

 

이미지 2

 

그리고 논문에서는 양방향 연결을 '피드백 연결'로 부르고 있는데, 이 피드백 연결 규칙은 두 개의 규칙 중 하나로 결정된다고 한다. (A) 각 반응들이 자체 소스 세트 (source-set)의 세포에 대한 흥분성 피드백 연결(excitatory feedback connection)을 하는 규칙과, (B) 자체 소스 세트의 상보에 대한 억제 피드백 연결 (inhibitory feedback connection) 인 규칙이다. 이게 무슨 소리인가 싶어서 검색해봤다.

 

Inhibitory feedback은 신경망이나 생물학적 시스템에서 특정 뉴런이나 세포의 활동을 억제하는 신호를 의미합니다. 즉, 어떤 신호가 다른 뉴런의 활동을 줄이거나 멈추게 하는 방식입니다.
예를 들어, 한 뉴런이 활성화되면 그 뉴런이 연결된 다른 뉴런에게 억제 신호를 보내서, 그 뉴런이 활성화되지 않도록 하는 것입니다. 이런 방식은 신경망의 안정성과 균형을 유지하는 데 중요한 역할을 하며, 과도한 활성화를 방지하여 정보 처리를 효율적으로 합니다.

 

이 규칙을 정리하면 피드백 연결에서는 각 유닛간 자극을 증폭하거나, 억제할 수 있으며 이를 통해 신경망의 출력을 더욱 정교하게 조정할 수 있다는 것이다. 그 중 (A) 규칙이 해부학적으로 그럴듯 해 보이지만, (B) 규칙이 더 쉽게 분석할 수 있는 시스템으로 이어지므로 (B)로 가정한다고 한다.

 

그 예시를 그림 2에서 나타내고 있는데, (B) 규칙이 적용된 더 단순화 된 퍼셉트론의 구조이다. 그림 2B에서 흥분성 연결과 억제 연결을 벤 다이어그램으로 나타냈는데, 이런 식으로 구성된 시스템의 response는 상호 배타적인 구조를 가지게 된다.  이러한 시스템이 학습될 수 있으려면, 각각 다른 부류의 자극들은 각각 다른 충동을 유발해야 한다. 즉, 각각의 소스 세트에서는 각각의 Response가 발생할 수 있도록 충동을 유발하고 연결을 수정할 수 있어야 한다.

 

즉, Source-set이란 특정 response에 대해 활성화 될 수 있는 A-unit들의 집합을 의미하며, 신경망에서는 다양한 Source-set이 존재한다. A-unit들은 여러 Source-set에 속할 수도 있고 하나도 속하지 않을 수도 있다. 그리고 response는 마지막 An-unit 들과 양방향 연결되어 output 값이 다시 An-unit의 input으로 전달되면서 다시 한번 학습이 조정된다. (이거 완전 RNN아니냐...)

 

 

이미지 3

 

그리고 A unit들이 발생하는 신호는 특정한 값으로 특성화되며, 이는 신호의 다양한 수치들로 설명될 수 있다. 그리고 이러한 수치들을 처리하는 세포들의 시스템은 공통적으로 전체적인 가치는 유지하되, 각 unit들이 value를 가지게 되는 방식은 세 가지가 있다.

 

활성화된 unit들이 매 학습마다 일정한 value를 증가시키고 유지하는 알파 시스템, 매 input이 일정한 비율로 value를 증가시키지만 활성화된 unit들이 더 많은 value를 가지게 되는 베타 시스템, 그리고 활성 unit이 비 활성 unit의 가치를 가져가는 감마 시스템이다. 

 

이 내용을 현대의 딥러닝 시스템에 비유하자면, 알파 시스템은 일반적인 Gradient Descent와 유사하고, 베타 시스템은 여기에 더해 Adaptive한 학습을 하는 느낌, 그리고 감마 시스템은 regulation에 가깝다고 할 수 있겠다. 

 

이 시스템은 배타적으로 존재하는건 아니고, 동일한 시스템에서도 환경 변화에 따라 특성이 변화할 수 있다. 알파 시스템처럼 동작하다가도 어느 순간에는 베타, 감마 시스템처럼 동작할 수도 있는 것이다.  (계속 같은 값이나 유사한 내용을 학습한다면, 각 시스템에 의해 특정 유닛들만 계속 활성화 되게 될 것이고 흔히 얘기하는 overfitting이 일어나게 될 것이다.)

 

그리고 자극에 대한 시스템의 반응은 두 단계로 나눌 수 있다. 이미지 3A에서는 아직 일부 비율의 A unit들이 자극에 반응하고 있지만 R unit들은 비활성 상태이다. 이 단계는 학습 중인 상태이며, R unit 중 하나가 활성화되면 나머지 R unit들의 반응을 억제하는 방향으로 변화하여 이미지 3B 처럼 자극들을 분류할 수 있게 된다. (지배적 반응 단계와 후 지배적 반응 단계)

 

이 논문에서 다루는 퍼셉트론들은 모두 A-unit의 활성화에 대해 고정된 임계값을 가지고 있는데, 1과 0으로 반응이 나뉘는 구조이다. 입력된 자극이 특정 임계값을 넘으면 1, 넘지 못하면 0으로 처리하는 셈이다. 이렇게 되면 기울기 소실 문제가 발생할 수 있다. 현대 모델들은 초기 가중치들이 정말정말 낮은 확률로 잘못 시작된다고 하더라도, 활성화 함수와 정규화, skip connection 등 다양한 방법을 통해 기울기를 어떻게든 안정적으로 유지할 수 있도록 해준다.

(쓰고보니 논문의 퍼셉트론은 기울기 소실이 생길만한 구조가 아니다....)

 

아무튼 고정 임계값을 사용하는 퍼셉트론 모델을 설명하고, A unit들이 활성화 될 확률과 조건부 확률이라는 변수를 정의하여 A-unit이 변화하는 방식을 수학적으로 분석한 결과를 설명해주는데 이 분량만 10페이지에 달한다. 

(아직 아리송한 부분이 있어서, 언젠간 다시 한번 읽고 싶음...)

 

결론적으로, F. Rosenblatt의 "퍼셉트론"은 인공지능 분야에서 중요한 초석이 되는 논문이다. 이 연구는 뇌의 정보 저장 및 조직 방식에 대한 확률론적 모델을 제시함으로써, 당시의 기존 이론들이 가지고 있던 한계를 극복할 수 있는 기초를 마련하였다. 특히, 뉴런 간의 복잡한 연결망을 통한 정보 처리 방식은 현대의 신경망 이론과 기계 학습의 발전에 중대한 영향을 미쳤다.

 

퍼셉트론 모델은 단순히 자극에 대한 반응을 모델링하는 데 그치지 않고, 자극과 반응 간의 관계를 정량적으로 분석하고 예측할 수 있는 강력한 도구로 기능할 수 있다는 점에서 뛰어난 설명력을 보여준다. 더불어, 기존의 부울 논리에 대한 반기를 들고 확률론적 접근법을 통해 신경망의 기능을 설명한 점은 학계에서 중요한 전환점을 마련하였다.

 

이러한 연구는 단순히 이론적인 논의에 그치지 않고, 실제 인공지능 시스템의 설계 및 구현에도 기여할 수 있는 방향성을 제시함으로써, 인지 시스템을 이해하고 신경망의 성능을 향상시키는 데 중요한 역할을 한다. Rosenblatt의 퍼셉트론은 앞으로도 지속적으로 탐구되고 발전해 나갈 주제임이 분명하다.

 

기타

이걸 1958년에 생각했다구요? 하....