Portfolio construction using explainable reinforcement learning

졸작 주제 관련된 논문을 찾다보니 좋은 논문을 발견해서 리뷰해보고자 한다!

1️⃣ Introduction

다중 위험 금융 자산으로 포트폴리오를 구축하는 것은 학계와 투자자들에게 많은 관심을 받았다.

최근 몇 년 동안, 여러 데이터 소스를 사용하여 컴퓨터가 금융 이벤트를 학습하고 예측할 수 있는 기술인 머신 러닝(ML)이 등장하면서 인기를 얻고 있다.

결과적으로, 리소스의 분배를 극대화하기 위해 딥러닝(DL), 강화 학습(RL)과 같이 다양한 기술들이 사용되었다.

ML의 인기에도 불구하고, 여전히 다양한 이유로 금융 전문가들 사이에서 널리 받아들여지지 않고 있는데,

효율적이고 효과적인 성능을 보장하는 올바른 목적 함수를 가진 적절한 알고리즘을 선택하는 것이 어렵다.

백테스팅은 미래가 과거처럼 행동할 것이라는 암묵적인 가정이 있기 때문에, 현실적인 환경을 테스트하는 것은 어렵다.

또한, 가장 중요한 관심사 중 하나는 블랙 박스(Black Box)로 표현되는 ML 알고리즘의 투명성 부족이며, 학습 과정에서 어떤 기능이 가장 관련이 있는지 결정하기가 어렵다는 점이다.

이 연구는 프랑스 CAC-40에 상장된 주식의 투자 포트폴리오를 만들기 위한 Attention-Layer 접근 방식을 이용한 설명 가능한 RL을 사용하여 투자 전략을 수립하는 데 적절한 솔루션을 보여주고자 한다.

이 연구는 CAC-40에서 RL을 통합하는 새로운 접근 방식을 제시한다.

금융 시장이 예측할 수 없고 빠르게 변할 수 있다는 것을 인식함으로써 효율적인 적응적인 시장 가설을 세운다.

해당 연구는 다양한 기간 동안 최적의 포트폴리오를 효율적으로 탐색하고 생성하는 설명 가능한 RL 모델을 개발했으며, 표본 외 테스트 기간을 사용하여 검증되었다.

특히, 본 연구는

수익을 극대화하는 포트폴리오를 구축하기 위한 목적 함수를 배우고,

표본 외 기간 동안의 성과를 테스트하고,

학습 과정에서 각 feature의 중요성을 얻기 위한 설명 가능한 도구를 제공하는 모델을 구축한다.

2️⃣ Literature Review

2.1 RL in finance

새로운 ML 기술은 데이터 모델링, 클러스터링 및 예측에 대한 새로운 접근 방식을 제공함으로써 복잡한 현상을 분석하는 데 상당한 이점을 제공한다.

그들은 또한 금융에서도 비슷하게 사용되어 왔으며, 이는 점점 더 많은 관심을 불러 일으켰다.

ML의 하위 유형은 금융 분야에서 널리 적용되는 DL로, 두 그룹으로 나눌 수 있다.

가격을 예측하지만 거래를 직접 다루지 않는 모델 기반 방법

명시적인 가격 예측 과정 없이 거래 전략을 생성하는 방법 (일반적으로 RL 방법을 사용하여 네트워크를 훈련함)

여러 연구자들은 금융에서 RL을 사용하여 포트폴리오 및 거래 시스템을 구축했으며, 이는 금융 커뮤니티에서 널리 받아들여지고 있다.

2.2 Explainable artificial intelligence

ML과 RL 기술이 다양한 분야에서 확장되고 있으며 강력한 성과로 인해 인기를 얻고 있지만 이해 관계자들은 이러한 방법의 불투명성에 대해 우려하고 있다.

따라서 투명한 모델에 대한 요구를 충족시키기 위해 eXplainable Artificial Intelligence(XAI)는 인간이 읽고 이해할 수 있는 인공 시스템을 만드는 것을 목표로 하며 번성했다.

지능형 모델을 위한 설명 모델 개발의 최근 진전에도 불구하고, RL은 아직 이 분야에서 완전히 탐구되지 않았다.

Heuillet et al. (2021)은 Barredo Arrieta et al. (2020)의 주요 아이디어에 따라 최신 eXplainable RL(XRL) 연구를 분류하며, 이는 두 가지 주요 그룹으로 제시된다.

Transparent algorithms는 외부 모델을 적용하지 않고도 그 구조를 분석함으로써 스스로 설명될 수 있다.

또한, Attention 메커니즘은 상세한 이해를 제공하는 능력으로 인해 중요성을 얻고 있다.

투명하지 않은 모델을 설명하는 또 다른 방법은 post-hoc(사후) 방법을 사용하고 설명 가능성을 위한 다른 알고리즘을 만드는 것이며,

이는 메인 모델의 훈련과 테스트 후에 사용된다.

3️⃣ Methodology

이 작업은 XAI의 RL 세계를 하나로 모아 금융 분야에 적용하여 자동화된 거래 시스템을 만든다.

먼저, 우리는 설정을 제시하고, 상태, 행동 공간 및 보상 함수의 개념을 도입하여 의사 결정을 설명한다.

그 다음, 에이전트와 그 구조를 설명하고 설명 가능성을 얻기 위해 에이전트에 추가될 attention 레이어를 다룰 것이다.

3.1 The decision process

투자자가 이익을 극대화하고자 한다는 점을 감안할 때, 우리는 예상 효용 함수(투자자의 만족도)가 다음과 같이 정의된다는 것을 알 수 있다.

여기서 시간이 지남에 따라 효용 함수는 최종 부 함수를 갖는다.

이 프레임워크는 최종 자산에 대한 투자자의 만족도 또는 효용이 초기 자산뿐만 아니라 기간에 따른 부의 누적 변화에 의해 결정된다고 제안한다.

이 연구에서 우리는 아래 방정식과 같이 목표가 예상되는 누적 수익을 극대화하는 것이기 때문에 투자자가 위험 중립적이며 유틸리티 함수가 선형적이라고 가정한다. (즉, 수익이 클 시 만족도도 비례해서 높다고 가정)

따라서 본 연구에서 RL의 목적은 순차적 혹은 마르코프 결정 과정(MDP)을 따름으로써 투자자의 부를 극대화하는 것이다.

에이전트의 목표는 아래 수식으로 나타내는 바와 같이, 시간 에서의 기대 보상을 최대화하는 것이다.

(1) 방정식을 만족시키고 의존하는 보상 함수 를 만들기 위해, 이 연구에서, 우리는 투자자가 보유한 자산의 지분을 나타내는 벡터 를 생성하여 수익률을 계산한다.

벡터 의 각 요소 는 인 특정 금융 시장의 자산 로 나타낸다.

각 구성 요소 는 포트폴리오에서의 비중을 나타내는 특정 가중치 를 받아야 한다.

이러한 방식으로 기대 수익과 보상 함수는 다음과 같이 표현할 수 있다:

행동 공간 는 가능한 모든 행동들의 집합으로, 에이전트가 주어진 환경에서 어떻게 반응할지를 결정한다.

본 연구에서는 주어진 시간 에서의 행동 를 다음과 같이 정의한다:

여기서,

이와 같은 방식으로, 에이전트는 각 요소에 대해 최적의 를 찾도록 훈련된다.

상태 공간 에 대해서는, 에이전트가 처한 환경의 모든 가능한 변수를 포함하는 집합으로 간주할 수 있다.

어떤 변수가 특정 금융 자산의 움직임에 영향을 미치는지는 사전에 알 수 없기 때문에, 본 연구에서는 feature들로 구성된 상태 공간을 생성하였다.

3.2 The agent

RL 에이전트의 목표는 최적의 정책 를 찾아 보상 함수 을 최대화하는 것이다.

보상에 따라 업데이트하는 Policy Gradient 방법은 다음과 같이 표현되는 Policy의 예상 누적 수익에 Gradient Ascent를 사용한다.

그러나 이 방식은 에피소드가 끝난 후에만 업데이트가 가능해서 효율이 낮다.

따라서 이를 해결하기 위해 제안된 수정 사항은 A2C 방법이며, Mnih et al. (2016)이 제안한 A3C 알고리즘의 동기화 버전이다.

A2C는 Actor, Critic이라는 두 개의 네트워크에 의존한다.

A2C의 Policy 업데이트 공식은 다음과 같다.

여기서, Advantage 함수는

로 표시되며, 어떤 행동을 했을 때 예상했던 것보다 얼마나 더 큰 보상을 주는지 알려주는 함수이다.

Critic의 Loss 함수는 아래와 같다. (그냥 제곱을 한 형태이다.)

이 연구에서는 또한 상태 공간의 정보를 처리하기 위해 LSTM 기반의 신경망 구조를 설계했다.

각 자산의 데이터를 개별 LSTM으로 처리하여, 병렬적으로 학습할 수 있도록 했다.

각 네트워크의 결과는 다른 ANN에 의해 처리되어 두 가지 결과를 제공한다.(Critic의 가치와 Actor의 action)

Actor의 출력은 에이전트의 행동과 자산 가중치를 결정하기 때문에 포트폴리오의 자산 수와 동일한 요소 수의 벡터가 이를 나타낸다.

3.3 The environment

에이전트가 취해야 할 일련의 aciton들을 취한 후, 이는 금융 조건을 시뮬레이션할 수 있는 환경에서 테스트되어야 한다.

현실적인 시나리오를 달성하기 위해, 본 연구에서는 거래에 사용할 수 있는 주식 세트를 모방하여 시장에서 주식을 거래할 수 있는 환경을 만들었다.

이 환경은 상태 를 구성하는 요소들의 집합을 받으면 시작되며, 해당 상태는 10개의 요소와 4개의 시차(lagging variable)로 구성된다.

💡

lagging variable (지연 변수)는 이전 시점의 데이터, 즉 시간상 과거의 값을 사용하는 변수를 말합니다.

이 방식으로 본 연구에서는 시간 에서의 시가(open), 고가(high), 저가(low), 종가(close), 거래량(volume) 등 여러 변수들을 포함하는 환경 를 개발하였다.

또한, 금융 시장 예측에 일반적으로 사용되는 여러 기술적 지표도 함께 포함하였다.

이 논문에서는 다음과 같은 지표들이 포함된다:

MACD(이동 평균 수렴/확산 지표)

RSI(상대 강도 지수)

이동 평균선(MA): 14일, 21일, 100일

또한, 환경은 에이전트가 출력한 행동 벡터 를 필요로 하며, 이 벡터는 각 자산에 얼마의 자본을 배분할지 계산한다.

이 벡터의 가중치는 초기 자산 금액을 곱한 뒤, 자산 가격으로 나눈다.(예: 0.2 * 10,000 / 50 = 40)

이 모델은 하루 동안의 관측된 가격 범위 내에서 무작위로 매매가 실행되도록 가격을 전략적으로 선택하며,

시장 내 고유한 변동성과 유동성 제약 조건을 반영하며,

실제 시장의 예측 불가능성과 변동성을 모방하며, 과적합된 전략을 방지한다.

가중치에 변화가 있으면 포트폴리오가 재조정되고 에이전트의 가중치가 포트폴리오의 가중치보다 적으면 주식을 판매하고,

가중치가 증가하고 충분한 현금이 있는 경우 구매가 이루어진다.

이 강화학습 시뮬레이션에서는 레버리지를 고려하지 않기 때문에, 보유 자산 내에서만 조정이 일어난다.

의사코드는 아래와 같다. 아래 코드를 대충 설명하자면

매 에피소드마다 만약 action이 기존 비중보다 크다면, 추가로 차이만큼 매수하고,

만약 action이 기존 비중보다 작다면, 차이만큼 매도한다.

3.4 The attention layer

해당 논문은 설명 가능성을 제공하고자 하는 목적을 가지고 있다.

우리가 선택한 RL은 본질적으로 투명하지 않은 모델이고, 복잡한 네트워크 구조로 인해 사후적 설명 기법(post-hoc algorithm)을 적용하기도 어렵다.

따라서 본 논문에서는 에이전트 구조 내에서 입력층과 LSTM 네트워크 사이에 Attention Layer를 추가하기로 결정하였으며, 이는 아래 이미지에 제시되어 있다.

Attention Layer는 Policy 네트워크에 추가된 벡터이며 각 변수의 가중치를 파악하고, 장기적인 정보 연결을 기억하는 데 도움을 준다.

변수 에 대해, 서로 다른 지점의 attention 를 계산하기 위해 우리는 softmax 함수를 사용한다.

여기서, 는 시간에 따른 변수 를 의미하고, 는 해당 입력 특성에 학습된 가중치이다.

그 후, 각 자산의 상태 벡터에서 나온 입력값들은 계산된 attention 벡터에 의해 가중처리되며, 아래와 같이 라는 입력값으로 LSTM 네트워크에 전달된다:

3.5 Model overview

본 연구에서는 RL 기술을 활용하여 섹션 3.1에 자세히 설명된 바와 같이 예상 수익을 극대화하는데 중점을 둔 전략을 개발한다.

이 전략은 섹션 3.2에 설명된 에이전트와 섹션 3.3에 제시된 시뮬레이션 환경 간의 상호 작용을 통해 개선된다.

또한, 섹션 3.4에 설명된 바와 같이 attention 메커니즘을 통합하면 거래 결정에 영향을 미치는 중요한 시장 특징을 식별하는 모델의 능력이 향상된다.

4️⃣ Experimentation

이 연구는 2025년 1월 3일부터 2021년 12월 31일까지 4435개의 관찰을 포함하는 데이터 세트를 활용한다.

모든 구성 요소가 조립되고 코딩이 완료된 후, 훈련 과정은 총 1000개의 에피소드를 사용하여 수행되었다.

각 에피소드는 최대 200개의 단계로 구성되어 있으며, 각 단계는 하루 단위의 거래에 해당한다.

이 각 에피소드의 시작일은 훈련 기간 내에 무작위로 선택되었다.

불확실한 시장 상황으로 인해 주어진 날짜에 자산이 시장에서 구매 또는 판매될 실제 가격을 아는 것은 불가능하기 때문에, 각 날짜의 최저가와 최고가 사이의 무작위 값을 취했다.

이 과정의 자세한 구성은 아래 표를 참조하면 된다.

하이퍼파라미터	값	하이퍼파라미터	값
LSTM 수	10	공통 레이어 수	3
LSTM 노드 수	32	드롭아웃 레이어 수	3
LSTM 활성화 함수	Sigmoid	공통 레이어 노드 수	250, 125, 250
공통 레이어 활성화 함수	LeakyReLU, Sigmoid	드롭아웃 레이어 비율	0.99, 0.8, 0.5
최종 레이어	Softmax	옵티마이저(Optimizer)	RMSprop
학습률(Learning rate)	0.01	손실 함수(Loss function)	Huber
초기 예산	1,000,000	수수료율	0.5%
입력 변수 수	10	지연 변수 개수	5
입력 행렬 크기	10 × 5	기술적 분석 지표(Technical indicators)	MACD, RSI
가격 변수	시가, 고가, 저가, 종가, 거래량	이동 평균 기간(MA periods)	14, 21, 100

샘플 에피소드가 선택되면, 에이전트에게 다른 상태가 주어지는 거래일을 반복한다.

에이전트는 이 상태들을 신경망을 통해 처리하게 되며, 이때 두 가지 값, 즉 Actor의 점수와 Critic의 점수가 도출된다.

이 값들은 에이전트가 수익성 있는 포트폴리오를 만들 수 있는 성능을 평가하는 데 사용되며(Actor), 동시에 샘플 기간 동안의 모의 투자 수익률을 계산하는 데도 사용된다(Critic).

에이전트의 보상은 초기 투자금으로 나눈 값으로 계산되며, 이 값은 다음과 같은 형태의 누적 보상(running reward) 계산에 더해진다.

이 보상은 추후 신경망의 역전파 학습(backpropagation)에 활용된다.

학습이 완료된 후에는, 모델의 설명 가능한 부분을 분석하여 각 변수의 중요도와 관련된 정보를 추출한다.

이는 각 자산의 상태를 추출하는 것으로 시작되며, 이 상태들을 설명 레이어에 입력하여 모델로부터 부분적인 정보를 추출한다.

이 과정을 통해 앞서 식 (15)에서 설명된 어텐션 값 를 구한다.

그런 다음, 설명 레이어의 이러한 값을 사용하여, 지연된 변수를 제외한 단일 상태의 softmax 활성화를 얻는다.

학습 프로세스의 개요는 아래 이미지에서 확인할 수 있다.

5️⃣ Results

본 논문에서 제안하는 LSTM 및 Attention 메커니즘을 활용하는 RL 에이전트가 가장 우수한 성능을 보여준다.

포트폴리오 유형	총 수익률 (Total return)	표준편차 (Standard deviation)	최대 낙폭 (Maximum drawdown)	샤프 비율 (Sharpe ratio)
LSTM + 어텐션을 사용한 RL	0.6670	0.0114	–0.3115	0.98
LSTM만 사용한 RL	0.5908	0.0147	–0.3918	0.76
Dense + 어텐션을 사용한 RL	0.6348	0.0144	–0.3848	0.77
CAC-40 지수	0.3154	0.0129	–0.3855	0.60
동일 비중 포트폴리오	0.6260	0.0117	–0.3472	0.95
연간 리밸런싱 마코위츠 포트폴리오	–0.0960	0.0197	–0.5950	–0.09
고정 마코위츠 포트폴리오	–0.1086	0.0147	–0.4548	–0.12

Q-Value를 분석하면 모든 변수가 모든 자산에서 동일한 중요한 가능성을 갖는 것은 아니며, 시간이 지남에 따라 그 중요성도 일정하지 않다는 것을 알 수 있다.

아래 이미지는 시간에 따른 각 지표의 중요도를 나타낸다.

6️⃣ Conclusions

이 연구의 주요 목표는 설명 가능한 RL 애플리케이션이 주식 시장에서 수익성 있는 포트폴리오를 만들 수 있는 방법을 탐구하는 것이었다.

본 연구의 구현과 결과는 연구와 금융 시장에 대한 중요하고 혁신적인 통찰력을 제공하지만, 몇 가지 한계가 남아있다.

실무자의 관점에서 볼 때, 주식 시장을 예측하기 위한 RL 모델을 구현하는 것은 시장의 복잡한 특성 때문에 어렵다.

본 연구에서의 모델을 기반으로 한 거래 전략을 구현하는 주요 장애물에는 방대한 양의 데이터 처리, 실시간 처리에 필요한 계산 리소스, 규제 의무 처리 및 실사 프로세스가 포함된다.

또한, 과거 데이터를 넘어서는 요인에 의해 주도되는 시장의 예측 불가능성은 결과를 불확실하게 만들 수 있다.

둘째, 본 연구는 에이전트가 취한 입력 변수에 대한 제한된 탐색을 가지고 있으며 투자 포트폴리오 생성에 영향을 미칠 수 있는 여러 입력으로 철저한 검토를 수행하지 않았다.

셋째, 이 논문에 나타난 구현은 주로 위험 중립 투자자를 위해 맞춤화되어 있으며 다른 유형의 투자자를 고려하지 않는다.

따라서 향후 연구는 위험 회피 정도를 설명하기 위해 보상 구조를 조정하고 위험 지표를 통합하는 것을 고려할 수 있다.