[논문 리뷰] Adaptive Risk-Based Control in Financial Trading

[논문 리뷰] Adaptive Risk-Based Control in Financial Trading

Author
JH
Tags
AI
Paper review
Published
May 25, 2025
종류
태그
학문 분야

1️⃣ Introduction

이 서론에서는 자동화된 트레이딩 전략에서 변화하는 시장 상황에 적응하는 능력의 중요성과 함께, 기존의 많은 최신 기술들이 리스크 관리를 핵심 알고리즘에 포함하지 못한다는 문제를 제기한다.
  • 논문은 액션 신뢰도를 트레이딩 프로세스의 일부로 고려하는 새로운 분산형 강화 학습(Distributional Reinforcement Learning) 접근 방식을 제안한다.
  • 이를 위해 TD3 알고리즘 구조를 활용하고, Critic 네트워크를 분산형 강화 학습 에이전트로 대체한다.
  • 또한, 더 적합한 시장 상황을 활용하여 학습을 개선하는 변동성 우선 리플레이 버퍼(Volatility-Prioritized Replay Buffer, VPRB) 개념을 도입한다.
  • 제안하는 접근 방식은 4년 동안 30개의 자산에 대해 테스트했으며, 다른 인기 있는 방법들에 비해 리스크 조정 성과가 개선되어 통계적으로 더 높은 샤프 비율(Sharpe ratio), 더 짧은 낙폭 기간(drawdown periods), 더 낮은 변동성(volatility), 향상된 일관성(consistency)을 달성했다.
  • 자동화된 트레이딩은 수학적 모델링과 전략의 자동 실행을 포함하며, 이는 강화 학습(RL)이나 지도 학습(supervised learning)을 사용하는 머신러닝 모델을 포함한다.
  • 하지만 강화 학습 연구는 리스크 관리를 염두에 두고 구축된 모델이 부족하며, 잠재적 리스크를 적절히 고려하지 않고 수익 극대화에 우선순위를 두는 경향이 있어 리스크 관리에 어려움을 겪는다.
  • 이 논문에서는 TD3 알고리즘을 기반으로 하는 새로운 분산형 강화 학습 모델(TD4)을 제안하며, 의사 결정 과정에 신뢰도를 통합하여 더 견고하고 신뢰할 수 있는 접근 방식을 제공한다.
  • 알고리즘 성능을 향상시키기 위해 현재 시장 상황과 유사한 시장 변동성 특성을 가진 리플레이 메모리를 우선시하는 변동성 우선 리플레이 버퍼(VPRB)를 도입한다.
  • 모델은 과거 데이터를 기반으로 한 주식 트레이딩 강화 학습 환경에서 구현 및 평가되었으며, 특히 샤프 비율을 포함한 6가지 성능 지표를 사용하여 평가되었다.
  • 통계적 유의성 검정을 위해 각 모델은 20번씩 학습 및 테스트되었다.

2️⃣ Related Work

강화 학습 방법은 에이전트와 환경 간의 상호 작용에 초점을 맞춘 알고리즘 클래스이다.
 
금융 분야의 RL에 대한 현재 문헌은 가치 기반(value-based), 정책 기반(policy-based), 액터-크리틱(actor-critic) 방법의 세 가지 주요 접근 방식으로 분류할 수 있다.
 
가치 기반 접근 방식은 RL의 가장 잘 연구된 분야이며, 업계를 선도하고 있다.
이러한 예로는 Q-Learning과 DQN이 있으며, 후자는 구현에 신경망을 사용한다.
가치 기반 접근 방식은 상태-액션 가치 함수 를 활용하여 주어진 상태에서 액션의 성능을 평가한다.
상태-액션 쌍을 기반으로 보상을 결정하는 특성으로 인해 가치 기반 알고리즘은 일반적으로 이산 액션 공간과 함께 활용된다.
 
RL의 두 번째로 흔한 분야는 정책 기반 RL이다.
가치 기반 알고리즘에 사용된 방법론과 달리 정책 기반 방법은 각 상태-액션 쌍의 예상 결과를 계산하지 않고 목적 함수를 직접 최적화한다.
이를 통해 정책 기반 알고리즘은 정책을 직접 학습할 수 있으며, 결과적으로 연속 액션 공간에 대한 적용을 일반화할 수 있다.
이러한 특성을 활용하는 알고리즘의 한 예는 DPG이다.
 
액터-크리틱 알고리즘은 가치 기반 접근 방식과 정책 기반 접근 방식을 결합하여 병렬로 실행되는 두 개의 모델이 사용된다.
액터는 정책 기반 접근 방식을 사용하여 현재 상태에서 액션을 선택하고, 크리틱은 가치 기반 접근 방식을 사용하여 선택한 액션이 얼마나 좋은지 판단한다.
각 시간 단계 마다 액터는 정책 기울기를 사용하여 크리틱의 안내에 따라 정책 확률 분포를 업데이트한다.
액터-크리틱 접근 방식을 형성하는 두 네트워크의 동시 최적화는 훨씬 더 크고 복잡한 환경에 적응하고 학습할 수 있는 것으로 입증되어 금융에 대한 적용이 유망한 전망이 되었다.

2.1 Twin-Delayed Deep Deterministic Policy Gradient (TD3)

TD3는 DPG 액터와 DQN 크리틱으로 구성된 model-free, off-policy, actor-critic 알고리즘이다.
 
TD3는 DDPG 알고리즘에 세 가지 주요 사항을 구현한다.
첫째, Q-Learning 크리틱 네트워크가 이중 Q-Learning 에이전트로 대체된다. 이 수정은 TD3 크리틱이 두 개의 Q-value 함수를 학습하고 최소값 함수 추정치를 사용하여 정책을 업데이트한다는 것을 의미한다.
이는 업데이트 크기를 효과적으로 줄이고 로컬 최대값으로 인해 훈련이 조기에 중단될 가능성을 줄인다.
 
둘째, TD3는 과대 평가된 대상을 줄이는 데 도움이 되도록 정책과 대상을 덜 자주 업데이트한다.
 
마지막으로, 정책이 더 높은 Q-Value 추정치를 가진 액션을 악용할 가능성을 줄이기 위해 TD3는 노이즈를 활용하여 탐색을 장려한다.

2.2 Risk-Sensitive RL

변화하는 시장 상황과 주식 시장 거래와 관련된 고유한 위험을 처리하는 것은 일관된 장기 성과에 매우 중요하다.
그러나 최신 RL 접근 방식의 기본 구조는 본질적으로 위험을 처리하지 않으므로 저자는 위험 조정 성과를 개선하기 위해 해당 모델을 조정해야 한다.
 
이는 Sequential Decision Making With Coherent Risk라는 논문에서 볼 수 있으며,
저자는 순차적 의사 결정에서 위험을 처리하기 위해 일관된 위험 측정값을 정책 최적화 프로세스에 직접 통합하여 개선된 위험 조정 성과를 보관한다.
특히, 저자는 누적 비용 에 대해 정책 를 평가하는 일관된 위험 측정값 를 통합하여 위험 인식 목적 함수를 정의하며, 결과적으로 아래 목적 함수가 된다.
위험 측정값 는 단조성, 변환 불변성, 양의 동질성 및 부분 가산성의 속성을 준수하여 일관된 위험 측정값이 된다.
자세한 설명
  • 단조성(Monotonicity): 만약 어떤 포트폴리오의 수익률이 다른 포트폴리오의 수익률보다 항상 낮다면 (즉, 더 나쁜 상황이라면), 수익률이 낮은 포트폴리오의 위험 측정값은 수익률이 높은 포트폴리오의 위험 측정값보다 크거나 같아야 한다. 간단히 말해, 더 나쁜 결과로 이어지는 상황은 더 높은 위험을 가져야 한다.
  • 이동 불변성(Translation Invariance): 위험 자산에 위험이 없는 일정 금액(예: 현금)을 추가한다면, 전체 포트폴리오의 위험은 그 위험 없는 금액만큼 줄어들어야 한다. 즉, 확실한 금액 를 더하면 위험 측정값도 정확히 만큼 감소해야 한다.
  • 양의 동차성(Positive Homogeneity): 포트폴리오의 규모를 양의 상수 배로 늘린다면 (예: 투자 금액을 두 배로 늘린다면), 위험 측정값도 정확히 배로 커져야 한다. 위험 자산에 대한 노출을 선형적으로 늘리면 위험도 선형적으로 증가해야 한다.
  • 준가법성(Sub-additivity): 두 포트폴리오를 결합하여 하나의 포트폴리오를 만들 때, 결합된 포트폴리오의 위험은 개별 포트폴리오 위험의 합보다 작거나 같아야 한다. 이는 분산 투자를 통해 위험을 줄일 수 있다는 금융의 기본 원칙을 반영한다. 두 개의 위험을 합하는 것보다 하나의 통합된 위험을 측정하는 것이 더 위험하지 않다는 것을 의미한다.
저자는 또한 를 Bellman 방정식에 통합하여 위험 회피 Bellman 방정식을 생성한다.
여기서 는 정책 에 따른 가치 함수를 나타내고, 는 즉각적인 비용이며, 는 다음 상태이다.
 
이 방정식은 결과 정책이 예상 비용을 최소화할 뿐만 아니라 로 측정된 위험도 고려하도록 보장하면서 정책을 반복적으로 평가하고 개선하는 데 사용된다.
 
변동성이 높은 환경에서 향상된 성능이라는 개념을 바탕으로 RL의 분포적 분기(distributional branch)는 불확실성 모델링에 대한 유망한 결과를 보여주었다.

2.3 Distributional RL in Finance

Distributional Reinforcement Learning은 예상 값 대신 가능한 미래 보상의 분포를 모델링한다.
이는 예상 수익을 추정하는 데 중점을 두어 문제를 단순화하지만 수익의 변동성에 대한 영향력 있는 정보를 잠재적으로 제외하는 기존 RL과 대조된다.
확률 분포를 고려하면 에이전트가 위험을 더 잘 감안하여 보다 강력한 정책 결정을 내릴 수 있다.
 
이는 일반화된 기대 효용(Generalized Expected Utility, GEU) 이론과 더욱 일치한다.
이 프레임워크는 기대 효용 이론을 확장하여 특히 독립성 공리와 관련된 몇 가지 엄격한 과정을 완화한다. (단순히 기대값만 고려하지 않음)
 
이러한 개념적 변화는 Distributional Reinforcement Learning에서 자연스러운 유사점을 찾을 수 있는데,
학습은 확률론적 관점을 채택하여 에이전트가 각 행동에 대한 미래 보상의 분포를 예측하는 것을 학습하므로 결과의 내재적 변동성을 포착한다.
 
Distributional RL의 핵심은 수익 분포 를 모델링하는 Distributional Bellman Equation에 있다.
Distributional Bellman Equation은 다음과 같이 정의된다.
여기서 는 보상이고, 는 할인 요소이며, 은 각각 다음 상태와 행동이다.
Distributional RL의 성능은 이 클래스에서 여러 알고리즘을 만드는 데 기여했으며, QR-DQN 알고리즘은 Distributional Bellman Equation의 구조를 직접 기반으로 한다.

2.4 QR-DQN

QR-DQN은 목표 분위수 집합을 통해 수익 분포를 고려하는 널리 사용되는 DQN 알고리즘의 분포 변형이다.
따라서 단일 Q-value 를 예측하는 대신 QR-DQN은 (3)에서 볼 수 있는 방정식을 통해 분위수 값 집합 을 예측한다.
이러한 분위수는 잠재적인 미래 보상 분포의 서로 다른 지점을 나타내며 잠재적인 결과에 대한 보다 포괄적인 이해를 제공한다.
 
핵심 아이디어는 수익 분포의 누적 분포 함수(cumulative distribution function, CDF)를 근사하는 것이다.
이는 1-Wasserstein 확률 메트릭을 통해 분위수 회귀 손실을 최소화하여 수행된다.
1-Wasserstein 거리를 최소화함으로써 QR-DQN은 예측된 분위수를 목표 분위수와 효과적으로 정렬하여 Q-value 분포를 보다 강력하게 추정하고 안정성과 성능을 향상시킨다.
Figure 2: 1-Waserstein minimizing projection onto N-4 uni-formly weighted Diracs. Shaded region sum to form the 1-Wasserstein error
Figure 2: 1-Waserstein minimizing projection onto N-4 uni-formly weighted Diracs. Shaded region sum to form the 1-Wasserstein error
사용된 손실 함수는 분위수 Huber 손실이며, 이는 이상치의 영향을 줄여 훈련 중 안정성과 견고성을 보장한다.
알고리즘의 목표는 상태 에서 각 행동 에 대해 예측된 분위수와 목표 분위수 사이의 분위수 Huber 손실을 최소화하는 것이며, QR-DQN은 파라미터 를 업데이트한다.

2.5 Regime Shifts

알고리즘 거래 시스템에 의한 일관된 성능을 달성하려면 알고리즘이 시장 상황 및 거래 심리의 변화에 강력해야 한다.
이러한 시장 상황의 변화는 일반적으로 regime shift라고 한다. Regime은 동일한 행동과 역학을 따르는 시계열 데이터의 기간이다.
주식 시장의 regime shift는 새로운 시장 상황으로 이어지는 시장 행동 및 역학의 갑작스럽고 중요한 변화를 의미한다.
 
Regime shift에 대처하는 한 가지 접근 방식은 여러 actor-critic 모델을 앙상블 전략에 통합하는 것이다.
그러나 여러 actor-critic 알고리즘을 결합하여 얻은 복잡성 증가는 개선의 여지를 거의 남기지 않으며 과적합의 위험이 증가한다.
게다가, 변경 사항은 알고리즘 자체의 위험 관리 능력에 직접적인 영향을 미치지 않고 대신 출력을 보강한다.

3️⃣ The Stock Market RL Environment

3.1 Observation Space

주가 변동에 영향을 미치는 많은 요인을 고려하여 에이전트가 관찰할 수 있는 요인의 하위 집합을 결정했다.
선택된 30개의 자산은 미국의 인기 있는 인덱스 펀드인 DJIA의 일부를 구성한다. 이러한 자산은 소비재, 금융 서비스 및 기술을 포함한 11개 부문을 포괄한다.
 
인코딩된 관찰 공간은 661차원 벡터인 으로 구성되며, 각 구성 요소는 다음과 같이 정의된다.
  • : 시간 단계 에서 사용 가능한 잔액
  • : 시간 단계 에서 자산 가격. 여기에는 관찰 가능한 30개 자산에 대한 현재 조정된 자산 가격이 포함된다.
  • : 자산 각각에 대해 보유하고 있는 주식 수
  • : 90개의 기술 지표 세트에 PCA를 적용한 결과로, 자산당 20개의 고유한 데이터 포인트를 생성한다.

3.2 Action Space

액션 공간은 사전 설정된 범위 또는 목록 내에서 환경에 적용할 수 있는 값의 가능한 범위를 나타낸다.
 
액션 공간은 차원 벡터로 정의되며, 벡터의 각 값은 해당 자산에 대해 매수 또는 매도해야 하는 비례적 볼륨에 해당한다. 이 경우 이다.
액션 공간에서 자산의 순서는 일관성이 있으며 관찰 공간의 순서와 일치한다.
액션 공간 벡터 의 값은 연속적이며, 여기서 이다.
이 범위의 음수 값은 보유 주식의 감소를 나타내고 양수 값은 증가를 나타낸다.
 
주식의 볼륨 은 주어진 액션 세트에 대해 거래되며, 의 각 값의 크기에 사전 설정된 최대 볼륨 를 곱한 값에 비례한다.
결과 볼륨은 가장 가까운 숫자로 반올림되어 매수 또는 매도할 전체 주식 수를 생성한다. 값은 이 연구 전반에 걸쳐 100으로 일정하게 유지되었다.

3.3 Reward Function

사용된 보상 함수는 거래에서 얻은 포트폴리오 수익을 극대화하는 것을 목표로 한다.
보상을 시간 단계 사이의 포트폴리오 가치의 차이로 다음과 같이 정의한다.
여기서 는 각각 시간 단계 에서의 잔액과 자산을 나타낸다. 자산 는 다음과 같이 정의된다.
여기서 은 거래되는 자산 수이고, 는 자산 에서 보유한 포지션 수이고, 는 시간 단계 에서 자산 의 조정된 자산 가격이다.

3.4 Market Constraints

이 섹션에서는 에이전트가 취하는 액션을 효과적으로 관리하기 위해 환경에 포함된 여러 거래 제약 조건을 자세히 설명한다.
  • 가용 유동성 (Available Liquidity): 에이전트가 보유한 자금 내에서만 거래할 수 있도록 제한하는 제약이다. 거래 후 잔고가 0 미만이 되지 않도록 보장한다.
    • 이 제약을 위해 매도(sell) 및 매수(buy) 액션을 분리하여 처리한다.
    • 잔고가 부족할 경우, 가용 자금을 늘리기 위해 매도 액션을 먼저 수행한다.
    • 매수 액션은 현재 현금 수준으로 가능한 최대 주식 수와 에이전트가 선택한 액션 중 더 작은 값으로 볼륨이 제한된다.
    • 수학적으로 이 조건은 다음 공식으로 표현된다:
      • : 시간 시점의 에이전트가 보유한 잔고
      • : 시간 시점의 모든 매도 대상 자산 가격 벡터
      • : 시간 시점의 에이전트가 선택한 매도 액션 볼륨 벡터
      • : 시간 \(t\) 시점의 매도 액션으로 얻게 되는 총 금액
      • : 시간 시점의 모든 매수 대상 자산 가격 벡터
      • : 시간 시점의 에이전트가 선택한 매수 액션 볼륨 벡터
      • : 시간 시점의 매수 액션에 사용되는 총 금액
      • 이 공식은 시간 시점의 잔고()에서 매수 총액을 빼고 매도 총액을 더했을 때 결과 잔고가 0 이상이어야 한다는 것을 의미한다.
  • 주문 규모 (Size of the Book): 주문 실행 지연이나 가격 미끄러짐(price slippage)을 최소화하기 위해 한 번의 주문으로 거래할 수 있는 최대 주식 수()를 100으로 제한한다. 이는 주문이 최고 유동성 수준에서 실행되도록 보장한다.
  • 비용 (Costs): 자산 매수 또는 매도 시 발생하는 거래 수수료를 반영한다. 이 논문에서는 거래 가치의 0.1%를 매수 및 매도 액션에 대한 비용으로 가정한다. 시간 에서의 액션 에 대한 비용 로 정의한다.

3.5 Turbulence Threshold Risk Aversion

Turbulence는 시장 변동성을 결정하는 지표이다. 시장의 변동성이 증가함에 따라 포트폴리오 수익률에 큰 영향을 미치는 시장 붕괴의 가능성도 높아진다.
따라서 이러한 기간 동안 위험을 제한하기 위해 극단적인 가격 변동을 측정하는 Turbulence 임계값 제한을 사용한다. 다음과 같이 정의한다.
여기서 는 시간 단계 에서의 주식 수익률을 나타내고, 는 평균 과거 수익률이며, 는 공분산이다.
시장 Turbulence가 과거 임계값보다 높으면 모든 알고리즘 거래가 중단되고 포지션이 판매된다. 이는 시장 Turbulence가 과거 임계값 아래로 돌아올 때까지 유지된다.

4️⃣ Twin Delayed Distributional Deep Deterministic Policy Gradient (TD4)

본 논문에서는 TD3 및 QR-DQN 알고리즘을 결합한 새로운 Distributional RL 접근 방식인 TD4 알고리즘을 제안한다.
내부 구조는 이중 Q-learning critic 네트워크가 두 개의 Distributional RL 에이전트로 대체된 TD3 구현의 구조를 따른다.

4.1 Volatility Prioritized Replay Buffer (VPRB)

Replay Buffer는 샘플링 편향을 제거하고 샘플 효율성을 높이기 때문에 가치 기반 딥 강화 학습 알고리즘의 필수적인 부분이다.
 
Volatility Prioritized Replay Buffer(VPRB)에서는 거래 날짜 범위 바로 앞에서 관찰된 것과 유사한 시장 변동성을 가진 전환에 우선 순위를 둔다.
이를 위해 각 전환의 변동성 값은 먼저 0과 1 사이의 값으로 정규화되고 정규화된 입력 변동성에서 빼서 Euclidean 거리를 구한다.
알고리즘 1에서 볼 수 있듯이 Euclidean 거리가 작은 전환에는 더 높은 확률이 부여된다.
notion image
훈련 동안, 확률에 기초하여 개의 샘플이 replay buffer 에서 선택된다.
이는 알고리즘이 다른 시장 상황에 열려 있으면서도 훈련을 위해 더 관련성 높은 시장 데이터를 동시에 가질 수 있도록 한다.
아래 그림은 VPRB와 에이전트 간의 상호 작용을 간략하게 보여준다.
Figure 4: The VPRB Selection Process
Figure 4: The VPRB Selection Process

4.2 Target Quantile Selection

Critic network별 타겟 Quantile의 생성은 방정식 (3)에 표시된 Distributional Bellman Equation을 통해 수행되며, 여기서 개의 Quantile이 액션별로 생성된다.
이상치로 인한 왜곡된 결과를 피하기 위해 Quantile은 정렬되고 하위 개의 결과는 삭제된다.
사용된 multi-critic 접근 방식을 감안할 때, 두 세트의 타겟 Quantile이 생성된다.
 
최상의 Quantile을 선택하기 위해 각 분포 쌍에 대한 Conditional Value at Risk(CVaR)에 대한 최소 함수를 사용한다.
Expected Shortfall이라고도 하는 CVaR은 분포의 꼬리에서 특정 Quantile을 초과하여 발생하는 손실의 예상 값을 측정한다. 수학적으로 CVaR은 다음과 같이 정의된다.
여기서 는 수익을 나타내는 랜덤 변수이고, 는 주어진 신뢰 수준 에 대한 value at risk이고, 는 누적 분포 함수의 역함수이다.
 
최소 CVaR을 기반으로 타겟 Quantile을 선택하면 더 높은 품질의 데이터와 더 나은 성능의 액션을 활용하여 최적화 성능이 향상된다.
방정식 (11)에서 볼 수 있듯이 최소 CVaR을 기반으로 타겟 Quantile의 선택을 정의한다.

4.3 Loss Functions

Critic network 업데이트에 대한 손실 함수는 QR-DQN 알고리즘에서 사용된 것과 유사하게 Huber loss 접근 방식을 사용하여 계산된다.
Huber loss는 평균 제곱 오차와 평균 절대 오차의 조합으로 정의되어 데이터의 이상치에 덜 민감하다.
타겟 Quantile 및 예측된 Quantile 에 대해 손실은 다음과 같이 주어진다.
여기서 은 Quantile 수준이고, 는 indicator function(가 0보다 작으면 1, 그렇지 않으면 0)이고, 는 temporal difference error이고, 는 다음과 같이 정의된 Huber loss이다.
QR-DQN에 대한 전체 최적화 목표는 모든 Quantile 수준에서 Quantile Huber loss의 합을 최소화하는 것이다.

5️⃣ Data Preprocessing

섹션 3에서 논의된 바와 같이, 제안된 전략을 테스트하는 데 사용된 데이터는 DJIA의 일부를 형성하는 30개의 주식 세트를 따랐다.
사용된 데이터 세트는 두 부분으로 분할되었으며, 2009년 1월 1일부터 2015년 12월 31일까지의 과거 데이터는 기본 훈련 세트로 사용되었고, 2016년 1월 1일부터 2020년 5월 8일까지의 데이터는 백테스팅에 사용되었다.
각 알고리즘에 대해 훈련은 rolling window 접근 방식을 사용하여 수행되었으며, 여기서 각 에이전트는 60 훈련일마다 최신 시장 데이터에 대해 재훈련된다.
이는 테스트 분할의 데이터도 훈련에 사용됨을 의미한다. 그러나 이는 훈련에 데이터를 포함하지 않은 모델에서 해당 섹션의 성능 평가가 완료된 후에만 발생한다.
 
또한 알고리즘에 더 관련성 높은 정보를 제공하기 위해 과거 가격 데이터를 활용하여 자산별 기술 지표 배열을 계산했다.
그런 다음 해당 데이터는 90%의 데이터 보존 수준에서 PCA 알고리즘을 통과하였다.
이로 인해 상태 공간에 포함된 주식별 20개의 데이터 포인트 세트가 생성되었다.

6️⃣ Performance Evaluation

제안된 VP-TD4 알고리즘의 성능을 평가하기 위해 6개의 메트릭을 사용한다.
  • 연간 수익률: 연간 벌어들인 금액의 기하 평균
  • 누적 수익률: 테스트 프로세스에서 발생한 총 % 수익률
  • 샤프 비율(Sharpe Ratio): 전략의 수익률을 무위험 수익률과 비교하는 위험 대 성능 메트릭
  • 최대 손실폭(Max Drawdown): 한 번의 변동에서 경험한 최대 백분율 손실
  • 샤프 비율 표준편차(Sharpe Ratio STD): 접근 방식을 여러 번 테스트한 경우 샤프 비율의 표준 편차
 
본 논문에서 설명된 위험 회피의 중요성을 고려할 때, 우리는 샤프 비율을 포트폴리오 결과를 비교하는 핵심 지표로 간주한다.
표 1에서 볼 수 있듯이, 우리는 우리의 접근 방식을 다른 전략(TD3, VP-TD3, TD4, Ensemble 전략, DJIA)과 비교한다.
이러한 여섯 가지 접근 방식의 샤프 비율을 비교하면 TD4 알고리즘이 기본 TD3 알고리즘보다 0.05의 작은 성능 향상을 달성했음을 알 수 있다.
반면에 VPRB를 포함하면 1.33에서 1.44로 증가하여 더 큰 개선을 보여준다.
마지막으로, VP-TD4는 테스트 중 1.49로 가장 높은 샤프 비율을 달성했다.
전반적으로, 계산된 4가지 버전 모두 벤치마크보다 성능이 향상되었으며, DJIA에서 보유하는 것은 0.57의 샤프 비율을 달성했고, Ensemble 전략은 1.3의 값을 달성했다.
 
제안된 알고리즘에 대한 결과는 20번의 실행에 대한 평균 및 표준 편차로 계산되었다.
VP-TD4 및 VP-TD3 알고리즘은 모두 TD4 및 TD3보다 더 낮은 표준 편차를 달성했는데, 이러한 차이는 예상 수익률의 분포와 직접적인 연관성을 갖는다.
이는 그림 6과 그림 7에서 볼 수 있으며, 여기서 최고 성능과 최저 성능 실행 간의 차이는 TD3보다 VP-TD4에서 더 작다.
또한, 달성된 성능 향상을 결정적으로 정량화하기 위해 통계적 유의성 검정을 위한 Wilcoxon test를 사용한다.
 
또한, 연간 변동성을 통해 안정성을 비교하면 유사한 결과가 나타나며, 제안된 모든 알고리즘은 약 8.4%의 연간 변동성을 달성한다.
그렇긴 하지만, DJIA 알고리즘에 투자하면 연간 변동성이 20.51%로, 알고리즘 접근 방식보다 훨씬 더 큰 값이 발생했다.
 
이는 수익률 변동을 보여주는 그림 7에 더 자세히 설명되어 있다. 이러한 변동성 감소는 부분적으로 시장 붕괴에 대한 성능 향상에도 도움이 된 난기류 임계값 지수(turbulence threshold index)를 포함했기 때문이다.
Figure 5: Monthly Return Distribution for DJIA, TD4, VP-TD4, and VP-TD4
Figure 5: Monthly Return Distribution for DJIA, TD4, VP-TD4, and VP-TD4

6.1 Sensitivity to Market Crashes

장기 투자 전략에 따라, 이러한 접근 방식의 목표 중 하나는 시간이 지남에 따라 일관된 수익을 달성하는 것이었다.
이를 달성하려면 모든 시장 전략이 시장 붕괴에 대처할 수 있어야 한다. 이러한 이유로 테스트 기간에는 2018년과 2020년에 두 번의 주요 시장 붕괴가 포함되었다.
이러한 기간 동안 알고리즘은 높은 시장 변동성으로 인해 거래를 중단하기로 선택하여 시장 상황이 정상화되면 거래를 재개할 수 있도록 했다.
 
이는 동일한 기간 동안 DJIA와 비교했을 때 포트폴리오 손실을 크게 줄였다.
전반적으로, 이는 표 1의 최대 손실폭 값에서 볼 수 있으며, 여기서 알고리즘 전략은 DJIA보다 훨씬 작은 손실을 경험했다.
 
그림 5는 월별 수익률의 분해를 비교할 때 알고리즘 접근 방식의 효율성을 보여준다.
이러한 세 가지 접근 방식에 대한 월별 수익률 분포를 비교하면 알고리즘 모델이 손실을 줄이는 데 효과적이며, DJIA를 보유할 때의 정규 분포에서 VP-TD3 및 TD4 알고리즘의 양의 왜곡 분포로 이동했음을 알 수 있다.
 
위에 나열된 알고리즘 결과의 경우, 시장 변동성이 높은 시기에는 포트폴리오 자산이 현금 포지션으로 유지되었다는 점에 유의해야 한다.
그러나 실제로 변동성이 높은 기간 동안 계속 성장하기 위해 정부 채권과 같은 고정 수익 자산으로 자금을 이동할 수도 있다.
Figure 6: TD3 Account Value vs DJIA
Figure 6: TD3 Account Value vs DJIA
Figure 7: VP-TD4 Account Value vs DJIA
Figure 7: VP-TD4 Account Value vs DJIA
Table 1: Model Performance
Table 1: Model Performance

7️⃣ Conclusion

본 연구에서는 제안된 VP-TD4 알고리즘을 통해 주식 시장 거래에 Distributional RL을 사용하는 타당성을 탐구했다.
우리의 결과는 distributional critic network와 VPRB를 사용하는 수정 사항이 Sharpe Ratio에서 통계적으로 유의미한 개선을 가져온다는 것을 보여준다.
 
향후 연구에서는 알고리즘 트레이딩이 중단된 높은 변동성 기간 동안의 성능 향상에 집중할 수 있다.
이는 시장 거래 중단에 대한 임계값을 조사하고 불리한 기간을 결정하기 위한 보다 강력한 모델을 개발함으로써 달성할 수 있다.
또한 생성된 정책의 위험 관리 기능을 개선하기 위해 보상 함수의 일부로 위험을 포함하는 것의 타당성을 살펴볼 수 있다.