Index


Figures


Tables

Eom , Lee , and Kwon: A Survey on Weapon-Target Assignment for Realistic Battlefield Environments: From Exact Algorithm to Deep Reinforcement Learning

Chanin Eom♦ , Jaehwi Lee* and Minhae Kwon°

A Survey on Weapon-Target Assignment for Realistic Battlefield Environments: From Exact Algorithm to Deep Reinforcement Learning

Abstract: As the demand for intelligent command decision support systems grows, significant attention has been directed toward military decision-making. Weapon-target assignment (WTA) is a key component of a commander’s decision-making process, playing a crucial role in executing effective attacks and efficiently managing resources. Recently, WTA research has evolved to address realistic modern battlefield environments, increasing the complexity of optimization. For this reason, much WTA research has focused on time-efficient approaches, e.g., heuristic algorithms or deep reinforcement learning. Among these methods, deep reinforcement learning has garnered remarkable attention due to its high generalization performance in complex environments. In this paper, we survey research trends in WTA studies, a key component of intelligent military decision-making. Furthermore, we propose future directions for enhancing WTA systems to better address realistic battlefield environments.

Keywords: Military decision-making , Weapon-target assignment , Intelligent command decision , Deep reinforcement learning , Heuristic algorithm

엄찬인♦, 이재휘*, 권민혜°

현실적 전장 환경 반영을 위한 무기-표적 할당 기술 동향 연구: 최적 해법부터 심층 강화학습까지

요 약: 최근 지휘관의 의사결정 보조를 위한 지능형 지휘결심 시스템에 대한 관심과 필요성이 대두되고 있다. 무기-표적 할당(weapon-target assignment; WTA)은 지휘관의 의사결정 요소 중 하나로, 효과적인 공격 및 효율적인 자원관리를 위해 매우 중요한 요소이다. WTA 연구는 보다 현실적인 전장의 환경을 반영하기 위한 방향으로 발전하였으며, 문제 해결을 위한 복잡도가 크게 증가하였다. 이에 따라, 최근 WTA 연구는 real-time 내 성공적인 의사결정을 지원하기 위해 heuristic 알고리즘 및 심층 강화학습 방법론을 통해 해결되고 있다. 특히 심층 강화학습 방법론은 고차원의 전장 환경에도 성공적인 의사결정 지원이 가능하다는 점에서 더욱 유망한 기술로 평가되고 있다. 본논문에서는 지능형 지휘결심 구축을 위한 핵심 요소 중 하나인 WTA 기술에 대한 연구 동향을 살펴본다. 또한, 보다 현실적인 전장 상황을 반영하기 위한 WTA 연구 방향에 대해 제언한다.

키워드: 군사적 의사결정, 무기-표적 할당, 지능형 지휘결심, 심층 강화학습, 휴리스틱 알고리즘

Ⅰ. 서 론

최근 지휘통제 능력 강화에 대한 관심이 높아짐에 따라, 지능형 지휘결심 기술에 대한 필요성이 대두되고 있다[1]. 이를 위해서는 전장 분석, 대안평가, 전술적 결정 등 통합적인 군사적 의사 결정을 포괄할 수 있는 시스템의 설계가 필수적인 요소로 고려되고 있다[2,3].

WTA는 군사적 의사결정 기술 중 하나로, 표적의 위험도 및 아군의 무기 자원에 따라 효율적인 무기 할당을 목표로 한다[2,3]. 전통적인 WTA 최적화는 np-complete 문제로 알려져 있으며[4,5], 이에 최적의 해를 찾을 수 있는 exact 알고리즘을 통해 해결되어 왔다[6]. 이와 같은 접근은 복잡도가 낮은 환경에서 최적의 의사결정을 지원할 수 있다는 장점을 갖지만, 무기 및 표적의 수가 증가할 경우 복잡도가 지수적으로 증가한다는 어려움이 존재한다. 이러한 한계는 real-time 내의 의사결정을 어렵게 하기 때문에, 전통적인 WTA 연구는 특정 시점에서의 한정적인 의사결정 문제를 다루는 static WTA 문제를 위주로 진행되어 왔다[7,8].

Static WTA 문제는 시간에 따라 변화하는 전장의 특성을 반영하지 못한다는 문제점이 존재한다. 이에, 기존의 WTA 문제는 현실성을 반영하기 위한 문제로 발전되었다. 이에, 기존의 static WTA는 시간에 따라 적군의 위험정도 및 파괴 확률 등이 변화하는 dynamic WTA로 변화하였다[9-11]. 또한, 기존 표적의 파괴만을 고려했던 문제는 아군의 무기 사용 비용 최소화와 같이 현실적으로 달성해야 하는 다수의 표적을 동시에 달성하기 위한 방향으로 발전하였다[12-18]. 이러한 변화는 현실적인 전장의 특성을 반영할 수 있다는 장점을 갖지만, 추가적인 요소 및 차원을 고려함에 따라 최적화를 위한 탐색 공간의 복잡도가 매우 커지게 된다는 문제점이 존재한다.

현실성 반영으로 인해 최적화 복잡도가 높아진 WTA 문제의 해결을 위해 heuristic 알고리즘 기반의 접근이 시도되었다[12-21]. 해당 방법론은 기존 exact 알고리즘 방법론에 근접한 성능을 훨씬 적은 시간 안에 달성할 수 있다고 알려져 있다[7,8]. 이에 많은 연구들은 genetic 알고리즘[10,12], colony 알고리즘[19-21] 등과 같은 heuristic적 접근을 통해 real-time 내 높은 성능의 무기할당을 수행하는 것을 목표로 하였다. 이와 같은 방법을 통해 기존의 exact 알고리즘 대비 더욱 현실적인 환경을 고려할 수 있게 되었다. Heuristic적 접근은 근접해를 빠르게 찾을 수 있다는 장점을 지니지만, 고려하는 전장의 불확실성 혹은 복잡도가 크게 증가할 경우, 국소 최적해(local optima)에 고립될 수 있다는 어려움이 있다[20].

강화학습은 무기-표적 할당 문제 해결을 위한 유망한 방법으로 고려되고 있다[22-28]. 강화학습적 접근은 환경과의 상호작용을 통해 보상을 최대화하기 위한 의사결정 모델을 학습하며, 연속적인 의사결정이 요구되는 문제에 효과적이다. 이에 기존의 무기-표적 할당 문제를 Markov decision process (MDP) 정의를 통해 해결하는 접근이 활발히 진행되고 있다[25,26]. 특히, 심층 신경망을 결합한 심층 강화학습 방식은 고차원의 최적화 문제에도 높은 일반화 성능을 제공할 수 있다는 점에서, 현실적인 WTA 해결 방법으로 고려되고 있다.

본 논문에서는 지능형 지휘 결심 지원을 위한 기술 요소 중 하나인 WTA 연구 동향을 살펴본다. 이를 위해 전통적인 WTA 문제의 발전과정을 살펴본 뒤, 보다 현실적인 전장 환경 반영을 위해 발전해 나가야 할 방향에 대해 토의한다.

Ⅱ. 배경지식

본 절에서는 WTA에 관한 기본적인 개념 및 갈래에 대해 논의한다. 또한, 강화학습 기반의 WTA 방법론의 이해를 위한 강화학습 관련 배경지식을 제공한다.

2.1 Weapon-target Assignment

WTA는 군사적 관점에서의 자원 관리 문제로, 미리 정의된 수의 무기 [TeX:] $$n \in N$$를 다수의 표적 [TeX:] $$m \in M$$에 효율적으로 할당하기 위한 방법론을 의미한다. WTA 문제의 주요 목적은 아군 무기 자원의 활용을 통해 표적의 위협도(threat value)를 최소화 하는 것으로 아래와 같이 정의할 수 있다.

(1)
[TeX:] $$\min \sum_{m=1}^{|M|} V_m \prod_{n=1}^{|N|}\left(1-p_{n m}\right)^{x_{n m}}$$

여기서, [TeX:] $$V_m$$는 m 번째 표적의 위협도이며, [TeX:] $$p_{n m}$$은 무기 n이 표적 m을 파괴할 확률을 의미한다. [TeX:] $$|M| \text { 과 } |N|$$은 각각 아군 무기 수와 표적의 수를 의미한다. [TeX:] $$x_{nm}$$은 m번째 표적에 대한 n번째 무기의 할당과 관련한 변수로 무기 할당 여부 ([TeX:] $$x_{n m} \in\{0,1\}$$)[29,30] 혹은 표적에 할당된 무기 수([TeX:] $$x_{n m} \geq 0$$)[2,5,31]로 고려될 수 있다.

2.1.1 Dynamic Weapon-target Assignment

전통적인 WTA 문제는 대부분 고정된 시점에서의 최적화를 고려하였다[7,8]. 이와 같은 static WTA 문제는 시간에 따라 변화하는 표적의 성향을 고려하지 않기 때문에 실제 전장의 환경을 반영하기 어렵다. 이에, 기존의 WTA 문제 정의에서 시간 t에 대한 요소를 추가한 dynamic WTA 연구가 등장하였다. 해당 환경에서 아군의 표적 파괴 확률 [TeX:] $$p_{t, n m}$$ 및 위협도 [TeX:] $$V_{t,m}$$는 t-1 시점의 아군 의사결정에 따라 변화하며, 아래와 같은 목표를 달상하기 위한 최적화를 진행한다.

(2)
[TeX:] $$\min \sum_{t=1}^T \sum_{m=1}^{|M|} V_{t, m} \prod_{n=1}^{|N|}\left(1-p_{t, n m}\right)^{x_{t, n m}}$$

2.1.2 Multi-objective Weapon-target Assignment

전통적인 WTA 문제는 대부분 수식 (1)의 목적함수만을 고려하는 single-objective WTA 문제를 고려하였다. 이는 표적 무력화라는 단일 목표만을 달성할 수 있기 때문에 다수의 목표가 고려되는 실제 전장의 환경을 반영하기 어렵다. 이와 같은 문제점을 완화하기 위해 single-objective 문제는 다수의 목표를 동시에 만족하기 위한 multi-objective WTA 연구로 확장되었다[29,32]. 최근 WTA 문제들은 수식 (1)의 목적함수와 더불어 아군 자원의 효율적 활용[29,30], 집중 화력 유도[12] 등의 추가적인 목적함수의 고려를 통해 보다 현실적인 WTA 문제 설정을 수행하고 있다.

2.2 Reinforcement Learning

강화학습은 자율적 의사결정을 위한 기계학습 기반의 방법론으로, 개체는 환경과 상호작용을 통해 의사결정 방법을 학습한다.

2.2.1 Markov Decision Process

강화학습 문제는 MDP를 통해 정의될 수 있으며, 이는 튜플 [TeX:] $$\lt S, A, T, R, \gamma \gt$$로 표현된다. 여기서 각 요소는 상태 [TeX:] $$s_t \in S,$$ 행동 [TeX:] $$a_t \in A,$$ 상태 전이 확률 [TeX:] $$T\left(s_{t+1} \mid s_t, a_t\right),$$ 보상함수 [TeX:] $$R\left(s_t, a_t, s_{t+1}\right),$$ 감가율 [TeX:] $$\gamma \in(0,1]$$을 의미한다. 의사결정의 주체인 개체는 환경과의 상호작용을 통해 정책 π를 학습하며, 구체적으로 개체는 상태 [TeX:] $$s_t$$에서 행동 [TeX:] $$a_t$$을 선택하며, 상태-행동에 대한 보상 [TeX:] $$r_t=R\left(s_t, a_t, s_{t+1}\right)$$을 획득한다. 강화학습의 목적은 누적 보상을 최대화 하는 것으로 다음과 같이 정의할 수 있다.

(3)
[TeX:] $$\mathbb{E}\left[\sum_t \gamma^t R\left(s_t, a_t, s_{t+1}\right)\right]$$

이는 Bellman 방정식에 의해 상태-가치 함수를 최대화하는 것 [TeX:] $$\mathbb{E}\left[Q\left(s_t, a_t\right)\right]$$으로 재정의 될 수 있다.

2.2.2 Deep Reinforcement Learning

심층 강화학습은 심층 신경망 기반의 강화학습 방법론으로, 심층 신경망을 통해 직접방문하지 않은 상태에서도 근사적인 의사결정이 가능하다[33]. 이러한 특성으로 인해 고차원의 상태 및 행동 공간에서의 강화학습적 접근이 가능하게 되었다. 심층 강화학습 방법론은 가치기반[34,35], 정책을 직접적으로 최적화하는 정책기반[36], 그리고 두가지 방식을 혼합한 actor-critic 방법론[37,38]으로 나뉘어 질 수 있다.

가치 기반 방식에서는 상태-행동쌍의 가치를 근사하는 [TeX:] $$Q_\theta$$의 최적화를 통해 암묵적인 정책을 학습하며, 개체는 현재 상태 [TeX:] $$Q_\theta$$에서 최대의 Q 값을 갖는 행동 [TeX:] $$a_t=\arg \max _a Q_\theta\left(s_t, a_t\right)$$를 선택한다. Q 네트워크의 학습을 위해서는 현재 시점과 보상이 포함된 다음 시점의 Q 값 사이의 차이인 temporal difference error를 목적함수 [TeX:] $$J(\theta)$$로 고려할 수 있다.

(4)
[TeX:] $$\begin{aligned} J(\theta)= & \mathbb{E}_{s_{t+1} \sim T\left(s_t, a_t\right)}\left[Q_\theta\left(s_t, a_t\right)\right. \\ & \left.-\left(r_t+\gamma Q_\theta\left(s_{t+1}, \pi\left(s_{t+1}\right)\right)\right)\right]^2 \end{aligned}$$

여기서 π는 개체의 의사결정 모델인 정책을 의미한다.

정책 기반 방식은 Q 네트워크의 학습 없이 정책 네트워크 [TeX:] $$\pi_\phi$$를 최적화하는 방식으로 개체의 현재 정책에 직접적인 경사 상승법을 적용하여 정책을 업데이트 한다. 이때, 정책 업데이트를 위한 목적함수의 경사 [TeX:] $$\nabla_\phi J(\phi)$$는 아래와 같이 정의할 수 있다.

(5)
[TeX:] $$\nabla_\phi J(\phi)=\mathbb{E}_{\pi_\phi}\left[G_t \nabla_\phi \ln \pi_\phi\left(a_t \mid s_t\right)\right]$$

여기서 [TeX:] $$G_t$$는 누적 보상을 의미한다.

Actor-critic 알고리즘은 가치기반 방식과 정책 기반 방식을 결합한 방법론으로, Q 네트워크 [TeX:] $$Q_\theta$$ 및 정책 네트워크 [TeX:] $$\pi_\phi$$를 서로 상호 보완적으로 학습한다. Q 네트워크는 수식 (4)의 목적함수로 학습될 수 있으며, 정책 네트워크의 목적함수인 [TeX:] $$J(\phi)$$는 아래와 같이 정의할 수 있다.

(6)
[TeX:] $$J(\phi)=\mathbb{E}_{\pi_\phi}\left[Q_\theta\left(s_t, \pi_\phi\left(s_t\right)\right)\right]$$

2.3 Military Decision-making

군사적 의사결정은 불확실성과 임무 수행 과정에 필요한 일련의 과정을 모두 포함하는 군사 시스템을 의미한다[39]. 여기에는 전장 분석, 대안 평가, 전술적 결정 등이 포함되며, 전장 분석에서는 주어진 임무와 전장 환경을 정확히 파악하는 것을 목표로 한다. 대안 평가 단계에서는 전장 분석 정보를 통해 아군의 전술 후보를 결정하고, 각 전술을 실제 수행하였을 때의 결과를 예측한다. 마지막으로, 결정 및 실행 과정에서는 선택된 전략을 구체화하고, 실제 수행을 위한 명령을 전달하는 시스템 구축을 목표로 한다.

군사적 의사결정 시스템은 C3I의 형태에서 발전되어 왔다[39,40]. 이는 지휘(command), 통제(control), 통신(communication) 기능과 정보(intelligence) 기능으로 이루어져 있으며, 해당 기능의 결합을 통해 전장 상황에서 실시간 명령 전달을 지원하며, 아군의 전술적 결정을 효과적으로 실행하는데 중점을 두었다. 이는 복잡한 전장 상황에 대한 빠른 처리 능력이 중요해짐에 따라 컴퓨터(computer) 요소가 더해진 C4I 기반 군사 시스템으로 발전되었다[41]. C4I는 지능형 전술 지원을 주 목적으로 하며, 시뮬레이션을 통한 전술 지원 및 효과적인 데이터 관리를 통해 보다 효율적인 군 시스템을 구축하였다. 최근에는 심층 신경망을 통한 전장 분석[41,42] 및 심층 강화학습을 통한 전술 결정[43,44] 등 인공지능의 결합을 통해 고차원의 정보를 보다 효율적으로 처리하기 위한 시스템으로 발전하고 있다.

효율적 전술 지원에 더불어, 특정 전장 요소를 지원하기 위한 군사적 의사결정 시스템의 발전 또한 활발히 이루어지고 있다. 네트워크 기반의 전투를 고려할 경우, 사이버 공격 등 보안 관점의 시스템의 구축이 요구된다. 이에 기존의 C4에서 사이버(cyber) 요소가 추가된 C5 시스템이 제시되었다[45]. 최근에는 인공위성 및 무인항공기와 같은 첨단 기술 활용이 중요해짐에 따라 정찰(reconnaissance)과 감시(surveillance) 기능이 결합된 C5ISR 기반 군사적 시스템의 중요성이 대두되고 있다[46,47].

이처럼 군사적 의사결정 시스템은 효율적이고 빠른 지휘체계 구축을 위한 방향으로 발전하고 있으며, 보다 다양한 전장 요소를 지원하기 위해 개선되고 있다.

Ⅲ. Weapon-target Assignment 동향

WTA 연구는 실제 전장 요소를 반영할 수 있도록 기존의 방법론에서 다양한 요소, 목적 및 제약 조건 등을 추가 하는 방향으로 발전되어 왔다. 본 절에서는 WTA 연구의 발전에 따른 문제 해결 방안 및 문제 설정 방법에 대한 동향을 논의한다. 각 방법론에 대한 정리는 표 1을 통해 확인할 수 있다.

표(Table) 1.

무기-표적 할당 연구 분류 (Overview of research on weapon-target assignment)
논문 Static or Dynamic 해결방안 목적함수 제약 조건
단일 무기 단일 목표 할당시간
[6] Dynamic Exact Benefit-oriented
[2] Dynamic Heuristic Benefit-oriented
[31] Dynamic RL Benefit-oriented
[29] Dynamic Exact, Heuristic Benefit-oriented, Cost-oriented
[52] Dynamic Heuristic, RL Benefit-oriented
[9] Dynamic Heuristic Benefit-oriented
[30] Dynamic Heuristic Benefit-oriented, Cost-oriented
[55] Dynamic Heuristic Benefit-oriented
[10] Dynamic Heuristic Benefit-oriented
[56] Dynamic Heuristic, RL Benefit-oriented, Cost-oriented
[32] Dynamic Heuristic Benefit-oriented, Cost-oriented
[11] Dynamic Heuristic, RL Benefit-oriented
[22] Dynamic RL Benefit-oriented, Cost-oriented
[23] Dynamic RL Benefit-oriented
[24] Dynamic RL Benefit-oriented
[4], [12], [13] Dynamic Heuristic Benefit-oriented, Cost-oriented
[14] Dynamic Heuristic Benefit-oriented, Cost-oriented
[15] Dynamic Heuristic, RL Benefit-oriented, Cost-oriented
[16] Dynamic Heuristic Benefit-oriented, Cost-oriented
[17] Dynamic Heuristic Benefit-oriented, Cost-oriented
[18] Dynamic Heuristic Benefit-oriented, Cost-oriented
[48] Static Exact, Heuristic Cost-oriented
[17],[50],[51] Static Heuristic Benefit-oriented
3.1 Weapon-target Assignment 문제 해결 방법론

WTA 연구에서 고려하는 환경의 복잡도가 증가함에 따라 real-time 내에 최적화할 수 있는 능력이 요구되고 있다. 이에 WTA 연구는 최적화 성능과 속도 사이의 trade-off를 고려한 방법론을 적용하고 있으며, 대표적으로, exact 및 heuristic 알고리즘과 강화학습 기반의 방법론이 존재한다.

3.1.1 Exact Approaches

Exact 알고리즘은 전통적인 최적화 방법 중 하나로, 항상 최적의 해를 찾을 수 있다는 장점이 있다. 하지만, 모든 탐색공간을 고려해야 한다는 특성으로 인해 비교적 낮은 복잡도를 갖는 static WTA 문제 해결을 위한 방법론으로 고려되었다[48,49]. [48]에서는 분기 경계(branch-and-bound) 알고리즘의 활용을 통해 비교적 낮은 복잡도를 가지는 WTA 문제를 해결하였다. 또한, [49]에서는 dynamic programming 기반 완전 탐색 기법을 통해 최적의 의사결정 방법을 도출하였다. 이처럼, exact 알고리즘 방식은 주어진 환경에서의 무기 할당 의사결정 정책을 최적으로 해결할 수 있다는 큰 장점을 갖는다. 하지만, 해당 방법론의 시간 복잡도는 무기 및 표적의 수가 증가함에 따라 지수적으로 증가한다. 이에, 최적화에 많은 시간을 요구하는 exact 방법론은 빠른 탐색을 고려하는 heuristic 방법론과 결합되는 방식으로 발전되고 있다[29].

3.1.2 Heuristic Approaches

Heuristic 알고리즘 기반 방식은 효율적인 탐색을 고려하는 최적화 방식으로 근접해를 빠르게 찾는 것을 목표로 한다. 해당 방식은 exact 알고리즘과 유사한 성능을 보이면서도 빠른 시간 내에 근접해를 찾을 수 있기 때문에 많은 WTA 문제에서 고려된다. 대표적인 heuristic 알고리즘으로는 유전 알고리즘 및 군집 최적화 방식이 존재한다.

1) Genetic Algor ithm: 유전 알고리즘은 유전학의 자연 선택과 관련한 요소를 도입한 최적화 방법 중 하나이다. 해당 방법은 초기 단계에서 잠재적 해를 의미하는 개체를 초기화하며, 각 개체의 의사결정에 대한 평가를 수행한다. 이후, 가장 높은 적합도를 가지는 개체만을 다시 분할함으로써, 근접해를 찾아 나가는 방식이다.

유전 알고리즘은 비교적 높은 복잡도를 갖는 dynamic WTA[10,18,50] 및 multi-objective WTA[12] 환경에서 활발히 사용되고 있다. 유전 알고리즘의 활용은 exact 알고리즘 대비 빠른 최적화가 가능하다는 장점이 있지만, 국소 최적해(local optima)에 고립될 수 있으며, 불확실성이 높은 환경에서의 최적화가 어렵다는 특징이 있다[18]. 이에, 불확실성을 고려하는 퍼지 시스템[10] 혹은 회색 이론[18]과 유전 알고리즘을 결합하는 등 유전 알고리즘의 개선을 통해 더욱 복잡한 WTA 문제 해결을 위한 시도가 수행되고 있다.

2) Artificial Colony Optimization: 군집 최적화 방법은 생물 군집의 먹이 탐색 행동을 모방한 알고리즘으로, 벌 집단의 영감을 받은 ABC(artificial bee colony) 알고리즘과, 개미 집단을 모방하는 AAC(artificial ant colony) 알고리즘이 대표적이다

ABC 알고리즘은 최적화 초기에 다양한 초기 해 집합을 생성하기 때문에, 여러 경우의 탐색이 필요한 WTA 문제에 효과적이라는 장점이 있다. 이에 다양한 연구에서는 ABC 알고리즘에 기반하여 WTA 문제를 해결해 오고 있다[19-21]. 하지만, ABC 알고리즘은 다양한 초기해를 고려한다는 점에서 많은 제약 조건이 존재하는 WTA 문제를 고려할 경우 수렴속도가 크게 저하될 수 있다. 이에, 규칙기반의 방식으로 초기해를 설정하여 빠른 수렴을 유도하거나[20], ABC 알고리즘 최적화를 위한 파라미터를 강화학습 기반으로 조정[21]하는 등 기존의 ABC 알고리즘의 개선을 통해 WTA 문제를 해결하는 연구가 활발히 수행되고 있다.

ACO 알고리즘은 ABC 알고리즘 보다 빠른 최적화가 가능하다는 특성이 있다. 이에, real-time 내 의사결정을 수행해야 할 필요가 있는 WTA 문제에서는 ACO 기반의 연구 또한 활발히 진행되고 있다. 하지만, ACO 방법론은 매개변수 설정에 따라 국소 최적해에 고립되기 쉽다는 단점이 존재한다. 이에, ACO 기반의 WTA 연구는 다른 heuristic 알고리즘과의 결합을 통한 방법이 연구되고 있다. [51]에서는 지역적 탐색에 효과적인 면역 알고리즘과 ACO를 결합함으로써, 더욱 최적화된 의사결정 모델을 구축하였다.

이처럼 heuristic 기반의 알고리즘은 exact 알고리즘 보다 빠른 최적화가 가능하다는 점에서 큰 이점을 갖는다. 하지만, 고려하는 환경의 차원이 매우 크거나, 환경 내 불확실성이 존재할 경우 최적화된 의사결정이 어렵다는 한계가 존재한다. 최근에는 이 같은 한계를 완화할 수 있는 강화학습 기반의 WTA 연구가 증가하고 있다.

3.1.3 Deep Reinforcement Learning

심층 강화학습 기반의 WTA 연구는 최근 빠르게 증가하고 있다. 이를 활용하는 WTA 연구는 크게 기존의 heuristic 방법론에 강화학습을 적용하는 방식과 WTA 문제 자체를 강화학습적 정의를 통해 해결하는 방식으로 구분될 수 있다.

1) Heur istic + Reinforcement Learning: Heuristic 알고리즘의 탐색 전략은 불확실성이 존재하는 환경에 강건하지 않다는 어려움이 존재한다[17]. 이에 심층 강화 학습을 통해 heuristic 알고리즘의 탐색 전략을 개선하는 연구가 활발히 진행되고 있다. [52]에서는 유전 알고리즘의 초기 해의 설정 방법을 강화학습 기반으로 학습하여, 기존 유전 알고리즘 방법 대비 전역 최적화 관점에서 우수함을 확인하였다. 또한, [53]에서는 ABC 알고리즘의 탐색 방법을 Q-learning 기반으로 학습함으로써, 기존 방법론의 낮은 할당 효율성을 높였다. 이외에도 진화 알고리즘[54] 등과 같이 다양한 heuristic 방법론에 강화학습을 결합하는 연구가 다수 진행되고 있다.

2) Reinforcement Learning: WTA 문제를 강화학습을 통해 직접적으로 해결하는 연구 또한 활발히 진행되고 있다[22-26]. 이를 위해서는 기존의 WTA 문제를 MDP로 정의하는 과정을 포함한다. 이에, 많은 연구에서는 실제 전장의 요소들을 상태 정보에 포함함으로써, 보다 현실적인 전장 환경을 고려할 수 있게 되었다. [25]에서는 공중 표적 요격 시나리오에서 무기의 운동학적인 요소를 상태 정보에 포함으로써, 보다 현실적인 WTA 문제를 해결하였다. 또한, [26]에서는 전자광학 무기 할당 문제 해결을 위해 무기의 스펙트럼 유형 등의 상태 정보를 의사결정에 활용하고, 간섭 효과를 최대화할 수 있는 할당정책을 구축하였다. 이처럼 강화학습 기반의 접근은 보다 현실적인 전장 정보를 활용한 WTA 정책 구축을 위한 방법론으로 고려될 수 있다.

실제 전장 상황에서 모든 환경 정보를 관측하는 것은 현실적으로 어렵다. 이에, 강화학습 개체가 부분적인 관측 정보를 기반으로 의사결정을 수행하는 WTA 연구 또한 꾸준히 고려되고 있다. [27]에서는 WTA 문제를 부분적 관측 기반의 POMDP 문제로 정의하였으며, 각 무기는 자체 센싱 범위 내의 정보만을 통해 무기 할당 정책을 학습하였다. 또한, [28]에서는 개체가 관측 정보를 통해 전장의 상태를 예측하는 belief state 기반의 의사결정을 수행하는 WTA 문제를 정의하였다. 이와 같은 연구들은 개체가 완벽한 전장 정보에 접근하지 못한다는 점에서 불확실성이 존재하는 현실적인 전장 환경을 고려하는 연구로 분류될 수 있다[28].

최근에는 무기별 분산화된 할당 문제 해결을 위해 multi-agent 강화학습 기반의 WTA 연구 또한 수행되고 있다. [24]에서는 각 무기가 독립적이고 부분적인 관측만 가능한 decentralized POMDP의 정의를 통해 각 무기가 기존 heuristic적 접근 대비 무기할당 성능이 우수함을 확인하였다. [28]에서는 무인 항공기 전투 시나리오에서 각 개체의 학습을 위해 multi-agent 강화학습 알고리즘인 MA-DDPG을 적용함으로써, 분산된 의사결정 모델을 구축하였다. 이처럼 강화학습 기반 WTA 문제로 확장됨에 따라 다양한 전장 시나리오, 부분적인 관측 정보 및 분산된 의사결정을 고려하는 등 더욱 현실적인 전장 상황을 고려한 WTA 연구로 발전되고 있다.

이처럼 심층 강화학습 기반의 방법론은 기존의 heuristic 알고리즘의 한계를 보완하기 위한 목적과 더불어 보다 현실적인 WTA 문제 해결을 위해 활발히 사용되고 있다. 해당 방법론은 높은 일반화 성능과 더불어, 학습 뒤 적용단계에서 추가적인 최적화가 요구되지 않는다는 특징이 있다. 이는 real-time 의사결정을 요구하면서 고차원의 의사결정이 필요한 현실적인 WTA 문제 해결을 위한 방법론으로 유망하게 활용될 수 있다.

3.2 Weapon-target Assignment 문제 설정

현실성 있는 WTA 기술 구축을 위해서는 실제 전장에서의 목적 달성이 가능한 WTA 문제를 고려할 필요가 있다. 이에, 기존의 WTA 연구는 해결하고자 하는 시나리오에 따라 다양한 목적함수를 설계하는 방향으로 발전하고 있다. 또한, 실제 전장 상황 혹은 무기의 특성에 맞는 제약 조건 등을 포함하는 방향으로 발전되어 오고 있다. 본 절에서는 WTA 연구의 문제 설정 동향을 목적함수 설계와 제약 조건 설정의 관점에서 살펴본다.

3.2.1 Objective function 관점

WTA 문제에서 고려하는 대표적인 목적함수로는 아군의 이익 최대화를 위한 benefit-oriented 함수와 손해를 최소화하기 위한 cost-oriented 함수로 분류될 수 있다.

1) Benefit-or iented: 아군의 이익을 최대화하는 것을 목표로 하는 목적함수로, 수식 (1)과 같이 아군의 공격을 통한 목표의 위협도를 최소화하는 것이 대표적이다[2,6,9,29,32]. 이외에도, 아군의 무기 할당에 의한 표적의 피해를 최대화하는 목적함수 또한 활발히 고려되고 있으며[15-17], 이는 아래와 같이 정의될 수 있다.

(7)
[TeX:] $$\max \sum_{m=1}^{|M|} V_m\left[1-\prod_{n=1}^{|N|}\left(1-p_{n m}\right)^{x_{n m}}\right]$$

이와 같은 benefit-oriented 함수는 WTA 문제의 가장 1차적인 목적함수로써 고려되며, 대부분의 multi-objective WTA 연구에서는 해당 목적함수와 더불어 추가적인 목적함수의 사용을 고려한다.

2) Cost-or iented: 무기 선택 문제는 아군의 자원을 활용하여 표적을 효과적으로 파괴하는 것을 목적으로 한다. 최근에는, 기존의 WTA 목적과 더불어 아군의 자원을 보다 효율적으로 사용하기 위한 접근이 다방면에서 이루어지고 있다[18,29,30,48]. 가장 직접적으로는 사용 무기의 수를 cost로 고려하여, 이를 최소화하기 위한 최적화를 진행할 수 있다.

(8)
[TeX:] $$\min \sum_{m=1}^{|M|} \sum_{n=1}^{|N|} c_{n m} x_{n m}$$

여기서 [TeX:] $$c_{n m}$$은 무기 [TeX:] $$n \in N$$을 표적 [TeX:] $$m \in M$$에 할당했을 때의 무기 사용 비용을 의미한다.

3) Other objective function: 대부분의 WTA 문제에서는 benefit-oriented 및 cost-oriented 목적함수를 고려하지만, 시나리오에 따른 추가적인 목적함수가 고려되기도 한다. [12]에서는 중앙 집중적인 화력 지원을 위해 표적에 할당된 무기의 수를 감소하기 위한 목적함수를 추가하였으며, [55]에서는 공중 작전 시나리오 해결을 위해 무기의 특성을 반영하여 타격 시 무기의 방향, 각도 등과 관련한 목적함수를 고려하고 있다[55]. 이처럼 WTA 문제는 현실적 목표 달성을 위해 다양한 목적함수를 활용하는 방향으로 발전하고 있다.

3.2.2 Constraint 설정 관점

목적함수 설계와 함께, 제약 조건의 설정 방법 또한 현실적인 WTA 문제 설정을 위해 중요하게 고려되는 요소이다. 대표적인 제약 조건으로는 무기 할당 개수 제약, 할당 가능한 표적 수 제약, 그리고 무기 사용 시간 제약이 있다.

1) 무기 할당 개수 제약: 해당 제약은 각 무기 [TeX:] $$n \in N$$이 하나의 표적 [TeX:] $$m \in M$$에 할당할 수 있는 무기 개수의 상한을 설정한다. 가장 기본적인 형태로는 현재 각 무기 [TeX:] $$n \in N$$가 보유한 자원수 [TeX:] $$W_n$$를 할당 가능 최댓값으로 설정하는 제약으로 아래와 같다.

(9)
[TeX:] $$\sum_{m=1}^{|M|} x_{n m} \leq W_n, \quad x_{n m} \geq 0, \quad \forall n \in N$$

여러 시점의 의사결정을 고려하는 dynamic WTA 환경에서는 현재 시점 t에서 각 무기별 사용 가능한 자원 수 [TeX:] $$W_{t,n}$$를 설정하며[2,6,52,31], 해당 제약은 아래와 같이 정의한다.

(10)
[TeX:] $$\begin{aligned} & \sum_{m=1}^{|M|} x_{t, n m} \leq W_{t, n}, \quad x_{t, n m} \geq 0, \\ & \quad \forall n \in N, \forall t \in\{1, \cdots, T\} \end{aligned}$$

해당 제약 조건을 고려하는 WTA 문제는 제한된 사용 가능 자원 내에서 효율적인 할당을 요구하는 보다 현실적인 WTA 문제로 고려될 수 있다.

무기 할당 개수 제약 관점에서 가장 강한 규제를 고려하는 연구에서는 각 무기별 사용 가능 자원을 최대 1개로 설정한다[15,22-24]. 즉, [TeX:] $$x_{t, n m} \in\{0,1\}$$의 형태로 정의되며, [TeX:] $$x_{t, n m}=0$$일 경우는 무기 미할당, [TeX:] $$x_{t, n m}=1$$는 무기 할당으로 이진 할당 문제로 고려된다.

(11)
[TeX:] $$\begin{gathered} \sum_{m=1}^{|M|} x_{t, n m} \leq W_{t, n}, \quad x_{t, n m} \in\{0,1\}, \\ \forall n \in N, \forall t \in\{1, \cdots, T\} \end{gathered}$$

2) 표적 할당 개수 제약: 무기가 선택할 수 있는 표적의 수에 상한을 두는 제약 조건으로, 가장 일반적인 형태로는 하나의 표적에 할당할 수 있는 최대 무기의 수 [TeX:] $$Y_m$$ 설정하는 형태로 고려 된다[10,56,57].

(12)
[TeX:] $$\sum_{n=1}^{|N|} x_{n m} \leq Y_m$$

해당 제약은 하나의 무기가 다수의 표적을 동시에 타격 하는 것을 허용하나 한번에 최대 [TeX:] $$Y_m$$까지의 표적만을 고려할 수 있음을 의미한다. 여기서 보다 강한 제약을 고려하는 연구에서는 [TeX:] $$Y_m=1$$로 설정하며[23,30,31], 이는 하나의 무기는 특정 시점에서 단일 표적만을 타격할 있음을 의미한다.

3) 무기 사용 시간 제약: 실제 전장 상황에서 모든 무기를 항상 사용하는 것이 제한될 경우가 존재한다. 할당 시간 제약은 이 같은 조건을 고려하여 WTA 문제를 최적화한다. 할당 시간 제약은 참여 가능시간 제약 및 휴지시간 제약으로 크게 두 가지로 분류할 수 있다. 참여 가능 시간 제약은 각 무기가 표적에 할당될 수 있는 시간에 제한을 두는 것으로 미리 설정된 time-window 기간 내에만 무기 할당을 가능하게 한다[17,29,32]. 휴지시간 제약은 무기 사용 간격을 고려하는 제약으로, 무기 사용 후 특정 시간 동안 해당 무기를 재사용할 수 없는 조건을 추가하는 제약을 의미한다[23].

Ⅳ. 토 의

지휘관 의사결정 보조를 위한 무기-표적 할당을 위해서는 몇 가지 개선되어야 할 요소들이 존재한다. 본 장에서는 현재의 무기-표적 할당 연구 분야가 발전되어야 할 방향에 대해 토의한다. 이를 위해 기존의 무기-표적 할당 연구와 군사적 의사결정 연구에 대해 비교한다. 구체적인 비교 결과는 표 2를 통해 확인할 수 있다.

표(Table) 2.

무기-표적 할당 연구와 군사적 의사결정 연구 비교 (Comparison between weapon-target assignment and military decision-making research)
분류 논문 이동성 협력 의사결정 해결방법 목적
아군 적군
table1.png [2] Assignment strategy Heuristic Minimize target threat, Minimize cost
[17] Assignment strategy Heuristic Maximize damage, Minimize cost
[29] Assignment strategy Exact, Heuristic Maximize damage, Minimize cost
[52] Assignment strategy RL, Heuristic Maximize number of enemies destroyed
[25] Assignment strategy RL Maximize number of enemies destroyed
[24] Assignment strategy, Task selection RL, Heuristic Maximize Damage
table2.png [59] Assignment strategy, Task selection RL, Heuristic Maximize damage, Minimize flight distance, waiting time
[43] Assignment strategy, Movement RL Victory, Find enemy, Minimize cost
[44] Assignment strategy, Movement RL Maximize enemy damage, Successful completion of task
4.1 현실적인 전장 환경 고려

기존의 무기-표적 할당 문제는 다수의 목적함수 고려, 동적 의사결정 문제로의 발전 등 현실적인 전장 환경을 고려하기 위해 발전하였다. 하지만, 여전히 실제 전장 상태의 반영은 부분적으로만 이루어지고 있으며, 더욱 다양한 전장 환경 요소가 고려될 필요가 있다. 예를 들어, 현재 대부분의 WTA 연구에서는 전장의 지형적 특성이 고려되지 않고 있다. 하지만, 실제 전장의 지형은 임무 수행에 있어서 매우 중요하게 여겨지는 요소이다. 따라서, 보다 실용적이고 현실적인 의사결정 지원을 위해서는 실제 전장의 지형이 고려되어야 할 필요가 있다[44,58].

아군 및 적군의 이동성 또한 현실적인 지휘관 의사결정 보조를 위해 중요하게 고려되야 한다. 하지만 많은 연구에서는 이동성 자체를 고려하지 않거나[24,52] 적군의 이동만을 고려하는 다소 제한적인 시나리오를 고려하고 있다[2,17]. 실제 전장의 환경을 반영하기 위해서는 적군, 아군에 현실적인 이동 모델인 반영된 환경이 고려되어야 할 필요가 있다[15,43,44,59].

4.2 아군간 협력 정책의 필요성

실제 전장 환경을 고려할 때, 아군간 협력은 매우 중요한 요소이다. 하지만, 현재 무기-할당 문제를 해결을 위한 주요한 방법론인 heuristic적 접근을 통해서 협력의 개념을 도입하는 것은 쉽지 않다. 이는 아군 개체 간 협력을 고려할 경우 최적화의 복잡도와 불확정성이 증가할 수 있기 때문이다. 최근 강화학습이 고려된 WTA 연구에서는 부대간 협력이 고려되고 있지만[24,25], 비교적 적게 수행되고 있다. 실제 전장의 환경에서는 각 부대간 협력적 작전 수행이 중요하기 때문에, 지휘관의 의사결정 보조를 위한 WTA 기술로의 발전을 위해서는 multi-agent 강화학습 기반의 협력적 WTA 연구의 수행이 필요하다.

4.3 의사결정 요소의 확장

군사적 의사결정에는 무기 할당 뿐만 아니라, 아군의 임무 분담 등의 다양한 의사결정 요소가 포함된다. 이러한 관점에서 WTA 연구는 무기할당 뿐 아니라, 군사적 의사결정에 필요한 다양한 행동 요소를 고려하도록 확장될 필요가 있다. 하지만, 이와 같이 large scale의 의사결정을 고려할 경우 기존의 exact 및 heuristic 기반의 접근은 탐색 복잡도의 증가로 real-time 내에 성공적인 의사결정 수행이 어려워질 수 있다. 이에, 무기 할당 이외의 추가적인 행동을 고려하는 연구는 심층 강화학습 방법론을 기반으로 부분적으로 수행되고 있다[15,24]. 지휘관 의사결정을 성공적으로 지원하기 위해서는 다양한 의사결정 요소를 고려하면서, 보다 구체화된 행동요소를 고려하는 연구가 수행되어야 한다[43,44,59].

Ⅴ. 결 론

본 논문에서는 WTA 연구 동향을 문제 해결 방법 및 전장 상황 반영을 위한 문제 설정 방법을 중심으로 소개하였다. WTA 연구는 현실적인 전장 상황을 부분적으로 반영하는 방향으로 크게 발전하였지만, 부대 이동성, 지형 정보 등과 같이 더욱 현실성 높은 전장 환경의 고려가 필요하다. 또한, 부대 간 협력 등 실제 군사적 의사결정 요소의 특성이 반영될 필요가 있다. 또한, 지휘관 의사결정 보조를 위해서는 무기 할당을 넘어 부대 이동 등 추가적인 의사결정 요소의 고려가 필요할 것이다. 이 같은 발전을 위해서는 심층 강화학습과 같이 고도화된 의사결정 구축 방법이 유망할 것으로 전망된다.

Biography

엄 찬 인 (Chanin Eom)

2022년 8월 : 숭실대학교 전자정보공학부 IT융합전공 학사

2022년 9월~현재 : 숭실대학교 지능형반도체학과 석사과정

<관심분야> 강화학습, 인공지능, 지능형지휘결심, 자율주행

[ORCID:0009-0005-6340-6635]

Biography

이 재 휘 (Jaehwi Lee)

2024년 2월 : 숭실대학교 전자정보공학부 IT융합전공 학사

2024년 3월~현재 : 숭실대학교 지능형반도체학과 석사과정

<관심분야> 인공지능, 강화학습, 지휘통제체계, 자율주행

[ORCID:0009-0001-8014-6493]

Biography

권 민 혜 (Minhae Kwon)

2011년 8월 : 이화여자대학교 전자정보통신공학과 학사

2013년 8월 : 이화여자대학교 전자공학과 석사

2017년 8월 : 이화여자대학교 전자전기공학과 박사

2017년 9월~2018년 8월 : 이화여자대학교 전자전기공학과 박사 후 연구원

2018년 9월~2020년 2월 : 미국 Rice University, Electrical and Computer Engineering, Postdoctoral Researcher

2020년 3월~현재: 숭실대학교 전자정보공학부 IT융합전공 조교수

<관심분야> 강화학습, 지능형지휘결심, 자율주행, 모바일네트워크, 연합학습, 계산신경과학

[ORCID:0000-0002-8807-3719]

References

  • 1 IITP, ICT R&D Technology Roadmap 2025, R etrieved Sep. 29, 2024, https://www.iitp.kr/kr/1 /knowledge/openReference/view.it?ArticleIdx= 5239&count=truecustom:[[[https://www.iitp.kr/kr/1/knowledge/openReference/view.it?ArticleIdx=5239&count=true]]]
  • 2 O. Tolga "Evolving model for synchronous weapon target assignment problem," IEEE INISTA, 2021.custom:[[[-]]]
  • 3 K. Zhang, et al., "A dynamic weapon target assignment based on receding horizon strategy by heuristic algorithm," J. Physics, vol. 1651, p. 012062, 2020. (https://doi.org/10.1088/1742-6596/1651/1/0120 62)doi:[[[10.1088/1742-6596/1651/1/012062]]]
  • 4 H. Tunga, et al., "Efficacy analysis of NSGAII and multi-objective particle swarm optimization (MOPSO) in agent-based weapon target assignment (WTA) model," Int. J. Inf. Technol., vol 16, no. 3, pp. 1347-1356, 2024. (https://doi.org/10.1007/s41870-023-01674-0)doi:[[[10.1007/s41870-023-01674-0]]]
  • 5 H. Xu, et al., "Dynamic gaussian mutation beetle swarm optimization method for large-scale weapon target assignment problems," Applied Soft Computing, vol. 162, p. 111798, 2024. (https://doi.org/10.1016/j.asoc.2024.111798)doi:[[[10.1016/j.asoc.2024.111798]]]
  • 6 K. Ahner, et al., "Optimal multi-stage allocation of weapons to targets using adaptive dynamic programming," Optimization Lett., vol. 9, no. 8, pp. 1689-1701, 2015. (https://doi.org/10.1007/s11590-014-0823-x)doi:[[[10.1007/s11590-014-0823-x]]]
  • 7 J. Guangsheng, et al., "A survey of intelligent optimization algorithms for weapon target assignment (WTA) problem," MSIEID, 2020.custom:[[[-]]]
  • 8 A. Kline, et al., "The weapon-target assignment problem," Comput. & Oper. Res., vol 105, no. 5, pp. 226-236, 2019. (https://doi.org/10.1016/j.cor.2018.10.015)doi:[[[10.1016/j.cor.2018.10.015]]]
  • 9 E. Elfeky, et al., "Coevolutionary algorithm for evolving competitive strategies in the weapon target assignment problem," ISMSI, 2022.custom:[[[-]]]
  • 10 J. Li, et al., "Genetic fuzzy tree based learning algorithm toward the weapon-target 214 assignment problem," ICAUS, 2021.custom:[[[-]]]
  • 11 L. Chang, et al., "A time-driven dynamic weapon target assignment method," IEEE Access, vol. 11, pp. 129623-129639, 2023. (https://doi.org/10.1109/ACCESS.2023.333251 3)doi:[[[10.1109/ACCESS.2023.3332513]]]
  • 12 C. Wang, et al., "Multi-objective optimization of weapon target assignment based on genetic algorithm," CITCE, 2021.custom:[[[-]]]
  • 13 X. Wu, et al., "A modified MOEA/D algorithm for solving bi-objective multi-stage weapon-target assignment problem," IEEE Access, vol. 9, pp. 71832-71848, 2021. (https://doi.org/10.1109/ACCESS.2021.307915 2)doi:[[[10.1109/ACCESS.2021.3079152]]]
  • 14 H. Xing, et al., "An air defense weapon target assignment method based on multi-objective artificial bee colony algorithm," Computers, Materials & Continua, vol. 76, no. 3, pp. 2685-2705, 2023. (https://doi.org/https://doi.org/10.32604/cmc.20 23.036223)doi:[[[https://]]]
  • 15 X. Li, et al., "An efficiency framework for task allocation based on reinforcement learning," ICICML, 2023.custom:[[[-]]]
  • 16 Y. Xiaojian, et al., "Solving multi-objective weapon-target assignment considering reliability by improved MOEA/D-AM2M," Neurocomputing, vol. 563, p. 126906, 2023. (https://doi.org/10.1016/j.neucom.2023.126906)doi:[[[10.1016/j.neucom.2023.126906]]]
  • 17 Z. Xiaojun, et al., "Dynamic weapon-target assignment of armored units based on improved MOPSO algorithm," IAECST, 2021.custom:[[[-]]]
  • 18 Y. Zhao, et al., "Multi-weapon multi-target assignment based on hybrid genetic algorithm in uncertain environment," Int. J. Advanced Robotic Syst., vol. 17, no. 2, 2020. (https://doi.org/10.1177/1729881420905922)doi:[[[10.1177/1729881420905922]]]
  • 19 R. Durgut, et al., "An artificial bee colony algorithm for solving the weapon target assignment problem," ICICM, 2017.custom:[[[-]]]
  • 20 T. Chang, et al., "Solving the dynamic weapon target assignment problem by an improved artificial bee colony algorithm with heuristic factor initialization," Applied Soft Computing, vol. 70, no. 9, pp. 845-863, 2018. (https://doi.org/10.1109/ACCESS.2021.307915 2)doi:[[[10.1109/ACCESS.2021.3079152]]]
  • 21 T. Wang, et al., "Unmanned ground weapon target assignment based on deep Q-learning network with an improved multi-objective artificial bee colony algorithm," Eng. Appl. Artificial Intell., vol. 117, p. 105612, 2023. (https://doi.org/10.1016/j.engappai.2022.10561 2)doi:[[[10.1016/j.engappai.2022.105612]]]
  • 22 L. Weilin, et al., "Learning-based policy optimization for adversarial missile-target assignment," IEEE Trans. Syst., Man, and Cybernetics: Syst., vol. 52, no. 7 pp. 4426-4437, 2021. (https://doi.org/10.1109/TSMC.2021.3096997)doi:[[[10.1109/TSMC.2021.3096997]]]
  • 23 M. Shin, et al., "Mean field game-based reinforcement learning for weapon-target assignment," J. Korea Inst. Military Sci. and Technol., vol. 23, no. 4, pp. 337-345, 2020. (https://doi.org/10.9766/KIMST.2020.23.4.337)doi:[[[10.9766/KIMST.2020.23.4.337]]]
  • 24 S. Maryam, et al., "Dynamic distributed constraint optimization using multi-agent reinforcement learning," Soft Computing, vol. 26, no. 8, pp. 3601-3629, 2022. (https://doi.org/10.1007/s00500-022-06820-7)doi:[[[10.1007/s00500-022-06820-7]]]
  • 25 G. Merkulov, et al., "Reinforcement learning based decentralized weapon-target assignment and guidance," AIAA SCITECH Forum, 2024.custom:[[[-]]]
  • 26 H. Gong, et al., "Weapon targets assignment for electro-optical system countermeasures based on multi-objective reinforcement learning," IEEE CAC, 2022.custom:[[[-]]]
  • 27 X. Kong, et al., "Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments," Frontiers in Neurorobotics, vol. 17, 2024. (https://doi.org/10.3389/fnbot.2023.1302898)doi:[[[10.3389/fnbot.2023.1302898]]]
  • 28 T. Li, et al., "MADDPG-D2: An intelligent dynamic task allocation algorithm based on multi-agent architecture driven by prior knowledge," CMES-Computer Modeling in Eng. & Sci., vol. 140, no. 3, pp. 2559-2586, 2024. 215 (https://doi.org/10.32604/cmes.2024.052039)doi:[[[10.32604/cmes.2024.052039]]]
  • 29 X. Chang, et al., "Bi-objective multi-stage weapon target assignment problem with limited ammunition," IEEE BigDIA, 2023.custom:[[[-]]]
  • 30 D. Guo, et al., "Weapon target assignment method with grouping constraints for interception based on artificial bee colony algorithm," IEEE ICCA, 2019.custom:[[[-]]]
  • 31 M. Byun, et al., "Time-efficient weapon-target assignment by actor-critic reinforcement," IEEE SMC, 2023.custom:[[[-]]]
  • 32 W. Li, et al., "Knowledge-guided evolutionary optimization for large-scale air defense resource allocation," IEEE Trans. Artificial Intell., vol. 5, no. 12, pp. 6267-6279, Dec. 2024. (https://doi.org/10.1109/TAI.2024.3375263)doi:[[[10.1109/TAI.2024.3375263]]]
  • 33 C. Eom, et al., "Autonomous driving strategy for bottleneck traffic with prioritized experience replay," J. KICS, vol. 48, no. 66, pp. 690-703, 2023. (https://doi.org/10.7840/kics.2023.48.6.690)doi:[[[10.7840/kics.2023.48.6.690]]]
  • 34 V. Mnih, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518, no. 7540, pp. 529-533, 2015. (https://doi.org/10.1038/nature14236)doi:[[[10.1038/nature14236]]]
  • 35 H. Hasselt, et al., "Deep reinforcement learning with double Q-leaning," AAAI, 2016.custom:[[[-]]]
  • 36 R. Williams, "Simple statistical gradientfollowing algorithms for reinforcement learning," Mach. Learn., vol. 8, no. 3-4, pp. 229-256, 1992. (https://doi.org/10.1007/BF00992696)doi:[[[10.1007/BF00992696]]]
  • 37 T. Lillicrap, et al., "Continuous control with deep reinforcement learning," ICLR, 2016.custom:[[[-]]]
  • 38 T. Haarnoja, et al., "Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor," ICML, 2018.custom:[[[-]]]
  • 39 J. Michaelis, et al., "Applying mission information requirements to value of information middleware," IEEE MILCOM, 2023.custom:[[[-]]]
  • 40 R. Rajora, et al., "The impact of the IoT on military operations: A study of challenges, applications, and future prospects," IEEE ICIPTM, 2024.custom:[[[-]]]
  • 41 J. Kim, et al., "A study of artificial intelligence learning model to support military decision making: Focused on the wargame model," J. Korea Soc. Simulation, vol. 30, no. 3, pp. 1-9, 2021. (https://doi.org/10.9709/JKSS.2021.30.3.001)doi:[[[10.9709/JKSS.2021.30.3.001]]]
  • 42 P. Rettore, et al., "Military data space: Challenges, opportunities, and use cases," IEEE Commun. Mag., vol. 62, no. 1, pp. 70-76, 2023.custom:[[[-]]]
  • 43 M. Choi, et al., "Experimental and computational study on the ground forces CGF automation of wargame models using reinforcement learning," IEEE Access, vol. 10, pp. 128970-128982, 2022. (https://doi.org/10.1109/ACCESS.2022.322779 7)doi:[[[10.1109/ACCESS.2022.3227797]]]
  • 44 H. Wang, et al., "Large scale deep reinforcement learning in war-games," IEEE BIBM, 2020.custom:[[[-]]]
  • 45 P. Pernik, "Preparing for cyber conflict: Case studies of cyber command," ICDS, 2018.custom:[[[-]]]
  • 46 C. Wakayama, et al., "Designing a communication relay network for multi-domain maritime operations," IEEE ICIPTM, 2024.custom:[[[-]]]
  • 47 E. Goo, "Future battlefield insights through AI: C5ISR," Defense and Technol., vol. 45, no. 2, pp, 68-73, 2023.custom:[[[-]]]
  • 48 R. Ahuja, et al., "Exact and heuristic algorithms for the weapon-target assignment problem," Oper. Res., vol. 55, no. 6, pp. 1136-1146, 2007. (https://doi.org/10.1287/opre.1070.0440)doi:[[[10.1287/opre.1070.0440]]]
  • 49 O. Kwon, et al., "Lagrangian relaxation approach to the targeting problem," Naval Res. Logistics, vol. 46, no. 6, pp. 640-653, 1999. (https://doi.org/10.1002/(SICI)1520-6750(1999 09)46:6%3C640::AID-NAV3%3E3.0.CO;2-Q)doi:[[[10.1002/(SICI]]]
  • 50 Z. Lee, et al., "Efficiently solving general weapon-target assignment problem by genetic algorithms with greedy eugenics," IEEE 216 Trans. Systems, Man, and Cybernetics, Part B (Cybernetics), vol. 33, pp. 113-121, 2003. (https://doi.org/10.1109/TSMCB.2003.808174)doi:[[[10.1109/TSMCB.2003.808174]]]
  • 51 Z. Lee, et al., "An immunity-based ant colony optimization algorithm for solving weapon-target assignment problem," Applied Soft Computing, vol. 2, no. 1, pp. 39-47, 2002. (https://doi.org/10.1016/S1568-4946(02)000273)doi:[[[10.1016/S1568-4946(02]]]
  • 52 Q. Cheng, et al., "Weapon-target assignment of ballistic missiles based on Q-learning and genetic algorithm," IEEE ICUS, 2021.custom:[[[-]]]
  • 53 Z. Peng, et al., "Multi-ship dynamic weapon-target assignment via cooperative distributional reinforcement learning with dynamic reward," IEEE Trans. Emerging Topics in Comput. Intell., early access, pp. 1-17, Sep. 2024. (https://doi.org/10.1109/TETCI.2024.3451338)doi:[[[10.1109/TETCI.2024.3451338]]]
  • 54 S. Zou, et al., "MOEA with adaptive operator based on reinforcement learning for weapon target assignment," Electr. Res. Archive, vol. 32, no. 3, pp. 1498-1532, 2024. (https://doi.org/10.3934/era.2024069)doi:[[[10.3934/era.2024069]]]
  • 55 H. Luo, et al., "IACO algorithm for weapon-target assignment problem in air combat," ISMSI, 2018.custom:[[[-]]]
  • 56 S. Li, et al., "Weapon-target assignment strategy in joint combat decision-making based on multi-head deep reinforcement learning," IEEE Access, vol. 11, pp. 113740-113751, 2023. (https://doi.org/10.1109/ACCESS.2023.332419 3)doi:[[[10.1109/ACCESS.2023.3324193]]]
  • 57 N. Shamami, et al., "War game problem considering the mobility of weapons and targets" J. Eng. Res., vol. 12, no. 1, pp. 214-225. (https://doi.org/10.1016/j.jer.2023.11.021)doi:[[[10.1016/j.jer.2023.11.021]]]
  • 58 W. Zhou, et al., "Hierarchical control of multi-agent reinforcement learning team in real-time strategy (RTS) games," Expert Syst. with Appl., vol. 186, p. 115707, 2021.custom:[[[-]]]
  • 59 M. Möbius, et al., "AI-based military decision support using natural language," WSC, 2022.custom:[[[-]]]

Statistics


Related Articles

효율적인 스트리밍 데이터 처리를 위한 메타 휴리스틱 알고리즘 기반의 성능 개선에 관한 연구
D. Kim and Y. Kwon
심층 강화학습 기반 하이브리드 액션을 이용한 자율주행 차량의 고속도로 주행 판단 연구
S. Kim, K. Shin, J. Jeon, J. Bang, J. Kim, S. Jung
군사적 지휘결심 지원을 위한 심층 강화학습 기반 무기-표적 할당 시스템 연구
J. Lee, C. Eom, K. Kim, H. Kang, M. Kwon
WDM Mesh 네트워크에서 ROADM을 이용한 멀티플-링 네트워크 설계 방안
E. Kim, S. Lee, T. Lim, M. Lee, J. Park
장애물과 신호등을 고려한 디지털 가상환경 모델 구현 및 심층강화학습기반 다차선 자율주행 연구
J. Lee and S. Yoo
단말 이동성 예측 기술 기반 심층 강화학습 비지상 네트워크 핸드오버 최적화 연구
J. Kim, H. Jang, I. Cho, M. Shin, S. Jung
회전 가능한 방향센서네트워크에서 타겟 커버리지 스케줄링 향상 기법
C. Kim, Y. Han, J. Gil
다중 빔 저궤도 위성에서 다중 에이전트 심층 강화 학습을 활용한 핸드오버 최소화 기법
C. Lee, T. Kim, I. Bang, S. H. Chae
소셜 네트워크를 위한 확산 확률과 노드 연결성 기반의 정보 확산 최대화 알고리즘
N. D. Linh, W. Quan, J. Hwang, M. Yoo
Optimal Power Allocation and Sub-Optimal Channel Assignment for Downlink NOMA Systems Using Deep Reinforcement Learning
W. Kim, J. Lee, S. Kim, T. An, W. Lee, D. Kim, K. Shin

Cite this article

IEEE Style
C. Eom, J. Lee, M. Kwon, "A Survey on Weapon-Target Assignment for Realistic Battlefield Environments: From Exact Algorithm to Deep Reinforcement Learning," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 2, pp. 205-216, 2025. DOI: 10.7840/kics.2025.50.2.205.


ACM Style
Chanin Eom, Jaehwi Lee, and Minhae Kwon. 2025. A Survey on Weapon-Target Assignment for Realistic Battlefield Environments: From Exact Algorithm to Deep Reinforcement Learning. The Journal of Korean Institute of Communications and Information Sciences, 50, 2, (2025), 205-216. DOI: 10.7840/kics.2025.50.2.205.


KICS Style
Chanin Eom, Jaehwi Lee, Minhae Kwon, "A Survey on Weapon-Target Assignment for Realistic Battlefield Environments: From Exact Algorithm to Deep Reinforcement Learning," The Journal of Korean Institute of Communications and Information Sciences, vol. 50, no. 2, pp. 205-216, 2. 2025. (https://doi.org/10.7840/kics.2025.50.2.205)