Abstract
오디오 신호 처리를 위한 딥러닝 기술 다루는 논문
1. Introduction
neural network가 주목받은 이유
- perceptron algorithm
- backpropagation algorithm
- 딥러닝에서의 음성 인식의 성공
image processing ➡️ audio로 많은 딥러닝 method가 채택됨
| Image | Raw Audio (1D) | 2D Audio | |
| D | 2D | 1D (t) | 2D (t-f) |
| time | instantaneous | - | sequentially |
| order | little constraints | - | chronological |
2. Methods
A. 오디오 분석, 합성 개념
B. input representations
C. 모델
D. 데이터
E. 평가 방법
A. Problem Categorization
🔽 대상 예측 종류에 따른 카테고리 분류

1️⃣ 전역 레이블, 지역 레이블, 자유 길이 시퀀스
- 전역 레이블 single global label
- 단일 전역 클래스 레이블을 예측하는 경우
- 시퀀스 분류 (Sequence Classification)
- 정의: 단일 전역 클래스 레이블을 예측하는 것
- ex. 사전에 정의된 가능한 클래스 집합에서 언어, 화자, 음악 키 또는 음향 장면을 예측하는 것
- 다중 레이블 시퀀스 분류 (Multi-label Sequence Classification)
- 정의: 가능한 클래스 집합 중에서 여러 레이블을 선택할 수 있는 경우
- ex. 여러 음향 이벤트 또는 음악 음계를 예측하는 것으로, 클래스들이 서로 의존할 때 특히 효과적임
- 시퀀스 회귀 (Sequence Regression)
- 정의: 연속 범위에서 대상 값을 예측
- ex. 음악의 템포를 추정하거나 다음 오디오 샘플을 예측
- 회귀 문제에 대한 주의사항:
- 회귀 문제는 분류 문제로 변환될 수 있
- ex. 오디오 샘플을 양자화하여 (예: 8비트로) 예측하면 256개의 클래스로 이루어진 분류 문제로 전환
- 시퀀스 분류 (Sequence Classification)
- 지역 레이블 local label per time step
- 각 시간 단계별로 지역 레이블을 예측하는 경우
- 시간 단계별 레이블 예측 (Label per Time Step Prediction):
- 각 시간 단계마다 일정 수의 오디오 샘플을 포함할 수 있으며, 따라서 대상 시퀀스의 길이는 입력 시퀀스 길이의 일부분이 됨.
- 시퀀스 레이블링 (Sequence Labeling): 각 시간 단계별로 분류를 수행하는 것을 의미함.
- ex. 코드 어노테이션 및 보컬 활동 감지. 이벤트 감지는 스피커 변경이나 음표 시작과 같은 이벤트가 발생하는 시간을 예측하려고 하는데, 이는 이진 시퀀스 레이블링 작업으로 정의될 수 있습니다.
- 시간 단계별 회귀 (Regression per Time Step):
- 각 시간 단계에서 연속적인 예측을 생성하며, 예측은 이동하는 소리 원본까지의 거리나 목소리의 음높이 또는 소스 분리일 수 있음.
- 시퀀스 변환 (Sequence Transduction):
- 대상 시퀀스의 길이가 입력 길이의 함수가 아닌 경우
- ex. 음성 인식, 음악 전사, 또는 언어 번역
- 시간 단계별 레이블 예측 (Label per Time Step Prediction):
- 자유 길이 시퀀스 free-length sequence of labels
- 입력 길이에 관계없이 레이블 시퀀스의 길이가 정해져 있지 않음
2️⃣ 단일 클래스, 클래스 집합, 숫자 값
- 단일 클래스
- 클래스 집합
- 숫자 값
B. Audio Features
음성 처리: 적절한 특징 표현 구축하고, 이 특징에 대한 적절한 classifier 설계하는 것이 별개
prob: 신경망이 자동으로 특징을 추출하고 최적화를 수행하더라도, 그 결과로 생성된 특징이 분류 목표에 대해 최상의 성능을 보장하지 않을 수 있음
sol: DNNs
- 특징 추출 2) 목표 최적화 (ex. 분류) ➡️ 동시 수행
전통적인 오디오 특징으로는 MFCCs가 주로 사용되며, 최근에는 딥러닝 모델에서 자동으로 학습되는 특징 추출이 주목받고 있음. 멜 필터 뱅크와 상수-Q 스펙트럼은 주파수 투영에 사용되는 중요한 개념이며, 스펙트로그램의 공간적 특성을 고려하기 위해 다양한 접근이 시도되고 있음
- MFCCs
- 오디오 분석 작업에 사용
- 로그 크기로 변환되며 DCT로 근사적으로 흰색화 및 압축됨.
- 딥러닝 모델에서는 이 과정이 불필요해서, 이를 생략하면 로그-멜 스펙트럼이 생성됨.
- 멜 필터 뱅크와 Constant-Q Spectrum:
- 멜 필터 뱅크는 인간 청각 시스템에서 영감을 받음.
- 어떤 작업에서는 변조를 번역으로 캡처하는 데 적합한 상수-Q 스펙트럼을 사용하는 것이 선호됨.
- 로그-멜 및 Constant-Q 스펙트로그램:
- 스펙트로그램은 시간적인 스펙트럼의 연속이며, 인접한 시간 및 주파수의 스펙트로그램은 상관관계가 있음.
- 음향에서는 주파수의 고조의 추가 상관관계가 있으며, 이를 모델링하기 위해 제 3 차원이 추가될 수 있음.
- 윈도우 크기 및 스펙트럼 계산:
- 윈도우 크기는 시간 및 주파수 해상도 간의 교환을 나타냄.
- 다양한 윈도우 길이를 사용하거나 빈도 대역에서 투영된 스펙트라를 따로 처리하여 공간적으로 로컬한 모델에 유용함.
- 필터 뱅크에 의존하지 않는 방법:
- 설계된 필터 뱅크에 의존하지 않기 위해 데이터 기반 통계 모델 학습을 위한 다양한 방법이 제안됨.
- 멜-간격 삼각형 필터 대신 데이터 기반 필터를 학습하여 사용하는 방법 등이 있음.
- 이러한 방법은 목표 작업에 대해 직접 최적화된 학습된 필터를 사용함.
C. Models
오디오 신호는 다양한 형태로 나타낼 수 있고, 이를 딥러닝 모델로 분석하기 위해 다양한 네트워크 레이어가 쌓일 수 있음. 딥 뉴럴 네트워크는 이러한 층이 많이 쌓인 신경 네트워크를 가리킴.
a) Convolutional Neural Networks (CNNs)
- Convolutional Operation:
- 학습 가능한 커널과의 입력과의 합성을 기반으로 함.
- 스펙트럼 입력 특징의 경우 1차원 시간 합성 또는 2차원 시간-주파수 합성이 일반적.
- 원시 파형 입력에 대해 시간 영역 1차원 합성 적용.
- Pooling Layers:
- 합성곱층 위에 추가되어 학습된 특징 맵을 다운샘플링하는 데 사용됨.
- Layer Structure:
- 일련의 합성층과 풀링층으로 구성되며, 그 뒤에 하나 이상의 밀집층이 따라올 수 있음.
- 시퀀스 레이블링을 위해 밀집층을 생략하여 완전 합성 네트워크 (FCN)를 얻을 수 있음.
- Receptive Field:
- CNN의 구조에 의해 정해진 예측 계산에 참여하는 샘플 또는 스펙트럼의 수.
- 큰 커널 또는 더 많은 층을 쌓음으로써 늘릴 수 있으며, 필요한 경우 확장된 합성 (dilated convolution)을 사용할 수 있음.
- Dilated Convolution:
- 합성층의 필터 길이보다 큰 영역에 적용되며, 필터 계수 사이에 0을 삽입하여 확장됨.
- 다른 층들을 쌓아도 큰 수용 영역을 얻을 수 있음.
- Optimal Architecture Determination:
- 현재 최적의 CNN 아키텍처를 결정하는 데 관한 이론은 부족함.
- 아키텍처는 주로 실험적으로 검증 오차를 기반으로 선택되며, 경험적인 지침에 의존함.
b) Recurrent Neural Networks (RNNs)
CNNs로는 제한된 크기만 모델링할 수 있지만, RNNs는 현재 단계의 입력과 이전 단계의 숨겨진 상태로 출력을 계산하여 다른 방법으로 모델링함.
- Temporal Dependency Modeling:
- RNNs 모델은 각 시간 단계에서 현재 입력 및 이전 단계의 숨겨진 상태를 사용하여 출력을 계산함.
- 이는 입력의 시간적 종속성을 내재적으로 모델링하며, 수용 영역을 무한대로 확장할 수 있음.
- Bidirectional RNNs:
- 오프라인 응용에서는 미래로의 수용 영역을 확장하기 위해 두 번째 재현을 역순으로 하는 양방향 RNNs 사용.
- Exponential Growth of Representable States:
- RNNs에서는 모든-모든 커널을 사용하는 재귀적 숨겨진 유닛 수의 선형 성장에 대조적으로, 표현 가능한 상태의 수가 기하급수적으로 증가.
- 훈련 또는 추론 시간은 최대로 제곱 증가.
- Gradient Issues:
- 훈련 중에 사라지거나 폭발하는 기울기 문제가 발생할 수 있음.
- Long Short-Term Memory (LSTM)은 게이팅 메커니즘 및 메모리 셀을 활용하여 이를 완화.
- Variations to Address Gradient Issues:
- 여러 변형이 개발되어 이 문제에 대응함. LSTM, 스파스 재귀 네트워크, 반복 레이어 쌓기 등.
- Extended Models:
- LSTMs은 시간 및 주파수 영역을 모델링하는 데 확장됨.
- Frequency LSTMs (F-LSTM) 및 Time-Frequency LSTMs (TF-LSTM)이 CNN 대안으로 도입됨.
- CRNN (Convolutional Recurrent Neural Network):
- CNN의 출력을 처리하여 로컬 정보를 추출하고 재귀적 레이어가 더 긴 시간적 컨텍스트를 결합하는 모델.
c) Sequence-to-Sequence Models
- 입력 시퀀스를 직접 출력 시퀀스로 변환
- Traditional Systems vs. End-to-End Models:
- 전통적인 시스템은 작업을 여러 하위 작업으로 분할하고 각 작업을 독립적으로 해결.
- 최근 딥러닝 모델의 큰 모델링 용량 때문에 입력 오디오 신호를 대상 시퀀스로 직접 매핑하는 E2E 훈련된 시스템에 대한 관심이 증가함.
- Jointly Trained Components
- 전통적인 ASR 시스템에서는 음향, 발음, 언어 모델링 구성 요소가 일반적으로 독립적으로 훈련됨.
- E2E Sequence-to-Sequence model에서는 음향, 발음, 언어 모델링이 단일 시스템에서 같이 훈련됨.
- Connectionist Temporal Classification (CTC):
- 출력 시퀀스의 길이를 입력 시퀀스와 일치시키기 위해 블랭크 기호를 도입하여 모든 블랭크 삽입 방법에 대해 최적화함.
- 별도의 반복 언어 모델 구성 요소를 포함한 CTC 모델이 제안됨.
- Recurrent Neural Network Transducer (RNNT):
- Graves에 의해 기본 CTC 모델이 확장되어 별도의 반복 언어 모델 구성 요소를 도입한 모델.
- Attention-Based Models:
- 입력 및 출력 시퀀스 간의 정렬을 학습하며 목표 최적화와 함께 작동하는 모델.
- 'Listen, Attend and Spell (LAS)' 모델은 다른 모델들에 비해 개선되었음.
- Simplified Training and Decoding:
- 전통적인 시스템과 비교하여 훈련이 간단하며, 결정 트리나 별도 시스템에서 생성된 시간 정렬을 부트스트랩할 필요가 없음.
- 모델은 직접 대상 시퀀스를 예측하도록 훈련되므로 디코딩도 단순화됨.
d) Generative Adversarial Networks (GANs)
- Unsupervised Generative Models:
- GANs는 지정된 데이터셋의 현실적인 샘플을 낮은 차원의 임의의 잠재 벡터에서 생성하는 비지도 생성 모델.
- Two Networks - Generator and Discriminator:
- Generator는 잘 알려진 사전에서 추출한 잠재 벡터를 샘플로 매핑.
- Discriminator는 주어진 샘플이 실제인지 가짜인지를 판별하는 역할.
- Adversarial Framework:
- Generator와 Discriminator는 적대적인 프레임워크에서 서로 경쟁하여 학습.
- Limited Use in Audio Domain:
- GANs는 이미지 합성에서 성공을 거두었지만, 오디오 도메인에서의 활용은 제한적.
- Applications in Audio:
- Source separation, music instrument transformation, speech enhancement과 같은 오디오 처리 작업에 활용.
e) Loss Function
- Differentiability Requirement for Training:
- 훈련에 그래디언트 디센트를 사용할 때 시스템의 훈련 가능한 매개변수에 대해 미분 가능한 손실 함수의 선택이 중요.
- Mean Squared Error (MSE):
- 오디오의 스펙트럼 엔벨롭에 대한 두 오디오 프레임 간의 차이를 측정하기 위해 사용될 수 있음.
- 시간 구조를 고려하기 위해 log-mel spectrograms를 비교.
- Challenges in Time Domain Comparison:
- 두 오디오 신호를 시간 도메인 샘플 간의 MSE로 비교하는 것은 강건한 측정 방법이 아님.
- 예를 들어, 동일한 주파수의 두 사인파 신호의 경우 손실은 주파수의 차이에 완전히 의존함.
- Dynamic Time Warping and Earth Mover's Distance:
- 신호의 약간 비선형적인 왜곡을 고려하기 위해 다항이동 거리 또는 Wasserstein GANs에서의 동적 시간 왜곡 거리와 같은 다른 유형의 거리 측정이 더 적합할 수 있음.
- Tailoring Loss Functions for Applications:
- 특정 응용 분야에 맞게 손실 함수를 설계할 수 있음.
- 예를 들어, 소스 분리에서는 심리음성 음성 간략화 실험에 기반한 객관적이고 미분 가능한 손실 함수를 설계할 수 있음.
- Combining Different Loss Functions:
- 다양한 손실 함수를 조합하여 사용할 수 있음.
- 제어된 오디오 합성에서는 VAE의 잠재 변수가 정의된 범위 내에 남아 있도록 하기 위한 하나의 손실 함수와 제어 공간의 변경이 생성된 오디오에 반영되도록 하는 다른 손실 함수가 조합됨.
f) Phase modeling
- Magnitude Spectrum in Log-Mel Spectrum:
- 로그-멜 스펙트럼 계산에서 크기 스펙트럼은 사용되지만 위상 스펙트럼은 손실됨.
- 분석을 위해 위상이 손실되는 것이 원하는 결과일 수 있음.
- Requirement for Plausible Phases in Synthesis:
- 합성에는 현실적인 위상이 필요.
- Griffin-Lim 알고리즘을 사용하여 크기 스펙트럼에서 위상을 추정할 수 있음.
- Neural Network Approaches:
- WaveNet과 같은 신경망은 로그-멜 스펙트럼에서 시간 도메인 신호를 생성하는 데 훈련될 수 있음.
- Direct Handling of Complex Spectrum:
- 신경망 구조는 복소 스펙트럼을 직접 처리할 수 있음.
- 입력 특성으로 크기 및 위상 스펙트럼을 모두 포함하거나 복소 목표를 사용하여 깊은 학습 아키텍처를 훈련시킬 수 있음.
- Invariance to Small Phase Shifts:
- 원시 파형을 입력 표현으로 사용할 때, 시간적으로 동일한 소리가 다른 위상 변화에서 나타날 수 있는 어려움이 있음.
- 작은 위상 변화에 대한 불변성을 갖는 표현을 사용하는 것이 중요.
- Methods for Achieving Phase Invariance:
- 일반적으로 작은 위상 변화에 불변한 표현을 위해 합성곱 레이어와 시간에 따라 풀링하는 DNN 레이어 등이 사용됨.
- Raw Audio as Input Representation:
- 원시 오디오를 입력 표현으로 사용하는 경우, 자동 회귀 모델과 같은 합성 작업에서 자주 사용됨.

A. ID convolution
- 이전 레이어의 활성화를 1-D 필터로 합성하여 현재 레이어의 표현(h 및 y)을 생성함.
- 주황색 점선은 (t-1) 시간의 출력을 계산하는 데 사용되는 처리를 나타내고, 빨간 실선은 (t) 시간의 출력을 생성하는 처리를 나타냄.
B. Dilated ID convolution
- 확장 요인 (k)을 사용하여 매 k번째 활성화만 고려함.
- 확장은 분석된 시간적 맥락의 범위를 증가시키기 위해 연속적으로 증가하는 요인 (1, 2, 4, ...)으로 쌓일 수 있음.
C. Recurrent layer
- ht의 활성화는 현재 입력 xt와 이전 활성화 ht−1에서 계산됨.
D. Bi-directional recurrent layer
- 활성화는 시작부터 끝까지 양방향에서 계산됨
E. Attention
- 시퀀스 변환에 사용되며, 재귀 레이어를 포함한 인코더와 디코더가 관여함.
- 문맥 (ct)은 디코더 임베딩 (hd)과 인코더 임베딩 간의 관계에 따라 가중 평D. 균임.
D. Data
컴퓨터 비전에서 ImageNet(레이블링 이미지로 이루어짐)으로 딥러닝이 발전함
↕
But 음성, 음악, 환경 소리 등 여러 도메인 포함하는 공유 가능한 품질의 데이터셋 없음
음성 인식을 위한 영어로 된 큰 데이터셋 있음. 음악 시퀀스 분류 또는 음악 유사성에는 Million Song Dataset, Note-by-Note Sequence Labeling에는 MusicNet이 있음.
↕
But 화음, 비트, 또는 구조 분석과 같은 고수준 음악적 시퀀스 레이블링을 위한 데이터셋은 종종 훨씬 작음.
- 데이터 생성 및 데이터 증강은 제한된 훈련 데이터 문제를 해결하는 다른 방법임. 어떤 작업에서는 실제 데이터와 유사한 데이터를 알려진 합성 매개변수 및 레이블과 함께 생성할 수 있음.
- 생성된 데이터만으로 알고리즘의 성능이 현실 데이터에서 낮을 수 있음. 데이터 증강은 기존 예제를 조작하여 가능한 입력 범위를 확장함으로써 추가 훈련 데이터를 생성함.
- ASR은 음성 조각을 피치 시프팅(음성 트랙 변조) 및 타임 스트레칭으로 변환하는 것 제안함.
- 화음 인식에는 음성의 피치 시프팅이 유용하며, 시간 스트레칭 및 스펙트럼 필터링과 결합하여 노래 목소리 감지 및 악기 인식에 사용될 수 있음.
E. Evaluation
평가 기준은 작업마다 다름
1. 음성 인식
- 일반적으로 WER로 평가됨
- WER: 참조 및 가설 단어 문자열을 정렬한 후 단어 오류의 분수를 계산하며, 삽입, 삭제 및 대체 비율로 이루어져 있음. (삽입, 삭제, 대체 수 / 참조단어수)
2. 음악 및 음향 장면 분류
- 고정된 분류 임계값 없이 이진 분류하기 위해 AUROC가 사용됨
- 클래스 간의 의미적 관계 고려할 수 있음
- ex. 화음 탐지 작업의 손실은 감지된 화음과 실제 화음이 조화롭게 관련될 경우 더 작게 설계될 수 있음
3. 이벤트 감지
- 등가 오류율 또는 F-점수로 성능 측정
- 참 양성, 거짓 양성, 거짓 음성은 일정한 길이의 세그먼트 또는 이벤트 당으로 계산됨
4. 목소리 분리 품질
- 신호 대 왜곡 비율, 신호 대 간섭 비율, 신호 대 아티팩트 비율로 측정됨
- MOS
3. Applications
A. 분석
- 음성 분석 (A1): 음성 분석을 위한 방법들의 구체적인 응용사례를 살펴봄.
- 음악 분석 (A2): 음악에 대한 분석에 대한 응용사례를 다룸.
- 환경 소리 분석 (A3): 환경 소리에 대한 분석에 대한 구체적인 응용을 살펴봄.
B. 합성 및 변형
- 음원 분리 (B1): 오디오의 소스 분리에 대한 메소드 및 적용사례를 다룸.
- 음성 개선 (B2): 음성 개선에 관한 방법과 응용사례를 살펴봄.
- 오디오 생성 (B3): 오디오 생성에 대한 방법과 응용사례를 다룸. </aside>
A. Analysis
1) Speech
- 모델 변화
- 파라미터와 데이터로 훈련된 DNNs가 2012년에 WER 감소시킴
- 기존의 triphone-state GMM/HMM 모델이 음성 모델링에서 주류였으나, discriminative 훈련과 하이브리드 모델의 도입으로 변화함
- CLDNN 모델은 Convolutional, LSTM 및 피드포워드 레이어의 캐스케이드로 LSTM 단독 모델보다 우수성을 보임.
- 최근 발전과 적용
- RNN의 도입으로 전통적인 HMM 기반 폰 상태 모델링에서의 조건부 독립 가정이 불필요해짐
- Sequence-to-Sequence 모델인 CTC 및 LAS에 대한 관심 O
- 음성 기반 응용 프로그램이 증가함에 따라 음성 지원을 다양한 환경과 언어로 확장하는 것이 중요해짐.
- 전이 학습을 사용하여 저자원 언어에 대한 ASR 시스템의 성능을 향상시킴.
- ASR 모델의 성공으로 음성 관련 작업에서도 딥러닝 기술이 채택되고 있음
2) Music
- 특징 및 다양성
- 음악은 시간 및 주파수 측면에서 공통 제약 조건을 따르며, 이는 소스 간 및 내부 종속성을 생성하여 음악 녹음의 자동 설명에 다양한 가능성을 제공함.
- 사용되는 곳
- 저수준 분석 (온셋 및 오프셋 감지, 기본 주파수 추정), 리듬 분석 (비트 추적, 미터 식별, 다운비트 추적, 템포 추정), 고음수 분석 (키 감지, 멜로디 추출, 코드 추정) 및 고수준 분석 (악기 감지, 악기 분리, 전사, 구조 분할, 아티스트 인식, 장르 분류) 작업이 딥러닝을 통해 해결됨.
- 예시: 온셋 감지에 대한 MLP 훈련, CNN 및 RNN을 사용한 비트 및 다운비트 추적, 코드 인식을 위한 CRNN 모델 등.
- 음악 처리 과제
- 코드 인식, 음향 이벤트 감지, 전역 템포 추정, 태그 예측 등 다양한 음악 처리 과제에 딥러닝이 성공적으로 적용됨.
- CNN, RNN, CRNN과 같은 다양한 아키텍처가 사용되며, 입력 표현과 아키텍처 선택에 대한 공통된 합의가 없어 더 많은 연구가 필요함
3) Environmental Sounds
- 개요 및 응용 분야
- 환경 소리는 말과 음악 신호 외에도 우리 환경에 대한 다양한 정보를 운반하고 있음.
- 환경 소리의 계산적 분석은 context-aware 장치, 음향 감시, 멀티미디어 색인 및 검색과 같은 여러 응용 분야에서 활용됨.
- 기본 접근법
- 오디오 녹음 전체에 하나의 장면 레이블을 할당하는 것을 목표로 함.
- 사전에 정의된 장면 레이블로 "집", "거리", "차 안", "레스토랑" 등이 포함됨.
- 다항 분류 문제로 간주되며 각 장면 클래스에 대한 훈련 자료가 필요함.
- 개별 소리 이벤트의 시작 및 종료 시간을 추정하고 해당 이벤트에 이벤트 레이블을 할당하는 것을 목표로 함.
- 가능한 이벤트 클래스 집합은 사전에 정의되어야 함.
- 지도 학습을 적용하여 각 이벤트 클래스의 활동을 짧은 시간 세그먼트에서 예측하는 것이 효율적임.
- 보통, 이벤트 감지를 수행하는 데 사용되는 지도 분류기는 분류 대상 세그먼트 외부에서 계산된 신호의 음향 특성을 사용함.
- 다중 (동시에 발생할 수 있는) 소리 클래스의 활동을 예측하는 것이 목표.
- 태깅 및 이벤트 감지에서는 동시에 활동할 수 있는 여러 이벤트 클래스를 대상으로 할 수 있음.
- 겹치는 클래스가 허용된 경우, 다중 레이블 분류 문제로 간주되며 이진 벡터로 활동 클래스를 표현함.
- a) 음향 장면 분류 (Acoustic Scene Classification):
- 특징
- 환경 소리의 분석은 연구 분야가 덜 확립되어 있어 음성 및 음악과 비교하여 개발 시스템용 제한된 크기와 다양성의 데이터셋이 더 제한적임.
- 환경 데이터셋이 제한된 크기이기 때문에 데이터 증강이 흔히 사용되며 매우 효과적임.
4) Localization and Tracking
- 다채널 오디오 및 음향 소스 위치
- 다채널 오디오는 음향 소스의 위치를 파악하고 추적하는 데 사용될 수 있음.
- 음향 소스의 공간 위치를 결정하고 시간에 따라 이를 추적하는 것이 목표.
- 단일 마이크로폰 어레이와 방향 추정
- 여러 마이크로폰으로 구성된 단일 마이크로폰 어레이를 사용하여 소리 소스의 방향을 추정할 수 있음.
- 다채널 마이크로폰 어레이에서의 신호를 사용하여 방향 추정은 두 가지 방식으로 정의될 수 있음:
- 가능한 방향의 고정 그리드를 형성하고 특정 방향에 활성 소스가 있는지 여부를 다중 레이블 분류를 사용하여 예측.
- 회귀를 사용하여 대상 소스의 방향 또는 공간 좌표를 예측.
- 딥러닝 방법의 차이
- 소스 위치 추적을 위한 다양한 딥러닝 방법의 차이점은 사용된 입력 특징, 네트워크 토폴로지, 그리고 하나 이상의 소스가 어떻게 지역화되는지에 있음.
- 사용된 딥 러닝을 기반으로 한 위치 추적에는 위상 스펙트럼, 크기 스펙트럼, 채널 간 일반화 교차 상관등이 포함됨.
B. Synthesis and Transformation
1) Source Separation
정의: 여러 소스의 혼합에서 각각의 소스에 해당하는 신호를 추출하는 과정으로, 오디오 신호 처리에서 중요한 역할을 함.
응용 분야: 음악 편집 및 리믹싱, 음성 및 기타 소리의 강력한 분류를 위한 전처리, 음성 명료도 향상을 위한 전처리 등과 관련된 응용 분야가 있음.
<수학적 정의>

i는 소스 인덱스, I는 소스의 수, n은 샘플 인덱스
시간-주파수 도메인의 마스킹 연산:
- 최신 음원 분리 방법은 주로 시간-주파수 도메인에서 마스킹 작업을 추정하는 경향이 있음.
- 시간- 주파수 처리의 이유
- 자연 소리 소스의 구조가 시간-주파수 도메인에서 잘 보임
- 합성 과정에서의 컨볼루션 믹싱
- 음원 분리는 소스에서 마이크로폰으로의 음향 전달 함수를 포함하는 컨볼루션 믹싱을 수반함
- 전달 함수는 주파수 도메인에서 순간적인 믹싱으로 근사될 수 있음
- 자연 소리 소스는 희소성 가짐
<마스킹 수식>

마스킹은 주파수 f 및 시간 t에서 혼합 신호 스펙트럼 Xm(f,t)을 분리된 소스 신호 스펙트럼의 추정치인 S^m(f,t)로 얻기 위해 혼합 신호 스펙트럼에 분리 마스크 Mm,i(f,t) 곱하는 과정으로 정의됨
딥러닝을 활용한 음원 분리
- 단일 마이크로폰에서 동작하는 딥 러닝 방법은 주로 소스의 스펙트럼 구조를 모델링하는 데 의존함.
- 두 가지 범주로 나뉨:
- 입력 혼합 X(f,t)을 기반으로 분리 마스크 Mi(f, t)를 예측하는 방법.
- 입력 혼합에서 소스 신호 스펙트럼 Si(f, t)를 예측하는 방법.
- 딥 러닝은 입력 혼합 스펙트럼 X(f, t)와 오라클 마스크 또는 깨끗한 신호 스펙트럼 사이의 관계에 기반한 지도 학습을 기반으로 함.
- 딥 뉴럴 네트워크의 아키텍처로는 컨볼루션, 순환 레이어를 포함한 다양한 방법이 사용됨.
- 표준 평균 제곱 오차 손실은 주관적 분리 품질에 대해 최적이 아니므로 명료도를 향상시키기 위해 사용자 정의 손실 함수가 개발됨
최근 접근 방식
- 최근에는 딥 클러스터링을 기반으로 한 접근 방식이 사용됨. 이 방법은 각 시간-주파수 지점에 대한 임베딩 벡터를 추정하고 이를 비지도 학습 방식으로 클러스터링하는 것임.
- 이러한 접근 방식은 훈련 세트에 존재하지 않는 소스를 분리할 수 있음.
2) Audio Enhancement
- 음성 개선 기술
- 소음을 감소하여 음성 품질을 향상시키는 목적으로 사용됨.
- ASR 시스템에서 소음 강건성을 위해 중요한 구성 요소로 작용.
- Wiener와 같은 기존 소음 제거 방법은 정지된 소음을 가정하나, 딥러닝은 시간에 따라 변하는 소음을 모델링할 수 있음.
- GAN을 활용한 음성 개선:
- 특히 SEGAN은 부가적인 소음이 있는 환경에서 음성을 향상하는 데 효과적.
- SEGAN은 기존의 개선 방법에 비해 감각적인 음성 품질 지표에서 향상을 보임.
- GAN을 사용하여 logmel 스펙트라로 표현된 음성을 향상시키지만, ASR에 사용될 때 간단한 회귀 방법보다 개선이 없음.
3) Generative Models
- 생성 모델
- 실제 소리 데이터베이스에서 학습한 특성을 기반으로 소리를 합성하여 현실적인 샘플 생성.
- 학습된 소리와 유사하면서도 학습 집합의 소리를 단순히 복사하는 것이 아니라 독창적이어야 함.
- 조건부 합성: 음성 합성의 경우 화자, 음악의 고조 경로, 환경 소리 생성 시 물리적 매개변수 등을 조건으로 설정하는 것이 바람직.
- 시간 및 효율성: 훈련 및 생성 시간이 짧아야 하며 이상적으로는 실시간 생성이 가능해야 함.
- 모델 유형: 스펙트럼 표현 또는 원시 오디오에서 생성 가능. 스펙트럼 표현은 합성 시에 상호 정보를 잃어버리기 때문에 이를 복원하는 등의 추가 단계가 필요함.
- 음성 생성 모델
- 블록별 접근: VAE 또는 GANs의 경우 저차원 잠재 표현에서 합성되며, 업샘플링이 필요. 다층 RNN 및 dilated convolutions을 사용하여 해결.
- 자기 회귀적 접근: RNN을 사용하여 각 샘플을 반복적으로 생성. 단, 훈련이 비용이 많이 들 수 있음.
- WaveNet: 분류 문제로 캐스팅하여 각 샘플을 예측. WaveNet 모델은 다른 음성 합성 방법을 크게 능가하지만 훈련이 계산적으로 소모적임.
- 병렬 WaveNet: 훈련 속도 문제를 해결하기 위한 솔루션으로 개발되었으며 응용 프로그램에서 효과적으로 사용됨.
- 평가 방법:
- 객관적 평가: 생성된 소리의 인식 가능성을 분류자(e.g., 인셉션 스코어)를 사용하여 테스트.
- 주관적 평가: 인간의 강제 선택 테스트를 통해 생성된 소리의 인식 가능성을 확인.
- 다양성 및 원본성 평가: 정규화된 로그멜 스펙트라로 나타낸 소리의 다양성 및 원본성을 평가.
- 튜링 테스트: 생성된 오디오와 실제 오디오 간의 구별이 거의 불가능한 경우에 대한 어려운 테스트. WaveNet은 이를 능가하는 결과를 보임.
4. Discussion and Conclusion
IV-A. 특성
IV-B. 모델
IV-C. 데이터 요구 사항
IV-D. 계산 복잡성
IV-E. 해석 가능성 및 적응성
A. Features
- 전통적 특성과 딥러닝 특성 비교
- 전통적으로는 MFCCs가 주로 사용되었으나, 딥 러닝에서는 주로 로그 멜 스펙트로그램이 사용됨.
- 원시 파형은 수작업 특성을 피하고 딥 러닝 모델의 모델링 능력을 더 잘 활용하는데 중점.
- 특성 선택과 성능 비교
- 분석 작업에서는 로그멜 스펙트로그램이 더 간결한 표현 제공.
- 원시 파형의 사용은 더 높은 계산 비용과 데이터 요구 사항을 동반하지만 특별한 경우에는 이점이 있을 수 있음.
B. Models
- 모델
- ASR, MIR, 환경 소리 분석에서 딥 모델은 시퀀스 분류를 위한 서포트 벡터 머신 및 시퀀스 전송을 위한 GMM-HMM을 대체함.
- 오디오 개선/소음 제거 및 소스 분리에서는 딥 러닝이 이전에는 NNMF 및 와이너 방법으로 처리된 작업을 해결함.
- 오디오 합성에서는 Wavenet, SampleRNN, WaveRNN 등이 연결적 합성을 대체함.
- 모델 유형의 활용
- CNNs, RNNs 및 CRNNs이 모든 도메인에서 성공적으로 활용됨.
- CNNs는 고정된 수용 영역을 가지며 예측에 고려되는 시간적 맥락을 제한하지만, 컨텍스트 크기를 조절하기가 매우 쉬움.
- RNNs는 이론적으로 무제한의 시간적 맥락을 기반으로 예측할 수 있지만, 이를 학습하려면 모델에 적응이 필요하며 컨텍스트 크기에 대한 직접적인 제어를 방해함.
- CRNNs는 양쪽의 이점과 단점을 상속하여 그 사이에서 타협점을 제공함.
- 우수한 모델에 대한 열린 질문
- 어떤 상황에서 어떤 모델이 우수한지에 대한 연구 질문.
- 다양한 모델을 사용하여 다른 연구 그룹이 최첨단 결과를 얻고 있어 특정 아키텍처 유형을 효과적으로 설계하고 조정하는 각 연구 그룹의 전문 지식에 기인할 수 있음.
C. Data Requirements
- 한정된 데이터셋 문제
- 대부분의 오디오 도메인에서는 소규모 데이터셋이 딥러닝 모델의 크기와 복잡성을 제한함.
- 컴퓨터 비전과의 대조
- 오디오에는 ImageNet과 같은 광범위한 사전 훈련 모델이 없어 컴퓨터 비전과 비교됨.
- 동등한 작업 부재
- 오디오 도메인에서 전이 학습을 위한 동등한 작업을 찾는 연구가 필요함.
- 사전 훈련된 모델 적응 문제
- 최소한의 데이터로 사전 훈련된 오디오 모델을 새로운 작업에 유연하게 적응하는 방법을 찾는 것이 중요함.
- 도메인별 도전과제
- 음악과 같은 도메인 내에서도 고유의 도전 과제가 있어 별도의 접근법이 필요함.
- 대체 패러다임 탐구
- 전이 학습이 적절하지 않을 경우, 반지도 학습, 액티브 학습 또는 소수 데이터 학습과 같은 대체 패러다임을 탐구함.
D. Computational Complexity
- 딥러닝의 성공은 빠르고 대규모의 계산의 발전을 기반으로 함.
- 최첨단 딥 뉴럴 네트워크는 일반적으로 더 많은 계산 능력과 더 많은 훈련 데이터를 필요로 하며, 일반적인 방법에 비해 더 많은 계산이 필요함.
- 대형 딥 모델을 훈련하고 평가하는 데 최적이 아닌 CPU 대신 주로 일반적인 그래픽 처리 장치(GPGPUs) 및 Tensor Processing Units(TPUs)와 같은 특수 애플리케이션 집적 회로가 최적화된 프로세서를 사용함.
E. Interpretability and Adaptability
- 딥러닝에서 연구자들은 주로 원시적인 레이어 블록과 목표 작업에 대한 손실 함수를 사용하여 네트워크 구조를 설계함.
- 모델의 매개변수는 입력과 대상 또는 비지도 훈련을 위해 입력만에 대한 손실에 대한 기울기 하강을 통해 학습됨.
- 레이어 매개변수와 실제 작업 간의 연결은 해석하기 어려움. 네트워크 뉴런의 활동을 목표 작업과 연관시키거나 예측이 어떤 입력 부분에 기반을 두는지 조사하는 연구들이 진행 중.
- 네트워크나 하위 네트워크의 동작 방식을 이해하기 위한 추가 연구는 모델 구조를 개선하여 실패 사례에 대응하는 데 도움이 될 수 있음.