카테고리 없음

Deep Learning for Audio Signal Processing 리뷰

cheonniii 2024. 2. 13. 10:10

Abstract

오디오 신호 처리를 위한 딥러닝 기술 다루는 논문

1. Introduction

neural network가 주목받은 이유

  1. perceptron algorithm
  2. backpropagation algorithm
  3. 딥러닝에서의 음성 인식의 성공

image processing ➡️ audio로 많은 딥러닝 method가 채택됨

  Image Raw Audio (1D) 2D Audio
D 2D 1D (t) 2D (t-f)
time instantaneous - sequentially
order little constraints - chronological

2. Methods

A. 오디오 분석, 합성 개념

B. input representations

C. 모델

D. 데이터

E. 평가 방법

A. Problem Categorization

🔽 대상 예측 종류에 따른 카테고리 분류

1️⃣ 전역 레이블, 지역 레이블, 자유 길이 시퀀스

  1. 전역 레이블 single global label
  • 단일 전역 클래스 레이블을 예측하는 경우
    1. 시퀀스 분류 (Sequence Classification)
      • 정의: 단일 전역 클래스 레이블을 예측하는 것
      • ex. 사전에 정의된 가능한 클래스 집합에서 언어, 화자, 음악 키 또는 음향 장면을 예측하는 것
    2. 다중 레이블 시퀀스 분류 (Multi-label Sequence Classification)
      • 정의: 가능한 클래스 집합 중에서 여러 레이블을 선택할 수 있는 경우
      • ex. 여러 음향 이벤트 또는 음악 음계를 예측하는 것으로, 클래스들이 서로 의존할 때 특히 효과적임
    3. 시퀀스 회귀 (Sequence Regression)
      • 정의: 연속 범위에서 대상 값을 예측
      • ex. 음악의 템포를 추정하거나 다음 오디오 샘플을 예측
    4. 회귀 문제에 대한 주의사항:
      • 회귀 문제는 분류 문제로 변환될 수 있
      • ex. 오디오 샘플을 양자화하여 (예: 8비트로) 예측하면 256개의 클래스로 이루어진 분류 문제로 전환
  1. 지역 레이블 local label per time step
  • 각 시간 단계별로 지역 레이블을 예측하는 경우
    1. 시간 단계별 레이블 예측 (Label per Time Step Prediction):
      • 각 시간 단계마다 일정 수의 오디오 샘플을 포함할 수 있으며, 따라서 대상 시퀀스의 길이는 입력 시퀀스 길이의 일부분이 됨.
      • 시퀀스 레이블링 (Sequence Labeling): 각 시간 단계별로 분류를 수행하는 것을 의미함.
      • ex. 코드 어노테이션 및 보컬 활동 감지. 이벤트 감지는 스피커 변경이나 음표 시작과 같은 이벤트가 발생하는 시간을 예측하려고 하는데, 이는 이진 시퀀스 레이블링 작업으로 정의될 수 있습니다.
    2. 시간 단계별 회귀 (Regression per Time Step):
      • 각 시간 단계에서 연속적인 예측을 생성하며, 예측은 이동하는 소리 원본까지의 거리나 목소리의 음높이 또는 소스 분리일 수 있음.
    3. 시퀀스 변환 (Sequence Transduction):
      • 대상 시퀀스의 길이가 입력 길이의 함수가 아닌 경우
      • ex. 음성 인식, 음악 전사, 또는 언어 번역
  1. 자유 길이 시퀀스 free-length sequence of labels
  • 입력 길이에 관계없이 레이블 시퀀스의 길이가 정해져 있지 않음

2️⃣ 단일 클래스, 클래스 집합, 숫자 값

  1. 단일 클래스
  2. 클래스 집합
  3. 숫자 값

B. Audio Features

음성 처리: 적절한 특징 표현 구축하고, 이 특징에 대한 적절한 classifier 설계하는 것이 별개

prob: 신경망이 자동으로 특징을 추출하고 최적화를 수행하더라도, 그 결과로 생성된 특징이 분류 목표에 대해 최상의 성능을 보장하지 않을 수 있음

sol: DNNs

  1. 특징 추출 2) 목표 최적화 (ex. 분류) ➡️ 동시 수행

전통적인 오디오 특징으로는 MFCCs가 주로 사용되며, 최근에는 딥러닝 모델에서 자동으로 학습되는 특징 추출이 주목받고 있음. 멜 필터 뱅크와 상수-Q 스펙트럼은 주파수 투영에 사용되는 중요한 개념이며, 스펙트로그램의 공간적 특성을 고려하기 위해 다양한 접근이 시도되고 있음

  1. MFCCs
    • 오디오 분석 작업에 사용
    • 로그 크기로 변환되며 DCT로 근사적으로 흰색화 및 압축됨.
    • 딥러닝 모델에서는 이 과정이 불필요해서, 이를 생략하면 로그-멜 스펙트럼이 생성됨.
  2. 멜 필터 뱅크와 Constant-Q Spectrum:
    • 멜 필터 뱅크는 인간 청각 시스템에서 영감을 받음.
    • 어떤 작업에서는 변조를 번역으로 캡처하는 데 적합한 상수-Q 스펙트럼을 사용하는 것이 선호됨.
  3. 로그-멜 및 Constant-Q 스펙트로그램:
    • 스펙트로그램은 시간적인 스펙트럼의 연속이며, 인접한 시간 및 주파수의 스펙트로그램은 상관관계가 있음.
    • 음향에서는 주파수의 고조의 추가 상관관계가 있으며, 이를 모델링하기 위해 제 3 차원이 추가될 수 있음.
  4. 윈도우 크기 및 스펙트럼 계산:
    • 윈도우 크기는 시간 및 주파수 해상도 간의 교환을 나타냄.
    • 다양한 윈도우 길이를 사용하거나 빈도 대역에서 투영된 스펙트라를 따로 처리하여 공간적으로 로컬한 모델에 유용함.
  5. 필터 뱅크에 의존하지 않는 방법:
    • 설계된 필터 뱅크에 의존하지 않기 위해 데이터 기반 통계 모델 학습을 위한 다양한 방법이 제안됨.
    • 멜-간격 삼각형 필터 대신 데이터 기반 필터를 학습하여 사용하는 방법 등이 있음.
    • 이러한 방법은 목표 작업에 대해 직접 최적화된 학습된 필터를 사용함.

C. Models

오디오 신호는 다양한 형태로 나타낼 수 있고, 이를 딥러닝 모델로 분석하기 위해 다양한 네트워크 레이어가 쌓일 수 있음. 딥 뉴럴 네트워크는 이러한 층이 많이 쌓인 신경 네트워크를 가리킴.

a) Convolutional Neural Networks (CNNs)

  1. Convolutional Operation:
    • 학습 가능한 커널과의 입력과의 합성을 기반으로 함.
    • 스펙트럼 입력 특징의 경우 1차원 시간 합성 또는 2차원 시간-주파수 합성이 일반적.
    • 원시 파형 입력에 대해 시간 영역 1차원 합성 적용.
  2. Pooling Layers:
    • 합성곱층 위에 추가되어 학습된 특징 맵을 다운샘플링하는 데 사용됨.
  3. Layer Structure:
    • 일련의 합성층과 풀링층으로 구성되며, 그 뒤에 하나 이상의 밀집층이 따라올 수 있음.
    • 시퀀스 레이블링을 위해 밀집층을 생략하여 완전 합성 네트워크 (FCN)를 얻을 수 있음.
  4. Receptive Field:
    • CNN의 구조에 의해 정해진 예측 계산에 참여하는 샘플 또는 스펙트럼의 수.
    • 큰 커널 또는 더 많은 층을 쌓음으로써 늘릴 수 있으며, 필요한 경우 확장된 합성 (dilated convolution)을 사용할 수 있음.
  5. Dilated Convolution:
    • 합성층의 필터 길이보다 큰 영역에 적용되며, 필터 계수 사이에 0을 삽입하여 확장됨.
    • 다른 층들을 쌓아도 큰 수용 영역을 얻을 수 있음.
  6. Optimal Architecture Determination:
    • 현재 최적의 CNN 아키텍처를 결정하는 데 관한 이론은 부족함.
    • 아키텍처는 주로 실험적으로 검증 오차를 기반으로 선택되며, 경험적인 지침에 의존함.

b) Recurrent Neural Networks (RNNs)

CNNs로는 제한된 크기만 모델링할 수 있지만, RNNs는 현재 단계의 입력과 이전 단계의 숨겨진 상태로 출력을 계산하여 다른 방법으로 모델링함.

  1. Temporal Dependency Modeling:
    • RNNs 모델은 각 시간 단계에서 현재 입력 및 이전 단계의 숨겨진 상태를 사용하여 출력을 계산함.
    • 이는 입력의 시간적 종속성을 내재적으로 모델링하며, 수용 영역을 무한대로 확장할 수 있음.
  2. Bidirectional RNNs:
    • 오프라인 응용에서는 미래로의 수용 영역을 확장하기 위해 두 번째 재현을 역순으로 하는 양방향 RNNs 사용.
  3. Exponential Growth of Representable States:
    • RNNs에서는 모든-모든 커널을 사용하는 재귀적 숨겨진 유닛 수의 선형 성장에 대조적으로, 표현 가능한 상태의 수가 기하급수적으로 증가.
    • 훈련 또는 추론 시간은 최대로 제곱 증가.
  4. Gradient Issues:
    • 훈련 중에 사라지거나 폭발하는 기울기 문제가 발생할 수 있음.
    • Long Short-Term Memory (LSTM)은 게이팅 메커니즘 및 메모리 셀을 활용하여 이를 완화.
  5. Variations to Address Gradient Issues:
    • 여러 변형이 개발되어 이 문제에 대응함. LSTM, 스파스 재귀 네트워크, 반복 레이어 쌓기 등.
  6. Extended Models:
    • LSTMs은 시간 및 주파수 영역을 모델링하는 데 확장됨.
    • Frequency LSTMs (F-LSTM) 및 Time-Frequency LSTMs (TF-LSTM)이 CNN 대안으로 도입됨.
  7. CRNN (Convolutional Recurrent Neural Network):
    • CNN의 출력을 처리하여 로컬 정보를 추출하고 재귀적 레이어가 더 긴 시간적 컨텍스트를 결합하는 모델.

c) Sequence-to-Sequence Models

  1. 입력 시퀀스를 직접 출력 시퀀스로 변환
  2. Traditional Systems vs. End-to-End Models:
    • 전통적인 시스템은 작업을 여러 하위 작업으로 분할하고 각 작업을 독립적으로 해결.
    • 최근 딥러닝 모델의 큰 모델링 용량 때문에 입력 오디오 신호를 대상 시퀀스로 직접 매핑하는 E2E 훈련된 시스템에 대한 관심이 증가함.
  3. Jointly Trained Components
    • 전통적인 ASR 시스템에서는 음향, 발음, 언어 모델링 구성 요소가 일반적으로 독립적으로 훈련됨.
    • E2E Sequence-to-Sequence model에서는 음향, 발음, 언어 모델링이 단일 시스템에서 같이 훈련됨.
  4. Connectionist Temporal Classification (CTC):
    • 출력 시퀀스의 길이를 입력 시퀀스와 일치시키기 위해 블랭크 기호를 도입하여 모든 블랭크 삽입 방법에 대해 최적화함.
    • 별도의 반복 언어 모델 구성 요소를 포함한 CTC 모델이 제안됨.
  5. Recurrent Neural Network Transducer (RNNT):
    • Graves에 의해 기본 CTC 모델이 확장되어 별도의 반복 언어 모델 구성 요소를 도입한 모델.
  6. Attention-Based Models:
    • 입력 및 출력 시퀀스 간의 정렬을 학습하며 목표 최적화와 함께 작동하는 모델.
    • 'Listen, Attend and Spell (LAS)' 모델은 다른 모델들에 비해 개선되었음.
  7. Simplified Training and Decoding:
    • 전통적인 시스템과 비교하여 훈련이 간단하며, 결정 트리나 별도 시스템에서 생성된 시간 정렬을 부트스트랩할 필요가 없음.
    • 모델은 직접 대상 시퀀스를 예측하도록 훈련되므로 디코딩도 단순화됨.

d) Generative Adversarial Networks (GANs)

  1. Unsupervised Generative Models:
    • GANs는 지정된 데이터셋의 현실적인 샘플을 낮은 차원의 임의의 잠재 벡터에서 생성하는 비지도 생성 모델.
  2. Two Networks - Generator and Discriminator:
    • Generator는 잘 알려진 사전에서 추출한 잠재 벡터를 샘플로 매핑.
    • Discriminator는 주어진 샘플이 실제인지 가짜인지를 판별하는 역할.
  3. Adversarial Framework:
    • Generator와 Discriminator는 적대적인 프레임워크에서 서로 경쟁하여 학습.
  4. Limited Use in Audio Domain:
    • GANs는 이미지 합성에서 성공을 거두었지만, 오디오 도메인에서의 활용은 제한적.
  5. Applications in Audio:
    • Source separation, music instrument transformation, speech enhancement과 같은 오디오 처리 작업에 활용.

e) Loss Function

  1. Differentiability Requirement for Training:
    • 훈련에 그래디언트 디센트를 사용할 때 시스템의 훈련 가능한 매개변수에 대해 미분 가능한 손실 함수의 선택이 중요.
  2. Mean Squared Error (MSE):
    • 오디오의 스펙트럼 엔벨롭에 대한 두 오디오 프레임 간의 차이를 측정하기 위해 사용될 수 있음.
    • 시간 구조를 고려하기 위해 log-mel spectrograms를 비교.
  3. Challenges in Time Domain Comparison:
    • 두 오디오 신호를 시간 도메인 샘플 간의 MSE로 비교하는 것은 강건한 측정 방법이 아님.
    • 예를 들어, 동일한 주파수의 두 사인파 신호의 경우 손실은 주파수의 차이에 완전히 의존함.
  4. Dynamic Time Warping and Earth Mover's Distance:
    • 신호의 약간 비선형적인 왜곡을 고려하기 위해 다항이동 거리 또는 Wasserstein GANs에서의 동적 시간 왜곡 거리와 같은 다른 유형의 거리 측정이 더 적합할 수 있음.
  5. Tailoring Loss Functions for Applications:
    • 특정 응용 분야에 맞게 손실 함수를 설계할 수 있음.
    • 예를 들어, 소스 분리에서는 심리음성 음성 간략화 실험에 기반한 객관적이고 미분 가능한 손실 함수를 설계할 수 있음.
  6. Combining Different Loss Functions:
    • 다양한 손실 함수를 조합하여 사용할 수 있음.
    • 제어된 오디오 합성에서는 VAE의 잠재 변수가 정의된 범위 내에 남아 있도록 하기 위한 하나의 손실 함수와 제어 공간의 변경이 생성된 오디오에 반영되도록 하는 다른 손실 함수가 조합됨.

f) Phase modeling

  1. Magnitude Spectrum in Log-Mel Spectrum:
    • 로그-멜 스펙트럼 계산에서 크기 스펙트럼은 사용되지만 위상 스펙트럼은 손실됨.
    • 분석을 위해 위상이 손실되는 것이 원하는 결과일 수 있음.
  2. Requirement for Plausible Phases in Synthesis:
    • 합성에는 현실적인 위상이 필요.
    • Griffin-Lim 알고리즘을 사용하여 크기 스펙트럼에서 위상을 추정할 수 있음.
  3. Neural Network Approaches:
    • WaveNet과 같은 신경망은 로그-멜 스펙트럼에서 시간 도메인 신호를 생성하는 데 훈련될 수 있음.
  4. Direct Handling of Complex Spectrum:
    • 신경망 구조는 복소 스펙트럼을 직접 처리할 수 있음.
    • 입력 특성으로 크기 및 위상 스펙트럼을 모두 포함하거나 복소 목표를 사용하여 깊은 학습 아키텍처를 훈련시킬 수 있음.
  5. Invariance to Small Phase Shifts:
    • 원시 파형을 입력 표현으로 사용할 때, 시간적으로 동일한 소리가 다른 위상 변화에서 나타날 수 있는 어려움이 있음.
    • 작은 위상 변화에 대한 불변성을 갖는 표현을 사용하는 것이 중요.
  6. Methods for Achieving Phase Invariance:
    • 일반적으로 작은 위상 변화에 불변한 표현을 위해 합성곱 레이어와 시간에 따라 풀링하는 DNN 레이어 등이 사용됨.
  7. Raw Audio as Input Representation:
    • 원시 오디오를 입력 표현으로 사용하는 경우, 자동 회귀 모델과 같은 합성 작업에서 자주 사용됨.

A. ID convolution

  • 이전 레이어의 활성화를 1-D 필터로 합성하여 현재 레이어의 표현(h 및 y)을 생성함.
  • 주황색 점선은 (t-1) 시간의 출력을 계산하는 데 사용되는 처리를 나타내고, 빨간 실선은 (t) 시간의 출력을 생성하는 처리를 나타냄.

B. Dilated ID convolution

  • 확장 요인 (k)을 사용하여 매 k번째 활성화만 고려함.
  • 확장은 분석된 시간적 맥락의 범위를 증가시키기 위해 연속적으로 증가하는 요인 (1, 2, 4, ...)으로 쌓일 수 있음.

C. Recurrent layer

  • ht의 활성화는 현재 입력 xt와 이전 활성화 ht−1에서 계산됨.

D. Bi-directional recurrent layer

  • 활성화는 시작부터 끝까지 양방향에서 계산됨

E. Attention

  • 시퀀스 변환에 사용되며, 재귀 레이어를 포함한 인코더와 디코더가 관여함.
  • 문맥 (ct)은 디코더 임베딩 (hd)과 인코더 임베딩 간의 관계에 따라 가중 평D. 균임.

D. Data

컴퓨터 비전에서 ImageNet(레이블링 이미지로 이루어짐)으로 딥러닝이 발전함

But 음성, 음악, 환경 소리 등 여러 도메인 포함하는 공유 가능한 품질의 데이터셋 없음

음성 인식을 위한 영어로 된 큰 데이터셋 있음. 음악 시퀀스 분류 또는 음악 유사성에는 Million Song Dataset, Note-by-Note Sequence Labeling에는 MusicNet이 있음.

But 화음, 비트, 또는 구조 분석과 같은 고수준 음악적 시퀀스 레이블링을 위한 데이터셋은 종종 훨씬 작음.

  • 데이터 생성 및 데이터 증강은 제한된 훈련 데이터 문제를 해결하는 다른 방법임. 어떤 작업에서는 실제 데이터와 유사한 데이터를 알려진 합성 매개변수 및 레이블과 함께 생성할 수 있음.
  • 생성된 데이터만으로 알고리즘의 성능이 현실 데이터에서 낮을 수 있음. 데이터 증강은 기존 예제를 조작하여 가능한 입력 범위를 확장함으로써 추가 훈련 데이터를 생성함.
  • ASR은 음성 조각을 피치 시프팅(음성 트랙 변조) 및 타임 스트레칭으로 변환하는 것 제안함.
  • 화음 인식에는 음성의 피치 시프팅이 유용하며, 시간 스트레칭 및 스펙트럼 필터링과 결합하여 노래 목소리 감지 및 악기 인식에 사용될 수 있음.

E. Evaluation

평가 기준은 작업마다 다름

1. 음성 인식

- 일반적으로 WER로 평가됨

- WER: 참조 및 가설 단어 문자열을 정렬한 후 단어 오류의 분수를 계산하며, 삽입, 삭제 및 대체 비율로 이루어져 있음. (삽입, 삭제, 대체 수 / 참조단어수)

2. 음악 및 음향 장면 분류

- 고정된 분류 임계값 없이 이진 분류하기 위해 AUROC가 사용됨

- 클래스 간의 의미적 관계 고려할 수 있음

- ex. 화음 탐지 작업의 손실은 감지된 화음과 실제 화음이 조화롭게 관련될 경우 더 작게 설계될 수 있음

3. 이벤트 감지

- 등가 오류율 또는 F-점수로 성능 측정

- 참 양성, 거짓 양성, 거짓 음성은 일정한 길이의 세그먼트 또는 이벤트 당으로 계산됨

4. 목소리 분리 품질

- 신호 대 왜곡 비율, 신호 대 간섭 비율, 신호 대 아티팩트 비율로 측정됨

- MOS

3. Applications

 A. 분석

  1. 음성 분석 (A1): 음성 분석을 위한 방법들의 구체적인 응용사례를 살펴봄.
  2. 음악 분석 (A2): 음악에 대한 분석에 대한 응용사례를 다룸.
  3. 환경 소리 분석 (A3): 환경 소리에 대한 분석에 대한 구체적인 응용을 살펴봄.

B. 합성 및 변형

  1. 음원 분리 (B1): 오디오의 소스 분리에 대한 메소드 및 적용사례를 다룸.
  2. 음성 개선 (B2): 음성 개선에 관한 방법과 응용사례를 살펴봄.
  3. 오디오 생성 (B3): 오디오 생성에 대한 방법과 응용사례를 다룸. </aside>

A. Analysis

1) Speech

  1. 모델 변화
  • 파라미터와 데이터로 훈련된 DNNs가 2012년에 WER 감소시킴
  • 기존의 triphone-state GMM/HMM 모델이 음성 모델링에서 주류였으나, discriminative 훈련과 하이브리드 모델의 도입으로 변화함
  • CLDNN 모델은 Convolutional, LSTM 및 피드포워드 레이어의 캐스케이드로 LSTM 단독 모델보다 우수성을 보임.
  1. 최근 발전과 적용
  • RNN의 도입으로 전통적인 HMM 기반 폰 상태 모델링에서의 조건부 독립 가정이 불필요해짐
  • Sequence-to-Sequence 모델인 CTC 및 LAS에 대한 관심 O
  • 음성 기반 응용 프로그램이 증가함에 따라 음성 지원을 다양한 환경과 언어로 확장하는 것이 중요해짐.
  • 전이 학습을 사용하여 저자원 언어에 대한 ASR 시스템의 성능을 향상시킴.
  • ASR 모델의 성공으로 음성 관련 작업에서도 딥러닝 기술이 채택되고 있음

2) Music

  1. 특징 및 다양성
  • 음악은 시간 및 주파수 측면에서 공통 제약 조건을 따르며, 이는 소스 간 및 내부 종속성을 생성하여 음악 녹음의 자동 설명에 다양한 가능성을 제공함.
  1. 사용되는 곳
    • 저수준 분석 (온셋 및 오프셋 감지, 기본 주파수 추정), 리듬 분석 (비트 추적, 미터 식별, 다운비트 추적, 템포 추정), 고음수 분석 (키 감지, 멜로디 추출, 코드 추정) 및 고수준 분석 (악기 감지, 악기 분리, 전사, 구조 분할, 아티스트 인식, 장르 분류) 작업이 딥러닝을 통해 해결됨.
    • 예시: 온셋 감지에 대한 MLP 훈련, CNN 및 RNN을 사용한 비트 및 다운비트 추적, 코드 인식을 위한 CRNN 모델 등.
  2. 음악 처리 과제
    • 코드 인식, 음향 이벤트 감지, 전역 템포 추정, 태그 예측 등 다양한 음악 처리 과제에 딥러닝이 성공적으로 적용됨.
    • CNN, RNN, CRNN과 같은 다양한 아키텍처가 사용되며, 입력 표현과 아키텍처 선택에 대한 공통된 합의가 없어 더 많은 연구가 필요함

3) Environmental Sounds

  1. 개요 및 응용 분야
    • 환경 소리는 말과 음악 신호 외에도 우리 환경에 대한 다양한 정보를 운반하고 있음.
    • 환경 소리의 계산적 분석은 context-aware 장치, 음향 감시, 멀티미디어 색인 및 검색과 같은 여러 응용 분야에서 활용됨.
  2. 기본 접근법
    • 오디오 녹음 전체에 하나의 장면 레이블을 할당하는 것을 목표로 함.
    • 사전에 정의된 장면 레이블로 "집", "거리", "차 안", "레스토랑" 등이 포함됨.
    • 다항 분류 문제로 간주되며 각 장면 클래스에 대한 훈련 자료가 필요함.
    b) 음향 이벤트 감지 (Acoustic Event Detection):
    • 개별 소리 이벤트의 시작 및 종료 시간을 추정하고 해당 이벤트에 이벤트 레이블을 할당하는 것을 목표로 함.
    • 가능한 이벤트 클래스 집합은 사전에 정의되어야 함.
    • 지도 학습을 적용하여 각 이벤트 클래스의 활동을 짧은 시간 세그먼트에서 예측하는 것이 효율적임.
    • 보통, 이벤트 감지를 수행하는 데 사용되는 지도 분류기는 분류 대상 세그먼트 외부에서 계산된 신호의 음향 특성을 사용함.
    c) 태깅 (Tagging)
    • 다중 (동시에 발생할 수 있는) 소리 클래스의 활동을 예측하는 것이 목표.
    • 태깅 및 이벤트 감지에서는 동시에 활동할 수 있는 여러 이벤트 클래스를 대상으로 할 수 있음.
    • 겹치는 클래스가 허용된 경우, 다중 레이블 분류 문제로 간주되며 이진 벡터로 활동 클래스를 표현함.
  3. a) 음향 장면 분류 (Acoustic Scene Classification):
  4. 특징
    • 환경 소리의 분석은 연구 분야가 덜 확립되어 있어 음성 및 음악과 비교하여 개발 시스템용 제한된 크기와 다양성의 데이터셋이 더 제한적임.
    • 환경 데이터셋이 제한된 크기이기 때문에 데이터 증강이 흔히 사용되며 매우 효과적임.

4) Localization and Tracking

  1. 다채널 오디오 및 음향 소스 위치
    • 다채널 오디오는 음향 소스의 위치를 파악하고 추적하는 데 사용될 수 있음.
    • 음향 소스의 공간 위치를 결정하고 시간에 따라 이를 추적하는 것이 목표.
  2. 단일 마이크로폰 어레이와 방향 추정
    • 여러 마이크로폰으로 구성된 단일 마이크로폰 어레이를 사용하여 소리 소스의 방향을 추정할 수 있음.
    • 다채널 마이크로폰 어레이에서의 신호를 사용하여 방향 추정은 두 가지 방식으로 정의될 수 있음:
      • 가능한 방향의 고정 그리드를 형성하고 특정 방향에 활성 소스가 있는지 여부를 다중 레이블 분류를 사용하여 예측.
      • 회귀를 사용하여 대상 소스의 방향 또는 공간 좌표를 예측.
  3. 딥러닝 방법의 차이
    • 소스 위치 추적을 위한 다양한 딥러닝 방법의 차이점은 사용된 입력 특징, 네트워크 토폴로지, 그리고 하나 이상의 소스가 어떻게 지역화되는지에 있음.
    • 사용된 딥 러닝을 기반으로 한 위치 추적에는 위상 스펙트럼, 크기 스펙트럼, 채널 간 일반화 교차 상관등이 포함됨.

B. Synthesis and Transformation

1) Source Separation

정의: 여러 소스의 혼합에서 각각의 소스에 해당하는 신호를 추출하는 과정으로, 오디오 신호 처리에서 중요한 역할을 함.

응용 분야: 음악 편집 및 리믹싱, 음성 및 기타 소리의 강력한 분류를 위한 전처리, 음성 명료도 향상을 위한 전처리 등과 관련된 응용 분야가 있음.

 

<수학적 정의>

i는 소스 인덱스, I는 소스의 수, n은 샘플 인덱스

 

시간-주파수 도메인의 마스킹 연산:

  • 최신 음원 분리 방법은 주로 시간-주파수 도메인에서 마스킹 작업을 추정하는 경향이 있음.
  • 시간- 주파수 처리의 이유
    1. 자연 소리 소스의 구조가 시간-주파수 도메인에서 잘 보임
    ➡️ 더 쉽게 모델링할 수 있음.
    1. 합성 과정에서의 컨볼루션 믹싱
    • 음원 분리는 소스에서 마이크로폰으로의 음향 전달 함수를 포함하는 컨볼루션 믹싱을 수반함
    • 전달 함수는 주파수 도메인에서 순간적인 믹싱으로 근사될 수 있음
    ➡️ 처리를 단순화함
    1. 자연 소리 소스는 희소성 가짐
    ➡️ 해당 도메인에서의 분리가 용이함

<마스킹 수식>

마스킹은 주파수 f 및 시간 t에서 혼합 신호 스펙트럼 Xm(f,t)을 분리된 소스 신호 스펙트럼의 추정치인 S^m(f,t)로 얻기 위해 혼합 신호 스펙트럼에 분리 마스크 Mm,i(f,t) 곱하는 과정으로 정의됨

 

딥러닝을 활용한 음원 분리

  • 단일 마이크로폰에서 동작하는 딥 러닝 방법은 주로 소스의 스펙트럼 구조를 모델링하는 데 의존함.
  • 두 가지 범주로 나뉨:
    1. 입력 혼합 X(f,t)을 기반으로 분리 마스크 Mi(f, t)를 예측하는 방법.
    2. 입력 혼합에서 소스 신호 스펙트럼 Si(f, t)를 예측하는 방법.
  • 딥 러닝은 입력 혼합 스펙트럼 X(f, t)와 오라클 마스크 또는 깨끗한 신호 스펙트럼 사이의 관계에 기반한 지도 학습을 기반으로 함.
  • 딥 뉴럴 네트워크의 아키텍처로는 컨볼루션, 순환 레이어를 포함한 다양한 방법이 사용됨.
  • 표준 평균 제곱 오차 손실은 주관적 분리 품질에 대해 최적이 아니므로 명료도를 향상시키기 위해 사용자 정의 손실 함수가 개발됨

최근 접근 방식

  • 최근에는 딥 클러스터링을 기반으로 한 접근 방식이 사용됨. 이 방법은 각 시간-주파수 지점에 대한 임베딩 벡터를 추정하고 이를 비지도 학습 방식으로 클러스터링하는 것임.
  • 이러한 접근 방식은 훈련 세트에 존재하지 않는 소스를 분리할 수 있음.

2) Audio Enhancement

  • 음성 개선 기술
    • 소음을 감소하여 음성 품질을 향상시키는 목적으로 사용됨.
    • ASR 시스템에서 소음 강건성을 위해 중요한 구성 요소로 작용.
    • Wiener와 같은 기존 소음 제거 방법은 정지된 소음을 가정하나, 딥러닝은 시간에 따라 변하는 소음을 모델링할 수 있음.
  • GAN을 활용한 음성 개선:
    • 특히 SEGAN은 부가적인 소음이 있는 환경에서 음성을 향상하는 데 효과적.
    • SEGAN은 기존의 개선 방법에 비해 감각적인 음성 품질 지표에서 향상을 보임.
    • GAN을 사용하여 logmel 스펙트라로 표현된 음성을 향상시키지만, ASR에 사용될 때 간단한 회귀 방법보다 개선이 없음.

3) Generative Models

  1. 생성 모델
    • 실제 소리 데이터베이스에서 학습한 특성을 기반으로 소리를 합성하여 현실적인 샘플 생성.
    • 학습된 소리와 유사하면서도 학습 집합의 소리를 단순히 복사하는 것이 아니라 독창적이어야 함.
    • 조건부 합성: 음성 합성의 경우 화자, 음악의 고조 경로, 환경 소리 생성 시 물리적 매개변수 등을 조건으로 설정하는 것이 바람직.
    • 시간 및 효율성: 훈련 및 생성 시간이 짧아야 하며 이상적으로는 실시간 생성이 가능해야 함.
    • 모델 유형: 스펙트럼 표현 또는 원시 오디오에서 생성 가능. 스펙트럼 표현은 합성 시에 상호 정보를 잃어버리기 때문에 이를 복원하는 등의 추가 단계가 필요함.
  2. 음성 생성 모델
    • 블록별 접근: VAE 또는 GANs의 경우 저차원 잠재 표현에서 합성되며, 업샘플링이 필요. 다층 RNN 및 dilated convolutions을 사용하여 해결.
    • 자기 회귀적 접근: RNN을 사용하여 각 샘플을 반복적으로 생성. 단, 훈련이 비용이 많이 들 수 있음.
    • WaveNet: 분류 문제로 캐스팅하여 각 샘플을 예측. WaveNet 모델은 다른 음성 합성 방법을 크게 능가하지만 훈련이 계산적으로 소모적임.
    • 병렬 WaveNet: 훈련 속도 문제를 해결하기 위한 솔루션으로 개발되었으며 응용 프로그램에서 효과적으로 사용됨.
  3. 평가 방법:
    • 객관적 평가: 생성된 소리의 인식 가능성을 분류자(e.g., 인셉션 스코어)를 사용하여 테스트.
    • 주관적 평가: 인간의 강제 선택 테스트를 통해 생성된 소리의 인식 가능성을 확인.
    • 다양성 및 원본성 평가: 정규화된 로그멜 스펙트라로 나타낸 소리의 다양성 및 원본성을 평가.
    • 튜링 테스트: 생성된 오디오와 실제 오디오 간의 구별이 거의 불가능한 경우에 대한 어려운 테스트. WaveNet은 이를 능가하는 결과를 보임.

4. Discussion and Conclusion

IV-A. 특성

IV-B. 모델

IV-C. 데이터 요구 사항

IV-D. 계산 복잡성

IV-E. 해석 가능성 및 적응성

A. Features

  1. 전통적 특성과 딥러닝 특성 비교
    • 전통적으로는 MFCCs가 주로 사용되었으나, 딥 러닝에서는 주로 로그 멜 스펙트로그램이 사용됨.
    • 원시 파형은 수작업 특성을 피하고 딥 러닝 모델의 모델링 능력을 더 잘 활용하는데 중점.
  2. 특성 선택과 성능 비교
    • 분석 작업에서는 로그멜 스펙트로그램이 더 간결한 표현 제공.
    • 원시 파형의 사용은 더 높은 계산 비용과 데이터 요구 사항을 동반하지만 특별한 경우에는 이점이 있을 수 있음.

B. Models

  1. 모델
    • ASR, MIR, 환경 소리 분석에서 딥 모델은 시퀀스 분류를 위한 서포트 벡터 머신 및 시퀀스 전송을 위한 GMM-HMM을 대체함.
    • 오디오 개선/소음 제거 및 소스 분리에서는 딥 러닝이 이전에는 NNMF 및 와이너 방법으로 처리된 작업을 해결함.
    • 오디오 합성에서는 Wavenet, SampleRNN, WaveRNN 등이 연결적 합성을 대체함.
  2. 모델 유형의 활용
    • CNNs, RNNs 및 CRNNs이 모든 도메인에서 성공적으로 활용됨.
    • CNNs는 고정된 수용 영역을 가지며 예측에 고려되는 시간적 맥락을 제한하지만, 컨텍스트 크기를 조절하기가 매우 쉬움.
    • RNNs는 이론적으로 무제한의 시간적 맥락을 기반으로 예측할 수 있지만, 이를 학습하려면 모델에 적응이 필요하며 컨텍스트 크기에 대한 직접적인 제어를 방해함.
    • CRNNs는 양쪽의 이점과 단점을 상속하여 그 사이에서 타협점을 제공함.
  3. 우수한 모델에 대한 열린 질문
    • 어떤 상황에서 어떤 모델이 우수한지에 대한 연구 질문.
    • 다양한 모델을 사용하여 다른 연구 그룹이 최첨단 결과를 얻고 있어 특정 아키텍처 유형을 효과적으로 설계하고 조정하는 각 연구 그룹의 전문 지식에 기인할 수 있음.

C. Data Requirements

  1. 한정된 데이터셋 문제
    • 대부분의 오디오 도메인에서는 소규모 데이터셋이 딥러닝 모델의 크기와 복잡성을 제한함.
  2. 컴퓨터 비전과의 대조
    • 오디오에는 ImageNet과 같은 광범위한 사전 훈련 모델이 없어 컴퓨터 비전과 비교됨.
  3. 동등한 작업 부재
    • 오디오 도메인에서 전이 학습을 위한 동등한 작업을 찾는 연구가 필요함.
  4. 사전 훈련된 모델 적응 문제
    • 최소한의 데이터로 사전 훈련된 오디오 모델을 새로운 작업에 유연하게 적응하는 방법을 찾는 것이 중요함.
  5. 도메인별 도전과제
    • 음악과 같은 도메인 내에서도 고유의 도전 과제가 있어 별도의 접근법이 필요함.
  6. 대체 패러다임 탐구
    • 전이 학습이 적절하지 않을 경우, 반지도 학습, 액티브 학습 또는 소수 데이터 학습과 같은 대체 패러다임을 탐구함.

D. Computational Complexity

  • 딥러닝의 성공은 빠르고 대규모의 계산의 발전을 기반으로 함.
  • 최첨단 딥 뉴럴 네트워크는 일반적으로 더 많은 계산 능력과 더 많은 훈련 데이터를 필요로 하며, 일반적인 방법에 비해 더 많은 계산이 필요함.
  • 대형 딥 모델을 훈련하고 평가하는 데 최적이 아닌 CPU 대신 주로 일반적인 그래픽 처리 장치(GPGPUs) 및 Tensor Processing Units(TPUs)와 같은 특수 애플리케이션 집적 회로가 최적화된 프로세서를 사용함.

E. Interpretability and Adaptability

  • 딥러닝에서 연구자들은 주로 원시적인 레이어 블록과 목표 작업에 대한 손실 함수를 사용하여 네트워크 구조를 설계함.
  • 모델의 매개변수는 입력과 대상 또는 비지도 훈련을 위해 입력만에 대한 손실에 대한 기울기 하강을 통해 학습됨.
  • 레이어 매개변수와 실제 작업 간의 연결은 해석하기 어려움. 네트워크 뉴런의 활동을 목표 작업과 연관시키거나 예측이 어떤 입력 부분에 기반을 두는지 조사하는 연구들이 진행 중.
  • 네트워크나 하위 네트워크의 동작 방식을 이해하기 위한 추가 연구는 모델 구조를 개선하여 실패 사례에 대응하는 데 도움이 될 수 있음.