2020.코딩일지

디지털 신호처리(DSP)이해 본문

NLP(NaturalLanguageProcessing)

디지털 신호처리(DSP)이해

개발하는라푼젤 2021. 7. 19. 04:12
728x90

디지털 신호처리(Digital Signal Processor)이해



강좌정보 Tacademy강좌링크
학습내용 1. 오디오 데이터의 특징 및 Fourier Transform, Spectrogram 등 디지털 신호처리 기초 개념에 대해 알아봅니다.
2. Librosa와 Torch Audio를 이용한 디지털신호처리(DSP)에 대해 학습해 봅니다.
강사 도승헌(KAIST Music and Audio computing Lab) T아카데미
학습기간 2021.05.29~2021.06.14 이수완료
학습시간 02:07:21
강의목록 [1강] 디지털신호처리(DSP) 기초 I - Sampling, Quantization
[2강] 디지털신호처리(DSP) 기초 II - STFT, Spectrogram, Mel-Specrtogram
[3강] 디지털신호처리(DSP) 기초 III - MFCC, Auditory Filterbank
[4강] 디지털신호처리(DSP) 실습 I - Data augmentation
[5강] 디지털신호처리(DSP) 실습 II - DataLoader

Colab으로 실습

[2강] 디지털신호처리(DSP) 기초 II - STFT, Spectrogram, Mel-Specrtogram

n_fft=1024 보통 1024사용.

허수를 날리기 위해 2
$D = np.abs(S)
2$

인간의 청각경로특성상 저주파의 정보를 더 많이 인지한다.
Mel-Filter bank
40(음성) 92(음악) 128

스펙토그렘의 계단현상: 압축되었고 그만큼 노이즈감소

[3강] 디지털신호처리(DSP) 기초 III - MFCC, Auditory Filterbank

Spectrogram : 시간축과 주파수축 변화에 따라 진폭차이를 색상을 통해 보여줍니다.
MFCC : 노래의 음색을 잡거나, 고유한 화자를 분리할때 보통 쓰인다.

[4강] 디지털신호처리(DSP) 실습 I - Data augmentation

(전처리)
방법1. 웨이브폼에서 노이즈를 섞는다던지, 피치를 바꾸던지
방법2. 스펙트로그램에서 마스킹을 주기
방법3. 데이터를

옥타브를 낮춰도 같은노래 librosa.effects.pitch_shift
FrequencyMasking(freq_mask_param 보통15~35 준다. 논문따라서)

주의 20:32
벨리데이션, 테스트할때 마스킹하면 안되고 함수따로 짜기.

torchaudio.transforms.MelSpectogram(sample_rate=16000, n_mels=128)

[5강] 디지털신호처리(DSP) 실습 II - DataLoader

torchaudio.transforms.FrequencyMasking(freq_mask_param=15),
torchaudio.transforms.TimeMasking(time_mask_param=35)
Comments