2020.코딩일지
디지털 신호처리(DSP)이해 본문
728x90
디지털 신호처리(Digital Signal Processor)이해
강좌정보 | Tacademy강좌링크 |
---|---|
학습내용 | 1. 오디오 데이터의 특징 및 Fourier Transform, Spectrogram 등 디지털 신호처리 기초 개념에 대해 알아봅니다. 2. Librosa와 Torch Audio를 이용한 디지털신호처리(DSP)에 대해 학습해 봅니다. |
강사 | 도승헌(KAIST Music and Audio computing Lab) T아카데미 |
학습기간 | 2021.05.29~2021.06.14 이수완료 |
학습시간 | 02:07:21 |
강의목록 | [1강] 디지털신호처리(DSP) 기초 I - Sampling, Quantization |
[2강] 디지털신호처리(DSP) 기초 II - STFT, Spectrogram, Mel-Specrtogram | |
[3강] 디지털신호처리(DSP) 기초 III - MFCC, Auditory Filterbank | |
[4강] 디지털신호처리(DSP) 실습 I - Data augmentation | |
[5강] 디지털신호처리(DSP) 실습 II - DataLoader |
Colab으로 실습
[2강] 디지털신호처리(DSP) 기초 II - STFT, Spectrogram, Mel-Specrtogram
n_fft=1024 보통 1024사용.
허수를 날리기 위해 2
$D = np.abs(S)2$
인간의 청각경로특성상 저주파의 정보를 더 많이 인지한다.
Mel-Filter bank
40(음성) 92(음악) 128
스펙토그렘의 계단현상: 압축되었고 그만큼 노이즈감소
[3강] 디지털신호처리(DSP) 기초 III - MFCC, Auditory Filterbank
Spectrogram : 시간축과 주파수축 변화에 따라 진폭차이를 색상을 통해 보여줍니다.
MFCC : 노래의 음색을 잡거나, 고유한 화자를 분리할때 보통 쓰인다.
[4강] 디지털신호처리(DSP) 실습 I - Data augmentation
(전처리)
방법1. 웨이브폼에서 노이즈를 섞는다던지, 피치를 바꾸던지
방법2. 스펙트로그램에서 마스킹을 주기
방법3. 데이터를
옥타브를 낮춰도 같은노래 librosa.effects.pitch_shift
FrequencyMasking(freq_mask_param 보통15~35 준다. 논문따라서)
주의 20:32
벨리데이션, 테스트할때 마스킹하면 안되고 함수따로 짜기.
torchaudio.transforms.MelSpectogram(sample_rate=16000, n_mels=128)
[5강] 디지털신호처리(DSP) 실습 II - DataLoader
torchaudio.transforms.FrequencyMasking(freq_mask_param=15),
torchaudio.transforms.TimeMasking(time_mask_param=35)
'NLP(NaturalLanguageProcessing)' 카테고리의 다른 글
딥러닝 기반 음성합성(2) (0) | 2021.07.30 |
---|---|
딥러닝 기반 음성합성(1) (0) | 2021.07.19 |
딥러닝 기반의 음성인식 기술 (0) | 2021.07.19 |
NAVER AI NOW (0) | 2021.07.19 |
Python과 Tensorflow를 활용한 Al 챗봇 개발 (0) | 2021.07.19 |
Comments