Search CORE

79 research outputs found

Method for Spectral Analysis of Polyphonic Audio by Using Variable Length Window

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 13/12/2011
Field of study

본 발명은 여러 음을 가진 오디오 신호에서 유동적 길이를 가지는 분석 창을 이용한 주파수 분석 방법에 관한 것이다. 이를 위해 본 발명은, 입력된 오디오 신호를 리샘플링하는 제 1단계와, 시간 영역 기준으로 입력된 오디오 신호를 주파수 영역 기준의 신호로 변환하는 제 2단계와, 상기 제 2단계를 통하여 얻어진 각 프레임의 스펙트럼에서 진폭의 피크 값과 상기 피크 값이 나타나는 위치의 주파수 값을 추출하는 제 3단계와, 상기 제 3단계를 통하여 추출된 값들을 바탕으로 각 프레임의 멜로디 피치가 존재하는 범위를 재설정하는 제 4단계와, 상기 제 2단계를 통하여 주파수 영역 기준의 신호로 변환된 결과에서 프레임 간의 자기상관계수를 파악하는 방법으로 멜로디 피치의 동적 변화 정보를 구하는 제 5단계와, 상기 제 4단계를 통하여 재설정된 각 프레임의 멜로디 피치가 존재하는 범위에 관한 정보 및 상기 제 5단계를 통하여 구한 멜로디 피치의 동적 변화 정보를 이용하여 각 프레임에 대응되는 분석 창의 길이를 설정하는 제 6단계와, 고주파수 통과 필터를 이용하여 오디오 신호에서 베이스 신호 및 저주파수 신호를 제거하는 제 7단계와, 상기 제 7단계를 통하여 고주파수 통과 필터를 통과한 오디오 신호를 상기 제 6단계에서 길이가 설정된 각 프레임에 대응되는 분석 창을 이용하여 단시간 푸리에 변환 하는 제 8단계 및 상기 제 8단계를 통하여 단시간 푸리에 변환된 오디오 신호를 주파수 영역의 분해능을 높이기 위해 다중비율필터뱅크를 통과 시키는 제 9단계를 포함한다

KAIST Institutional Repository

음악 표절 검출을 위한 스트링 매칭 알고리즘

Author: 유창동
이주완
Publication venue: 대한전자공학회
Publication date: 01/06/2011
Field of study

KAIST Institutional Repository

Fingerprint Producing Method and Audio FingerprintingSystem Based on Normalized Spectral Subband Centroids

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 21/06/2007
Field of study

본 발명은 정규화된 스펙트럼 부밴드 중심점(Normalized Spectral Subband Centroid; NSSC)을 기반으로 핑거프린트를 생성하는 방법과, 미지의 오디오 신호가 입력으로 주어졌을 때, 이를 이미 구축되어 있는 대용량 오디오 데이터베이스에서 검색하여 입력 오디오 신호에 대한 정보를 출력해 주기 위한 오디오 핑거프린팅 시스템에 대한 것이다. 오디오 핑거프린팅 시스템은 사용된 핑거프린트에 의해 그 성능이 크게 좌우된다. 본 발명의 NSSC 핑거프린트는 오디오 신호의 특징을 잘 나타내어 인식에 사용하기 적합하면서도 오디오 신호에 가해질 수 있는 여러 가지 왜곡들, 예를 들어 MP3 압축, 이퀄라이제이션(equalization) 등에 매우 강인하며, 대용량 데이터베이스 구축과 실시간 검색에도 유리한 장점을 가지고 있다. 실험 결과에 따르면, 본 발명에 의한 시스템은 기존의 오디오 핑거프린팅 시스템에 비해 향상된 성능을 보인다. 본 발명은 인터넷 상의 오디오 불법 유통을 막기 위한 실시간 필터링 서비스, 대용량 오디오 데이터베이스의 자동 인덱싱(indexing), 그리고 방송 모니터링 등에 응용될 수 있다

KAIST Institutional Repository

Method for Melody Line Decision from Melody Pitch Candidates based on Melody Line Properties

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 28/10/2011
Field of study

본 발명은 멜로디 라인 결정 방법에 관한 것으로, 해결하고자 하는 기술적 과제는 멜로디 라인이 가지는 물리적 특성에 기반하여 효율적으로 멜로디 라인을 결정할 수 있는 방법을 제공하는데 있다. 이를 위해 본 발명에 따른 멜로디 라인 결정 방법은, 각 프레임에서 N개의 멜로디 피치 후보들과 상기 피치 후보들이 가지는 비중에 관한 정보를 입력받는 제 1단계와, 오디오 신호의 단위를 헤르쯔(Hz)에서 센트(Cent)로 변환하는 제 2단계와, 멜로디 라인의 시작 프레임을 설정하는 제 3단계와, 상기 제 3단계를 통하여 설정된 시작 프레임에서 상기 제 1단계에서 입력받은 N개의 멜로디 피치 후보들을 선택하고 이들을 비중이 큰 순으로 정렬하는 제 4단계와, 이웃한 두 멜로디 피치 후보가 기설정된 멜로디 라인 기준을 만족하는지 판정하는 제 5단계와, 멜로디 라인 연결을 통해 각 멜로디 구간마다 N개의 멜로디 라인 후보를 선택하는 제 6단계와, 상기 제 6단계를 통하여 선택된 N개의 멜로디 라인 후보 중에서 최적의 멜로디 라인을 선택하는 제 7단계와, 상기 제 7단계에서 선택된 최적의 멜로디 라인을 스무드화(Smoothing) 하는 제 8단계를 포함한다

KAIST Institutional Repository

METHOD AND APPARATUS FOR PROVIDING WEB STORAGE SERVICE STORING MULTIMEDIA CONTENTS AND METADATA SEPARATELY

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 02/04/2012
Field of study

본 발명은 사용자가 자신의 멀티미디어 컨텐츠를 네트워크 상의 저장 장소에 저장하고 관리할 수 있도록 하는 웹스토리지 서비스 제공방법 및 장치에 관한 것으로서, 더 구체적으로는, 사용자로부터 제공된 사진, 동영상 등과 같은 멀티미디어 컨텐츠 및 이에 대응되는 메타데이터를 분리하여 저장함으로써, 사용자가 다량의 컨텐츠 중에서 자신이 원하는 컨텐츠를 메타데이터를 이용하여 쉽게 검색할 수 있도록 하고, 사용자에게는 메타데이터는 제공하지 않고 검색된 컨텐츠만을 제공함으로써 사용자의 서비스 충성도를 높이기 위한 웹스토리지 서비스 제공방법 및 장치에 관한 것이다.본 발명에 의하면, 네트워크 상에 저장 장소를 마련하여 사용자가 자신의 멀티미디어 컨텐츠를 저장할 수 있도록 하며, 각 컨텐츠에 대응하는 메타데이터를 활용함으로써 대량의 저장된 컨텐츠로부터 자신이 원하는 컨텐츠를 쉽게 검색할 수 있도록 한다.또한 본 발명에 의하면, 컨텐츠와 대응되는 메타데이터를 분리하여 저장한 후 서비스 제공시 및 서비스 해지시에 사용자에게는 컨텐츠만을 전송하고 메타데이터는 전송하지 않아, 사용자는 서비스를 해지하는 경우 메타데이터가 없는 대량의 컨텐츠만을 다운로드 받게 되어 이러한 대량의 데이터를 재분류하는 것이 매우 어렵게 됨으로써, 서비스에서 이탈하는 것을 방지할 수 있게 한다

KAIST Institutional Repository

Apparatus and Method for high-dimensional binary data search

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 02/11/2011
Field of study

본 발명은 입력 정보를 분석하여 실수 벡터를 추출하는 실수 벡터 추출부, 상기 추출된 실수 벡터에 양자화 기법을 적용하여 이진 데이터로 변환하는 이진화부, 상기 변환된 이진 데이터의 신뢰도를 구하고, 그 신뢰도를 기반으로 하나 이상의 후보점을 생성하는 후보점 생성부, 상기 생성된 후보점 중에서 최근접 데이터를 선택하는 검색부로 구성되어, 이진 데이터를 추출하는 과정에서 손실되는 정보를 양자 비트로 표현하고, 이러한 양자 비트 표현에서 신뢰도를 계산함으로써 검색에 수반되는 연산량을 줄이며 정확도를 향상시키는 효과가 있다

KAIST Institutional Repository

Apparatus and Method for realizing multimedia

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 09/12/2011
Field of study

본 발명은 입력 영상의 각 프레임에서 핑거프린트를 추출하고, 상기 추출된 핑거프린트를 이용하여 상기 영상을 분절 단위로 나누는 영상 분절부, 상기 나누어진 각 분절을 노드로 설정하고, 각 노드의 관측변수와 숨겨진 변수를 설정하여 마르코프 랜덤 필드(MRF)를 구축하는 마르코프 랜덤 필드 구축부, 상기 구축된 마르코프 랜덤 필드의 확률 값을 최대화시키는 숨겨진 변수값을 추정하는 변수값 추정부, 상기 추정된 숨겨진 변수값을 이용하여 각 분절이 속하는 영상 및 그 영상에서의 위치를 인식하는 영상 인식부로 구성되어, 화질 저하, 손실 압축은 물론 속도 변화가 있는 멀티미디어 및 편집이 가해진 멀티미디어를 인식할 수 있다

KAIST Institutional Repository

Automatic Face Alignment System for Robust Face Recognition and Method Therefor

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 13/12/2011
Field of study

본 발명의 얼굴 자동 정렬 시스템 및 방법에 따르면, 실제 생활에서 얻어지는 얼굴 영상들을 자동으로 정렬할 수 있다. 또한 자동 정렬된 얼굴 영상을 이용하여 얼굴 인식률을 높이는 것에도 기여 가능하다. 본 발명의 바람직한 일실시예에 따른 강인한 얼굴 인식을 위한 얼굴 자동 정렬 시스템은, 정렬된 기준 영상 및 입력된 얼굴 영상, 변형된 열굴 영상을 저장하는 영상 저장부; 상기 정렬된 기준 영상 및 입력된 얼굴 영상의 특징점을 추출하는 특징점 추출부; 상기 정렬된 기준 영상 및 입력된 얼굴 영상의 특징점을 이용하여 특징점의 분포를 연산하는 특징점 분포 연산부; 상기 정렬된 기준 영상의 특징점 분포와 입력된 얼굴 영상의 특징점 분포를 이용하여 엔트로피 값의 산출, 비교 및 저장을 하는 엔트로피 처리부; 상기 입력된 얼굴 영상을 회전, 평행 이동, 확대 또는 축소를 하는 영상 변형부; 및 최종적으로 자동 정렬된 얼굴을 검출하는 얼굴 검출부;를 포함한다

KAIST Institutional Repository

METHOD FOR DETRMINING DISTANCE METRIC USED IN FINGERPRINT MATHING OF FINGERPRINT SYSTEM BY LEARNING

Author: 유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 04/10/2011
Field of study

본 발명은 쿼리 콘텐츠에 대한 핑거프린트와 데이터베이스에 저장된 핑거프린트와의 거리를 측정함으로써 원본 콘텐츠를 인식하는 핑거프린트 시스템에 관한 것이다. 본 발명은 디스턴스 메트릭의 학습(learning)을 이용하여 핑거프린팅 시스템의 핑거프린트 추출 과정과 데이터베이스 (database, DB)를 유지한 채로 핑거 프린트 인식 성능을 향상시키는 것을 기술적 과제로 한다. 본 발명은 훈련 데이터 (training data)를 이용해서 디스턴스 메트릭을 학습하여 기존의 디스턴스 메트릭에 비해 인식 성능을 향상시킨다. 이를 위해서 일정한 형태의 파라미터화된 디스턴스 메트릭을 설정하고, 그것을 학습시키기 위해서 비용 함수(cost function)를 이용한다. 본 발명에서는 마할라노비스(Mahalanobis) 거리와 특정한 형태의 비용 함수를 이용하여 학습하는 방법을 실시예로 든다. 비용 함수는 원본 콘텐츠의 핑거프린트(xi)와 왜곡된 콘텐츠의 핑거프린트(xi,j) 사이의 거리가 원본 콘텐츠의 핑거프린트(xi)와 다른 원본 콘텐츠(xk)의 핑거프린트 사이의 거리보다 작을 때 최소화되도록 디자인된다. 비용 함수[ε(A)]를 최소화함으로써 효과적으로 디스턴스 메트릭을 학습(learining)할 수 있다. 한편, 비용 함수의 최소화 작업의 편의성을 위해 비용 함수는 볼록(convex) 함수의 형태를 가지도록 하는 것이 바람직하다. 이 경우 비용 함수의 최소화 작업은 볼록 최적화(convex optimization)에 의해 수행될 수 있다. 실험 결과, 본 발명에 따른 학습(learning)된 디스턴스 메트릭이 적용된 경우, 그렇지 않은 경우에 비하여 왜곡에 대한 핑거프린트 인식 성능이 향상된다는 것이 입증되었다

KAIST Institutional Repository

Environment sound recognition method based on convolutional neural networks, and system thereof

Author: 박현신
유창동
Publication venue: 'Society for Leukocyte Biology'
Publication date: 29/03/2021
Field of study

본 발명은 외부로부터 오디오 신호를 입력받아 분석하고 합성곱 신경망을 통해 학습하여 주변 환경에 적합한 환경음으로 출력할 수 있도록 하는 합성곱 신경망 기반 환경음 인식 방법 및 시스템에 관한 것이다. 본 발명에 따른 합성곱 신경망 기반 환경음 인식 시스템은, 오디오 신호를 입력받아 멀티레졸루션 단시간 푸리에 변환(Multi-resolution STFT)과 멜프리퀀시 필터뱅크 변환 및 로그 변환을 통해 멀티레졸루션 로그 멜스펙트로그램을 획득하는 멀티레졸루션 분석부; 상기 멀티레졸루션 로그 멜스펙트로그램을 입력받아 합성곱 연산 및 풀링 연산을 실행하여 환경음 라벨 데이터를 출력하는 합성곱 신경망 모듈부를 포함할 수 있다

KAIST Institutional Repository