• 북마크
V2R타임즈

IT

미디어젠-ETRI, RGB 3채널 이용한 컬러 음성 스펙트럼 개발

2023.03
08

본문

142581885fd0eb0acf4fa2d44e3675c6_1678284927_9963.jpg
 

코스닥 상장사 미디어젠(279600, 대표 고훈)은 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다고 밝혔다.


E2E 시대를 맞아 눈부신 성능 향상을 이루며 인식 성능 면에서 정점에 오른 심층 학습망 기반의 음성 인식 시스템은 트랜스포머 알고리즘에 기반을 두고 있다. 트랜스포머 알고리즘은 많은 양의 학습 데이터를 소화하며 그 성능을 향상해 왔다. 그러나 초거대 용량의 학습 데이터 출현으로 그 성능 향상 정도는 어느 정도 포화 상태에 이른 상황이다. 이런 상황에서 음성 인식 성능을 높이기 위해 음성 인식 특징을 추출하는 새로운 방법을 모색하는 등 네트워크 아키텍처뿐만 아니라 다양한 기술 분야의 연구가 요구되고 있다.


현재 가장 널리 사용되는 음성 인식 특징은 ‘로그 멜 스펙트럼’이지만, 이 특징은 음성 신호의 다양한 생성 과정을 포함하지 못한다는 단점이 있다. 또 심층 학습망의 특성상 입력이 되는 특징이 다양한 음성의 특징적 요소를 각각 표현해줄 수 있어야 이를 바탕으로 더 지능적인 학습을 진행할 수 있다.


이에 따라 미디어젠은 ETRI 연구 인력 현장 지원 프로그램을 통해 음성 발성 모델을 활용, 분석된 성도 필터 정보와 신호 정보를 채널화함으로써 RGB 구성 요소를 갖는 컬러 스펙트럼을 개발했다. 일반적으로 성도 필터 정보는 음소를 표현하기에 적합하며 배경 잡음에 상대적으로 강인한 특성이 있고, 신호 정보는 음성 정보뿐만 아니라 발성 개인의 특성을 잘 표현해주는 특성이 있다. 컬러 스펙트럼에서는 이런 정보를 분석한 뒤 특징화해 음성 인식 시스템을 학습할 때 이를 심층 학습망에 알려줌으로써 인공지능이 음성 인식에 필요한 특징 정보를 선택하도록 도움을 준다. 이를 증명하기 위해 수행된 텐서플로(Tensorflow) 기반 딥스피치2(DeepSpeech2) 음성 인식 시스템 실험에서 기존 로그 멜 스펙트럼 음성인식 시스템보다 20% 이상의 ERR 성능 향상이 나타나는 것을 확인했다.


미디어젠 송민규 상무는 “ETRI 연구 인력 현장 지원 프로그램을 통해 개발된 컬러 스펙트럼은 음성 인식뿐만 아니라 TTS, 화자 분리, 감정 인식 등 음성 기반의 모든 분야 및 오디오 관련 응용 분야 등 활용 범위가 매우 넓다”며 “음성 인식 성능 향상의 경우, 이미지 처리를 위해 개발된 다양한 네트워크 아키텍처들을 채용해 더 다양하고 효율적인 음성 인식 시스템 구성이 가능할 것으로 기대된다”고 말했다.


미디어젠 소개


미디어젠은 음성 솔루션의 시작과 끝을 책임지는 기업으로 음성 인식 시스템 및 인공지능(AI) 음성 신기술 개발 등 한발 더 앞선 기술을 제공한다.


웹사이트: http://www.mediazen.co.kr/

댓글목록 0

등록된 댓글이 없습니다.
전체 914 건 - 10 페이지
2023.03
13

맥스트, MWC 2023에서 메타버스 서비스 개발 플랫폼 선보인다

 메타버스 플랫폼 전문기업 맥스트(377030)는 스페인 바르셀로나에서 열리는 MWC 2023(Mobile World Congress 2023)에 참가해 메타버스 서비스 개발 플랫폼을 선보일 예정이다.맥스트는 2월 27일(월)부터 3월 2일(…

VR타임즈 20시 28분 629
2023.03
09

티젠소프트, 서울특별시청 라이브 서울에 멀티미디어 아카이브 시스템 구축

 멀티미디어 동영상 스트리밍 및 통합 메시지 전송 솔루션, 설문조사 솔루션 개발·판매 전문 기업 티젠소프트(대표 고훈호)가 서울특별시청 ‘라이브 서울 재구축’ 사업에 멀티미디어 콘텐츠 통합 관리 아카이브 시스템(TG 1st MCMS Archi…

VR타임즈 23시 54분 285
2023.03
09

레이언스, SPAD 기술 적용한 차세대 디텍터 기술 세계 최초로 선보여

 디지털 엑스레이 부품 및 소재 전문기업 레이언스(대표 서재정)가 세계 최고 반도체 학회인 ‘International Solid-State Circuits Conference(ISSCC) 2023’에서 ‘SPAD-GS’ 기술을 3D 디텍터에 …

VR타임즈 23시 53분 273
2023.03
09

구루미, 한국MS와 손잡고 챗GPT 적용한 화상교육 플랫폼 개발 착수

 마이크로소프트의 ISV부문 최고 파트너사인 구루미(대표 이랑혁)가 국내 화상 플랫폼 최초로 한국마이크로소프트(대표 이지은, 이하 MS)와의 협업을 통해 챗GPT, DALL-E2 등의 인공지능(AI)을 적용한 화상 교육 서비스를 개발할 예정이…

VR타임즈 23시 52분 238
2023.03
09

지식 커뮤니티 플랫폼 아하, 전문가 집단과 챗GPT 답변 신뢰성 검증한다

 지식 커뮤니티 플랫폼 아하(대표 서한울)는 자사 내부 전문가 집단과 함께 최근 화두가 된 챗GPT(ChatGPT) 답변의 신뢰성 검증하는 서비스를 베타 출시했다고 23일 밝혔다.챗GPT는 학습 당시 데이터를 바탕으로 하기 때문에 최신 내용에…

VR타임즈 23시 51분 273
2023.03
08

미디어젠, 부산외국어대학교 외국어 교육센터 AI LMS 시스템 1단계 구축 완료

 음성 AI 전문 기업 미디어젠(대표 고훈)은 인공지능(AI) 기반으로 부산외국어대학교의 외국어 교육센터(센터장 김민회)에 AI LMS 시스템 1단계 구축을 완료했다고 밝혔다.미디어젠의 AI LMS 시스템은 학생들의 비대면 교육 환경 접근성을…

VR타임즈 23시 23분 322
2023.03
08

LG 디오스 오브제컬렉션 무드업, 빛과 음악이 만드는 특별한 고객경험 전시

 LG전자가 터치만으로 냉장고 색상을 바꿔 분위기까지 업그레이드할 수 있는 ‘LG 디오스 오브제컬렉션 무드업(MoodUp)’의 차별화된 고객가치를 경험할 수 있도록 특별한 전시를 진행한다.LG전자는 22일부터 26일까지 서울 강남구 삼성동 코…

VR타임즈 23시 22분 313
2023.03
08

효성인포메이션시스템, 데이터 주도적인 디지털 전환 로드맵 제시

 데이터 인프라 및 솔루션 전문기업 효성인포메이션시스템(대표 양정규)은 인공지능(AI) 서비스 시대에 빠르게 대응하고, 데이터 주도적인(Data-Driven) 디지털 전환(DX) 혁신을 위한 로드맵을 제시하는 ‘DX(Digital Transf…

VR타임즈 23시 21분 319
2023.03
08

드론핏, 2023 드론쇼코리아 참가… 드론 교육 네트워크 심층 공개

 드론 교육원 추천 플랫폼 드론핏(Drone-Fit)이 ‘2023 드론쇼코리아(Drone Show Korea 2023)’에 참가한다.2023 드론쇼코리아는 2월 23일부터 25일까지 3일간 부산 벡스코(BEXCO)에서 개최되는 아시아 최대 규…

VR타임즈 23시 20분 578
2023.03
08

아카에이아이, 충남 장항중앙초등학교에 인공지능 학습 로봇 ‘뮤지오’ 공급

 아카에이아이(AKA AI. 이하 아카)는 충청남도 서천군에 있는 장항중앙초등학교와 인공지능(AI) 영어학습 로봇 ‘뮤지오(Musio)’의 공급 계약을 맺고 설치를 완료했다고 22일 밝혔다.이번 도입은 충청남도교육청 소속 교육 기관으로 아카가…

VR타임즈 23시 19분 250
2023.03
08

텔레다인 플리어, 도로·터널 사고 자동감지 하는 ‘ITS 시리즈 듀얼 AID’ 카메라 출시

 텔레다인 플리어(Teledyne FLIR 한국지사, 지사장 이해동)는 자동 사고 감지(Automatic Incident Detection, AID)를 위한 듀얼 비전 카메라 ‘FLIR ITS 시리즈 듀얼 AID’를 신규 출시한다고 21일 밝…

VR타임즈 23시 17분 266
2023.03
08

SK텔레콤, AI 로봇 생태계 확장 위한 삼각편대 구축한다

 SK텔레콤(대표이사 사장 유영상)이 퀄컴 테크날러지 Inc.(Qualcomm Technologies, Inc., 사장 겸 CEO Cristiano R. Amon), AI 기반 로보틱스 플랫폼 전문기업 인티그리트(INTEGRIT, 대표이사 조…

VR타임즈 23시 16분 225
2023.03
08

열람중 미디어젠-ETRI, RGB 3채널 이용한 컬러 음성 스펙트럼 개발

 코스닥 상장사 미디어젠(279600, 대표 고훈)은 한국전자통신연구원(ETRI)의 연구 인력 현장 지원 프로그램을 통해 기존에 음성 스펙트럼 채널이 1개인 것을 보완해 RGB 3채널을 이용한 음성 스펙트럼을 개발했다고 밝혔다.E2E 시대를 …

VR타임즈 23시 15분 330
2023.03
06

비투엔, 비즈니스 메타데이터 솔루션 ‘비즈메타’ 출시

 빅데이터·인공지능(AI) 전문 기업 비투엔(대표이사 조광원)이 비즈니스 관점에서 정보를 접근하고 쉽게 이해할 수 있도록 메타데이터 정보를 관리하는 ‘BizMeta(비즈메타)’를 출시하며 데이터 거버넌스 솔루션 경쟁력 강화에 나선다.메타데이터…

VR타임즈 22시 59분 259
2023.03
06

SK텔레콤, 화재 및 가스누출 감시하는 ‘AI로봇키트’ 출시

 SK텔레콤(대표이사 사장 유영상)은 자체 개발한 비전(Vision) AI 기술로 로봇의 움직임을 제어하고 AI로 영상을 실시간 분석해 고객 맞춤형 서비스 제공이 가능한 ‘AI로봇키트’를 20일 출시했다고 밝혔다.로봇에 부착하는 키트 형태의 …

VR타임즈 22시 58분 212