실시간으로 말을 하면 인공지능(AI)이 음성인식 후 글자로 변화하는 기술이 고도화되고 있다. 화자분리는 물론 지연시간을 줄여 보다 빠르게 텍스트로 변환하는, 즉 실시간 음성인식 후 문자로 구현하는 시기가 가까워지고 있다.
이러한 저지연(Low Latency) 음성인식이 가능한 것은 스트리밍 트랜스포머(Streaming Transformer) 기술 덕분이다.
한국전자통신연구원(ETRI) 인공지능연구소 지능정보연구본부 복합지능연구실 박기영 박사는 8일, 강남 삼성동 섬유센터 컨퍼런스홀에서 개최한 '2021 ETRI AI Practice Tech Day' 에서 ‘ETRI 종단형 음성인식 기술 연구 현황’에 대해 발표하며, 스트리밍 트랜스포머 기술에 대해 소개했다.
박기영 박사는 이 기술에 대해 “발화 단위 인식을 수행하는 종래의 트랜스포머 모델의 단점을 해소하는 동시에 트랜스포머 기반 종단형 음성인식의 높은 성능은 유지했다.”며, “블록 와이즈(Block wise) 특징 추출 및 문맥 벡터(Context vector)를 이용해 실시간 트랜스포머 인코더를 구현했다.”고 말했다.
또한, “종래의 음성인식 후 텍스트로 변환하는 방식은 한 문장을 끝까지 말한 후 이뤄진다면, 이 기술은 말을 시작한 1초 후부터 텍스트로 변화하는 저지연 기술이다.”며 이 기술을 국회 상임위 회의시 국회방송 송출시스템에 적용해 실시간으로 자막을 도출할 예정이며, 앞으로 연구개발을 지속해 실시간 음성인식 후 지연시간 없이 텍스트화할 수 있도록 할 것이라고 밝혔다.
이어 ETRI 윤여찬 박사는 ‘멀티모달 감성인식 기술’에 대해 발표했으며, 중소벤처기업연구원 김기만 박사의 ‘중소기업 지원 정책 현황 및 전망’, 드림앤퓨처랩스 이용덕 대표의 ‘실리콘밸리에서 바라본 AI & Future Technology'를 비롯해 ETRI 인공지능 오픈 API를 활용한 우수 사례 발표가 이어졌다.
ETRI는 2017년 10월부터 언어·음성·시각지능 등 인공지능 관련 오픈 API 서비스를 공개했다.
ETRI에 따르면, 올해도 ▲행정문서 QA ▲문장 패러프레이즈 인식 ▲태국어 음성인식 ▲사람 상태 인식 기술 API 등을 추가 공개하면서 지난 5년간 API 총 37종을 선보였다. 이를 통해 누적 사용자 총 7천 6백여 명, 누적 5천 4백만 건 이상 활용 기록이 집계됐다.
한편, 이번 행사에서는 인공지능 오픈 API를 기반으로 우수활용 사례 발굴 공모전 시상식도 진행했다.
이번 공모전에는 총 26개 팀이 참가해 10개 팀이 수상의 영예를 얻었다.
대상은 서강대대학교 사이클링히트팀이 ‘멀티모달 감정인식에 필요한 ETRI 오픈 API 활용사례’를 주제로 수상했다.
최우수상은 경북대학교 크누보이스팀의 ‘비표준어 음성인식 성능 개선을 위한 언어정보 결합 특징 및 비지도 학습기반 차폐 음향 특징 표현 활용 연구’에 돌아갔다.