안녕하세요.
뉴톤 API를 통해 STT를 구현하려고 합니다.
그런데, 발음이 잘못되거나 어눌한 경우에는 어떻게 처리가 되는지 궁금합니다.
예를 들어 사과를 "사꽈"라고 발음을 하면 이것은 사용자가 잘못 발음한 것이라고 판단을 해서 "사과"라고 바꾸어 주는 것인가요? 즉, 음성모델과 언어모델을 통해 서버에서 잘못된 발음과 가장 유사한 텍스트를 검색하여 그 텍스트를 내보내는 것인지요. 그리고 그 검색 결과에 대한 신뢰도가 리턴 값인 confidence(정수 값) 로 리턴되는 것인지 궁금합니다.
답글 주시면 고맙겠습니다~
감사합니다.