AI Technology

Speech to Video (STV)

음성과 비디오를 입력으로 받아, 입력된 음성에 맞는 입모양으로 비디오를 변경하는 기술

우리의 삶을 변화시키는 혁신적인 TTS
(Text-to-Speech)

STV(Speech To Video)는 음성과 비디오를 입력으로 받아, 입력된 음성에 맞는 입모양으로 비디오를 변경하는 기술입니다. 이 기술은 AI Human 창조, 오디오 더빙, 다양한 언어로 발화하는 강의영상 제작, 엔터테인먼트 등 다양한 분야에서 활용될 수 있습니다.

이스트소프트는 콘텐츠 제작 환경의 혁신적 변화를 리드하며 다양한 산업에서의 비즈니스 성장 기회를 제공합니다.

특히, 이스트소프트는 인공지능으로 외모는 물론 가상의 정체성(Virtual Identity)을 가진 인물을 완벽하게, 그리고 다양하게 만들어내는 국내 유일의 인공지능 AI Human 기술력을 보유하고 있으며, 이를 상용화 및 서비스 하고 있습니다.

이스트소프트는 콘텐츠 제작 환경의 혁신적 변화를 리드하며 다양한 산업에서의 비즈니스 성장 기회를 제공합니다. 특히, 이스트소프트는 인공지능으로 외모는 물론 가상의 정체성(Virtual Identity)을 가진 인물을 완벽하게, 그리고 다양하게 만들어내는 국내 유일의 인공지능 AI Human 기술력을 보유하고 있으며, 이를 상용화 및 서비스 하고 있습니다.

STV 기술이란?

입력으로 들어온 사람의 발화 음성에 맞는 입모양으로 입력 비디오를 변경하여 아웃풋을 생성하는 것입니다.
이는 음성의 피치, 강도, 지속 시간 등과 같은 다양한 음성 특성을 분석하고, 이를 입모양과 매핑하여 비디오를 생성하는 과정을 포함합니다.

이스트소프트는
콘텐츠 제작 환경의 혁신적 변화를 리드하며 다양한 산업에서의 비즈니스 성장 기회를 제공합니다. 특히, 이스트소프트는 인공지능으로 외모는 물론 가상의 정체성(Virtual Identity)을 가진 인물을 완벽하게, 그리고 다양하게 만들어내는 국내 유일의 인공지능 AI Human 기술력을 보유하고 있으며, 이를 상용화 및 서비스 하고 있습니다.

입력으로 들어온 사람의 발화 음성에 맞는 입모양으로 입력 비디오를 변경하여 아웃풋을 생성하는 것입니다. 이는 음성의 피치, 강도, 지속 시간 등과 같은 다양한 음성 특성을 분석하고, 이를 입모양과 매핑하여 비디오를 생성하는 과정을 포함합니다.

전처리 단계

데이터 정제

데이터 정제

적절한 영상만 골라냄. 노이즈가 없고 제대로 발화하는 영상

데이터 변환

데이터 변환

딥러닝 모델이 이해하고 처리할 수 있는 형태로 변환
음성을 모델에 입력 가능한 형태로 변환하고 영상은 해당 사람이 나오는 부분을 추출

딥러닝 훈련

위에 전처리 된 데이터를 모델에 입력을 넣고, 딥러닝 출려과 정답을 비교하면서 훈련시키는 과정

전처리 단계

데이터 정제

적절한 영상만 골라냄. 노이즈가 없고 제대로 발화하는 영상

데이터 변환

딥러닝 모델이 이해하고 처리할 수 있는 형태로 변환. 음성을 모델에 입력 가능한 형태로 변환하고 영상은 해당 사람이 나오는 부분을 추출

딥러닝 훈련

위에 전처리 된 데이터를 모델에 입력을 넣고, 딥러닝 출려과 정답을 비교하면서 훈련시키는 과정

Diagram of face recognition technology, featuring face detection, landmark detection, segmentation, and face editing.

기술의 강점

STV의 가장 큰 특장점은 원본 영상과 동일한 사람의 언어나 목소리가 아니라, 그 밖의 언어나 다른 임의의 목소리에 대해서도 발화하는 말에 맞게 입모양이 생성된다는 것입니다. 즉, STV는 다양한 언어와 다양한 목소리 특성에 대응할 수 있습니다.

기술의 활용

STV는 음성과 비디오 기술의 결합을 통해 새로운 창조적인 가능성을 열고 있습니다. 이 기술의 발전은 디지털 미디어의 미래를 더욱 흥미롭고 다양하게 만들 것으로 예상됩니다.
노래하는 영상 생성 : 노래하는 음성을 입력으로 넣으면, 노래하는 것과 같은 입모양이 생성됩니다. 이를 통해 가상의 가수를 만들거나, 실제 가수가 노래하는 모습을 재현할 수 있습니다.
다양한 언어의 영상 생성 : STV는 실제 화자가 말할 줄 모르는 언어도 말하는 영상을 생성하는 것이 가능합니다. 이를 통해 다양한 언어의 더빙이 필요한 영화나 비디오 제작에 활용될 수 있습니다.

STV는 음성과 비디오 기술의 결합을 통해 새로운 창조적인 가능성을 열고 있습니다. 이 기술의 발전은 디지털 미디어의 미래를 더욱 흥미롭고 다양하게 만들 것으로 예상됩니다.

노래하는 영상 생성 : 노래하는 음성을 입력으로 넣으면, 노래하는 것과 같은 입모양이 생성됩니다. 이를 통해 가상의 가수를 만들거나, 실제 가수가 노래하는 모습을 재현할 수 있습니다.

다양한 언어의 영상 생성 : STV는 실제 화자가 말할 줄 모르는 언어도 말하는 영상을 생성하는 것이 가능합니다. 이를 통해 다양한 언어의 더빙이 필요한 영화나 비디오 제작에 활용될 수 있습니다.

STV는 음성과 비디오 기술의 결합을 통해 새로운 창조적인 가능성을 열고 있습니다. 이 기술의 발전은 디지털 미디어의 미래를 더욱 흥미롭고 다양하게 만들 것으로 예상됩니다.

노래하는 영상 생성 : 노래하는 음성을 입력으로 넣으면, 노래하는 것과 같은 입모양이 생성됩니다. 이를 통해 가상의 가수를 만들거나, 실제 가수가 노래하는 모습을 재현할 수 있습니다.
다양한 언어의 영상 생성 : STV는 실제 화자가 말할 줄 모르는 언어도 말하는 영상을 생성하는 것이 가능합니다. 이를 통해 다양한 언어의 더빙이 필요한 영화나 비디오 제작에 활용될 수 있습니다.

Global SaaS with AI
AI 기술을 활용해 전 세계 어디서든 접근 가능한 확장형 AI Human SaaS 서비스
Interactive with AI
오프라인과 온라인 모두에서 안내·상담·상호작용을 지원하는 Interactive AI human.리테일, 관광, 엔터, 전시, 제조, 공공 등에서언어 장벽 없는 서비스 허브로 확장
Alan Agentic with AI
AI 검색을 넘어 문제 해결을 위한 솔루션까지 도달하게 하는 인공지능 멀티 에이전트
Education with AI
셀럽강사 동영상 강의 개설, 토익스피킹 교육 콘텐츠 제작, 헬스 트레이닝 강사로서의 AI 콘텐츠 등 다양한 분야의 교육사업 확장
Content with AI
EST AI 기술을 적용하여 '움직이는 사진' 구현, 딥러닝을 통한 '얼굴변형, 화장적용, 의상생성' 신입사원 애널리스트, 아나운서 등 다양한 AI 휴먼 콘텐츠를 제작, 활용
API business with AI
기업이 본연의 고객가치에 집중할 수 있도록 AI를 활용한 데이터와 솔루션을
API로 제공해드립니다.
Software with AI
알캡처 등에 적용된 배경제거 기술과같이 ESTsoft AI기술과 알툴즈 제품의 원활한 설계로 사용자들이 원하는 환경의 유틸리티를 제공합니다.

Global SaaS with AI
AI 기술을 활용해 전 세계 어디서든 접근 가능한 확장형 AI Human SaaS 서비스
Interactive with AI
오프라인과 온라인 모두에서 안내·상담·상호작용을 지원하는 Interactive AI human.리테일, 관광, 엔터, 전시, 제조, 공공 등에서언어 장벽 없는 서비스 허브로 확장
Alan Agentic with AI
AI 검색을 넘어 문제 해결을 위한 솔루션까지 도달하게 하는 인공지능 멀티 에이전트
Education with AI
셀럽강사 동영상 강의 개설, 토익스피킹 교육 콘텐츠 제작, 헬스 트레이닝 강사로서의 AI 콘텐츠 등 다양한 분야의 교육사업 확장
Content with AI
EST AI 기술을 적용하여 '움직이는 사진' 구현, 딥러닝을 통한 '얼굴변형, 화장적용, 의상생성' 신입사원 애널리스트, 아나운서 등 다양한 AI 휴먼 콘텐츠를 제작, 활용
API business with AI
기업이 본연의 고객가치에 집중할 수 있도록 AI를 활용한 데이터와 솔루션을 API로 제공해드립니다.
Software with AI
알캡처 등에 적용된 배경제거 기술과같이 ESTsoft AI기술과 알툴즈 제품의 원활한 설계로 사용자들이 원하는 환경의 유틸리티를 제공합니다.

Global SaaS with AI
AI 기술을 활용해 전 세계 어디서든 접근 가능한 확장형 AI Human SaaS 서비스
Interactive with AI
오프라인과 온라인 모두에서 안내·상담·상호작용을 지원하는 Interactive AI human.리테일, 관광, 엔터, 전시, 제조, 공공 등에서언어 장벽 없는 서비스 허브로 확장
Alan Agentic with AI
AI 검색을 넘어 문제 해결을 위한 솔루션까지 도달하게 하는 인공지능 멀티 에이전트
Education with AI
셀럽강사 동영상 강의 개설, 토익스피킹 교육 콘텐츠 제작, 헬스 트레이닝 강사로서의 AI 콘텐츠 등 다양한 분야의 교육사업 확장
Content with AI
EST AI 기술을 적용하여 '움직이는 사진' 구현, 딥러닝을 통한 '얼굴변형, 화장적용, 의상생성' 신입사원 애널리스트, 아나운서 등 다양한 AI 휴먼 콘텐츠를 제작, 활용
API business with AI
기업이 본연의 고객가치에 집중할 수 있도록 AI를 활용한 데이터와 솔루션을 API로 제공해드립니다.
Software with AI
알캡처 등에 적용된 배경제거 기술과같이 ESTsoft AI기술과 알툴즈 제품의 원활한 설계로 사용자들이 원하는 환경의 유틸리티를 제공합니다.

Global SaaS with AI
AI 기술을 활용해 전 세계 어디서든 접근 가능한 확장형 AI Human SaaS 서비스
Interactive with AI
오프라인과 온라인 모두에서 안내·상담·상호작용을 지원하는 Interactive AI human.리테일, 관광, 엔터, 전시, 제조, 공공 등에서언어 장벽 없는 서비스 허브로 확장
Alan Agentic with AI
AI 검색을 넘어 문제 해결을 위한 솔루션까지 도달하게 하는 인공지능 멀티 에이전트
Education with AI
셀럽강사 동영상 강의 개설, 토익스피킹 교육 콘텐츠 제작, 헬스 트레이닝 강사로서의 AI 콘텐츠 등 다양한 분야의 교육사업 확장
Content with AI
EST AI 기술을 적용하여 '움직이는 사진' 구현, 딥러닝을 통한 '얼굴변형, 화장적용, 의상생성' 신입사원 애널리스트, 아나운서 등 다양한 AI 휴먼 콘텐츠를 제작, 활용
API business with AI
기업이 본연의 고객가치에 집중할 수 있도록 AI를 활용한 데이터와 솔루션을 API로 제공해드립니다.
Software with AI
알캡처 등에 적용된 배경제거 기술과같이 ESTsoft AI기술과 알툴즈 제품의 원활한 설계로 사용자들이 원하는 환경의 유틸리티를 제공합니다.