2024.05.18 (토)

  • 맑음속초25.2℃
  • 맑음24.5℃
  • 맑음철원22.0℃
  • 맑음동두천21.3℃
  • 맑음파주20.7℃
  • 맑음대관령19.8℃
  • 맑음춘천24.2℃
  • 맑음백령도15.9℃
  • 맑음북강릉26.5℃
  • 맑음강릉28.1℃
  • 맑음동해26.7℃
  • 맑음서울22.4℃
  • 맑음인천20.4℃
  • 맑음원주24.8℃
  • 맑음울릉도20.3℃
  • 맑음수원21.8℃
  • 맑음영월23.5℃
  • 맑음충주24.8℃
  • 맑음서산21.5℃
  • 맑음울진26.7℃
  • 맑음청주25.0℃
  • 맑음대전23.9℃
  • 맑음추풍령21.3℃
  • 맑음안동24.9℃
  • 맑음상주24.7℃
  • 맑음포항28.0℃
  • 맑음군산21.0℃
  • 맑음대구26.7℃
  • 맑음전주22.5℃
  • 맑음울산24.4℃
  • 맑음창원21.4℃
  • 맑음광주24.7℃
  • 맑음부산20.2℃
  • 맑음통영19.9℃
  • 맑음목포22.9℃
  • 맑음여수21.0℃
  • 맑음흑산도17.4℃
  • 맑음완도20.1℃
  • 맑음고창
  • 맑음순천21.0℃
  • 맑음홍성(예)21.9℃
  • 맑음23.1℃
  • 맑음제주21.3℃
  • 맑음고산20.3℃
  • 맑음성산20.3℃
  • 맑음서귀포20.4℃
  • 맑음진주22.1℃
  • 맑음강화18.6℃
  • 맑음양평23.9℃
  • 맑음이천23.7℃
  • 맑음인제24.2℃
  • 맑음홍천24.4℃
  • 맑음태백20.7℃
  • 맑음정선군24.1℃
  • 맑음제천22.3℃
  • 맑음보은24.0℃
  • 맑음천안23.0℃
  • 맑음보령20.1℃
  • 맑음부여22.3℃
  • 맑음금산23.3℃
  • 맑음23.4℃
  • 맑음부안20.7℃
  • 맑음임실23.2℃
  • 맑음정읍22.5℃
  • 맑음남원25.1℃
  • 맑음장수21.0℃
  • 맑음고창군22.7℃
  • 맑음영광군23.2℃
  • 맑음김해시22.4℃
  • 맑음순창군25.3℃
  • 맑음북창원22.8℃
  • 맑음양산시23.5℃
  • 맑음보성군21.2℃
  • 맑음강진군21.8℃
  • 맑음장흥20.4℃
  • 맑음해남21.0℃
  • 맑음고흥21.4℃
  • 맑음의령군24.1℃
  • 맑음함양군25.0℃
  • 맑음광양시22.5℃
  • 맑음진도군20.4℃
  • 맑음봉화21.1℃
  • 맑음영주23.3℃
  • 맑음문경21.9℃
  • 맑음청송군21.9℃
  • 맑음영덕24.5℃
  • 맑음의성23.0℃
  • 맑음구미23.6℃
  • 맑음영천26.0℃
  • 맑음경주시25.5℃
  • 맑음거창22.9℃
  • 맑음합천24.3℃
  • 맑음밀양24.8℃
  • 맑음산청23.4℃
  • 맑음거제20.7℃
  • 맑음남해20.0℃
  • 맑음22.3℃
기상청 제공
디지털포커스 로고
사진만 주면 노래하고 말하는 동영상으로 변환하는 인공지능 VASA-1
  • 해당된 기사를 공유합니다

AI

사진만 주면 노래하고 말하는 동영상으로 변환하는 인공지능 VASA-1

사진만 주면 노래하고 말하는 동영상으로 변환하는 인공지능 VASA-1

정지 이미지도 이제 노래하고 얘기한다!
놀라운 성능! 정지 이미지가 생생하게 움직임!
인공지능 기술의 발전 가능성과 악용 우려

마이크로소프 인공지능, 사진 속 인물 노래하고 춤추게 만든다!
마이크로소프 인공지능 연구팀이 정지 이미지와 음성 데이터를 합쳐 사실적인 얼굴 표정과 함께 말하고 노래하는 영상을 제작하는 인공지능 프로그램을 개발했다 | image© Microsoft

 

마이크로소프 연구소 아시아 지부 연구팀이 얼굴 사진 한 장과 음성 클립만 있으면, 그 사람이 노래하거나 말하는 동영상을 만드는 인공지능 앱을 개발했다. 이렇게 만들어진 동영상은 실사 영상처럼 매우 사실적이며, 얼굴 표정과 머리 움직임까지 정확하게 재현한다. (논문에 나오는 모든 사실적인 사진들은 가상 인물이며 실제 존재하지 않습니다.)

 

사진 속 인물이 움직이고 노래 부르다!

 

연구팀은 이 새로운 인공지능 앱 VASA-1에 대한 설명 논문을 아카이브 서버에 게시했고, 연구 프로젝트 페이지에서는 실제 동영상 샘플도 볼 수 있다.

 

연구팀은 제공된 음악에 맞춰 정지 이미지를 움직이고, 노래하는 동영상을 만들고자 했다. 특히 얼굴 표정까지 사실적으로 표현하는 것이 중요했다. 그 결과 카메라로 찍은 사진, 만화, 그림 등 어떤 이미지든 정지 이미지를 말하거나 노래하는 매우 사실적인 동영상으로 변환하는 VASA-1 시스템을 개발하는 데 성공했다.

    

 

 

연구팀은 시스템의 효과를 입증하기 위해 테스트 결과 영상 몇 개를 공개했다. 영상 중 하나는 모나리자 만화가 랩 음악을 부르고, 다른 영상에서는 여성 사진이 노래하는 모습으로 변환되었으며, 또 다른 영상에서는 한 남자 그림이 연설하는 모습을 볼 수 있다.

 

모든 동영상에서 얼굴 표정은 말하는 내용에 따라 변화하며, 말하는 내용을 강조한다. 연구팀은 동영상이 매우 사실적이지만 자세히 보면 인공지능으로 만들어졌다는 것을 알 수 있는 몇몇 흔적을 확인할 수 있다고 언급했다.

 

 

인공지능 딥 러닝으로 사실적인 동영상 제작

 

연구팀은 다양한 얼굴 표정의 수천 장 이미지로 인공지능 앱을 훈련시켰다. 현재 시스템은 512 x 512 픽셀 해상도로 초당 45 프레임의 동영상을 제작할 수 있으며, 데스크탑용 엔비디아 RTX 4090 그래픽 카드를 사용하여 동영상을 만드는데 평균 2분이 소요된다.

 

연구팀은 VASA-1을 게임이나 시뮬레이션에 매우 사실적인 아바타를 제작하는 데 사용할 수 있다고 제안했다. 하지만 연구팀은 악용 가능성을 인식하고 있으며, 현재로서는 일반에게 시스템을 공개하지 않을 계획이다.

 

 










 
모바일 버전으로 보기