In the latest example of deepfake technology, researchers have shown off new software that uses machine learning to let users edit the text transcript of a video to add, delete, or change the words coming right out of somebody’s mouth.
딥페이크 기술의 최근 예시로 리서쳐들이 사용자들이 텍스트 기록을 편집하여 누군가의 입에서 나오는 말을 추가, 삭제, 혹은 바꾸는 머신러닝을 이용한 새로운 소프트웨어를 공개했다.
The work was done by scientists from Stanford University, the Max Planck Institute for Informatics, Princeton University, and Adobe Research, and shows that our ability to edit what people say in videos and create realistic fakes is becoming easier every day.
이 일은 스탠포드 대학, the Max Planck Inc for informatics, 프린스턴 대학, 어도비 리서치팀에 의해 진행 되었다. 또한 이는 우리의 사람들이 영상에서 말하는 것을 수정하고 리얼한 가짜들을 생성하는 우리의 능력을 더욱 쉽게 만들어내고 있다.
You can see a number of examples of the system’s output below, including an edited version of a famous quotation from Apocalypse Now, with the line “I love the smell of napalm in the morning” changed to “I love the smell of french toast in the morning.”
당신은 "나는 아침의 napalm 의 향을 사랑해요" 라는 구절을 "나는 아침의 프렌치 토스트의 향을 사랑해요" 라고 바꾸는 '지옥 묵시록' 에서 나온 유명한 인용구를 수정된 버전을 포함해서, 하단의 시스템 결과의 몇몇 예제들을 볼 수 있다.
This work is just at the research stage right now and isn’t available as consumer software, but it probably won’t be long until similar services go public. Adobe, for example, has already shared details on prototype software named VoCo, which lets users edit recordings of speech as easily as a picture, and which was used in this research.
이 연구는 아직 현재 연구단계이며 소비자 소프트웨어로서 가능하지는 않다. 그러나 이는 아마 상용화되기까지 오래 걸리지 않을 것이다. 예를 들어, 어도비가 이미 VoCo 라는 이름의 프로토타입 소프트웨어의 세부사항을 공개하였다(나누었다).
To create the video fakes, the scientists combine a number of techniques. First, they scan the target video to isolate phonemes spoken by the subject. (These are the constituent sounds that make up words, like “oo” and “fuh.”) They then match these phonemes with corresponding visemes, which are the facial expressions that accompany each sound.
가짜 영상을 만들기 위해, 연구자들은 몇몇 기법들을 섞었다. 일단, 그들은 피실험 대상에 의해 말해지는 음소들을 격리한 타겟 영상을 스캔한다. ( 이것들은 "oo"나 "fuh" 와 같은 단어들로 이루어진 소리 요소들이다. ) 그들은 이 음소들을 동일한 *visemes 와 매치시킨다.
* 소리가 날때의 입모양을 의미하는 듯 하다.
Finally, they create a 3D model of the lower half of the subject’s face using the target video.
When someone edits a text transcript of the video, the software combines all this collected data — the phonemes, visemes, and 3D face model — to construct new footage that matches the text input. This is then pasted onto the source video to create the final result.
마지막으로, 타겟 영상을 이용한 피실험 대상의 얼굴의 하단 절반의 3D 모델을 생성한다. 누군가 비디오의 텍스트 기록을 수정하면 이 소프트웨어는 모든 이 수집된 데이터를 섞는다 ㅡ 음소들, visemes, 3D 얼굴 모델 ㅡ 입력된 텍스트에 매칭하는 새로운 화면을 구성하기 위해서.
In tests in which the fake videos were shown to a group of 138 volunteers, some 60 percent of participants though the edits were real. That may sound quite low, but only 80 percent of that same group thought the original, unedited footage was also legitimate. (The researchers note that this might be because the individuals were told their answers were being used for a study on video editing, meaning they’d been primed to look for fakes.)
138명의 자원봉사자 그룹에게 가짜 영상이 보여지는 실험에서, 60% 의 참가자가 이 수정된 영상이 진짜라고 생각했다. 이는 아마 적은 수처럼 들리나, 오직 80% 의 같은 그룹이 원본 영상도 진짜라고 생각했다.( 연구자들은 개인들이 가짜 영상을 찾도록 의도하는 영상 편집 연구에 사용된다는 대답을 들었기 때문에 그랬을 것이라고 한다. )
An overview of the different stages used to edit a subject’s speech.
As ever, though, it’s important to remember there are limitations to what this tech can do.
다른 단계들의 개요는 피실험 대상의 말을 편집하곤 했다.
하지만 언제나 그렇듯, 이 기술이 무엇을 하는지에 대한 제약이 있음을 기억하는 것이 중요하다.
The algorithms here only work on talking head style videos, for example, and require 40 minutes of input data. The edited speech also doesn’t seem like it can differ too much from the source material, and in their best quality fakes, the researchers asked the subjects to record new audio to match the changes, using AI to generate the video. (This is because audio fakes are sometimes subpar, though the quality is certainly getting much better.)
예를들어, 이 알고리즘들은 여기서 오직 말하는 머리 형식의 영상에만 작동했으며 40분 가량의 입력 데이터가 필요하다. 수정된 발언은 또한 연구자들은 피실험 대상자들에게 변화된 영상에 맞는 새로운 오디오를 녹음하라고 들은 소스로부터 너무 크게 차이나 보이지는 않는다. ( 이는 오디오 페이크들은 퀄리티가 확실히 나았더라도 평균 이하기 때문이다.)
The researchers also note that they can’t yet change the mood or tone of the speaker’s voice as doing so would lead to “uncanny results.” And that any occlusions of the face — e.g. if someone waves their hands while speaking — throw off the algorithm completely.
연구자들은 또한 "불쾌한 골짜기(?)" 에 다달을 수 있으므로 그들이 아직 발화자의 목소리의 무드나 톤을 변화시키진 못했다고 한다.
So, the technology is not perfect, but these sorts of limitations always feature in early-stage research and it’s almost guaranteed they’ll be overcome in time. That means that society at large will soon have to grapple with the underlying concept this research demonstrates: the arrival of software that lets anyone edit what people say in videos with no technical training.
그래서, 이 기술은 아직 완벽하진 않으나, 이러한 한계들 종류는 항상 연구 초기 단계에서 두드러져 보이며 이는 거의 언젠가 정복될 수 있을 것 이다. 이는 사회가 이러한 연구가 보여주는 근본적은 개념과 조만간 맞붙을 것을 의미한다 : 이 소프트웨어의 시작점은 기술적인 훈련 없이 비디오에서 사람들의 발화를 누구나 수정할 수 있다는 것.
'일상 > 영어 번역' 카테고리의 다른 글
Cuco - Bossa No Sé 가사 해석 (0) | 2019.12.21 |
---|---|
OwlCity - Fireflies 가사 해석 (0) | 2019.12.15 |
[번역] Would You Pay $30 a Month to Check Your Email? (0) | 2019.07.06 |
[번역글] 13 Startup Ideas (0) | 2018.04.10 |
[번역]Amazon scales back its Fresh delivery service in smaller cities (0) | 2018.04.10 |