[ad_1]
Sohl-Dickstein은 확산 원리를 사용하여 생성 모델링을 위한 알고리즘을 개발했습니다. 아이디어는 간단합니다. 알고리즘은 먼저 교육 데이터 세트의 복잡한 이미지를 단순한 노이즈로 전환한 다음(잉크 덩어리에서 옅은 파란색 물을 확산시키는 것과 유사) 시스템에 이 과정을 역전시켜 노이즈를 이미지로 전환하는 방법을 알려줍니다.
작동 방식은 다음과 같습니다. 먼저 알고리즘이 훈련 세트에서 이미지를 가져옵니다. 이전과 마찬가지로 백만 개의 픽셀 각각에 어떤 값이 있고 백만 차원 공간에서 이미지를 점으로 그릴 수 있다고 가정해 보겠습니다. 이 알고리즘은 모든 시간 단계에서 각 픽셀에 약간의 노이즈를 추가하며 이는 하나의 작은 시간 단계 후에 잉크가 확산되는 것과 같습니다. 이 프로세스가 계속됨에 따라 픽셀 값은 원본 이미지의 값과 관계가 줄어들고 픽셀은 단순한 노이즈 분포처럼 보입니다. (알고리즘은 또한 각 픽셀 값을 각 시간 단계에서 모든 축의 0 값인 원점을 향해 조금씩 이동합니다. 이 이동은 픽셀 값이 컴퓨터가 쉽게 작업하기에 너무 커지는 것을 방지합니다.)
데이터 세트의 모든 이미지에 대해 이 작업을 수행하면 100만 차원 공간에 있는 점의 초기 복잡한 분포(쉽게 설명하고 샘플링할 수 없음)가 원점 주변의 단순하고 정상적인 점 분포로 바뀝니다.
Sohl-Dickstein은 “변환 시퀀스는 매우 느리게 데이터 분포를 큰 노이즈 볼로 바꿉니다.”라고 말했습니다. 이 “정방향 프로세스”는 쉽게 샘플링할 수 있는 분포를 제공합니다.
다음은 기계 학습 부분입니다. 순방향 패스에서 얻은 잡음이 많은 이미지를 신경망에 제공하고 한 단계 앞서 나온 잡음이 적은 이미지를 예측하도록 훈련시킵니다. 처음에는 실수를 하므로 더 잘 작동하도록 네트워크 매개변수를 조정합니다. 결국 신경망은 단순 분포의 샘플을 나타내는 노이즈 이미지를 복잡한 분포의 샘플을 나타내는 이미지로 안정적으로 전환할 수 있습니다.
훈련된 네트워크는 완전한 생성 모델입니다. 이제 정방향 패스를 수행할 원본 이미지도 필요하지 않습니다. 간단한 분포에 대한 완전한 수학적 설명이 있으므로 여기에서 직접 샘플링할 수 있습니다. 신경망은 이 샘플(본질적으로 정적)을 교육 데이터 세트의 이미지와 유사한 최종 이미지로 변환할 수 있습니다.
Sohl-Dickstein은 확산 모델의 첫 번째 출력을 회상합니다. “당신은 눈을 가늘게 뜨고 ‘저 색깔 얼룩이 트럭처럼 보이는 것 같아’라고 생각할 것입니다.”라고 그는 말했습니다. “여러 달 동안 픽셀의 다양한 패턴을 응시하고 구조를 보려고 애쓰며 ‘이건 이전보다 훨씬 더 구조적이야.’라고 생각했습니다. 나는 매우 흥분했다.”
미래를 상상하다
Sohl-Dickstein은 그의 확산 모델 알고리즘 2015년에는 GAN이 할 수 있는 것보다 훨씬 뒤떨어져 있었습니다. 확산 모델은 전체 배포에 대해 샘플링할 수 있고 이미지의 하위 집합만 뱉어내는 일이 절대 없지만 이미지가 더 나빠 보이고 프로세스가 너무 느립니다. Sohl-Dickstein은 “당시에는 이것이 흥미롭다고 생각하지 않았습니다.”라고 말했습니다.
Sohl-Dickstein이나 서로를 알지 못하는 두 명의 학생이 이 초기 작업의 점을 DALL·E 2와 같은 현대 확산 모델에 연결해야 했습니다. 첫 번째는 당시 스탠포드의 박사 과정 학생인 Song이었습니다. . 2019년 그와 그의 고문 새로운 방법을 발표했습니다 데이터(고차원 표면)의 확률 분포를 추정하지 않은 생성 모델을 구축하기 위한 것입니다. 대신 분포의 기울기를 추정했습니다(고차원 표면의 기울기로 생각하십시오).
[ad_2]
Source_