AI 프로그램 경험

Open AI의 'Sora' 공개 소식

exobrain 2024. 2. 18. 11:55

AI를 이용한 생성형 모델들은 이미 많은 것들이 나와 이전 게시물에서 소개도 많이 했습니다.

이번엔 Chat GPT의 오픈AI가 '소라_Sora'를 발표했는데, 가히 최고의 성능이라 할 수 있겠습니다.

[open AI의 Sora 홈]

 

 

일단 소개하는 글을 봅니다.

우리는 실제 상호 작용이 필요한 문제를 해결하는 데 도움이 되는 모델을 훈련하는 것을 목표로 AI에게 움직이는 물리적 세계를 이해하고 시뮬레이션하도록 가르치고 있습니다.

텍스트-투-비디오 모델인 소라를 소개합니다. 소라는 시각적 품질과 사용자의 프롬프트에 충실하면서 최대 1분 길이의 비디오를 생성할 수 있습니다.


그러면서 샘플 영상들을 게시했는데 퀄리티도 있지만 인공지능이 만들어 내는 어줍잖은 장면들이 거의 사라진 형태들이었습니다. 아직은 훈련이 더 되야겠지만 에러 없는 영상만 골라 사용하거나 여러번 생성되면 적합한 영상이 생성이 될거라 봅니다.

 

그들이 첫번째로 내 놓은 영상이라 보면서 분석을 하자면...

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

 

프롬프트 명령어도 공개를 했는데 구체적으로 그저 문장을 작성하듯 썼네요~

내가 하고 싶은 말을 쓰면 될듯 싶습니다. 어렵지도 않습니다. 따로 명령어를 공부할 필요도 없는 것 같군요. 요즘 프롬프트 형태입니다.

 

세련된 여성이 화사한 네온사인과 움직이는 도시 간판 사이 도쿄거리를 걷고 있다. 그리곤 여자의 생김새와 행동 프롬프트들.

한장의 스톱모션으로는 완벽한 이미지입니다.

하지만 개선되야할 것도 보입니다.

 

일단 여자가 길을 마끄러지듯 걷는 모습. 걸어가는 다리의 교차가 에러가 나있고행인들도 아직 부자연 스레 걷는 모습도 보입니다. 그리고  여자의 손이 엄지와 검지 사이 갈라진 모습이 많이 들어가 있지요. 생성 이미지가 늘 에러가 많이 나는 부분이 손가락이었습니다. 가장 강력하다는 미드저니도 스틸 이미지인데도 부자연 스런 손가락이 생성되곤 합니다.

 

하지만 이 영상에 손은 잘못 되었다한들 프레임마다 같은 모양으로 따라갑니다. 그래서 언뜻 모를 수도 있네요. 다리가 엇갈리는 것도 그렇구요..

오픈AI도 인정을 하고 개선되야 할점들을 그들의 사이트에서 솔직히 밝히고 있습니다.

 

이제는 에러를 눈 씼고 봐야할 정도로 발전을 했습니다.

1분정도를 생성한다니 연속으로 만들어 낸다면 훌륭한 영상물이 될 듯 합니다.

 

아래 영상은 과거로 돌아가 맘모스를 출연시켰네요~

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

 

여기에서는 에러를 찾아내기가 힘듭니다.

눈표면과 맘모스 발이 닿고 밟아서 다음 발을 떼고 하는 모습이 자연스럽고, 거의 완벽합니다.

다만 먼지처럼 혹은 눈보라처럼 생성된 모습이 인위적이라 자연스럽질 않습니다. 그건 넘어가 줄수도 있겠네요.

그림자를 보면 굴곡되면서 움직이는 모습에 놀랄정도입니다.

 

이정도면 공상과학이나 BC1만년의 영상도 쉽게 제작할 수가 있겠습니다.

과연 등장 캐릭터가 얼마나 같게 나올지는 생성 시도를 해봐야 할 것 같습니다.

 

바닷가 풍경도 있는데 이것도 생성해서 자료로 사용해도 될 정도입니다.

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

 

카메라 무빙이 아주 자연스럽고 파도가 한방향으로 거품을 내는 모습이 자연스럽습니다.

굳이 에러날 수 있는 화면을 홍보사이트에 올릴 필요는 없겠지만 인물이 없는 영상은 바로 사용해도 될 듯 하네요. 

유료 이미지 사이트들이 뭐라할지 모르겠군요. 

 

아직 Sora가 공개가 되진 않았습니다.

주위의 평가와 전문가들의 도움도 받고 있고 도덕적인 문제를 가장 염려하면서 출시 할 듯 싶습니다.

 

소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 사항을 가진 복잡한 장면을 생성할 수 있습니다. 이 모델은 사용자가 프롬프트에서 무엇을 요구했는지뿐만 아니라 물리적 세계에 어떻게 그런 것들이 존재하는지도 이해합니다.

 

이런 말을 하는 걸 보면 이번 출시도 역시 자신만만한 것 같습니다. 처음에 Chat GPT 출시처럼 많은 뉴스거리를 몰고 오듯이, 생성비디오로도 많은 분들에게 호기심을 자극하는 AI를 보여주는군요.

 

기대 됩니다.

출시가 되면 직접 사용해 보고 경험담을 올리겠습니다.

 

 

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

 

정말 간단한 프롬프트입니다.

역동적인 것은 아주 훌륭합니다. 여기에도 흠이 있군요. 배와 커피가 이질감으로, 섞이질 않습니다. 그건 프롬프트를 더 넣으면 해결이 되지 않을까 생각됩니다. 배 위에 커피가 묻고 흘러내리고 하는 장면이 연출되면 좀 더 사실적으로 보이지 않을까 싶습니다.

 

 

Sora를 소개하는 페이지에 가면 더 많은 샘플 영상들을 볼 수 있습니다.

 

Sora: Creating video from text

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie m

openai.com

 

참고로 위 영상들의 프롬프트를 Midjourney에게 시켜봤습니다.

일단 스틸 이미지이기때문에 움직이는 부자연스러운 것은 없으니 같은 명령어로써 비교만 해 보시기 바랍니다.

4개의 이미지가 생성되는 것을 gif로 묶었습니다.

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

 

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.

 

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.

 

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

 

스틸 이미지만 본다면 미드저니도 훌륭한 결과물을 보여줍니다.

이미지를 넣어서 그 원본을 이용한 움직이는 영상이 생성이 되어 준다면 정말 획기적인 툴이 되겠네요~

이런 작업의 차이가 얼마나 날지는 Sora가 출시 되어야 비교가 되겠습니다.

 

재미있는 작업입니다.

 

 

 

 

@Exobrain