Flux는 120억 개의 매개변수를 갖춘 고급 오픈소스 텍스트-이미지 모델입니다. 이를 3개의 상위 경쟁자와 비교했는데, 그중 하나가 1위를 차지했습니다.
원래의 Stable Diffusion을 개발하는 데 도움을 준 팀인 Black Forest Labs가 지금까지 가장 큰 오픈소스 텍스트-이미지 모델인 Flux를 출시했습니다. 무려 120억 개의 매개변수를 갖춘 Flux는 Midjourney와 맞먹는 비주얼을 제공할 수 있으며, 현재 사용 가능한 다른 모델(오픈 소스든 클로즈드 소스든)보다 더 나을 수도 있습니다.
Flux에는 세 가지 버전이 있습니다. Flux Dev는 커뮤니티 개발을 위한 비상업적 라이선스를 사용한 오픈 소스입니다. Flux Schnell은 Apache 2 라이선스와 최고급 모델에 따라 제공되는 더 빠르고 정제된 버전으로 최대 10배 더 빠르게 작동합니다. Flux Pro는 API를 통해 제공되는 폐쇄 소스 버전입니다.
블랙 포레스트 랩스는 목요일에 이를 발표하며, 미디어를 위한 생성적 AI를 발전시킨 팀의 입증된 실적을 강조했습니다.
오픈소스 AI 이미지 생성기의 왕이라는 타이틀에 새로운 경쟁자가 등장했습니다. 바로 Auraflow입니다. 지난주 생성 미디어 회사인 Fal AI에서 출시한 Auraflow는 표준 Apache 2.0 라이선스로 주목을 받고 있습니다. Stability AI가 Stable Diffusion 3(SD3)을 출시하는 데 사용한 제한적인 라이선스와 비교하면 상쾌한 느낌이 듭니다. 지지자들은 오픈소스 프로젝트가 개발자를 라이선스에서 해방시켜 경쟁 산업에서 개발 주기를 빠르게 단축할 수 있다고 주장합니다.
이번 출시는 Andreessen Horowitz가 주도하고 Brendan Iribe, Michael Ovitz, Garry Tan을 비롯한 유명 투자자들의 지원을 받은 3,100만 달러 규모의 창업 자금 조달 라운드의 성공에 따른 것입니다.
벤치마킹 테스트에서 Flux는 자사 모델이 이미지 합성에서 새로운 기준을 설정했으며, 시각적 품질, 신속한 추종, 크기/종횡비 가변성, 타이포그래피 및 출력 다양성에서 Midjourney v6.0, Dall-E 3(HD), SD3 Ultra와 같은 모델을 능가했다고 말합니다. Black Forest의 차트는 Pro 및 Dev 모델이 지금까지 최고의 이미지 생성기이며, 덜 강력한 Schnell은 Midjourney v5와 Ideogram 사이에 있다고 주장합니다.
Flux 점수 대 다른 AI 이미지 생성기. 이미지: Black Forest Labs
하지만 작은 GPU를 사용하는 사용자는 운이 없을 수 있습니다. 오픈소스 모델의 무게는 약 23GB로 , 양자화된 버전이 출시될 때까지 실행하려면 약 24GB의 VRAM이 필요할 것입니다. 하지만 그렇더라도 6GB 및 8GB VRAM이 있는 GPU를 사용하는 사용자는 곧 새로운 AI 모델을 테스트하는 스릴에 작별 인사를 해야 할 것 같습니다.
그러나 Black Forest는 클라우드 생성을 지원하기 위해 오픈소스 모델인 Auraflow의 개발자인 Fal AI와 협력했습니다 . 이 모델은 Replicate.com 에서 무료로 테스트할 수도 있습니다. 사용자가 일일 할당량을 충족하면 Flux Pro로 33개 이미지를 생성하는 데 1달러가 들고 Flux Schell로 333개를 생성하는 데 1달러가 듭니다.
이것은 Midjourney나 Ideogram보다 더 나은 가치 제안입니다. Midjourney의 기본 플랜은 연간 $96이며, 사용자는 월 200개 정도의 이미지를 생성할 수 있습니다 . 이는 달러당 약 25개의 이미지입니다. Ideogram의 기본 플랜은 연간 $84이며 , 월 최대 400개의 이미지 또는 달러당 50개의 이미지를 제공합니다.
플럭스 테스트
Flux는 벤치마크 테스트에서 훌륭해 보이지만, 그 창작물은 얼마나 훌륭해 보일까요? 지금까지 출시된 가장 유명한 오픈소스 이미지 생성기와 비교해 보았고, 그 결과가 인상적이었다는 것을 확인할 수 있었습니다. Flux, SD3 Medium, Auraflow를 비교한 다음, Midjourney와 직접 비교해보겠습니다.
일러스트
프롬프트 1: “정글에서 여자를 쫓는 거대한 거미의 손으로 그린 그림, 극도로 무섭고, 괴로움, 어둡고 소름 돋는 풍경, 공포, 아날로그 사진의 영향이 엿보임, 스케치.”
플럭스는 대기 조명과 그림자를 훌륭하게 활용했습니다. 거미의 디자인은 날카로운 다리와 무서운 얼굴로 정말 위협적입니다. 여성의 취약한 자세는 고뇌를 잘 전달합니다. 해부학을 가장 정확하게 표현한 것입니다.
Auraflow의 청록색 팔레트는 으스스하고 이 세상과 동떨어진 느낌을 주지만, “어둡고 소름 돋는” 요구 사항을 완전히 포착하지는 못합니다. 거미 디자인은 덜 무섭고 더 양식화되어 있습니다.
SD3 Medium의 흑백 스타일은 강력한 스케치와 같은 품질을 제공합니다. 거미의 디자인은 자세하고 위협적이지만 사지에 약간의 형태적 결함이 있습니다.
우리의 순위 :
Flux : 공포, 괴로움, 소름 돋는 분위기를 가장 잘 포착합니다. 형태적 결함이 없는 가장 정확한 창작물입니다.
SD3 Medium : 시각적으로 눈에 띄지만, 프롬프트의 “아날로그 사진” 측면과 가장 일치하지 않습니다. 공포 스타일이 눈에 띕니다.
Auraflow : 스케치와 아 날
로그 사진에 가장 가깝습니다. 하지만 가장 소름 돋지 않고, 가장 무섭지 않으며, 장면의 전반적인 분위기를 가장 잘 전달하지 못합니다.
공간 인식
프롬프트 2: “TV 위에 서 있는 개, 화면에 ‘Decrypt’라는 단어가 표시됨. 왼쪽에는 동전을 든 비즈니스 정장을 입은 여성이 있고, 오른쪽에는 구급 상자 위에 서 있는 로봇이 있습니다. 전반적인 풍경은 초현실적입니다.”
플럭스는 프롬프트의 요구 사항과 가장 일치하는 모델입니다. 필요한 위치에 모든 요소가 있습니다. 구성은 잘 균형 잡혀 있으며, 예상치 못한 요소의 배치와 복고-미래적 충돌은 초현실적 품질을 강화합니다. 추가 손의 엿보기를 생성했지만, 이 버전은 프롬프트의 본질을 가장 정확하게 포착합니다.
SD3 Medium이 두 번째로 좋습니다. 모든 요소를 이해했지만 만화 같은 스타일과 서 있는 대신 앉아 있는 개와 같은 몇 가지 변형도 있었습니다. 프롬프트의 일부 요소를 포착하지만 다른 요소는 놓치고 정확도 측면에서 Flux와 Auraflow 사이에 있습니다.
Auraflow는 프롬프트에 약간의 자유를 줍니다. 개가 TV에 나오지만 서 있지 않고 앉아 있고, 여성은 현대적인 비즈니스 정장보다는 빈티지한 1950년대 스타일을 하고 있고, 로봇은 구급 상자가 아니라 파란색 받침대 위에 있으며, 전반적인 스타일은 덜 초현실적이고 복고적이며 화려합니다. 단어도 제대로 표현되지 않았습니다.
창의적이기는 하지만 Flux 버전에 비해 원래의 프롬프트에서 더 많이 벗어났습니다.
우리의 순위 :
플럭스 : 프롬프트에 가장 정확하며 초현실적인 품질을 구현합니다.
SD3 중간 : 주요 요소는 포착했지만 일부 세부 사항이 빠졌습니다.
오라플로우 : 창의적인 해석이지만 원래의 프롬프트와 대부분 다릅니다.
리얼리즘
프롬프트 3: “밤의 번화한 도시 거리를 고해상도로 찍은 사진, 네온사인이 장면을 비추고, 보도를 따라 걷는 사람들, 지나가는 차들, 핫도그를 파는 노점상, 젖은 포장도로에 반사된 불빛, 전체적인 스타일은 디테일과 조명에 주의를 기울여 매우 사실적이며, 네온사인에는 ‘Decrypt’라고 적혀 있습니다.”
Flux는 프롬프트의 요구 사항과 매우 일치합니다. 네온사인이 장면을 비추는 밤의 번화한 도시 거리, 보도를 따라 걷는 사람들, 지나가는 자동차가 특징입니다. 젖은 포장 도로에 반사된 조명은 사실적이며 “Decrypt” 표지판이 눈에 띄게 표시됩니다.
Auraflow는 프롬프트에 약간의 자유를 더합니다. 생생한 네온 조명은 활기찬 분위기를 조성하고, 젖은 포장 도로에 반사되는 빛이 사실감을 더합니다. 노점상은 선명하게 보이고 장면과 상호 작용합니다. 그러나 이미지가 약간 과포화되어 노점상이 만화처럼 보여 초현실적인 스타일이 떨어집니다. 네온사인은 흐릿하고 모델이 이상한 관점을 생성했기 때문에 보도와 거리 사이에 명확한 구분이 없습니다.
SD3 Medium도 프롬프트의 주요 요소를 포착하지만 약간의 변형이 있습니다. 균형 잡힌 구성은 보행자와 환경 모두에 초점을 맞추고, 사실적인 조명과 반사는 야간 도시의 느낌을 향상시킵니다. “Decrypt” 표지판이 눈에 띄고, 노점상이 활기찬 분위기에 기여합니다. 그러나 자세히 살펴보면 장면을 비현실적으로 만드는 몇 가지 요소를 쉽게 발견할 수 있습니다. 예를 들어, 사람들이 거리를 걷고, 보도가 핫도그 가판대에 맞게 확장됩니다.
우리의 순위 :
Flux : 자세하고 밝음. 번잡한 거리를 잘 포착하고, 표지판을 읽기 쉽고 보행자가 잘 표현됨.
SD3 Medium : 균형 잡힌 구성, 사실적인 조명, “Decrypt” 표지판과 노점상을 포함한 잘 통합된 요소로 프롬프트의 요구 사항을 포착합니다. 하지만 보행자는 Flux 세대에서처럼 사실적으로 표현되지 않습니다.
Auraflow : 생생한 조명으로 창의적으로 해석했지만, 만화 같은 노점상과 지저분한 네온 사인으로 초현실적인 스타일에서 벗어났습니다. 관점에 약간의 문제가 있는데, 이는 목표가 포토리얼리즘이라면 문제가 됩니다.
보스 레벨: Flux v. Midjourney
또한 Flux와 Midjourney를 비교했습니다. 하지만 우리 세대를 사용하는 대신 Midjourney의 “발견” 페이지에 따른 최고 추천 항목에 대한 프롬프트를 복사했습니다. 두 모델이 서로 어떻게 비교되는지 살펴보겠습니다.
리얼리즘
프롬프트 1: 긴 직발의 여성이 곡선을 강조하는 올블랙 의상을 입고 모던 소파 앞 바닥에 앉아 있는 흑백 사진. 그녀는 카메라에 자신감 있게 포즈를 취하고 있으며, 웅크리고 있는 동안 가느다란 다리를 과시하고 있습니다… 전체 프롬프트는 여기에서 확인하세요 .
Midjourney는 요구 사항을 잘 충족합니다. 부드러운 표면 위에 역동적이고 웅크리고 있는 포즈를 취한 여성이 등장하여 하이패션 사진의 본질을 포착합니다. 그녀의 머리카락, 얼굴 특징, 옷의 디테일은 매우 정밀하게 렌더링되어 사실감을 높입니다. 그러나 역동적이기는 하지만 포즈는 자연스럽지 않습니다. 여성의 오른손은 손과 발을 합친 것처럼 보이고, 오른쪽 다리는 갑자기 사라지고, 왼쪽 발이 될 곳도 손을 흉내 낸 모양입니다.
반면, Flux는 균형 잡힌 구성으로 프롬프트의 주요 요소를 포착합니다. 여성은 다리를 꼬고 바닥에 앉아 있으며, 더 편안하고 자연스러운 포즈를 취하고 있습니다. 얼굴 특징, 머리카락, 옷을 렌더링하는 데 있어 높은 정밀도는 사실적인 모습에 기여합니다. 조명은 부드럽고 확산되어 피사체의 특징을 정의하는 부드러운 그림자와 하이라이트를 제공합니다.
하지만 이 세대는 단점이 없는 것은 아니었습니다. 그녀는 다리가 하나 더 있는 듯하지만, 인페인팅이나 포토샵 같은 도구로 쉽게 고칠 수 있습니다. 전체적인 어두운 장면 덕분에 작업하기 쉽기 때문입니다.
우리의 순위 :
Flux : 자연스러운 포즈, 맥락적 배경, 세부적인 렌더링으로 프롬프트의 요구 사항을 포착합니다. 형태학 측면에서 가장 정확합니다.
Midjourney : 역동적인 포즈와 높은 수준의 디테일이 특징이지만 Flux 이미지의 맥락적 풍부함이 부족하고 신체가 Flux만큼 정확하게 표현되지 않았습니다.
즉각적인 프롬프트
프롬프트 2: 피아노를 치는 흰 고양이, 선글라스와 모자를 쓰고, 보라색 하와이안 스타일로, 회색 스튜디오 배경을 배경으로 전신 촬영, 상업 비디오 화면 캡처. 출처: Chestnutmuffin .
Midjourney의 프롬프트 해석은 장면의 기발한 본질을 포착합니다. 생생한 보라색 하와이안 셔츠는 장난기 있는 느낌을 더합니다. 조명은 부드러워서 질감과 색상을 효과적으로 강조합니다. 그러나 클로즈업 샷은 프롬프트에 명시된 “전신 샷”에서 벗어나고 배경은 요청된 회색 스튜디오 설정이 아니라 더 자연스럽고 덜 통제된 환경입니다. 전체 구성은 매력적이지만 사실성과 스타일이 뛰어나지만 프롬프트의 핵심 요소 중 일부가 누락되었습니다.
Flux는 피아노를 치는 흰 고양이의 전신 샷으로 프롬프트의 모든 요소를 포착하여 프롬프트에 더 가깝게 부합합니다. 구성은 덜 세련되지만 고양이의 전신을 포함하여 지정된 모든 세부 사항이 보이도록 합니다. 조명과 렌더링이 잘 실행되어 고양이의 자세와 전체 장면을 강조합니다. 그러나 이미지가 매우 자세하고 정확하지만 Midjourney에서 생성된 클로즈업의 즉각적인 매력과 표현력이 부족할 수 있습니다(정확성보다 아름다움을 선호하는 것으로 알려짐).
우리의 순위 :
플럭스 : 전신 샷, 회색 스튜디오 배경, 지정된 복장이 정확하게 포착되었습니다. 구성은 전문적이고 세련되어 프롬프트의 요구 사항과 완벽하게 일치합니다.
Midjourney : 표현력이 풍부한 특징을 가진 매력적이고 세부적인 클로즈업을 제공하지만, 전신 촬영 및 스튜디오 배경과 같은 핵심 요소를 놓칩니다. 시각적으로 매력적이지만 프롬프트의 세부 사항에서 벗어납니다.
결론
우리는 모든 테스트에서 1위를 차지한 Flux에 기분 좋게 놀랐습니다. “Pro” 버전은 확실히 훌륭한 품질의 결과를 제공하며 Midjourney 및 기타 유료 옵션과 좋은 경쟁자가 될 수 있습니다. 더 풍부한 프롬프트가 필요하지만 결과는 매우 정확하고 현실적이며 프롬프트된 내용과 일치합니다.
좋은 이미지 생성기를 구매할 의향이 있는 사람들에게 Flux Pro는 가장 가치 있는 제안인 듯합니다. “Dev” 및 “Schnell” 버전은 기본 SD3 Medium 및 Auraflow보다 더 좋으므로 오픈 소스 공간에서도 Flux는 꽤 강력한 경쟁자입니다.
Flux는 SD3보다 인체를 더 잘 렌더링하는데, 이는 고려해야 할 주요 사항입니다. 그러나 더 적당한 GPU를 가진 사람들은 Auraflow나 Flux와 같은 새로운 모델이 매우 무겁다는 점을 감안할 때 SD3(또는 미세 조정된 SDXL 버전)로도 관리할 수 있습니다.
Replicate 플랫폼이 “안전” 슬라이더를 구현했다는 점은 주목할 만하며, 신경 쓰는 사람들을 위해 모델이 어느 정도 검열되지 않았다는 것을 확인할 수 있습니다. 오, 그리고 여성 도 다시 잔디밭에 누울 수 있습니다 .