Black Forest Labs از هوش مصنوعی Flux رونمایی کرده که با 12 میلیارد پارامتر بزرگترین مدل متنباز تبدیل متن به تصویر تا امروز است. Flux میتواند تصاویری ارائه دهد که با نمونههای میدجرنی قابل رقابت هستند و احتمالاً بتواند هر مدل دیگری را که تاکنون در دسترس قرار گرفته، اعم از متنباز یا بسته، شکست دهد.
براساس گزارش Decrypt، هوش مصنوعی Flux در سه نسخه ارائه میشود: Flux Dev که متنباز است و برای توسعهدهندگان در دسترس قرار میگیرد. Flux Schnell که تا ده برابر عملکرد سریعتری دارد و تحت مجوز Apache 2 منتشر میشود. Flux Pro نیز که نسخه متن بسته است و میتوان از طریق یک API از آن استفاده کرد.
یکی از تفاوتهای اصلی Flux با میدجرنی در این است که Flux متنباز است و میتوان آن را روی یک سیستم نسبتاً خوب اجرا کرد. دو نسخه Flux Dev و Flux Schnell اکنون برای دانلود در Hugging Face در دسترس هستند.
سازندگان Flux میگویند که در تستهای بنچمارک، این مدل 12 میلیارد پارامتری در تولید تصویر از مدلهایی مانند Dall-E 3 (HD)، میدجرنی v6.0 و SD3 Ultra در بخش کیفیت بصری، وفاداری به پرامپت کاربر، تایپوگرافی و تنوع خروجی، بهتر عمل میکند. البته همانطور که در تصویر بالا مشاهده میکنید، هرچند Flux از برخی جنبهها مانند نورپردازی بهتر از میدجرنی عمل میکند، اما زن یک پای اضافه دارد.
بااینحال، اگر بخواهید روی سیستم خود از مدل متنباز Flux استفاده کنید، نیاز به پردازشگر گرافیکی قدرتمندی دارید. این مدل حدود 23 گیگابایت حجم دارد؛ یعنی به حدود 24 گیگابایت VRAM نیاز خواهید داشت. البته شما میتوانید از پلتفرمهای آنلاین مانند NightCafe و Based Labs نیز برای تولید تصاویر از Flux استفاده کنید.
بهطورکلی، نسخه پرو Flux میتواند رقیب خوبی برای میدجرنی و سایر مدلهای پولی باشد. بااینحال، با توجه به اینکه مدلهای جدید مانند Auraflow یا Flux بسیار سنگین هستند، افرادی که پردازشگرهای گرافیکی متوسطی دارند، میتوانند به سراغ SD3 یا حتی نسخههای سبکتر SDXL بروند.