Az Meituan nevű kínai technológiai vállalat a LongCat-Image nevű új, nyílt forráskódú kép-mesterséges intelligencia modelljével jelentős áttörést ért el. Az új modell mindössze 6 milliárd paraméterrel működik, mégis képes felülmúlni a jóval nagyobb modelleket, mint például az Alibaba vagy az Tencent fejlesztéseit a fotorealisztikus képek és a pontos szövegmegjelenítés területén.[^1]
Az Meituan fejlesztői olyan technológiai megoldást mutattak be, amely jelentősen csökkenti a kép-MI modellek méretét és erőforrásigényét, miközben nem romlik a képminőség. A konkurens modellek, mint például az Tencent Hunyuan3.0, akár 80 milliárd paraméterrel működnek, de a LongCat-Image csapata szerint ez a “nyers erő” nem eredményez arányos minőségnövekedést.[^1]
A LongCat-Image egy hibrid Multimodal Diffusion Transformer (MM-DiT) architektúrán alapul, ahol a képi és szöveges információkat kezdetben külön dolgozza fel a rendszer, majd később összehangoltan egyesíti azokat. Ez pontosabb képgenerálást és szövegmegjelenítést tesz lehetővé, miközben csökkenti a számítási igényt.
A kutatók kiemelték, hogy a mesterséges intelligencia által generált képekkel “szennyezett” tanulóadatok miatt sok modell hajlamos egysíkú, műanyag hatású képeket előállítani. A LongCat-Image fejlesztői ezért szigorúan kiszűrték az ilyen tartalmakat, és csak a legvégső finomhangolásnál engedtek be mesterségesen generált, gondosan válogatott képeket.[^1]
„Már kis mennyiségű szintetikus adat is a textúrák leegyszerűsödéséhez, így műanyag hatás kialakulásához vezethet.”
A négy lépcsős adatfeldolgozási folyamat magában foglalta a szintetikus tartalmak és vízjelek eltávolítását, részletes képleírások generálását, valamint speciális vizuális-nyelvi modellek alkalmazását.
Az erősítéses tanulásban (RL) a fejlesztők bevezettek egy új jutalmazási rendszert, amely bünteti a mesterségesen generált képi artefaktumokat, így a modell kénytelen természetesebb textúrákat előállítani, amelyek közelebb állnak a valósághoz.
Az egyik legnagyobb kihívás a kép-MI számára a szövegek pontos ábrázolása. Sok modell nem tudja betűszinten kezelni a szavakat, ezért a LongCat-Image külön karakter-szintű tokenizálót alkalmaz, ha a promptban idézőjelben szerepel szöveg. Ez jelentősen csökkenti a modell “memóriaterhét”, és megbízhatóbb szövegmegjelenítést biztosít a képeken.[^1]
A fejlesztők nem egyetlen univerzális modellt hoztak létre, hanem egy különálló LongCat-Image-Edit verziót is, amelyet speciálisan képszerkesztési feladatokra optimalizáltak. Ez a modell jobban kezeli a komplex szerkesztési feladatokat, például a perspektíva-váltást, stílusátvitelt vagy objektumcserét, anélkül hogy a generált képek minősége romlana.[^1]
Az Meituan a végleges modellek mellett köztes tanulási ellenőrzőpontokat (checkpointokat) és a teljes tanítási pipeline kódját is elérhetővé tette a GitHub és a Hugging Face oldalán, ezzel támogatva az AI fejlesztők közösségét.
A LongCat-Image áttörést jelent a hatékony és pontos kép-MI fejlesztésében. Az új architektúra, a szigorú adatválogatás és a karakter-szintű tokenizálás együtt biztosítják, hogy a modell kevesebb erőforrásból is kiemelkedő eredményt érjen el. Ez a nyílt forráskódú fejlesztés hozzájárulhat ahhoz, hogy a képgeneráló mesterséges intelligencia-modellek szélesebb körben, könnyebben és költséghatékonyabban legyenek elérhetők.[^1]
[^1]: THE DECODER (2025-12-14). “Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut”. Közzétéve [2025. 12. 14.].