LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

Hírek2025.12.14.23 megtekintés

Megosztás

Az új LongCat-Image modell mindössze 6 milliárd paraméterrel felülmúlja a jóval nagyobb riválisokat a képalkotásban.
A Meituan fejlesztése fotorealisztikus képeket és pontos szövegeket generál, miközben kevesebb erőforrást igényel.
Szigorú adatválogatás és speciális architektúra segíti elkerülni a “műanyag” hatást, és javítja a szövegmegjelenítést a képeken.

Az Meituan nevű kínai technológiai vállalat a LongCat-Image nevű új, nyílt forráskódú kép-mesterséges intelligencia modelljével jelentős áttörést ért el. Az új modell mindössze 6 milliárd paraméterrel működik, mégis képes felülmúlni a jóval nagyobb modelleket, mint például az Alibaba vagy az Tencent fejlesztéseit a fotorealisztikus képek és a pontos szövegmegjelenítés területén.^{[^1]}

LongCat-Image: Hatékony kép-MI kevesebb paraméterrel

Az Meituan fejlesztői olyan technológiai megoldást mutattak be, amely jelentősen csökkenti a kép-MI modellek méretét és erőforrásigényét, miközben nem romlik a képminőség. A konkurens modellek, mint például az Tencent Hunyuan3.0, akár 80 milliárd paraméterrel működnek, de a LongCat-Image csapata szerint ez a “nyers erő” nem eredményez arányos minőségnövekedést.^{[^1]}

Különálló attention-útvonalak és MM-DiT architektúra

A LongCat-Image egy hibrid Multimodal Diffusion Transformer (MM-DiT) architektúrán alapul, ahol a képi és szöveges információkat kezdetben külön dolgozza fel a rendszer, majd később összehangoltan egyesíti azokat. Ez pontosabb képgenerálást és szövegmegjelenítést tesz lehetővé, miközben csökkenti a számítási igényt.

Szigorú adatválogatás a “műanyag” textúrák ellen

A kutatók kiemelték, hogy a mesterséges intelligencia által generált képekkel “szennyezett” tanulóadatok miatt sok modell hajlamos egysíkú, műanyag hatású képeket előállítani. A LongCat-Image fejlesztői ezért szigorúan kiszűrték az ilyen tartalmakat, és csak a legvégső finomhangolásnál engedtek be mesterségesen generált, gondosan válogatott képeket.^{[^1]}

„Már kis mennyiségű szintetikus adat is a textúrák leegyszerűsödéséhez, így műanyag hatás kialakulásához vezethet.”

A négy lépcsős adatfeldolgozási folyamat magában foglalta a szintetikus tartalmak és vízjelek eltávolítását, részletes képleírások generálását, valamint speciális vizuális-nyelvi modellek alkalmazását.

Új RL-alapú visszacsatolás

Az erősítéses tanulásban (RL) a fejlesztők bevezettek egy új jutalmazási rendszert, amely bünteti a mesterségesen generált képi artefaktumokat, így a modell kénytelen természetesebb textúrákat előállítani, amelyek közelebb állnak a valósághoz.

Pontos szövegmegjelenítés: karakter-szintű tokenizálás

Az egyik legnagyobb kihívás a kép-MI számára a szövegek pontos ábrázolása. Sok modell nem tudja betűszinten kezelni a szavakat, ezért a LongCat-Image külön karakter-szintű tokenizálót alkalmaz, ha a promptban idézőjelben szerepel szöveg. Ez jelentősen csökkenti a modell “memóriaterhét”, és megbízhatóbb szövegmegjelenítést biztosít a képeken.^{[^1]}

Külön modell a képszerkesztéshez

A fejlesztők nem egyetlen univerzális modellt hoztak létre, hanem egy különálló LongCat-Image-Edit verziót is, amelyet speciálisan képszerkesztési feladatokra optimalizáltak. Ez a modell jobban kezeli a komplex szerkesztési feladatokat, például a perspektíva-váltást, stílusátvitelt vagy objektumcserét, anélkül hogy a generált képek minősége romlana.^{[^1]}

Elérhetőség és nyílt forráskód

Az Meituan a végleges modellek mellett köztes tanulási ellenőrzőpontokat (checkpointokat) és a teljes tanítási pipeline kódját is elérhetővé tette a GitHub és a Hugging Face oldalán, ezzel támogatva az AI fejlesztők közösségét.

Összefoglaló

A LongCat-Image áttörést jelent a hatékony és pontos kép-MI fejlesztésében. Az új architektúra, a szigorú adatválogatás és a karakter-szintű tokenizálás együtt biztosítják, hogy a modell kevesebb erőforrásból is kiemelkedő eredményt érjen el. Ez a nyílt forráskódú fejlesztés hozzájárulhat ahhoz, hogy a képgeneráló mesterséges intelligencia-modellek szélesebb körben, könnyebben és költséghatékonyabban legyenek elérhetők.^{[^1]}

Forrás:

[^1]: THE DECODER (2025-12-14). “Open-Source-Modell LongCat zeigt: Gute Bild-KI geht auch ohne Parameter-Flut”. Közzétéve [2025. 12. 14.].

Now Reading: LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

Megosztás

LongCat-Image: Hatékony kép-MI kevesebb paraméterrel

Különálló attention-útvonalak és MM-DiT architektúra

Szigorú adatválogatás a “műanyag” textúrák ellen

Új RL-alapú visszacsatolás

Pontos szövegmegjelenítés: karakter-szintű tokenizálás

Külön modell a képszerkesztéshez

Elérhetőség és nyílt forráskód

Összefoglaló

Forrás:

Megosztás

Friss hírek

Now Reading: LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

LongCat: az új, hatékony nyílt forráskódú kép-MI, amely kevés paraméterrel is kiemelkedő

Megosztás

LongCat-Image: Hatékony kép-MI kevesebb paraméterrel

Különálló attention-útvonalak és MM-DiT architektúra

Szigorú adatválogatás a “műanyag” textúrák ellen

Új RL-alapú visszacsatolás

Pontos szövegmegjelenítés: karakter-szintű tokenizálás

Külön modell a képszerkesztéshez

Elérhetőség és nyílt forráskód

Összefoglaló

Forrás:

További MI hírek ebben a témában

Megosztás

Friss hírek