Qwen3-VL: az Alibaba multimodális MI-modellje részletesen elemzi a hosszú videókat

Hírek2025.11.28.28 megtekintés

  • Az Alibaba Qwen3-VL mesterséges intelligencia modellje akár kétórás videókat is képes szinte hibátlanul elemezni és részleteket megtalálni.
  • A modell több tesztben felülmúlja olyan versenytársakat, mint az OpenAI GPT-5 vagy Gemini 2.5 Pro, különösen vizuális-matematikai és dokumentumfeladatokban.
  • Az architektúra három jelentős technológiai újítást tartalmaz, amelyek javítják a multimodális feldolgozást.
  • Az open source modell Apache 2.0 licenc alatt elérhető a kutatók és fejlesztők számára.

Az Alibaba részletes műszaki jelentést adott ki az Qwen3-VL nevű nyílt forráskódú, multimodális mesterséges intelligencia modellről, amely kiemelkedő képességeket mutat matematikai képfeladatokban és hosszú videók elemzésében is. Az új architektúra számos technikai újítással tűnik ki, és a modell elérhető mindenki számára az Apache 2.0 licenc alatt.[^1]

Qwen3-VL: az MI-modell képességei videó- és képelemzésben

Az Qwen3-VL rendszer egyidejűleg óriási adatmennyiséget tud feldolgozni, például kétórás videókat vagy több száz oldalas dokumentumot, akár 256 000 tokenes kontextushosszig.[^1] A Needle-in-a-Haystack tesztben a 235 milliárd paraméteres zászlóshajó modell 30 perces videókban 100%-os pontossággal, míg kétórás, mintegy egymillió tokenes anyagokban 99,5%-os pontossággal találja meg az előre beágyazott, jelentős képkockákat.

„A Needle-in-a-Haystack-teszt jól mutatja, mennyire képes a modell releváns képkockákat azonosítani hosszú videókban.”

Az összehasonlító tesztek alapján az Qwen3-VL-235B-A22B modell több kategóriában felülmúlja a Gemini 2.5 Pro-t, az OpenAI GPT-5-öt és a Claude Opus 4.1-et, különösen matematikai és vizuális feladatokban. A MathVista teszten 85,8%-ot ért el, míg a GPT-5 csak 81,3%-ot.[^1]

Dokumentum- és OCR-feladatok: kiemelkedő pontosság

Az Qwen3-VL különösen erős a dokumentumfelismerési (DocVQA) és OCR (Optikai karakterfelismerés) teszteken: 96,5%-os pontosságot ért el DocVQA-n, valamint 39 nyelven támogatja az OCR-t – ez jelentős előrelépés az előző generációhoz képest.[^1] A támogatott nyelvek közül 32-nél 70% feletti pontosságot biztosít az OCR-feladatok során.

Technikai áttörések az architektúrában

Interleaved-MRoPE: jobb pozíciókezelés képeken és videókon

Az Qwen3-VL egyik újdonsága az Interleaved-MRoPE, amely három különböző dimenzió – időbeli, horizontális és vertikális – egyenletes elosztását teszi lehetővé, javítva ezzel a hosszú videók feldolgozását.

DeepStack: több szintű vizuális információ

A DeepStack technológia nem csak a végső képfelismerési eredményt használja, hanem a SigLIP-2 Vision Encoder köztes rétegeiből is információt nyer, így részletesebb képelemzést biztosít.

Egyszerűsített időjelölés

A komplex T-RoPE-módszer helyett szöveges időbélyegeket (pl. „<3.8 másodperc>”) ad az inputhoz, ami egyszerűbbé és hatékonyabbá teszi a videók időbeli feldolgozását.

Masszív adatbázis és nyílt hozzáférés

Az Qwen3-VL modellt mintegy egybillió tokenen, 10 000 GPU-val tanították, négy szakaszban. Az adatforrások között kínai és angol weboldalak, 3 millió PDF, több tízmillió STEM-feladat és videós oktatóanyagok szerepeltek.[^1]

Az összes Qwen3-VL modell – köztük a Dense és Mixture-of-Experts változatok – szabadon elérhetőek Apache 2.0 licenc alatt a Hugging Face platformon.[^1]

Összefoglaló: mit jelent az új Qwen3-VL a kutatóknak és fejlesztőknek?

Bár az olyan feladatok, mint a hosszú videókból képkockák azonosítása ma már több modell számára sem jelentenek kihívást, az Qwen3-VL kiemelkedik azzal, hogy több területen is nyílt forráskóddal, széleskörű támogatottsággal és kimagasló teljesítménnyel szolgálja az MI-kutatókat és fejlesztőket. A fejlett architektúra és a széles benchmark-támogatás révén jelentősen hozzájárulhat az MI-alapú multimodális feldolgozás fejlődéséhez.[^1]

Forrás:

[^1]: The Decoder (2025. 11. 28.). “Qwen3-VL analysiert zweistündige Videos und findet fast jedes Detail”. Közzétéve [2025. 11. 28.].

Follow
Keresés Népszerű
Loading

Signing-in 3 seconds...

Signing-up 3 seconds...