A Google jelentős előnyre tett szert az mesterséges intelligencia (MI) fejlesztésében azáltal, hogy a keresőpiaci fölényét kihasználva háromszor annyi webes adatot tud gyűjteni, mint az OpenAI. Az adatokhoz való kivételes hozzáférés komoly versenyhátrányba hozza a többi MI-szereplőt, miközben a tartalomszolgáltatók védtelenek a cég adatgyűjtési gyakorlataival szemben.
A Cloudflare belső mérései szerint a Google 3,2-szer több weboldalt ér el MI-tréning céljából, mint az OpenAI, 4,6-szor többet, mint a Microsoft, és majdnem ötször annyit, mint az Anthropic vagy a Meta[^1]. Ennek oka, hogy a Google egyesíti a keresőrobotját és az MI-adatgyűjtőjét, így a weboldal-tulajdonosok csak úgy tudják kizárni az MI-adatgyűjtést, ha egyúttal az keresőből is eltávolítják oldalukat – ez pedig a legtöbb tartalomszolgáltató számára elfogadhatatlan gazdasági veszteséggel járna.
„Ők rendelkeznek ezzel a hihetetlenül privilegizált hozzáféréssel” – mondta Matthew Prince, a Cloudflare vezérigazgatója.
Matthew Prince szerint a Google jelenlegi gyakorlata visszaélés az múltból örökölt monopóliummal. Rámutatott, hogy a keresőből származó előnyök segítségével a Google az MI-piacon is uralkodó pozíciót igyekszik szerezni, miközben a versenytársak és tartalomszolgáltatók hátrányba kerülnek. „Nem lenne szabad, hogy valaki a tegnapi monopóliumát használja fel a holnapi piac monopolizálására.” – fogalmazott Prince[^1].
Hiába blokkolt a Cloudflare 416 milliárd MI-crawling-kérést csak az idén július óta, ezek a védelmi intézkedések csak azokra a szereplőkre érvényesek, akik az iparági szabványokat betartják vagy külön azonosíthatók. A Google technikailag megkerüli ezeket az akadályokat azáltal, hogy a kereső és az MI-crawler egybeolvad – ezzel a tartalomszolgáltatókat választás elé állítja: vagy adataik felhasználását engedik meg az MI-modellek számára, vagy elvesztik az keresőből származó látogatottságukat[^1].
„A Google itt a probléma” – jelentette ki Prince a WIRED-nek adott interjúban.
Prince szerint mindaddig, amíg nem kényszerítik vagy győzik meg a Google-t, hogy válassza szét az kereső- és MI-crawlereit, a tartalomszolgáltatók nem tudják hatékonyan védeni tartalmaikat vagy életképes licencmodelleket kialakítani a generatív MI-korszakban.
A Google adatgyűjtési gyakorlatai miatt a MI-fejlesztésben tovább mélyülhet a szakadék a piaci szereplők között. Ha a kereső- és MI-crawling elkülönítését nem szabályozzák, az adatvédelmi és versenyjogi aggályok tovább erősödhetnek, és tartalomszolgáltatók kénytelenek lesznek kompromisszumokat kötni. A közeljövőben várhatóan egyre hangosabbá válik a szabályozás és az átlátható licencelés követelése az MI-adatgyűjtés terén.
[^1]: Maximilian Schreiner (2025. 12. 05.). “Google sammelt dreimal mehr KI-Daten als OpenAI dank Suchmonopol”. The Decoder. Közzétéve [2025. 12. 05.].