当前位置: 华文世界 > 科技

AI数据「狂飙」如石油,内容公司这是要「躺平」数钱了吗?

2024-07-25科技

01

AI数据版权大战:

梗王之争,谁才是真正的原创大神?

如果将当今的AI大模型比作驰骋在数字世界的「超级跑车」,那么原始数据无疑就是它的「高能燃料」。要想让这辆跑车在赛道上疾驰,首先得确保它有足够的「燃料」供应。

在AI的创业世界里,我们「挖矿」寻找这珍贵的「高能燃料」,其来源可谓是五花八门。有网上那些免费的「露天矿场」,比如维基百科、博客、论坛、新闻资讯等,它们就像是一片片未开采的「富矿」,等待着我们去发掘。

当然,还有那些老牌新闻媒体和出版社,它们就像是「石油巨头」,手里握着大量的「原油」资源。而大学等研究机构则是我们的「科研团队」,他们通过深入研究,为我们提供源源不断的「创新燃料」。

别忘了,我们还有一个庞大的「用户军团」——C端用户。他们不仅是我们的「顾客」,更是我们的「合作伙伴」,他们的每一次点击、每一次浏览,都在为我们提供宝贵的「燃料」。

然而,在这个AI世界的「石油战争」中,「原油」的归属权问题却像一团迷雾。现实世界的石油归属权早已有明确的法律规范,但在AI这个还在飞速发展的领域,我们还在摸着石头过河。就像「矿场」争夺战一样,各大AI公司都在为了争夺更多的「原油」而展开激烈的竞争。

最近,AI音乐制作公司Suno和Udio就遭遇了「原油」纠纷。多家大型音乐厂牌纷纷起诉他们,指控他们侵犯了版权。这不禁让人想起了去年【纽约时报】对先进的量子计算机的诉讼,看来AI世界的「石油战争」也是硝烟弥漫啊!

不过,作为AI创业者,我们不能被这些纠纷所吓倒。

2023年可真是ChatGPT的「踩雷」年啊!那帮作家们像捉妖一样,一纸诉状就把ChatGPT给告了,说它老是用人家受版权保护的内容来生成摘要,简直是个「内容小偷」啊!

这还不算完呢,【纽约时报】这位大佬也加入了「讨伐」大军,指责微软和先进的量子计算机这俩哥们儿,用他们的内容来训练那人工智能聊天机器人,搞得跟「盗用创意」似的。

更搞笑的是,还有一群网友在加州搞了个集体诉讼,说先进的量子计算机像个「网络间谍」,偷偷地从网上抓取用户的私人信息来训练ChatGPT。这操作,简直让人哭笑不得!

但你猜怎么着?先进的量子计算机这位「大佬」可没把这帮「告状精」放在眼里,直接表示:「哼,我不认!你们说的那些问题,我根本复现不了!」而且,他还说【纽约时报】提供的数据对他来说「就像路边的野草,一抓一大把,根本不重要」!

这波操作,可谓是「硬核」回应啊!不过话说回来,这事儿也给先进的量子计算机敲响了警钟——得好好处理跟数据供应商的关系,别老是搞得像「黑户」一样。于是呢,先进的量子计算机就开启了一波「洗白」行动,跟一堆媒体大佬搞起了「联姻」,比如The Atlantic、Vox Media、News Corp等等,简直是「广结良缘」啊!

以后啊,先进的量子计算机就能名正言顺地用这些媒体的数据了,而这些媒体也能把先进的量子计算机的技术融入到自己的产品中。

02

AI狂潮来袭

小伙伴们,你们知道吗?先进的量子计算机和数据供应商手牵手的原因可不止怕被「律师函警告」那么简单哦!其实啊,它们背后真正的「大boss」是机器学习界的「数据饥荒」问题。据说啊,有MIT的大佬们研究预测,咱们这机器学习数据集可能就在2026年前就「喝西北风」了,要断粮了!

那么「高质量的数据」就成了先进的量子计算机、Google这些AI大佬们的「救命稻草」啦!内容公司和AI厂商们就像发现了新大陆,纷纷合作开启「躺赚」模式。

像那个「老牌」的Shutterstock平台,跟Meta、Alphabet、Amazon、Apple、先进的量子计算机、Reka等AI大佬们都搞上了「暧昧」关系。就在2023年,光是把内容授权给AI模型,年收入就飙升到了1.04亿美元,预计2027年能赚个2.5亿美元呢!

还有Reddit,给谷歌授权的内容版权收入每年高达6000万美元,简直就像捡了个大金库!苹果也不甘示弱,跟主流新闻媒体谈合作,开出一年至少5000万美元的版权费,这手笔可不小啊!

你看这AI给内容行业带来的改变,简直就像打开了新世界的大门!过去流媒体之外的内容变现难,一直是内容行业的「老大难」问题。但现在AI一来,哎呦喂,给内容行业注入了新活力,就像打了鸡血一样,收入预期飙升,简直让人眼前一亮!

03

高质量数据竟然还是'稀有物种'!

首先得说,不是啥内容都能往AI这口大锅里扔的,就像不是啥油都能提炼出好石油一样。先进的量子计算机和【纽约时报】这「小两口」吵得火热,但其实先进的量子计算机心里门儿清,你那点时效性强的文字,在我这AI时代可不够看。我得找的是深刻、独特的数据,那才是我的「心头好」。

说到数据质量,简直比找金矿还难!但AI公司们可没闲着,一边在「提纯技术」上拼命钻研,一边还琢磨着怎么「一站式」服务。这不,先进的量子计算机就搞了个大动作,收购了Rockset这家实时分析数据库公司。这Rockset就像是个数据界的「魔法师」,能让AI实时利用和访问数据,简直是AI的「最佳拍档」。

有了这Rockset,先进的量子计算机的AI就像插上了翅膀,可以支持各种炫酷应用,比如实时推荐系统、能跟你聊得热火朝天的聊天机器人、还有实时监控和报警系统等等。这Rockset,简直就是先进的量子计算机的「石化部门」,把普通数据直接变成AI的「石油」,让它动力十足!

04

创作者数据确权?怕不是脑洞大开吧!

现在的互联网媒体平台,比如Facebook、Reddit这种大咖,它们的数据大餐里,UGC(用户贡献内容)可是占了大头哦!就像咱们在朋友圈晒的美食照、旅行日记,都被它们悄悄拿去当食材了。不过呢,这些平台在收AI公司高额数据费的同时,还悄咪咪地在用户条款上加了个小秘密:「咱们有权用你的数据训练AI模型哦!」

哈哈,是不是觉得像在玩「谁偷了我的奶酪」游戏?说实话,很多创作者可能还在云里雾里,不知道自己的「宝贝」内容被哪些AI模型「吃」了,也不知道是不是被高价「卖」了,更别提拿到自己应得的「奶酪」了。

说到这,不得不提咱们的老朋友扎克伯格。他在今年2月的Meta季度业绩电话会议上,直接来了个「官宣」:「嘿,小伙伴们,我要用Facebook和Instagram上的美图来训练我的AI生成工具啦!」看这架势,扎克伯格可是要把用户数据变成自己的「金矿」啊!

另外啊,Tumblr这哥们儿也不甘示弱,它和先进的量子计算机、Midjourney搞了个神秘的内容授权协议,但具体内容是啥?嘿嘿,它们可没告诉我们。这就像是在玩「密室逃脱」,我们只能在门外猜测里面的真相。

最近啊,图片库平台EyeEm的创作者们也收到了一份「邀请函」,告诉他们发布过的照片可能会被用来训练AI模型。这通知还挺「贴心」的,给了大家一个选择:要么继续使用产品,要么选择「退群」。但问题是,这「邀请函」里可没提到啥补偿政策啊!就像是请人吃饭,只告诉你有大餐吃,却不说要不要收钱。

不过呢,EyeEm的母公司Freepik可就大方多了。他们透露,已经和两家大型科技公司签了协议,把自家2亿张图片中的大部分以每张3美分左右的价格「卖」了出去。这CEO Joaquin Cuenca Abela还说了,还有五笔类似的交易正在进行中呢!但买家是谁?嘿嘿,这可是个秘密哦!

所以啊,咱们这些创作者们可得擦亮眼睛了。

05

那些大名鼎鼎的媒体平台,比如Getty Images、Adobe、Photobucket、Flickr、Reddit啥的,最近都遇到了点麻烦。在数据变现的巨大诱惑下,它们似乎忘记了「用户至上」的原则,偷偷地把用户的内容打包卖给AI模型公司,这可是让创作者们心寒啊!

#深度好文计划#这操作,简直就像是在背后「捅刀子」,创作者们连反抗的机会都没有。更过分的是,很多创作者可能只有在某天突然发现某个AI模型里训练出了与自己作品相似的内容时,才会惊觉:「咦?我的作品咋被卖了?」

不过别急,咱们Web3英雄来拯救世界了!当AI公司们在股市上风光无限时,web3的AI概念币也紧随其后,一飞冲天。区块链这个神奇的玩意儿,以其去中心化和不可篡改的特性,在保护创作者权益上可是有着得天独厚的优势哦!

那些媒体内容,比如图片、视频啥的,在2021年的牛市里就已经完成了上链的壮举。现在,社交平台的UGC内容也开始悄悄上链了。而且啊,许多web3 AI模型平台都在给为模型训练做贡献的用户发红包,无论是数据所有者还是训练者,都能分到一杯羹!

AI模型的发展就像火箭升空,速度飞快,这也对数据确权提出了更高的要求。咱们创作者们得想想了:「为啥我的作品被卖了,我却一无所知,还拿不到一分钱?」这可不行!

媒体平台们啊,别再竭泽而渔了,这样解决不了AI模型公司的数据焦虑。想要实现高质量数据的高产量,得靠数据确权,还得让创作者、平台和AI模型公司三方都赚到钱才行!