繁荣背后存隐忧 美AI巨头被控秘密“侵吞”数据

发布时间:2024-04-28 18:01:59 来源: sp20240428

  【今日视点】

  ◎本报记者 张佳欣

  人工智能(AI)迅速发展离不开对模型的训练。然而,高质量数据短缺以及部分领域封闭式的数据生态似乎成为AI发展的掣肘。

  据多家外媒报道,OpenAI、谷歌和Meta等公司正寻求在线信息来训练最新的AI系统。但他们无视既定政策,蓄意改变规则,并试图规避版权法。

  收集数据“走捷径”

  英国《泰晤士报》近日刊文指出,科技巨头一直在“走捷径”为其AI系统收集训练数据。OpenAI开发了一款名为Whisper的语音识别工具,可将YouTube视频中的音频文件转录为纯文本文档,从而创建一个口语对话数据源,帮助训练其下一代基于文本的GPT-4算法。

  美国《商业内幕》网报道称,YouTube在其官网明令禁止“独立”于其之外的应用程序使用其视频内容。而OpenAI的数据并非意外收集的。

  实际上,OpenAI员工知道这样做会涉足法律灰色地带。OpenAI总裁格雷格·布罗克曼甚至亲自参与了所使用视频的收集。但OpenAI依然认为这是合理的,最终获得了超过100万小时的转录视频。

  最大的谜团在于,OpenAI如何访问足够多的YouTube视频来完成这项工作。

  当OpenAI首席技术官米拉·穆拉蒂被问及该公司是否使用YouTube视频来训练Sora时,她表示并不确定。当再次被问及训练数据的来源时,她表示不会透露细节。

  《纽约时报》称,与OpenAI一样,谷歌也转录了YouTube视频,为其AI模型收集文本,这可能侵犯了视频创作者的版权。去年,谷歌还更改了其服务条款。此番动机意图明显,即允许AI对来自谷歌文档中公开可用文档的数据以及上传到谷歌地图的餐馆评论等其他材料进行训练。

  面临“数据瓶颈”

  对于科技公司来说,庞大的数据“肥料”是生成式AI的核心养分,也是大模型发展的必争之地。唯有足够的数据才能指导技术即时生成与人类创作相似的文本、图像、声音和视频,实现系统创新。

  但随着AI发展,现有互联网信息量的不足、高质量文本数据的匮乏以及科技巨头优质数据的垄断,都可能导致AI“养分不足”。即便谷歌和Meta拥有数十亿用户,每天都会产生搜索查询和社交媒体帖子,但这些数据在很大程度上受到隐私法和自身政策的限制,无法让AI利用这些内容。

  这些科技公司的处境似乎十分窘迫。据人工智能研究机构Epoch称,科技公司最快将于2026年耗尽互联网上的高质量数据。这些公司使用数据的速度超过了产生数据的速度。

  Meta同样也遇到了训练数据可用性限制。该公司打算采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。Meta也曾作出以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。

  在人类数据告急的情况下,不少公司甚至试图用AI“喂”AI。包括微软、OpenAI在内的公司正在把大模型生成的结果,也就是所谓的“合成数据”,“喂”给参数更小的模型。但有研究认为,合成数据最终将让AI“自食其果”。

  因版权被多方状告

  《纽约时报》去年起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称,这属于“合理使用”,或者说是版权法允许的,因为他们为了不同的目的而改造了这些作品。

  去年,超过1万个贸易团体、作者、公司和其他人士向美国版权局提交了有关AI模型使用创意作品的意见。

  生成式AI的迅速兴起引发了一场全球性的高质量数据竞赛。然而,在这个新领域中,关于什么是合法的、道德的,没有明确规定。

  《商业内幕》网称,目前,谷歌、OpenAI和其他科技公司正在辩解,认为将受版权保护的内容用于AI模型训练是合法的,但监管机构及法院尚未对此作出裁决。

  美国电影制作人、前演员及作家贾斯汀·贝特曼告诉版权局,AI模型在未经许可或付费的情况下获取了其作品内容。她称,“这是美国最大的盗窃案”。(科技日报) 【编辑:曹子健】

雪山巍峨,镌刻军人足迹 - 在山川戈壁披荆斩棘——30年,3000公里,测量“零差错”

雪山巍峨,镌刻军人足迹

发布时间:2024-04-28 18:02:00 来源: sp20240428

  雪山巍峨,群山环绕。春节临近,巡逻的脚步不停。迎着扑面的寒风,驻守海拔4300米的新疆军区某边防团红其拉甫边防连巡逻小分队,又一次踏上巡逻路。

  当日,官兵们要去的点位位于海拔5283米的木孜吉里阿达坂上,是连队最难抵达的巡逻点位之一。蹚冰河、穿乱石、翻达坂,一个多小时后,汽车行至一个积雪覆盖的山坡。这里海拔5000多米,距离点位还有近5公里,两侧山势陡峭,官兵们只能选择下车,开始徒步巡逻。

  19岁的新兵付俊霏大口喘着粗气,没走多远就不得不停下来休息。付俊霏还是学生的时候,就在电视上看到“时代楷模”、红其拉甫边防连护边员拉齐尼·巴依卡英勇救人的事迹报道。3年后,穿上军装的付俊霏,踏上英雄昔日走过的巡逻路,他的内心充满自豪。

  距离点位不远的一处陡坡碎石遍布。付俊霏在攀登时突然脚下一滑,险些摔倒,身后的一级上士杨建刚拉了他一把,这才避免了一次险情。

  杨建刚入伍多年,这种险情对他来说已是家常便饭。去年7月,杨建刚带队翻越一个陡峭的冰达坂,为了安全起见,大家用绳子系在腰上,再排成一列前行。走到半程,杨建刚的脚下突然下陷,瞬间落入一个冰洞。生死一线之际,幸亏腰上系着保险绳,官兵们合力才将杨建刚从冰洞中拽了出来。

  一路上,老兵们给新兵介绍沿途情况:“这是乱石滩容易崴脚要当心,左边山沟有狼群,前边是神仙沟……”官兵们一边行进一边观察沿途情况。每到达一个标志性地物时,都要停下来观察周围情况,不放过任何蛛丝马迹。

  在攀登一个雪坡时,积雪厚度达三四十厘米,官兵深一脚浅一脚地行走,作战靴被冰冻住,每一次迈步都格外沉重。蒙古族战士巴特里开玩笑地说:“现在身上是冰火两重天,头上直冒汗变成‘火炉子’,脚下却变成了‘冰溜子’。”

  休息时,二级上士肖瑶坐在一块石头上,从口袋里掏出一张全家福照片,细细端详。肖瑶说,从上次探亲到现在已经半年过去了,不知道女儿是不是又长高了。

  今年是肖瑶在部队过的第12个春节。2022年2月肖瑶的女儿出生了,闲暇时,他喜欢和女儿打视频电话,看着她一点点长大,每隔几天就会有新的变化,心里就满是欣慰。前不久,肖瑶给妻子打视频时,女儿突然喊了一声:“爸爸”,让这个钢铁军人瞬间泪目。

  历经艰辛跋涉,巡逻队抵达海拔5300米的执勤点位。按照连队传统,首次参与巡逻的新兵认真擦拭界碑,向界碑庄严敬礼,郑重宣誓。

  界碑无言,傲立风雪。付俊霏说:“今天是我第一次踏上英雄走过的巡逻路,从此在这条路上,坚守和拼搏将是我的青春姿态。”

(责编:马昌、王潇潇)