“数据荒”拦路AI训练，海外科技巨头招式频出，无所不用其极！

炒股不求人

09 Apr 2024, 01:34 · Views 21

作者：赵雨荷

来源：硬AI

在AI迅猛发展的大潮下，新闻报道、虚构作品、留言板帖子、维基百科文章、计算机程序、照片、播客和电影剪辑等网络数据，越来越成为人工智能行业的命脉。因为创建创新系统取决于拥有足够的数据，教会AI即时产生类似人类创作的文本、图像、声音和视频。

有研究显示，科技公司可能在2026年前就用完互联网上的高质量数据，因为这些公司使用数据的速度比产生数据的速度快，情况已经非常紧急。

为了应对这一问题，包括OpenAI、Google和Meta等海外科技巨头在搜集数据方面，已经“无所不用其极”，有的甚至开始忽略公司政策以及规避隐私法律。

OpenAI：转码Youtube、“合成”数据

据报道，目前AI领域的领头羊OpenAI在2021年末，已经耗尽了互联网上所有可靠的英文文本资源，需要更多数据来训练下一个版本的技术。当时，OpenAI的研究人员创建了一个名为Whisper的语音识别工具。它可以转录YouTube视频中的音频，生成新的对话文本，使人工智能系统更加智能。

尽管这样做可能违反YouTube规则，因为YouTube禁止用户将其视频用于“独立”应用，还禁止通过“任何自动化手段（如机器人、僵尸网络或网络抓取工具）”访问其视频，但OpenAI的团队转录了超过一百万小时的YouTube视频。然后，这些文本被输入到GPT-4的系统中，成为最新版本ChatGPT聊天机器人的基础。

媒体报道，OpenAI的员工知道他们正在涉足法律灰色地带，但他们认为用视频训练人工智能是合理使用。知情人士说，OpenAI的总裁格雷格·布罗克曼（Greg Brockman）就亲自帮助收集YouTube视频数据，以此为基础领导了开发GPT-4的团队。

数据紧缺的问题，也让OpenAI正在开发“合成”数据，即人工智能模型产生的文本、图像和代码，而非人类创造的数据。换句话说，这些系统从它们自己生成的内容中学习。

OpenAI创始人Sam Altman此前说，“合成”数据可以创造额外的数据来开发更好的AI版本，并减少他们对受版权保护数据的依赖。

但有分析认为，建立一个可以自我训练的AI系统说起来容易做起来难。从自己的输出中学习的AI模型可能会陷入一个循环，其中它们加强自己的怪癖、错误和限制。

为了应对这一问题，OpenAI和其他机构正在研究如何让两个不同的AI模型一起工作，生成更有用、更可靠的合成数据。一个系统产生数据，而另一个系统判断信息，以区分好坏。研究人员对这种方法是否有效意见不一。

谷歌：修改隐私政策扩大数据来源

尽管一些谷歌员工知道OpenAI已经收集了YouTube视频的数据，但他们没有阻止OpenAI，因为谷歌也使用YouTube视频的转录文本来训练其人工智能模型。这种做法可能侵犯了YouTube创作者的版权。因此，如果谷歌对OpenAI大做文章，可能会引起公众对其自身方法的抗议，人们说。

去年，Google还扩大了其服务隐私条款，允许Google能够使用公开可用的Google Docs、Google Maps上的餐厅评论和其他网上材料，为更多的人工智能产品提供支持。

此前，谷歌的隐私政策规定，公司只能使用公开信息来“帮助训练谷歌的语言模型并构建功能，如谷歌翻译”，但新条款使谷歌可以利用这些数据为其“人工智能模型及构建产品和功能，如谷歌翻译、Bard和Cloud AI功能”。

Meta：版权问题上或铤而走险

在AI领域一直处于追赶状态的Meta，去年初遇到了与其竞争对手相同的障碍：数据不足。

有媒体报道，Meta的生成式人工智能副总裁Ahmad Al-Dahle告诉高管，他的团队几乎使用了互联网上所有可用的英语书籍、论文、诗歌和新闻文章来开发模型，除非获取更多数据，否则Meta无法与ChatGPT匹敌。

但要想获得更多数据，版权保护的问题是躲不掉的。该公司去年讨论了购买出版社Simon & Schuster以获取长篇作品，他们还讨论了从互联网上收集版权数据的可能性，即使这可能意味着面临诉讼，因为与出版商、艺术家、音乐家和新闻行业协商许可证需要的时间太长。

有媒体透露，有Meta高管认为，OpenAI似乎在未经允许的情况下使用了受版权保护的材料，Meta也可能会跟随这一“市场先例”。

根据内部会议录音，Meta的高管们同意依据2015年关于作家协会对谷歌的法庭裁决来操作。在那起案件中，谷歌被允许扫描、数字化并在在线数据库中编目书籍，因为谷歌争辩说它仅在线上重现了作品的片段，并转化了原作，这构成了合理使用。

风险提示及免责条款

市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

Reprinted from 见闻VIP，the copyright all reserved by the original author.

Disclaimer: The content above represents only the views of the author or guest. It does not represent any views or positions of FOLLOWME and does not mean that FOLLOWME agrees with its statement or description, nor does it constitute any investment advice. For all actions taken by visitors based on information provided by the FOLLOWME community, the community does not assume any form of liability unless otherwise expressly promised in writing.

FOLLOWME Trading Community Website: https://www.followme.com

If you like, reward to support.

“数据荒”拦路AI训练，海外科技巨头招式频出，无所不用其极！

OpenAI：转码Youtube、“合成”数据

谷歌：修改隐私政策 扩大数据来源

Meta：版权问题上或铤而走险

Hot

Content related

谷歌：修改隐私政策扩大数据来源