马斯克计划用X数据训练AI,强调只使用公开内容

基金新闻问答发布时间:2023-12-01 浏览量:

马斯克旗下的社交平台X最近更新了隐私条款,声明他们将使用收集到的数据来训练人工智能(AI)模型。新的隐私条款明确表示,X可能会使用收集到的信息和公开信息来训练他们的机器学习算法和AI模型。马斯克本人也承认了这一事实,并补充说,他们只会使用公开数据,而不会使用用户的私信或其他私人数据。

值得一提的是,4月份,马斯克曾指责微软非法使用推特数据来训练人工智能,并威胁要提起诉讼。同月,马斯克提高了推特数据的访问价格,起价为每月4.2万美元,可访问5000万条推文。

X并不是第一家为了收集数据来训练AI而更改隐私条款的公司。谷歌在7月份也更新了他们的隐私条款,明确表示谷歌有权收集任何公开可用的数据,并将其用于他们的AI模型训练。换句话说,只要是谷歌能够从公开渠道获取的内容,他们就可以用来训练自家的Bard模型或未来的所有AI模型。在这种情况下,只要用户继续使用谷歌服务,就默认相关信息可以被用来训练谷歌的AI模型。

本周,百度、商汤、百川智能等多家公司和机构的大型AI产品开始向公众提供服务。而AI的三大核心要素包括算力、算法和数据,其中数据是AI算法模型的“饲料”,AI技术的训练需要大规模的数据集进行投喂。

如今,我国对生成式AI的监管,特别是数据使用规则,也逐渐变得清晰。在国家政策层面上,国家网信办等七个部门已经发布了《生成式人工智能服务管理暂行办法》,该办法自8月15日起生效。这个文件规范了生成式人工智能研发、落地和训练语料的使用等方面。证券公司认为,之前积累的AI应用有望在第三季度开始上线,训练语料的价值可能会得到重新评估。与此同时,文件还将训练数据的来源纳入监管,有望加速数据版权在AI模型领域的实现。

在地方政策层面上,北京的《北京市公共数据专区授权运营管理办法(征求意见稿)》鼓励公共数据专区探索市场自主定价模式,以及探索数据在产业发展和行业发展相关应用场景按需有条件有偿使用;广州的《广州市数据条例(征求意见稿)》推动将数据要素纳入国民经济和社会发展的统计核算体系,鼓励企业将数据资源纳入财务报表。

马斯克计划用X数据训练AI,强调*只使用公开内容*

兴业证券指出,AI大模型有望成为第一个能够变现数据要素的场景。由于算力成本和商业模式的限制,国内市场有望率先商业化落地针对2B垂直领域和基于大模型经过精细调整后的小模型。只有掌握核心行业数据,才能训练出适用于行业的垂直大模型。在AI投资中,除了算力和算法,数据也是非常重要的。