Vana计划让用户租用他们的Reddit数据来训练人工智能_地球与科学

　　在人工智能爆炸式发展的时代，数据是新的石油，那么为什么你不能销售自己的产品呢?

　　从大型科技公司到初创公司，人工智能制造商正在同时从数据经纪人那里获得电子书、图像、视频、音频等授权。旨在培训更有能力的人(以及更受法律保护的)人工智能产品。Shutterstock与meta、谷歌、亚马逊和苹果进行交易，为模型训练提供数百万张图像，而OpenAI与几家新闻机构签署了协议，在新闻档案上训练其模型。

　　在许多情况下，这些数据的个人创造者和所有者从未见过一分钱的现金转手。一家名为Vana的初创公司想要改变这种状况。

　　安娜·卡兹劳斯卡斯和阿特·阿巴尔是在麻省理工学院媒体实验室的一堂课上认识的，他们专注于为新兴市场开发技术，并于2021年共同创立了Vana。在加入Vana之前，Kazlauskas在麻省理工学院(MIT)学习计算机科学和经济学，最终离开麻省理工学院，从Y Combinator旗下创立了一家金融科技自动化初创公司Iambiq。阿巴尔是一名受过培训和教育的企业律师，在担任波士顿咨询公司The Cadmus Group的影响力采购职位之前，他曾是该公司的合伙人。Appen数据标注公司。

　　Kazlauskas和Abal与Vana一起着手建立一个平台，允许用户将他们的数据(包括聊天记录、录音和照片)“汇总”成可以使用的数据集。可以用来训练人工智能模型。他们还想创造更多个性化的体验——例如，基于你的健康目标的每日激励语音邮件，或者了解你风格偏好的艺术创作应用程序——通过对这些数据的公共模型进行微调。

　　“Vana的基础设施有效地创建了一个用户拥有的数据仓库，”Kazlauskas告诉TechCrunch。“它通过允许用户以无人值守的方式汇总他们的个人数据来实现这一点……Vana使用户能够拥有人工智能模型，并在人工智能应用程序中使用他们的数据。”

　　这是Vana向开发者介绍其平台和API的方式:

　　在Vana创建一个帐户非常简单。在确认你的电子邮件后，你可以给你的数字化身附加数据(比如自拍、自我描述和录音)，并探索基于该平台和Vana数据集构建的应用程序。应用程序的选择范围从chatgpt风格的聊天机器人和交互式故事书到Hinge配置文件创建者。

　　图片来源:Vana

　　现在，你可能会问，在一个数据隐私意识和勒索软件攻击日益增强的时代，为什么有人会自愿向公司提供他们的个人信息?默默无闻的创业公司，更别说风投支持的公司了?(到目前为止，Vana已经从Paradigm、Polychain Capital和其他支持者那里筹集了2000万美元。)在不滥用或不当经营房地产方面，营利性公司真的值得信赖吗?他们有什么可货币化的数据吗?

　　图片来源:Vana

　　在回答这个问题时，Kazlauskas强调，Vana的总体目的是让用户“重新控制他们的数据”，并指出Vana用户可以选择自托管他们的数据，而不是存储数据。托管在Vana的服务器上，并控制他们如何存储数据。数据与应用程序和开发人员共享。她还认为，由于Vana通过向用户收取月费(起价3.99美元)和向开发者收取“数据交易”费(例如:将数据集转移到训练人工智能模型中)来赚钱，因此公司不愿利用用户及其携带的大量个人数据。

　　Kazlauskas说:“我们希望创建由用户拥有和管理的模型，这些用户都贡献了他们的数据，并允许用户将他们的数据和模型带到任何应用程序中。”有什么用呢?

　　现在，虽然Vana并没有把用户数据卖给公司来训练人工智能模型(至少他们是这么声称的)，但他们希望允许用户自己做这件事，如果他们愿意的话——从Reddit上发布他们的帖子开始。

　　本月，Vana推出了他们所谓的Reddit数据DAO(数字自治组织)，这个程序汇集了多个用户的Reddit数据(包括他们的业力和帖子历史)，并允许他们共同决定如何使用这些组合数据。在加入Reddit账户，向Reddit提交获取数据的请求并将其上传到DAO后，用户有权与DAO的其他成员一起投票决定是否将合并后的数据授权给人工智能公司进行共享。利润分享。

　　这是对Reddit最近将其平台上的数据商业化的回应。

　　Reddit之前无法访问用于一般人工智能培训目的的帖子和社区。但去年晚些时候，在IPO之前，该公司改变了路线。自从政策改变以来，Reddit已经从包括谷歌在内的公司那里收取了超过2.03亿美元的许可费。

　　Kazlauskas说:“DAO的主要想法是将用户数据从那些试图囤积和货币化的主要平台中解放出来。”“这是我们第一次帮助人们将数据汇总到用户拥有的数据集中，以训练人工智能模型，这是我们努力的一部分。”

　　不出所料，Reddit——不以任何官方身份与Vana合作——对DAO不满意。

　　Reddit禁止了Vana专门讨论dao的版块。Reddit的一位发言人指责Vana“利用”了其数据导出系统，该系统旨在遵守《通用数据保护条例》和《消费者隐私法》等数据隐私法规。加州的消费者。

　　“我们的数据管理允许我们对这些实体设置障碍，即使是公共信息，”一位发言人告诉TechCrunch。“Reddit不会与商业企业分享个人、非公开数据，当Reddit用户要求从我们这里导出他们的数据时，他们会根据适用法律从我们这里收到非公开的个人数据。洋葱。Reddit和版主组织之间的直接合作关系，有明确的条款和责任，问题和伙伴关系，这项协议防止滥用目的和滥用人们的数据。”

　　但Reddit真的有理由担心吗?

　　Kazlauskas设想，DAO将发展到影响Reddit向客户收取数据费用的程度。这是一个很渺茫的机会，假设它会发生;DAO只有141,000多名成员，只是Reddit 7300万用户群的一小部分。其中一些成员可能是机器人或重复帐户。

　　然后是如何公平分配dao可以从数据购买者那里收到的付款的问题。

　　目前，DAO根据用户的Reddit业力奖励“代币”——加密货币。但因果报应可能不是衡量对数据集贡献质量的最佳标准——尤其是在机会较少的小型Reddit社区。

　　Kazlauskas提出了一个想法，即DAO的成员可以选择分享他们的人口统计和跨平台数据，从而使DAO更有价值，更鼓励注册。但这也需要用户对Vana更加信任，以负责任的方式处理他们的敏感数据。

　　就我个人而言，我不认为Vana的DAO会达到临界质量。路上的障碍太多了。然而，我认为这不会是对越来越多用于训练生成人工智能模型的数据进行控制的最后一次基层努力。

　　像Reproduction这样的初创公司正在寻求让创作者制定规则，指导他们的数据如何用于教育目的，而像Getty Images、Shutterstock和Adobe这样的提供商则继续测试补偿计划。但目前还没有人能够破译它。这可能吗?被破解?鉴于创新人工智能产业的高昂性质，这当然是一个艰巨的任务。但也许有人会找到办法——或者政策制定者将被迫找到办法。

一物网声明：未经许可，不得转载。