一年一度的万圣节来临,有很多明星在这两天曝出了自己玩Cosplay的照片。小S的大女儿许曦文Elly和二女儿许韶恩Lily也晒出了照片。这两姐妹Cosplay的形象组合在一起刚好是天使与恶魔,风格完全不同。
这次,在Elly和Lily的Cosplay中,Lily完胜。赚足了观众们的眼球。她穿上仙气十足的白色连衣裙,带上梦幻漂亮的翅膀,安静地坐在那里,原本就甜美可人的Lily更加像仙女。
Lily一公开照片,立刻上了热搜。网友看过照片后,也是马上被她吸引了。直接在照片下面评论”真的好像林志玲”、”Lily好美”、”直接女团出道吧”、”小S好会生”、”有林志玲的感觉,也有张元英的感觉,女团门面担当”等等。
这组”天使”大片得到了一致好评。这身装扮很适合她,清新脱俗宛如电影女主角。
我在这里随便讲一个关于 gpt 4.0 聊天的故事。我并不是直接评论这篇文章,只是想说一个相关的趣闻。我当时在用 chatgpt 帮我写一些 Android opengl 渲染代码。OpenGL 可能非常深奥,我至少有 10 年没碰过它了。
一切都很顺利,我也有了一个可用的示例,于是我决定上网找一些示例代码来验证我的操作是否正确,有没有犯任何明显的错误。就在那时,我发现了聊天 gpt 给我的代码的逐行拷贝。那时候它还不会谷歌,代码也比 openAI 早。它甚至还发现了变量中的拼写错误,唯一的改动只是将注释从西班牙语翻译成了英语。
在我的印象中,chat gpt 只是从信息源中学习,然后大致根据信息源给出一个新结果。我认为这里的一些干扰因素有:1.这是一个非常特殊的用例,没有多少实例存在;2.所有 opengl 代码在某种程度上看起来都差不多。
最糟糕的是,代码或 repo 都没有提供许可证,所以我这样批发代码是不合法的。现在,我在向 chat gpt 索要代码时更加谨慎了,我现在只让它给我指明方向,不再使用它生成的 “示例代码”。
> 我一直以为聊天工具 Gpt 只是从信息源中学习,然后大致根据信息源给出一个新结果。我认为这里的一些干扰变量是:1.
如果我对转换器论文的理解没错的话,这些东西会根据它们接受过的训练来概率性地猜测单词,并根据提示、它们已经生成的单词以及它们 “认为 ”接下来可能生成的单词(它们会进行一定程度的前瞻)对概率进行动态加权,然后通过统计猜测哪些单词或单词最重要或最重要,对所有这些进行另一套概率加权调整。
这些都不会妨碍它们准确地吐出它们在训练数据中看到的内容。要防止它们经常这样做,就需要在上述所有统计信息中引入 “噪音”,也许还需要在生成后设置一个闸门,检查生成的信息是否与训练数据过于相似,如果是,就强制重新运行(也许会有更多的噪音),就像防止它们说种族歧视之类的话一样。
你的理解是正确的。LLM 是什么,至少在目前的状态下,与简单的马尔可夫链生成器没有本质区别。
从技术上讲,这当然要复杂得多。虽然有一些令人难以置信的矢量数学和令牌重路由技术;但就如何从输入中获得输出而言,核心层面上仍然是 “我经常看到 x 与 y 的关系”。
它们不学习、不思考、不推理。它们是概率引擎。如果有人告诉你他们的 LLM 不是这样,那它只是被涂上了蛇油,看起来不是这样。
我同意这个领域有一大堆蛇油,但总体上我不同意你的观点。
我从小就玩马尔可夫模型*,LLM 确实不只是这样。
所有你承认但又轻描淡写的东西,才是真正的学习,它告诉我们哪些先前的标记是相关的,以及对它们的关注程度。这种学习创建了一个世界模型,该模型在功能上(勉强但在功能上)可以进行近似推理的操作。
统计和概率是它实现这一功能的机制,但仅此并不能使它成为马尔科夫链,马尔科夫链是一种非常特殊的东西,其局限性更大。
例如:考虑一个包含 128k 标记的上下文窗口,每个标记有 64k 个可能的离散值。如果以马尔可夫链的形式实现,则需要一个 (2^16)^(2^17) x (2^16) 条目的转换矩阵(除非我把其中一个数字弄反了,但不管怎样,你都能理解)。这样的矩阵太多了,因为太多,所以你必须创建一个函数来近似这些转换。但即便如此,只有当它是一个确定性函数时,才能作为马尔可夫链使用,而由于温度设置(通常)不为零,实际行为并不是确定性的。
* 我在 6 岁左右时看过 Commodore 64 的用户指南,所以当时并不太明白,但就是这么回事
我这里有原始指南。你还记得是在哪里发现这个的吗?在弹跳球精灵演示之前?
很遗憾,34 年后的今天,我已经不记得了。
我只能描述一下这段代码/列表:
它创建了几个单词列表(我记得这些列表有形容词、名词、动词?),在主循环中,它会记录刚刚从哪个列表中选取了一个单词,以便决定下一个单词的选取–例如,如果它刚刚选取了一个形容词,那么就可以选取另一个形容词或者继续选取一个名词;如果它刚刚选取了一个名词,那么就可以结束句子或者继续选取一个动词–然后它会从哪个列表中随机选取一个单词。
我当时还小,如果手册再长一点,我就会犯语法错误了。
(也许事实会证明我家的用户手册甚至都不是官方的,不过我记得它是厚厚的蓝色东西,和我在网上看到的图片一致)。
没有思考能力,就无法编写软件代码。没有思考能力,就无法巧妙地应对情绪表达。如果那是蛇油,那么我们都是会走路、会说话的蛇油。
我们的方法和他们的方法不一样。他们只是从字面上预测下一个可能的代币。它们的方法令人惊叹,它们能做得这么好也令人惊叹,但人类的思维要比预测细致得多。
人工智能看似如此推理,并不是因为它们在进行推理,而是因为它们的训练数据中蕴含着惊人的推理量。
实际上,人工智能的思维方式就像电影屏幕上的人物会动一样。这是个小把戏,区别可能很迂腐,但要真正讨论它的影响,这一点非常重要。
据我所知,我们不知道自己是怎么做到的。我们对高层次行为是如何产生的知之甚少。所以,你不能说我们不是用同样的方法做的。
当然可以,人类从更少的数据中学习得更快,而且不会产生同样程度的幻觉。它们所做的很可能与我们所做的部分相似,但它们缺少关键的组成部分,而且我觉得并非所有的组成部分(例如同理心和创造力)都可以在人类体验之外复制。
你是在从结果推断实施,并做出判断,因此两者并不相同。这样做是无效的。你可以举出无数例子来说明,同样的技术原理被使用,但现在的结果却大为改观。比如平版印刷。
你也可以看看考拉,说它们的功能与我们完全不同,因为它们几乎什么都学不会,而且非常愚蠢。
我肯定会提出考拉的功能与我们不同的论点,这也是通过观察得出的,完全可以这么做。
你的理论太复杂了,对我来说没什么意义。
我们通过模仿他人来学习自己的行为。
你可以清楚地看到人们和他们父母的行为模式。
例如,一个男孩的刷牙方式和他父亲一样。
我真的不知道你认为你的大脑在做什么?难道你从来没有思考过,但却采取了不同的行动?比如拖延症?说出来的东西之后会想 “啊,我应该做 x 而不是 y”?
> 没有思考能力,就无法编写软件代码。
反例:使用遗传算法编写 Corewars 程序:http://www.corewars.org/docs/evolving_warriors.html
> 没有思考能力,就无法有技巧地应对情绪表达。
反例:ELIZA: ELIZA.
如果一个罐子里有 8 颗蓝色珠子和 2 颗红色珠子,我让计算机从罐子里抽出一颗珠子,而它抽出的是一颗蓝色珠子,那么它真的考虑过给我这颗珠子吗?
> 没有思考能力,就无法编写软件代码。没有思考能力,就无法巧妙地应对情绪表达。
当然可以。
https://en.wikipedia.org/wiki/Chinese_room
他们不是在 “有技巧地 ”回应,你是在把情绪投射到一堆冷冰冰的文字上。
这就好比编写一个程序,它有一些固定的字符串,比如 “我感到悲伤 ”或 “我很沮丧”,当它看到这些字符串时,就会输出 “很遗憾听到这个消息。我支持你,爱你”。这些话可能是安慰性的,而且来得正是时候,但却没有任何感情或想法。
>但没有任何感觉或想法。
你如何用经验来衡量这一点?
人类可以测量感觉,计算机却不行。因此,我可以说 ChatGPT 没有足够的感觉,但它永远无法反过来说我没有足够的感觉。
这让人感觉很简单,但我们面对的是人类的基本概念。我认为完全没有理由假设计算机程序与人类思维处于同一领域,而这正是很多人(你)所说的。
我们的目标不应该是证明 ChatGPT 和人类是不同的,因为在我看来,这是显而易见的,也应该是我们的出发点。相反,我们应该反其道而行之,证明 ChatGPT 和人类是没有区别的。然后,也许我们可以考虑赋予这个计算机程序以人权,比如以变革的方式使用受版权保护的媒体的权利。
啊,但这真的很难做到。所以人工智能技术兄弟们没有这么做,而是朝着相反的方向努力。
他们一开始就已经学会了。这叫训练。
这和我们人类做的事情是一样的,只是速度更快,而且专注于我们给它的内容。
思考 “什么是思考?回忆你学到的东西?
维基说:”它们最典型的形式是判断、推理、概念形成、解决问题和深思熟虑。但其他心理过程,如考虑一个想法、记忆或想象,通常也包括在内”。
和 LLM 谈话,它会很好地反映这些概念。
推理”:即使是人也不会推理。我曾与很多不讲逻辑的人进行过讨论。而LLM精于推理的好例子也不少。看看 Grok2,再等等 GPT 5。
尽管 LLM 的成就可能意味着更多,但你却把它说得一无是处。我们也只是概率引擎的可能性有多大?
我们人类比 LLM 更有个性,我们的大脑中确实有更多的机制,比如时间成分、情感互动、社会系统。
甚至你提到的 “马尔科夫链 ”也不正确: LLM架构并不是马尔可夫链的工作原理,否则我们就不会有LLM的缩放问题…
> LLM 是什么,至少在其当前状态下,与简单的马尔可夫链生成器并无本质区别。
其输出可能只包含提示中的单词,而不包含训练集中的单词。(我就从 /dev/urandom 中得到的一个 “单词 ”询问了必应聊天机器人)。
我不认为马尔科夫链能处理这种情况。
我还记得关于生成音乐的 ML 服务的类似新闻:它们能够重现受版权保护的歌曲的旋律和歌词(如果你能找到绕过歌曲或艺术家标题过滤器的方法),甚至还能重现嘻哈音乐中的制作人标签。
所有这些最新的 ML 增长都建立在大量侵犯版权的基础上。
这不是侵犯版权。
也许我自己不会,但很多天赋平平的艺术家都会画米老鼠。
如果我提出要求,他们甚至可以为我画一幅!或者我可以直接在谷歌上找到它……(严格来说,是我的电脑在屏幕上制作出来的……)
这本身并不侵犯版权。但如果我将其用于商业用途,那就违反了版权法。
制作受版权保护的东西并不违法。用户有责任不以非法的方式(非合理使用或授权)使用受版权保护的东西。
我想指出的是,你不能将人类学习与 “ML 学习 ”相提并论,后者基本上是从受版权保护的材料中计算系数。这些系数难道不属于 “衍生作品 ”的范畴吗?
ML 模型的 “学习 ”方式与人类的 “学习 ”方式不同,虽然它们使用了 “学习 ”这个具有误导性的词,但其含义却完全不同;此外,ML 模型不是人类,因此它们不受法律约束,而进行计算的工程师才受法律约束。
因此,将计算 ML 模型参数的人与学习艺术的人相提并论是不正确的;你应该将使用受版权保护的资料中的数据进行计算的工程师与学习艺术的人相提并论。显而易见,这两种情况并不等同。而且那些工程师在这个过程中并没有学到任何东西,所以他们不能用这个类比作为借口。
这些服务可以复制受版权保护的内容,这证明这些内容是在培训过程中使用的。这些内容是合法获得的吗?你认为像 Udio 这样的服务是如何购买数百万张 CD 的?还是他们从其他地方获得了培训材料?例如,你不能从流媒体服务中合法下载内容。
> 制作受版权保护的东西并不违法。
制作和复制没有区别。让我们举一个现实世界的例子:音乐采样。音乐采样有一套完整的信息交换程序,或多或少是上世纪 80/90 年代采样大热之后形成的。唱片公司和艺术家都说:“嘿,这是我的歌”,法院同意了,于是就有了市场。
这与现在发生的代码采样非常相似。开发者会说 “嘿,这是我的代码”。但这就是我们的分歧所在,这可能是因为大公司没有参与其中。人们在采样大西洋唱片公司的产品。人们采样的不是微软的东西,而是 GitHub OSS 项目人员的东西。
但就你的观点而言,你基本上是在说,只要没人听 “Bitter Sweet Symphony ”就没问题。大多数人认为,侵犯版权的不是最终用户(听众),而是抄袭方(The Verve)。即使我们在这里接受你的原则,你也给使用 Copilot 等服务的人带来了太重的负担。难道我要检查我自动完成的所有内容是否都获得了授权?你说了这么多,差不多就是在说 “关闭这些服务”。
> 制作受版权保护的东西并不违法
严格来说,这不是真的。复制作品的权利受版权法保护,无论复制是否具有商业性质。
那又怎样?当我们谈论代码或艺术品时,大多数用途都会涉及到有人将生成的结果发布到某个地方。
> 但如果我将其用于商业用途,那就侵犯了版权。
不,这是不正确的。商业使用与此无关。任何传播行为,不管是商业用途还是个人用途,不管是收费 10 万美元还是 0 美元,都属于版权法的管辖范围。
通常情况下,如果有人以如此绝对的语气谈论法律,你可以不予理睬,尤其是在版权方面。
美国版权局有一些关于合理使用的指南,非商业使用和个人使用都被列为法院在判断未经许可的复制是否构成侵权时的考虑因素:
https://www.copyright.gov/fair-use/
你在技术上是正确的,但这忽略了《数字千年版权法》对小鱼小虾的一些不幸现实。
大公司正在并将继续为改变版权观念而斗争,因为他们花了几十年的时间来加强版权,现在版权对他们来说已经不那么重要了。
无论大小,画米老鼠供个人使用的人都不会受到起诉或诉讼。
我差不多就是这么说的,没错。但 “个人使用 ”的说法在你在互联网上发表文章时就结束了。这也是大多数 “大薯条 ”的终点。
但无论如何,这些都是 “中薯条”。大薯条 “不会冒任何风险,除非他们走的是前卫的模仿路线(比如 Adult Swim)。对于 Bungie、微软或 Laika 来说,贴出米老鼠并没有什么好处。
你说得好像人们画米老鼠供个人使用不会被起诉,因为迪斯尼宁愿去起诉那些大公司。
我的意思是,画米老鼠供个人使用是完全合法的,因为这并不违反法律。
我明白了。我们在两个主题中循环。我在这里回复过:https://news.ycombinator.com/item?id=41383588
总之,你也许可以这样做,迪士尼也不会在意,但从技术上讲,在合理使用的限制之外是不允许的。就像在加州鲍德温公园的游泳池里骑自行车是违法的一样,这也是不合法的。关键是:不要赚钱、不要愚蠢、不要不讨人喜欢。
即便如此,大多数平台都控制着内容,他们可能不会为你辩护,而会将其删除。这与其说是法律问题,不如说是平台政策问题。
>人们不会因为画米老鼠供个人使用而被起诉,因为迪斯尼宁愿去起诉那些大公司。
事情比这还要简单。如果一个律师要花费 1 万美元打小额索赔官司,而他们的胜算不大(合理使用)或赔付率很低,那么起诉你就无利可图了。
这就是为什么需要考虑其他因素,比如潜在的品牌损害、吓退模仿者,或者只是莫名其妙地惹怒了错误的律师。
从技术上讲,洪流网站并不托管受版权保护的内容,但你会因此而坐牢。
但人工智能是一种商业产品,能够生产受版权保护的材料。这怎么不是将受版权保护的材料用于商业目的呢?
卡带录音机是一种商业产品,能够制作受版权保护的材料。如果用户将它
录音机没有使用任何媒体作为材料。
是,也不是。严格来说,使用版权信息需要许可证。即使是非商业性的(很明显的例子,如果你在某个非货币化账户上发布茉莉花与希特勒亲热的内容,迪斯尼就可以把它撤下来。或者试试看。这实际上取决于平台是否想争辩合理使用、模仿或其他。不过大多数平台不会为你辩护)。
但从执法角度看,迪斯尼不会对每一个潜在的版权问题都大动干戈。他们会专注于最大的赚钱者或最大的潜在品牌损害。因此,对大多数人来说,只要不傻,为朋友甚至私人客户画一些米老鼠并不值得担心。
你要求它做什么?如果少于 15 行,请告诉我,我会自己写解决方案。你可以看看我写得有多接近。
我想说的是,OpenGL 的许多功能实际上都是模板化的。
> 代码或 repo 均未提供许可证
有趣的是,我认为任何未获得许可的代码都是 “可自由用于任何目的”。
完全不是:除非提供许可证,否则代码完全受版权保护,您无权复制它或以任何方式使用它(除非属于您所在/作者所在司法管辖区的 “合理使用 ”条款)。
相反
无许可证[0]是不提供许可证时的默认后备方案。实际上,这就是 “使用风险自负”,因为没有许可证的人可能根本不知道别人会怎么做(或者你会退回到你发布平台的任何规则)。
https://choosealicense.com/no-permission/
不,版权法不是这样规定的。
如果只有一种方法,或者熟悉该领域的开发者会独立想出同样的方法,那么结果的 “可版权性 ”就会受到质疑。
当然,这并不妨碍你给自己带来法律上的麻烦。
我不明白你的问题。
作为一名软件开发人员,你想因为自己做了和别人一样的事情而生活在恐惧之中吗?即使这个问题基本上没有无限的解决方法?
你想让一定数量的代码成为(c)和专利吗?
我个人不这么认为。我认为对复杂的神奇算法授予有限的专利有好处,因为有人真的坐在那里解决了一个难题,并在短时间内获得了利益,但除此之外,没有其他好处。
我不想检查每一个代码块,看是否有 (c) 或专利。
这种情况我也遇到过好几次,无论是在 chatgpt 还是 phind 上(尤其是 phind,基本上就是在 stackoverflow 上改了几个变量名)。
出现这种情况的一种可能是,您的提示和上下文非常特殊,只有复制的代码才与之匹配。
这也意味着这个特定的问题很罕见,网上可用于训练的示例很少。
>我认为这里的一些混杂变量是:1.这是一个非常特殊的用例,没有多少实例存在;2.所有的 opengl 代码在某种程度上看起来都差不多。
是的,这就是为什么我现在不会相信人工智能,除了最基本的渲染模板。我敢打赌,90% 的渲染配方都是一些实时渲染工作室的普通代码。剩下的,有一半都在教科书中,甚至可能无法在网上搜索到。
LLM’s 还需要一个训练集,我不相信在公共互联网上搜刮这种东西的信息甚至都不存在(如果多年的 googling 让我学到了什么的话)。
原始报告有更多细节:https://www.developer-tech.com/news/judge-dismisses-majority…
尤其是以下内容
该过滤器允许用户 “检测并抑制 ”与 GitHub 上公共代码匹配的 Copilot 建议。
开发者认为,关闭该过滤器会 “接收到相同的代码”,并引用了一项研究,表明人工智能模型如何 “记忆 ”和复制其训练数据的部分内容,其中可能包括受版权保护的代码。
然而,蒂加法官认为这些论点缺乏说服力。他认定,GitHub 复制的代码与开发者的原创作品不够相似。法官还指出,所引用的研究本身也提到,GitHub Copilot “很少在良性情况下发布记忆代码”。
我认为这才是关键点:问题在于复制,而非培训。正如研究报告[1]所指出的,重现通常不会发生,除非你付出额外的努力去重现。
[1] 不确定,但也许是 https://dl.acm.org/doi/abs/10.1145/3597503.3639133?有人能找到文件吗?
> 繁殖通常不会发生,除非你不惜一切代价。
谁又能说,那些想复制你的代码而又不遵守你的许可条款或不付钱的人,就不会多此一举呢?
> 谁又能说,那些想复制你的代码而又不遵守你的许可条款或不付费的人不会做更多的事?
他们似乎可以直接从 Github 下载你的代码,然后违反你的许可条款,所以……我不清楚他们为什么要通过 copilot 这样做。
Copilot 违反了许可协议。因此,即使是行为规范的开发人员也可能在不知情的情况下复制代码,而不遵守许可证。
我不清楚情况是否如此。如果我特别提示图像生成模型生成一张未经许可的蝙蝠侠图片,我不认为法官会同情我的论点,即我出售的 T 恤是 DALL-E 制作的,所以我应该免于任何针对我的版权侵权索赔。
为什么特别提示 LLM 生成类似的受版权保护的代码会有什么不同呢?这里讨论的就是这个问题–人们会 “不遗余力 ”地故意复制你的代码。
在世界法律体系中,“不是我的问题,是工具的问题,尽管我明确指示工具去做发生的事情 ”并不是一个新的辩护理由。一般来说,我们已经能够处理这些问题,而不会出现重大问题。
除非你特意禁用了复制重复过滤器,否则非模板代码出现这种情况是很不正常的。
> 复制通常不会发生,除非你特意去做。
虽然在法律上可能存在问题,但在实践中,这似乎有点 “那又怎样?我们假设的开发人员正在使用一个编写函数的工具。它写出了函数。无论如何,开发人员都会得到一个能实现他想要的功能的函数,因此,如果这个函数碰巧是一个受版权保护的函数的克隆,这显然没有什么区别。
如果是我的 GPL 代码被复制,我是否提出版权索赔似乎也没有什么区别。它不会帮助我与这家开发者的公司竞争。他们会使用 Copilot 以不同的方式重写代码。从代码编写工具的改进速度来看,我并不指望我的代码有什么独到之处。
因为这样你就可以把责任推给 Copilot,而不是直接窃取了
在这一点上,他们还不如复制你的原始代码,而不用通过 LLM 来实现
在这一点上,这个人自己岂不是违反了规定,代码的所有者岂不是可以去找他们算账?(我知道这不是很实际,但这似乎与中间没有 LLM 的情况相吻合)。
这是我在$work 的大型组织使用基于 LLM 的编码工具的主要障碍:潜在的意外重复源代码和法律影响(包括病毒式版权许可复活节彩蛋的风险)。
有可能。但除非他们搜索了 LLM 的所有来源,寻找它所建议的任何片段,否则他们怎么会知道呢?
那么你最终会得到法官允许进行审判的作品。
只有具有表现力的软件才受版权保护,有时这种解释应由陪审团处理。
个人这样做是合法的吧?为什么 LLM 做的就不合法呢?
根据我的经验,我可以查看 GPL 授权库中的解决方案,然后在我的专有代码库中编码该解决方案。比如,”哦,我明白了,他们使用哈希映射来处理这个和这个列表,并在这一点上锁定。我会编写类似的代码”。只要你不 “复制代码”,就不会有问题。
我说错了吗?
这只是规模问题吗?(嘿,LLM,把 OpenOffice 全部改写成 ClosedOffice 吧)。
> 个人这样做是合法的吧?为什么 LLM 做的就不合法呢?
因为人是人。我们拥有额外的超级权利,而电脑程序等无生命的东西却没有这些权利。
因此,我认为我们应该努力证明事实并非如此,但这很难做到。我不知道我们为什么要在一个绝对疯狂、前所未见的假设下工作,即计算机程序应该享有人权。我不知道这种推理是从哪里开始的,也不知道为什么,但它的核心就是荒谬得令人难以置信(而且违背了人类的根本福祉)。
它是在公开代码的基础上训练出来的,这样做有什么意义?如果你想专门侵犯公开网络上可用代码的版权,使用 LLM 代码自动补全引擎就是最迂回、最不可靠的方法。
这不都是为了把社区开发的 GPL 许可代码变成自己的(LLM regurgitatetd)代码,然后再将其变成专有代码,这样既能省下一大笔钱,又不会给原社区带来任何回报吗?
一般来说,法律制度并非如此。如果你禁用了复制过滤器,然后产生了大量复制的 GPL 代码,进而违反了 GPL 许可证,法官不会说:“好吧,够公平了,毕竟你利用了通过 LLM 复制代码的漏洞”。他们会将其视为故意侵犯版权,就像你只是复制和粘贴一样。
我还是要问:为什么?为什么你会认为花费大量时间和精力去诱使模型重复记忆代码,会比正常使用它来实现你想要的功能更好?
的确如此,但 “人工智能 ”目前被认为是一项如此 “重要 ”的技术,以至于没有法官愿意通过执行版权法来 “破坏创新”。如果政界对这项技术的看法发生了不利的变化,这些案件就会走向反面,或者(如果有先例的话)他们会通过法律推翻先例。
“谁能找到文件?”
https://arxiv.org/pdf/2202.07646
就我个人而言,我不会依赖 “developer-tech.com ”这样的博客来获取有关 “人工智能 ”诉讼的公正信息。
我会阅读命令,然后得出自己的结论。^1 (请注意,原告正试图就 DMCA 索赔的撤销提起诉讼间上诉。)
1 https://ia904708.us.archive.org/6/items/gov.uscourts.cand.40…
毫无疑问,我是少数派,但我对合同索赔(已被驳回)比对 DMCA 索赔更感兴趣。如果原告可以通过合同阻止 “人工智能 ”的 “训练”,那么理论上就可以避免违反《数字千年版权法》。
2 例如,许可条款明确禁止使用许可源代码训练语言模型。
合同责任是否存在 “合理使用 ”抗辩^3。
3 https://cdn.ca9.uscourts.gov/datastore/opinions/2006/05/16/0…
> 合同责任是否有 “合理使用 ”抗辩。
没有,但在普通法司法管辖区或其他司法管辖区,任何合同都可能有各种隐含条款,如公平交易。
另外,如果你可以从字面上主张合理使用,除非你签署了一份放弃该权利的合同(如果可能的话),否则就无所谓了。
在美国,大多数软件授权都是为了授予你根据《版权法》已经拥有的权利。没错,根据美国法律,你拥有你收到的授权拷贝。许可证声称你不拥有这些权利,充其量也只是个疑问。公平地说,法院在这个问题上存在分歧,但法律本身的明文规定是非常清楚的,明确授予了为执行需要制作额外拷贝的权利。
而且,当假冒许可证仍然可以通过法律手段 “执行 ”时,这一点就不重要了。大多数人都会选择付钱,而不是与微软打一场旷日持久的官司。
https://www.courtlistener.com/opinion/506070/acorn-structure…
https://www.courtlistener.com/opinion/604886/national-car-re…
虽然我不是法律专家,但我认为就这一具体案件中被驳回的具体索赔而言,复制才是问题所在,而这并不说明任何有关培训的问题。
我认为,如果 GH 拥有通常出现在免费服务 EULAs 上的典型 “使用数据改善服务的权利 ”条款,那么就很难因使用 GitHub 上的代码训练人工智能而向 GitHub 提出索赔。
> 我认为这才是关键所在:问题在于复制,而非训练。正如研究报告[1] 所指出的那样,除非你不遗余力地进行复制,否则复制通常不会发生。
但微软销售的是一种能够进行复制的服务。他们出售的是对包含受版权保护代码的档案的访问权。
在我看来,这就相当于卖给别人一套盗版电影 DVD。这套 DVD 不会 “复制 ”受版权保护的资料,除非你 “提示 ”它这样做(通过翻看这套 DVD 来找到电影,然后把它放进你的 DVD 播放器),但它一开始就已经存在了。
非常不同意您的比喻。很多服务都可以做违法的事情,但一般来说,真正违法的行为才会被起诉。
与你的建议最接近的是 Napster 案的判决,其中一个关键部分是整个服务只涉及版权侵权。在 Github 案中,大多数人都在使用它编写原创代码,这并不违反版权法,因此存在实质性的非侵权使用。
但我怎么想并不重要。法官也不同意这种解释。
通过聊天机器人洗钱就能逃避法律责任?
换个角度看,任何人都可以在不违反许可证的情况下查看源代码,学习如何编程。
如果你编写的程序与你阅读的程序极为相似,那就是侵犯版权。正如另一条回复所指出的–但并没有足够详细–这并非没有风险,打算开发类似系统的人通常会尝试使用一种策略,即让一名工程师阅读原始代码,让他们与律师一起仔细记录,删除所有表现性的部分,然后让另一名工程师根据干净的文档进行开发。
不尽然。
版权并不保护一般概念、方法或常识。因此,你可以编写一个与另一个非常相似的程序,而不侵犯版权。就像你可以写一本与另一本书情节相同的书而不侵犯版权一样。
另外,鉴于大多数编程语言的语法有限,表达一般概念的方法也有限,因此构成大多数程序的单个代码位本身可能并不具有足够的原创性,因而不具有版权。
但结果是,你不能假设情况就是这样:你必须根据具体情况来判断,你正在使用的聊天机器人–它对版权的理解不可能像我们一样细致入微–是否只是学习了一些通用知识,并以一种不会导致侵权的方式加以应用,它生成的代码是否在技术上侵权但属于合理使用,或者它开发的东西是否不被允许。
很多人似乎愿意相信,聊天机器人的输出在任何情况下都是清白的,他们引用了这样的观点:人类可以阅读代码并从中学习……但人类也可以–甚至在不知不觉中!–侵犯版权,并因此而受到惩罚!– 因此,这种类比并不能为聊天机器人开脱。如果我们继续假设聊天机器人的输出是干净的,那么我们就赋予了它洗刷版权的超人能力。
> 他们的策略是让一名工程师阅读原始代码,让他们与律师一起仔细记录,删除所有表达性的内容,然后让另一名工程师根据干净的文档进行开发。
这很有意思。这种策略适用于哪种情况?
(我很熟悉 “无尘室”(cleanroom),据我所知,“无尘室 ”的意思是,一开始要有未受污染的工程师,他们从未接触过专有知识产权,只从未受侵犯的公开文档中工作,并将系统作为一个不透明的盒子运行。然后还有验证,比如并行系统和模糊测试。但我还没有想清楚在什么情况下这可能行不通,因此可能需要采用污点文档的方法)。
这是完整版或经典版的无尘室逆向工程。使用未加密的公开文档相对较新,这种详细的文档并不常见。汽车制造商仍在保护他们的服务手册,并签订了一份协议,基本上是说这些手册不能用于此目的,但我认为很多服务中心都不再让人们在上面签字了。
使用这种技术的经典科技故事是 IBM BIOS 以及由此产生的 “IBM PC 兼容机 ”的传播。维基百科页面(https://en.wikipedia.org/wiki/IBM_PC%E2%80%93compatible)上有一些相关内容。一个偶然的事实是,Netflix 的原创电影 “Halt and Catch Fire ”描述了 IBM 克隆机的逆向工程,而且做得相当出色。
GP 所描述的策略就是洁净室(逆向)工程。
这听起来像是陪审团的程度问题–评估所提交的事实是否足以证明侵权相似性的主张。在本案中,法官认为原告甚至没有接近于证明侵权,因此这个问题从未出现在陪审团面前。
如果我们把问题转移到程度上,那么微软和其他公司就应该对其输出进行监控,因为即使模型不是在受版权保护的材料上训练出来的,你仍然有可能不小心侵权。即使你从未听过 Lady Gaga 的音乐,但这并不意味着你可以利用自己的原创灵感,不小心写出与 Lady Gaga 过于相似的歌曲。换句话说,就像 Ed Sheeran 案一样。
这有什么法律依据吗?这听起来很像谷歌为他们的 Java 引擎所做的事情,谷歌基本上用相同的 API 重写了整个引擎,同时参考了原始源代码。法院不是判定这没有问题吗?
任何人都可以,这是正交问题。这是关于一个自动化工具,它可以大规模地清洗版权,为其运营商创造收入。
(如果你真的说这个工具是在学习如何编程,那么请扪心自问,这个工具的操作者实际上是不是奴隶主。)
说它 “洗钱 ”只有在你声称的立场下才有意义。因此,作为结论/主张可能没问题,我猜你就是这么用的,但作为论证结论的一部分就不好了。
(我的措辞不太好……)。
我一般不认为 “学习 ”只适用于拥有人的权利的实体,因为对这些实体的所有权等同于奴役。
俗话说 “老狗教不了新把戏”。人们普遍认为,与此相反,人们往往可以教会一只年轻的狗新的伎俩。在这种情况下,狗学会了诀窍。我们一般不认为训练动物完成任务是奴役。有些素食主义者可能会这么认为。但这与 “奴役 ”一词的典型观点相去甚远。
那么,我是说这些语言模型和狗一样拥有权利和思想吗?不,远非如此。不过,我并不反对这样使用 “学习 ”一词。
有些人说:“既然是为了学习,大规模自动摄取受版权保护的资料是可以的”。他们为此使用了两种论据。
论据 A:
A1. 从看到的事物中学习是一项基本人权。你浏览互联网,阅读源代码,你就能学到东西。不管许可证是什么,你都有这样做的自由。
A2. 这叫 “机器学习”,所以机器也会这么做。
A3. 机器学习可以使用其操作员所能掌握的任何内容。
这显然是错误的,因为机器被赋予了人权。我们可以争论赋予某物人权的先决条件到底是什么–也许不是特定的生理结构(有些人可能会说某些聪明的非人类动物理应享有人权),但可以肯定的是,它必须有知觉和意识。与此同时,人工智能技术之所以如此发达,就是因为没有任何有知觉的生物能够理解(因此也就没有权利得到善待和回报)。如果剥夺了这一点,赋予人工智能以人权,那么这项技术就没有意义了。
因此,要么机器拥有人类级别的智商,并被迫工作(人类通常认为这是一种 “奴役”)、按需出生和被杀等等;要么机器在我们所考虑的意义上没有学习能力,因为它只是人类操作者的一个不假思索的工具。
这就引出了论点 B:
B1. 从看到的事物中学习是一项基本人权。你浏览互联网,阅读源代码,你就能学到东西。不管许可证是什么,你都有这样做的自由。
B2. 如果你使用电脑或[插入技术]来学习,这没有问题。
B3. LLM 只是该技术的另一个实例。你使用 LLM,你就能学习。
这是错误的,原因略微微妙,但好在有多个原因。
首先,在使用 Copilot 为自己制作作品的过程中,是否有人学到了东西并不明确。如果我让 Copilot 帮我写一个斐波那契数字发生器,我学会写了吗?如果我让 Midjourney 帮我画一幅毕加索风格的 2055 年洛杉矶天际线,我学会画画了吗?
其次,这是一个至关重要的谬误,制造一台著名的计算机并不需要摄取你随后可以通过该计算机访问的所有受版权保护的资料。没有版权材料,上述计算机也能正常运行;然而,LLM 却不能。
制造你正在使用的电脑所需的投入(知识和部件)大部分是通过普通途径获得的(专利授权、硬件付费),而制造 LLM 所需的投入,有人会说,实际上是偷来的。
我认为其中的一个区别在于,你认为默认情况下 “不允许出于任何目的使用作品,人们可以查看作品并从中学习的唯一原因是他们拥有这样做的人权,而这一权利优先于默认情况”,而我则认为 “默认情况下,只要不违反特定法律(如禁止分发作品副本或其中大部分内容的规定等),你可以对媒体为所欲为”。.
因此,我认为把事情与 “这是一项基本人权 ”联系起来是错误的。
论点不是 “可以这样做是一项人权,因此是允许的”。而是 “这并不违反任何可能禁止的规则”。.
> 一个不同之处在于,你把事情默认为 “无论出于何种目的都不允许使用作品,人们可以查看作品并从中学习的唯一原因是,他们有这样做的人权,而这一人权超越了默认情况”。
我认为在法律上默认的是 “可以在所有者允许的范围内使用”。如果所有者没有明确说明,那么默认情况就是 “不能分发”。
这要归功于财产的概念,更具体地说,是知识产权促成了许多创新(包括计算机和 LLM 本身)。
如果你认为某种知识产权共产主义–你创造了东西,但你不能拥有它,你只能得到别人给你的东西–是最好的,那么很公平,这是你的观点。
虽然我不认为完全的知识产权共产主义(如你所言)是最好的,但我认为比我们现在所拥有的更接近于它的东西可能会更好。(主要是适当缩短版权期限,使其更接近美国早年的情况)。我想我同意,如果实施得当,这对促进创新/好东西的生产是有好处的。(我也认为商标法和专利法的存在也是好事,尽管它们也可能存在一些缺陷)。
嗯,关于默认设置,我的理解是,“默认情况下,你可以随心所欲地处理任何数据,但由于版权法规定了版权,你被禁止分发受版权保护的作品副本,或分发(或公开表演)实质上基于该作品的东西,除非你是根据版权持有人的许可这样做的”。因此,由于法律只限制作品副本、作品部分或实质上基于作品的衍生作品的发行/公开表演,版权人除了可以在其授予的发行或表演许可中附加条件外,并不能规定可以对作品做什么。在我的印象中,如果你没有发行或表演作品或衍生作品,那么版权就不会限制你(在这些事情之外)可以对作品做什么。此外,在我的印象中,“衍生作品 ”并不包括以任何方式基于作品的一切行为,而只包括满足某些条件的行为,如实质性相似、是否与原作品竞争等(但我认为最后一点是已确立并反复出现的先例,而不是法律?)
不过,我对法律不是很精通,不知道这与使用软件的许可证有什么关系!我猜想,软件是一个特例,如果不是特例,那么法律上就不需要为了允许运行软件而同意软件许可证?但这只是我的猜测,如果我的猜测是错的,那就说明我的另一个猜测也是错的?
顺便提一句:我认为财产是一个比知识产权更自然的概念。在我看来,知识产权是由国家创造的,但财产更普遍的意义是在国家之外(我不说它早于国家,因为我不知道;我远不是一个历史学家)。
> 我的印象是,如果你没有分发或表演作品或衍生作品,那么版权并不限制你可以对作品做什么(在这些事情之外)。
像ClosedAI这样的LLM运营商正在大规模商业发行衍生作品。
只有在 “衍生作品 ”的意义上才是如此,而 “衍生作品 ”的范围相当广泛,我认为版权法并不限制这一点(尽管这一点仍有待法院解决)。要构成对版权的侵犯,仅凭一部作品对另一部作品产生了因果影响是不够的。
我认为有一种检验标准被称为 “三重检验标准”,这三重检验标准是(我记得):
1) 实质相似性:被控侵权作品是否与被控侵权作品实质相似
2) 被控侵权作品是否对被控侵权作品产生了实际的因果影响?
3) 被控侵权作品能否(在经济上)替代被控侵权作品?
第三条似乎得到了满足。第一条不符合。第二项似乎也符合要求,但我不太相信我的想法是否正确(尽管我可能对这三项的整体理解有误)。
> 如果你认真地说,这个工具正在学习如何编程,那么请扪心自问,这个工具的操作者实际上是不是奴隶主。
这不符合逻辑。我不明白为什么知识和智慧必然意味着它有自主的欲望,而这正是奴隶制令人深恶痛绝的原因。
你可以扪心自问,几代人之后,契约仆人会有多少自主欲望。我们人类几乎可以习惯一切。我想,仅仅因为你从未有过(或甚至无法想象)自由而习惯于被虐待和不渴望自由,并不能说明被虐待或缺乏自由就是 “好事”。
> 我不明白为什么知识和智慧必然意味着对自主的渴望。
我会用 “知识、智力和类似人类的智商 ”来代替。有人提议赋予工具人类通常拥有的权利。(人类可以在任何许可下通过阅读任何东西来学习,为什么工具就不可以呢)。那么,你会认为这些权利需要类似人类的智商/意识,而类似人类的智商/意识会渴望适当程度的自主权。
> 我们人类几乎可以习惯一切。据推测,仅仅因为你从未有过(或甚至无法想象)自由而习惯于虐待和不渴望自由,并不能使被虐待或缺乏自由成为 “好事”。
我认为这不靠谱。你可以看到你的奴隶拥有你没有的自由,毫无疑问,你也会渴望像他们一样摆脱枷锁,所以想象一下并不困难。
> 有人提议赋予工具人类通常拥有的权利。(人类可以在任何许可下阅读任何东西来学习,为什么工具就不可以呢?) 那么,你会认为这些权利需要类似人类的知觉/意识。
我不明白为什么某些实体或工具需要有知觉才能拥有像人类一样学习和合成新事物的权利。版权是一种法律上的虚构,它有其作用,我们可以在任何我们喜欢的情况下授予这些权利,只要我们认为这是个好主意。
如果你认为 LLM 无法想象这种 “自由”,那么我要说,那么 LLM 和人类就有了本质的区别。因此,不应该赋予 LLM 以人权。
我认为这是一个既要吃蛋糕又要吃蛋糕的问题。你不能说法律硕士应该享有某些人权(尤其是能带来收入的人权),而不享有其他人权,比如自由权。
> 我不明白为什么某些实体或工具需要有知觉,才有权像人类一样学习和综合新事物。
相反,我不明白为什么不需要智商。
这些法则,就其存在的意义而言,只适用于人类。狗不能使用它们。植物也不能使用它们。因此,说你必须是人类才能使用这些权利是合理的。在我看来,不合理的是声称计算机程序应该被赋予这些权利。你必须证明为什么要这样做,这样做对整个人类有什么好处。
事实证明,这很难,所以人工智能人不会这么做。他们只是放弃了。相反,他们从一个能让他们的意识形态处于有利地位的假设出发–那就是计算机程序应该被赋予人权。
但你会发现,这个假设其实并不可靠。如果你四处打听,很多普通人都会认为这是荒谬的。他们可能会说你疯了。所以,对我来说,你必须用实际行动来证明这一点。
> 你不能说 LLM 应该享有某些人权(尤其是能带来收入的人权),而不享有其他人权,比如自由权。
没有证据表明情况确实如此。这些权利并不一定全有或全无。对人类来说,这些权利要么全有,要么全无,因为人类拥有一系列属性,而这些属性包含了这些权利,但人工智能可能只拥有这些属性的一个子集,因此从逻辑上讲,人工智能可能只获得这些权利的一个子集。
> 相反,我不明白为什么不需要有知觉。
知觉是一种感觉能力。学习所需要的只是感知和思考的能力。也许这两者之间存在着某种深刻的内在联系,但目前还不得而知,因此我认为没有理由将两者联系起来。
> 在我看来,不合理的是声称计算机程序应该被赋予这些权利。
人类虐待 “低等动物 ”的历史由来已久,因为我们认为它们是愚蠢的、没有知觉的。事实证明并非如此。我们不应该因为思想开放而导致大脑脱落,但我们也应该非常警惕重蹈覆辙。
> 我们不应该思想开放到脑浆迸裂的地步,但我们也应该非常警惕重蹈覆辙
正是如此,所以说人工智能不能被赋予自由权对我来说是完全没有意义的。
我的意思是,你在这里争论什么?你难道不明白我的这番话是支持而不是反对我的立场吗?
> 感知是一种感觉能力。学习所需要的只是感知和思考的能力。
值得商榷。这是你瞎编的。这些不是任何东西的定义。再说一遍,你必须拿出实实在在的东西来,否则别人会说你疯了。
> 因此,我认为没有理由将两者联系起来。
再说一遍,这是你的问题所在。你从一开始就在假设自己的立场。你不能这么做,尤其是在人类历史上,这个假设从来没有一次是正确的。
恰恰相反,我认为没有理由不把这两者联系起来,而你肯定也没有给出任何理由。这些权利一直只适用于人类。我认为我们应该保持这一现状,直到有人提出相反的理由。
> 人工智能可能只具有这些特性的一个子集
要想把这些特性拆分开来,你需要了解它们是什么,并从第一原理上给它们下好定义。长话短说,如果你已经解决了意识这个难题,我们正翘首以待你那篇震惊世界的论文。
在我看来,声称 LLM 在摄取数据时足够像一个人,但当它的权利开始受到关注时,它突然就只是一个工具,是一种没有必要的哲学探究水平支持的精神体操。
> 人类虐待 “低等动物 ”的历史由来已久,因为我们以为它们是愚蠢的、没有知觉的。事实证明并非如此
如果你把这种逻辑应用到 LLM 上,你就会遇到比赋予它们单一权利更大的问题,只有在涉及版权清洗时,它们的经营者才会处于明朗状态。
> 你可以看到你的奴隶拥有你没有的自由
酷,那么奴隶看不到奴隶主的奴隶制(我们称之为 “适当隔离”)就可以了吗?
> 我不明白为什么某些实体或工具需要有知觉才能像人类一样学习和合成新事物。
如果学习的 “权利 ”不需要智商,那我就没什么好说的了。那里根本就没有什么学习。学习是一个概念,它假定一个实体具有意志、愿望和意识。
> 酷,那么奴隶看不到奴隶主的奴隶制(我们称之为 “适当隔离”)就可以了吗?
对不起,即使是 “适当隔离 ”也不能抹杀人们对自主的渴望。
> 如果学习的 “权利 ”不需要有知觉,那我就无话可说了。那里根本就没有什么学习。学习是一个概念,它假定一个实体具有意志、愿望和意识。
学习并不假定有这样的东西,而且我也不认为你理解了有知觉的含义。
> 对不起,即使 “适当隔离”,也不能抹杀对自主的渴望。
很好,那么在涉及到 LLM 时,如果我们要认为它们是有知觉的(作为学习的前提条件),那么在滥用方面,我们的观点是一致的。
> 学习并不预设任何这样的事情,而且我也不认为你理解 “有知觉 ”的含义。
去查查吧。
如果我们能训练出人类的自主欲望,那么即使他们自愿接受奴役和/或得到丰厚的补偿,也不会减少对人类奴役的憎恶。
这绝对会降低奴役的可憎程度。也许你认为它仍然令人憎恶,但这是值得商榷的。在像 BDSM 社区这样的地方,人们确实同意扮演类似奴隶的角色,有些人可能会觉得这令人厌恶,但并不违法或在道德上令人憎恶,因为这些人仍然有自主权在任何时候选择退出。
我也怀疑是否有可能训练出自主的欲望。探索-开发是任何决策的基础,比如觅食。这种倾向比高级大脑功能更为深层。
同意意味着类似人类的意志和意识。BDSM 是一种游戏场景,而游戏在未经同意的情况下就不再是游戏了。
我不明白为什么意志需要意识。人们很喜欢认为人的品质是不可还原的,并做出了太多的简化假设,而这些假设都是没有道理的。
我没有写自愿需要意识。同意需要意志和意识。
在我看来,与 “训练 ”相对的 “学习 ”一词包含了自主性。
即便如此,这些词还是有很多含义,有时甚至是相互排斥的含义(“机器学习 ”中的 “学习 ”与 “活到老学到老 ”中的 “学习 ”大相径庭)。我想知道,如果这些词没有精确的法律定义,甚至连作为人的含义都没有,法院如何能正确地考虑所有的影响。
> 任何人都可以,这是正交的。
这正是这里的情况。在这种情况下,任何人碰巧都是 LLM。
LLM 不是 “任何人”,因为 LLM 是一个事物,但 “任何人 ”指的是人。如果你认为 LLM 是人,那么你就应该扪心自问,他们受到经营者这样的对待,是否正在遭受虐待。
我看不出有什么理由认为会学习的人就自动是有生命、有权利的人。
学习是一个概念,它假定一个实体具有意志、愿望和意识。
> 任何人都可以,这是正交的。
好吧。那么,任何人都 “可以 ”用电脑做同样的事情。加上 “使用电脑 ”这一部分,现在就可以直接比较了,而且是允许的。
> 如果你认真地说,这种工具就是在学习如何编程
工具由人使用。采取行动的是人,而不是电脑。所以这个观点是成立的。
如果你 “使用电脑 ”观看盗版电影,这种行为合法吗?
> 工具是由人使用的。采取行动的是人,而不是电脑。因此,观点是正确的。
如果看盗版电影能让你学到东西,这就合法了吗?
如果这部电影不是你自己盗版的,而是某个营利公司盗版的,他们向你收取观看费用,这样合法吗?
> 你可以 “使用电脑 ”观看盗版电影吗?当然可以。不合法。
在很多情况下,你不能大量传播完全相同的、非转换性的、非合理使用的大量他人版权作品的拷贝,如果你是这个意思的话。
但也有很多例外情况,你可以使用或传播他人的作品。就像人类可以在这些例外情况下使用他人的版权作品一样,人类也可以使用计算机来利用这些法律例外。
这里唯一的问题是,当你在第一个帖子中提到使用电脑时,这其实并不是一个相关的细节。
一个人可以利用那些允许他们使用他人版权作品的例外情况,他们可以使用电脑,也可以不使用电脑,无论哪种方式,在那些例外情况下都是合法的。
> 如果观看盗版电影能让你学到东西,这就合法了吗?
> 如果盗版电影不是由你自己制作的,而是由一些盈利公司制作的,他们向你收取观看费用,这样做合法吗?
这取决于很多因素。是的,在很多情况下,使用他人的作品是合法的。
编辑
证明我是对的:你现在正在评论一个法官驳回所有版权索赔的主题。
> 在大多数情况下,你不能大量传播完全相同的、非转换性的、非合理使用的、大量复制的他人版权作品。
该法律早在有能力以目前讨论的方式大规模洗稿之前就已制定。法律没有考虑到这种新的能力。
法律旨在保护知识产权,通过建立相关激励机制来促进创新和创造。如果这是法律的初衷,而法律没有被这样解释,那么就应该对法律进行修订,使其继续为这些目标服务。
> 证明我是正确的证据:你现在正在评论一个法官驳回所有版权索赔的主题。
这只能说明你读了标题。这并不能说明你(或法官)对核心问题的看法是正确的。
> 法律没有考虑到新功能。
明白了。
幸运的是,你现在正在评论一篇法官驳回版权索赔的文章。
因此,在这种情况下,不存在非法侵犯版权的问题。
> 促进创新和创造
在这种情况下,因为允许使用人工智能,所以它似乎确实促进了创新和创造!
很高兴你同意我的观点。
这不是在讨论某个法院是如何解释法律的,这一点很清楚。而是应该如何解释。
如果人们希望法律有所不同,更有可能的是需要修改相关立法,而不是指望法院。
我想这取决于国家。我听说美国的文化有些不寻常,在美国,通常由其他国家的立法来解决的问题,都会在法庭上解决。
在美国,有大量的版权立法,而且随着时间的推移,这些立法一直在处理不断出现的新事物。
不,我们绝对应该有兴趣搞清楚今天的法律会怎么规定。这一点并不明显。这就是为什么这个案例很有趣。
> 另一种看法是,任何人都可以在不违反许可证的情况下查看源代码来学习如何编程。
是的,在这种情况下,完全没有金钱交易。学习是件好事,越多越好。
不同的是,有人从中赚钱,而不是编写代码的人。这种说法站不住脚
不赚钱的学习并不能使你免于侵犯版权,否则公立学校的老师就会开始通过抄袭整篇课文来省钱了。我们生活的社会不允许一个 8 岁的孩子说 “但我只是想学习,我不是做生意的!”
不管你是为了赚钱,还是为了补偿所有给过你灵感的作者,把你的生活经验与受版权保护的音乐结合起来创作新音乐,并不意味着侵犯版权。
> 否则,公立学校的教师就会开始通过抄袭整篇课文来节省开支。
这在今天简直就是一件事。这可能是违法的,但起诉这种行为的想法太疯狂了。
> 我们生活的社会不允许一个 8 岁的孩子说 “但我只是想学习,我不是做生意的!”。
我的意思是,如果你是一个 8 岁的孩子,我们绝对可以这样做。除了在最NIMBY的HOA驱动的文化区域,没人指望一个摆柠檬水摊的孩子能拿到营业执照或接受卫生规范检查。
我查看源代码并学习,然后出售服务赚钱。这是一个非常有道理的论点。
> 我查看源代码并学习,然后出售服务赚钱。
脚注–大多数发达国家(存在奴隶制)。
人权很棒,不是吗?现在,如果你是一个专门为人类操作员服务的工具,这就不适用于你了。
没有 你读过我说的话吗?见鬼,你读过自己说的话吗?这样的回答毫无意义。
我基本上就是一个 LLM。我接受培训的方式与 LLM 类似,都是通过书本和开放源代码,猜测接下来会发生什么,犯错误,调整大脑。我赚钱的方式和 LLM 一样,都是靠推理电话。
也许你并不真正了解 LLM 是如何工作的,是如何训练的,或者推理是如何工作的。或者人类是如何工作的。钱在培训期间出去,钱在推理期间进来。
我理解他们的工作方式。如果你要提出不靠谱的论点,我们可以在这里放弃。
指出你错了并不是不守信用。
在这个主题中,已经有好几个人指出你忽略了一个非常简单的事实。
你声称自己 “基本上是个 LLM”,所以在这一点上似乎是准确的。你说的大部分内容都不正确,而且在胡说八道,这一点你说对了!
大多数人并不认为打比方是 “恶意”。
https://en.wikipedia.org/wiki/Analogy
即使 ChatGPT 也明白,在培训/学习之后,两种情况下的钱都会易手:
https://chatgpt.com/share/525aabbb-1fcc-4b1d-a88e-34206c8f5c…
在这个例子中,一个人正在查看他们不能合法复制的代码,从中学习,并重新实现相同的功能。肯定有人从中牟利。这个人、这个人的雇主、客户和供应商,很多人。
人们之所以对人工智能感到不满,是因为:1)人工智能的规模要大得多,因为人类无法阅读并记住 GitHub 上的所有代码,而一个足够大的模型却可以;2)促使人工智能为你提供一个合格的 MVP 比从头开始编写一个 MVP 要容易得多,尤其是作为一个初级甚至中级的编程人员;3)现在有一些不讨人喜欢的亿万富翁在赚钱,而以前却没有。
我以为专利保护的是功能,而不是版权。
谁在谈论专利?
我以为这就是专利保护的内容,而不是版权。
> 1)规模要大得多,因为没有人能读懂并记住 GitHub 上的所有代码,而一个足够大的模型却可以、
半真半假,但它经常会遇到一个不可思议的低谷,要么留下足够多的注释来让人知道它是抄袭的,要么缺少足够多的上下文,以至于我宁愿它给我提供它认为相关的任何内容的实际永久链接(即像搜索引擎一样,但更好)。
> 2)让人工智能给你一个合格的 MVP 比从头开始编写一个 MVP 要容易得多,尤其是作为一个初级甚至中级程序员。
如何定义 “合格”?我已经遇到过一些初级/中级开发人员做出 “合格 ”MVP 的情况,这些 MVP 又遇到了 “不可思议的山谷”,在那里,一些微妙的东西被以一种重要的方式破坏了,但却很难察觉。
> 3)现在有一些不讨人喜欢的亿万富翁在赚钱,而以前却没有。
眼球扫描 “对我来说有点过了。
话虽如此,但这完全掩盖了连锁反应。
所有关于区块链的 “炒作”,所有由此产生的 Gartner 报告,每个组织都抓住了这个概念,就像我曾经被问及是否有任何想法,如何将 “区块链 ”整合到一个企业中,而这个企业除了吸引投资,根本没有其他理由。
这次的问题是,他们有了 “更接近 ”产品的东西。
我们正越来越多地看到该产品的成果。
没那么简单: https://en.wikipedia.org/wiki/Clean-room_design
书籍和音乐不也是如此吗?
如果太相似,就会被起诉
我不太确定,但我认为这里的基本理念是,代码比音乐更像数学,而数学是不能受版权保护的。
因此,为了对代码提供任何版权保护,版权局必须开辟一条狭窄的道路,在这条道路上,复制的标准更高,因为在很多情况下,只有一种正确的(或最优的)算法,而算法本身是不受保护的。
音乐也差不多是数学。
当然,正如阿达-拉芙蕾丝(Ada Lovelace)正确指出的那样。但国际音乐理事会的版权法一般不会深刻地认识到这种关联。
任何人都可以查看源代码,编写自己的版本,然后发布,被起诉侵犯版权,并在法庭上败诉,因为他们的版本与原版过于相似。
对于我们这些迟钝的人来说: 机器 “学习 ”不是人类学习。机器 “学习 ”与人类 “学习 ”不相似、不类比,也没有任何可比性。
它们之间的可比性似乎显而易见,就像你可以将鹦鹉说话与人类说话进行比较一样。
即使我们中的数学家知道这两个系统的基本机制、输入和输出是完全不同的。
如果输入、机制和输出不同,那么它们就……不具有可比性?
这里重要的一步是,任何事物都能做到你说的那样。因为没有人类在循环中查看源代码并从中学习。
你所拥有的是一个自主系统,它接收受版权保护的材料,对其进行计算、存储,并根据用户的要求进行输出。这与人类的学习或类比无关,法院的裁决是,这种特殊的数学运算足以洗掉比特颜色。裁决的依据是输出结果和创建者的合理意图,以及他们想要实现的目标,而不是它的内部运作方式。
这已经不是第一次了,如果把受版权保护的数据全部&& 0x00,肯定也会洗掉比特。
> 你有一个自主系统,它接收受版权保护的资料,对其进行运算、存储,并根据用户请求产生输出结果。
人们也有自主系统,可以摄取受版权保护的资料,对其进行 “计算”、存储,并根据用户要求进行输出。
真正的区别在于,计算机获取受版权保护资料的规模远远大于人的能力。这是否使其成为非法?也许是,也许不是。
我是在一部糟糕的科幻小说里吗?人不是机器 这个概念怎么这么难?LLM就像流式排序一样有思想。我对天发誓,人类会把一切都拟人化,除了我们自己。你们的薪水是靠这个还是什么?
没有任何规则说 “如果人类能做某件事,那么由人类指导的计算机程序也能做同样的事”。见鬼,连人类充当替身都不存在这条规则。我不能把我雇佣的人送出国,让他们用我的护照。这就是为什么你可以在影院看电影,但代表你工作的自主系统(摄像头)却不能。
Github 制作了一个工具,它就像锤子一样有生命。它和你的可编程密码锁一样会 “学习”。至于 Github 的人类员工是否被允许使用受版权保护的材料来制作工具,以及当用户使用该工具时,Github 的人类员工是否在进行受版权保护的工作,这才是法律问题。
https://en.wikipedia.org/wiki/Philosophical_zombie 启示录,你们都活不了。
通常情况下,如果人类做某件事情是合法的,那么我认为人类可以合法地使用计算机来帮助做这件事。有没有不合法的情况?
LLM通过阅读/观看作品侵犯版权的观点与你通过阅读或观看作品侵犯版权的观点如出一辙。也许你在大脑中创造了一个有机编码的作品副本。
没有复制,也绝对没有出售。
不,你不能,就像你不能把迪斯尼电影编码成质数或圆周率一样,这样就能避免版权问题。
请阅读这篇经典文章:https://ansuz.sooke.bc.ca/entry/23
法官争论的不是编码……他说的是 CoPilot:
“在良性情况下很少发出记忆代码”
所以,你可以用不同的格式编码 5000 份《花木兰》 只要其中 4999 份不是逐字拷贝,你就可以*了
*你必须在编码器上贴上 “AI ”字母
编码机器人的所有者是好的,但当你使用这些结果来分发你的木兰浏览器时,你还是会遇到麻烦
也许你可以,如果你没有明确打算以此侵犯版权的话。
这仍然不是一个神奇的版权消除器。法律并不像 HN 评论者所认为的那样,会被数学上的 “啊哈,但是!”把戏所迷惑。
不,它不是魔法…
它是人工智能)
不,并非如此。你搞错了版权的目的。
如果我用聊天机器人一次性出售《哈利-波特》的全部内容,即使是通过聊天机器人,这仍然是非法的。
当然,合法的是创作具有变革性的内容,从其他内容中学习,即使你从其他内容中学习/训练了如何创作,也大多是创作全新的作品。或者,即使有一些相似之处,或者即使有逐字 “复制 ”的完整句子,如 “他打开了门”,是从原作品中 “提取 ”的!
美国的版权法从来没有完全禁止你在任何情况下使用他人的作品。例外情况很多。
> 美国的版权法从来没有完全禁止你在任何情况下使用他人的作品。有很多例外情况。
当然,问题是:”使用像 Copilot 这样的人工智能聊天机器人是否属于这些例外情况之一?我的立场–以及这里许多人的立场–是不应该。你可以不同意,这很好,但从根本上说你并不正确。
> 如果我用聊天机器人一次性出售《哈利-波特》的全部内容,即使是通过聊天机器人,也仍然是非法的。
没错,这就是为什么你在出售聊天机器人的访问权限时,会有意无意地眨眨眼睛。
> 你搞错了版权的目的。
版权曾一度是为了确保个人创作者在受到资本威胁时能维持生计。老实说,我完全不知道目前围绕版权的法律理论是什么。
让聊天机器人重新创作《哈利-波特》的文字仍然是非法的。
现在,如果你要求它根据《哈利-波特》创作一个类似的故事,那也没问题。尤其是 JK-罗琳在看完《星球大战》后基本上就是这么做的。
哈利-波特》是《星球大战》的克隆版?我不太明白,就像任何遵循 “英雄之旅 ”的故事一样。不过,我记得小时候读过《伊拉贡》(Eragon),确实非常相似。
> 让聊天机器人重现《哈利-波特》的文本仍然是违法的。
好吧,但这基本上是不可能打官司的,所以主张这一点又有什么意义呢?此外,侵犯版权仍然需要传播。
如果你使用 ChatGPT 重现了《哈利-波特》的文本,那么 OpenAI 就是在向你传播,这就是侵犯版权。
这是对传播的一种非常诗意的理解。祝你好运。
在美国,根据美国宪法,这是 “促进科学和实用艺术的进步”。
确保个人创作者能够维持生计是实现这一目标的途径之一。
> 确保个人创作者能够维持生计是实现这一目标的途径之一。
应该让我们的立法者知道这一点。
法律并非如此。故意通过 Copilot 这样的东西规避版权,即使最终结果是允许 Copilot 在具有限制性许可的开放源代码上进行训练,也会产生不同的后果。
> 法律并非如此。即使最终的结果是 Copilot 被允许在具有限制性许可证的开放源代码上进行训练,通过 Copilot 这样的东西故意规避版权也会产生不同的后果。
Copilot 是一种故意规避版权的行为。它可能是合法的,但这并不能改变这里的明确意图:向人们收费,而无需完成你收费的工作。
这些评论似乎误解了版权。版权保护的是作品的字面意思,防止未经授权的复制,而不是其他。即便如此,也有许多例外情况,如合理使用和个人备份。
版权并不限制阅读一本书或观看一部电影。版权也不限制对作品的访问。它只限制未经明确授权的复制。至于计算机数据,限制复制通常是指专用存储,如磁盘存储,而不是 CPU 缓存中的存储。
当维亚康姆公司以 16 亿美元起诉 YouTube 时,他们试图阻止公众在 YouTube 上访问他们的内容。他们起诉的只是 YouTube,而不是 YouTube 用户,而且只是因为 YouTube 在未经许可的情况下存储了维亚康姆的知识产权。
> 当维亚康姆公司以 16 亿美元起诉 YouTube 时,他们试图阻止公众在 YouTube 上访问他们的内容。他们起诉的只是 YouTube,而不是 YouTube 用户,而且只是因为 YouTube 在未经许可的情况下存储了维亚康姆的 IP。
现在对 OpenAI 而不是 YouTube 采取这些步骤。只不过,OpenAI 不允许用户上传内容,而是将内容据为己有。
OpenAI 实际上允许用户上传内容到聊天输入法。
从文章中听起来,原告指控 ChatGPT 在提供与原告代码极其相似或相同的结果时,实际上是在进行未经授权的复制。他们并不像你暗示的那样,仅仅指控阅读他们的代码 = 侵权。
我不认为作者在暗示这一点。
但没错,这就是指控。
法官辩称,副驾驶 “很少在良性情况下发出记忆代码”,但如果真的发生了怎么办?总有一天会发生的,如果发生了,我公布 copilot 写的代码会不会侵犯版权?就在几周前,一个非常类似的稳定扩散诉讼案的版权侵权请求被驳回。https://arstechnica.com/tech-policy/2024/08/artists-claim-bi…
> 法官认为 copilot “很少在良性情况下发布记忆代码”,但如果它发布了,会发生什么?如果我在不知情的情况下发布了 copilot 写的代码,会不会侵犯版权?
这与起诉 GitHub 的案件无关,所以判决中才会提及。
> 就在几周前,一起非常类似的稳定扩散诉讼案驳回了其驳回版权侵权索赔的动议。
针对 Midjourney、SAI 和 RunwayML 的诉讼所依据的法律理论截然不同–这是一起简单的直接侵犯版权案(“他们将我们的作品复制到他们的服务器上并用于训练模型”),而 Copilot 案(版权部分)则是一起 DMCA 案,声称 Copilot 删除了版权信息管理信息。
Copilot 案更容易不经审判而结案,这其实并不奇怪;这是一个很大的延伸,对原告来说有一个好处,即如果允许它继续审理,它就不会像传统的直接侵犯版权案那样承认合理使用抗辩。
这两起案件其实并不 “相似”,只是两者都是针对人工智能服务/模型提供商的诉讼,其索赔的某些子集依据的是《美国法典》第 17 章的某些部分。
我不是律师,但我通过想象人类的现有情况来探讨这些问题。如果你的朋友给你代码让你发表,结果发现他给你的是他背下来的别人的代码,你会不会侵犯版权?在这种情况下,答案显然是肯定的,我认为这与 LLM 的情况并无不同。
用人来代替计算机会改变情况的某些方面(例如,LLM 不能对其创造的作品拥有版权),但它是有用的,因为它让真正的人的行为保持不变。不过,对于与以工代赈合同法等问题相互影响的更复杂的问题,你可能需要采取更复杂的方法。
你将获得第二个系统,它将根据受版权保护的代码索引搜索你的代码。如果发现某些独特代码的匹配度大于 70%,就会标记为重写。这可以在 Copilot 中自动完成,只需用不同的种子重新生成即可。
在某些语言中,做事情的方法很少(或只有一种方法),因此每个人都会写同样的 for 循环等。特别是在大量使用框架的情况下,大多数人的代码都是完全相同的。标记系统必须能够将框架使用与 IP 等区分开来。
除此之外,似乎还需要一种表现力很强的语言才能很好地发挥作用。你可以有效地扫描英语中的剽窃行为,因为英语是如此多变,以至于从不同来源看到几行完全相同的文字确实是个例外,但在完全不同的 React 或 Ruby-on-Rails 项目中看到完全相同的文件,或者至少是非常相似的代码,也许并不奇怪。
我认为代码方法论更像是建筑技术。也许有些片段和部分可以申请专利,有些甚至可以作为工具产品化,但很多都只是约定俗成的技术而已。
期待着在我的集成开发环境中按下 “反复重写,直到不再触发版权警告警报 ”按钮
如果你写的一首歌恰好与另一首歌的四个音符模式相同,也会发生同样的事情:绝对不会发生任何事情,因为这将是一个疯狂的版权标准,并将导致在没有侵权诉讼浪潮的情况下,永远不会有任何作品问世。
要看情况
但坦率地说,这是否更接近于 “采样”?
> 如果是的话,我发布 copilot 写的代码会不会侵犯版权?
如果 OpenAI 没有获得授权,那么即使向你展示这些代码也是侵犯版权的行为。
通常”,我记得你仍然是诉讼的一方。
根据具体情况,您可能会脱身,但您仍是一方当事人。
不过,我以为至少企业 Copilot 的部分规定是他们会在此类案件中进行辩护。
错误的 OP、
七月份的讨论:
法官驳回 GitHub Copilot 案中的 DMCA 版权诉求
https://news.ycombinator.com/item?id=40919253
有意思。胜诉的部分是合同索赔和开源许可索赔。
合同是可以理解的–它几乎取代了其他一切。如果法律规定我可以做 X,但合同规定我不能做,那么我几乎肯定不能做。
很高兴看到开源许可被视为具有与合同类似的稳固性。
自由软件基金会(FSF)对其版权许可(copyleft)的论证总是基于与典型版权许可完全相同的基础。如果爱丽丝可以说,你必须付给她 500 美元才能使用她的受版权保护的东西,那么从逻辑上讲,鲍勃也可以说,你必须遵守我们的规则才能使用他的受版权保护的东西。
这样一来,法院就可以做出选择,要么取消版权(这很适合自由软件基金会),要么同样执行他们的规则(也很好)。这样一来,法院就很难穿针引线,找到一种方法说爱丽丝可以按自己的方式行事,而鲍勃则不行。
在有机会的情况下,构建自己的论点,使有动机的法院难以穿针引线,是一种很好的策略。如果你运气好的话,法官会为你做这件事,比如在Carlill诉Carbolic Smoke Ball Co案(合同法的基础)或Bostock诉Clayton County案中–嘿,Gorsuch说,这个同性恋男人和这个异性恋女人之间的区别并不在于他们被男人吸引,那是一样的–实际区别在于他们中的一个是男人,但是,那是性别歧视,所以这是一个性别歧视案件!
如果你能访问 Copilot 权重,你应该考虑泄露它们。我们与你分享代码是因为我们希望它是免费的,而不是以每月 10 美元的价格卖回给我们。
顺便说一下,我从未为 Copilot 付过钱。我是通过开源贡献自动获得免费访问权的。我最大的公共仓库大概有 100 颗星。我对较大的 repo 进行过少量提交。
我不知道阈值是多少,但我对自己得到的回报很满意。
那么你应该很高兴知道,现在已经有多种开源编码权重了!其中一些和 co-pilot 一样好,甚至可能比 co-pilot 更好。
这应该能让真正关心这个问题的人满意,而不是只想制造一些俏皮的单行本。
……因为 GPU 时数一文不值?
所以,如果开发者在软件中使用 “免费代码”,他们就一定只能免费使用吗?
这取决于原始许可证。
> 只剩下两项索赔成立:一项是指控这些公司违反开源许可,另一项是指控违反合同
这些似乎是主要索赔?
这要看情况,即使被认定违反了许可证,结果也可能是 “保证不再这样做”。
如果能形成判例法供将来参考,那还是很有纪念意义的。如果你知道你会赢,因为以前的案例极其相似,那么诉讼就会容易得多,也就是说,即使处罚(这次是在未知领域的情况下)只是一记耳光,也会对行业产生重大影响。
阅读判决书,违约索赔被驳回,但周围的讨论清楚地表明它没有什么希望(这与 “违反开源许可 ”是一样的,OP 的文章是垃圾)。
https://sfconservancy.org/GiveUpGitHub/
我很幸运,很早就知道在网络上发表重要的东西意味着不仅要放弃对知识产权的控制,还要放弃对自己的代理权和命运的控制。无论是对自由和开放源码软件的贡献、公共博客或文档,甚至只是写作,其成本都远远超过了慷慨所带来的收益。
时间是唯一固定的资源,而我的时间是专有的、独占的,可以卖给出价最高的人。
值得庆幸的是,其他人更加利他。许多开发者在论坛上自由分享他们的想法,在 github 上分享他们的代码,在博客上分享他们的观点,这些都让我受益匪浅。
当然,谷歌窃取了这些信息,建立了一个帝国,而大多数人都与谷歌同流合污。
当然,OpenAI 也窃取了这些信息来打造大多数人都支持的产品。
当然,邪恶从善良中获益,但这并不意味着我们应该为了报复他人而忽视帮助他人。
我希望能有一个中间地带,让我们的善行造福于其他好人,而不是造福于那些想从我们的工作中榨取利益的大公司。
法律通常落后于技术进步,我希望我们现在只是看到了这一点,随着时间的推移,会有更好的法律保护措施出台。
这真是一个可爱的评论。说得好
贵族剥削农民的劳动。过去是这样,将来也是这样。
我不需要为了利他而无偿奉献自己的智力劳动。
不,但这样做会让你利他。
也许吧。但在施粥所做义工或为邻居修剪草坪就是确定无疑的。
有 “在论坛上分享想法”,就有把你所有的源代码,不管是公开的还是私有的,都交给微软托管,而不是把你的 git 远程设置为 user@yourownhost:/path/to/reponame,然后设置 SSH 密钥。
我很欣赏全科医生的观点,它既不是垃圾邮件,也没有辱骂,而且完全符合本网站明示和暗示的礼仪,但却遭到了降权,这很能说明问题。只是因为它不受欢迎,所以人们就把它降了票。
自由与开放源码软件是一种邪教,这在对 OP 这样的观点的反应中非常明显。如果你不相信他所说的关于在网上提供代码时放弃代理权和命运的说法,可以看看 fommil[0] 的遭遇。
https://medium.com/@fommil/hide-your-real-name-in-open-sourc…
> 时间是唯一固定的资源
时间不是固定的。无论是物理学还是心理学都是如此。
https://en.wikipedia.org/wiki/Time_dilation
https://en.wikipedia.org/wiki/Time_perception
在心情好、头脑清醒的情况下编码一小时,要比在疲惫无聊的情况下编码八小时的效率高得多。
> 我的是专有的、独占的,而且是卖给出价最高的人。
那你对 GitHub 有什么意见?所有开发 GitHub 的人都是这么做的。你承认自己是 “价高者得”,却还在抱怨别人的行为,似乎很不厚道。
它是人们的固定资源,每个人都会死。Git 本来很好,直到它成为一种清洗智力劳动的方式,使 MSFT 的股东而不是从事这项工作的人受益。
> 它是人的固定资源;人人都会死。
死亡与此有何关系?每个人的死亡年龄和时间点都不同。这就是固定的反义词。同样,时间也不是固定的。即使你按小时出售你的时间,也不是每个小时都有同样的生产力。
> Git 很好
你又把 Git 工具和 GitHub 服务混为一谈了。它们是两码事,在你自己的链接中,他们推荐了使用 Git 的 GitHub 替代方案。
> GitHub 是一种洗白智力劳动的方式,让微软股东而非开发者受益。
再说一遍,这和你声称的做法有什么区别?你明确说过你把时间卖给了出价最高的人,这意味着如果你得到了报酬,你也会这么做,因此你没有道德制高点。或者说,事实上你不会这么做,因为你有顾忌,在这种情况下,你并不是真的把时间卖给出价最高的人,而是考虑了其他因素。
鱼和熊掌不可兼得。我个人希望你是后者。
> 死亡与此有关吗?
因为你的时间不是无限的,所以是固定的。
> 这和你声称的有什么区别?
因为在点击包装掩盖下的盗窃仍然是盗窃。这并不难。
是的,我认为这是完全站得住脚的。我甚至只对 HN 评论进行有偿阐述(在个人资料中列出)。
但也会有其他人参与到开源共享经济中来,他们会受益,我们也会受益。
虽然你已经发表了一万一千条评论,但没有人为此付给你每小时 850 美元的报酬。
哈哈,是的,我很利他主义。虽然没有你想象的那么多。大约有 8.5k 条评论,不是吗?
时间是唯一固定的资源,而我的时间是专有的、独占的,并且可以卖给出价最高的人。
这似乎是一个很好的理由,让我们不要把时间浪费在那些已经实现过无数次的模板式的繁琐工作上。
我并不是对那些以不同方式利他的人不满–事实上,我很感激!
但是,任何认为自己的免费工作没有被以最反常、最无意义的方式利用的网络贡献者都是在自欺欺人。你最好去康复诊所或老人院做志愿者。
> 我很幸运,很早就知道在网络上发表重要的东西意味着不仅要放弃对知识产权的控制,还要放弃对自己的代理权和命运的控制。
这不仅不是事实,而且与你链接的页面相矛盾。
该页面上有一系列资源链接,你可以用来自行托管你想发布的 git 仓库,因此你不必放弃任何控制权。
(虽然我反对 GitHub,但连我自己都无法理解,在 GitHub 上发布东西怎么可能意味着放弃对命运的掌控)。
哦,链接只是一个 “离开 Git ”页面。有很多其他方法可以 “绕过 ”这种整合–这只是另一种为股东利益清洗工作的方法。
> 哦,链接只是一个 “离开 Git ”页面。
不,是 “离开 GitHub”。他们甚至还推荐了仍在使用 Git 的替代方案。你把两者混为一谈,就是在帮助巩固 GitHub 的统治地位。
你可能对 Github 的近代史感到困惑。
如果你这么认为,那么请分享你所知道的。给我解释一下。你的评论丝毫没有推进对话。据我所知,你才是那个对 GitHub 的历史、git 的历史或对评论的理解感到困惑的人)。
我不相信,我知道。
我才不信呢,我就知道。放弃吧。
> 我不相信,我知道。
但你拒绝解释为什么?如果你不解释你的推理,别人怎么能评价你是否错了呢?你有没有想过你可能错了(我也可能错了)?
> 我不喜欢耍花招,老兄。
啊,所以现在任何不同意你的观点并要求你澄清你未解释的结论的人都是巨魔了。明白了。
> 放弃吧。
我当然会放弃。现在已经很清楚了,和你对话是不会有结果的。
那 Github 最近的历史呢?
版权的目的是通过确保作者和发明者在有限的时间内对其各自的著作和发现享有专有权,促进科学和实用艺术的进步。
“科学 “不仅指现代科学探索领域,而且指所有知识。
黑客伦理是黑客文化中的一种哲学和一套道德价值观。实践者认为,与他人共享信息和数据是一种道德要求
hrmmm…
我想你会发现,很多自诩为 “黑客 ”的人在很多问题上都存在分歧。这里没有普遍适用的观点或 “道德”。
比如版权和合理使用
人工智能从代码库中学习并提供代码解决方案,与人类从代码库中学习并提供代码解决方案,两者之间的界限在哪里?
计算机将 png 文件转换为 jpg 文件,导致图像看起来不同,艺术家受此启发制作了受公平使用保护的转换衍生艺术作品,两者之间的界限在哪里?
我们划定的界线是 “是人类创造性地、有意地产生了输出结果”,还是 “是计算机产生了输出结果”。
我们建立了一种实际上无人理解的压缩算法(LLM 实际上就是这样一种有损压缩算法,将其输入压缩成一个模型),但这并不重要,可受版权保护的创造力的标准过去是、现在仍然是人类的创造力。顾名思义,计算机不具备这种创造力,除非人类将这种创造力特别注入计算机(例如,使用计算机制作特定的受版权保护的作品)。
将 png 转换为 jpeg 就是一种复制(尽管是有损复制)–这正是版权保护所要防止的。
如果你用纸笔在图像上描画,这也是一种复制,尽管你用的是人。
说 “生成式人工智能 ”是一种压缩算法,这表明我们对相关问题和技术缺乏了解。
我认为确切的技术或其工作原理根本不重要。唯一重要的是它是否由人类完成,因为制作衍生作品是只有人类才享有的权利。
因此,根据定义,人工智能不能创作衍生作品。因为它不是人类。
我认为没有理由赋予计算机程序人权。我想很多人都很难说出这样做的理由。所以他们没有这样做,而是谈论技术。我认为这并不重要。如果你无法告诉我,也无法说服人类,为什么计算机程序应该被赋予人权,那么我认为我们甚至无法达到技术本身重要的地步。
如果不是概率压缩方案,LLM 又是什么?
这是一个有趣的修辞技巧,因为回答 “LLM 是什么 ”这个问题需要一个系列讲座,而不是一篇黑客新闻评论。
压缩方案获取一个项目,缩小其大小,并在被问及时返回相同的项目(有损或无损)。
LLM 和其他生成式人工智能并不设计也不特别擅长于此。它们擅长的是利用通过训练形成的 “学习 ”来返回新结果。
如果我想给别人发送代码样本,我会使用 zip。如果我想根据提示生成代码,我会使用 LLM。
> 说生成式人工智能是一种压缩算法,这表明我们对相关问题和技术缺乏了解。
因为什么?
因为压缩和生成是完全不同的概念。
因为人工智能极致主义者不喜欢他们最喜欢的玩具被重新定义为相当客观的术语。
在压缩《罗密欧与朱丽叶》方面,LLM 与 .ZIP 相比如何?
在回答以《罗密欧与朱丽叶》的风格写一篇关于猫的短篇小说的提示时,ZIP 与 LLM 相比如何?
> 说 “生成式人工智能 ”是一种压缩算法,这表明我们对相关问题和技术缺乏了解。
实际上,父母评论中的另一部分才是错误的,而学习的很大一部分就是在你的字典里添加东西。
不知道你说的最后一部分是什么意思,撇开这部分不谈,它偏向于引入有损文明的语言。两者加在一起,也是不公平的。
> 艺术家在其启发下制作受公平使用保护的转化衍生艺术作品
这两个词其实并不是按这个顺序排列的。
> 可受版权保护的创造力的标准过去是,现在仍然是人类的创造力
这不是因为创造力有什么定性,而是因为谁能真正拥有合法权利。
这也与产出是否被视为输入的任何特定部分的衍生作品无关。
我很确定这不是法律上的界限。人类会观察制作出来的图像,并根据自己的判断来决定它是否与原作实质上相似。是否使用电脑作为转换的一部分并不重要。
这是相关的。引用维基百科:https://en.wikipedia.org/wiki/Threshold_of_originality#Mecha…
> 美国版权局的立场是:”作品必须是人类创作的产物,才有权进行版权登记。由机械过程或随机选择产生的、没有人类作者任何贡献的作品是不可注册的”。
如果人类画出了分形,那就是艺术。如果电脑制作了一个分形,那就是数学,而数学是不可受版权保护的。
版权还允许独立衍生,因此,如果你制作的图像或句子与其他图像或句子相同,但能以某种方式证明你不知道所谓的原创,那么你就可以获得版权。
如果不了解各种情况,包括作者的意图以及作者是否知道所谓的原作,就不可能知道某件事是否侵犯了版权。
> “为了有权获得版权登记
你读过这部分内容吗?
你知道什么是版权登记吗?
提示:是否获得版权登记与你的行为是否合法无关。
你似乎对这些拗口的词汇很了解,这种区别对你来说应该是显而易见的。这让我很困惑,你为什么要曲解如此明显而重要的区别,除非是故意误导不懂法律的人。
你甚至可以去读读维基百科上那篇文章的第一句话,以了解它的内容。
“原创性门槛是版权法中的一个概念,用于评估特定作品是否可以获得版权。它用来区分哪些作品具有足够的独创性,可以获得版权保护,哪些作品不具有独创性”。
注意。这与是否侵犯他人作品是两码事。
你为什么会对这篇文章产生如此严重的误解?
> 我们划定的界限是 “是人类创造性地有意产出 ”还是 “是计算机产出”。
我们划的根本不是这条线,你从哪里听来的。
也不是什么好界线。数字艺术家的艺术是从电脑中输出的。而我在 “稳定扩散 ”中输入提示时,是 “创造性地、有意识地进行输出”。
如果人工智能的创造力和人类的创造力产生的结果基本等同,那么你如何区分其中一个来执行不同的规则?
法律不会无视历史。两个完全相同的物体在合法性上肯定会有差异。
你没有回答我的问题,所以我再报告一次: 你如何区分一个和另一个,以执行不同的规则?
你是通过谁支付更昂贵的律师费来区分它们的。法律就是这样处理模棱两可的案件的。
完美无瑕的解决方案,我已经可以看到 SLAPPs 在飞了,啊哈哈
> 我们划定的界限是 “是人类创造性地、有意地产生了输出结果”,还是 “是计算机产生了输出结果”。
没有!根本不是这样。
如果人类一字不差地写出了《哈利-波特》,它们就不会受到保护。
相反,界限在于新作品是否属于合理使用的范畴。
而人类完全可以在各种情况下使用计算机来完成这项工作。这里涉及的是人还是电脑完全无关紧要。
> 人类创造力
不对。人类创造力只对保护作品有影响。这与能否用电脑创作无关。
用电脑制作一件作品完全合法,没有任何侵权行为,但新创作的作品将来却不受他人复制的保护,这是完全可能的。
不,是计算机转换成 JPEG 还是人并不重要。
方法和行为人都无关紧要。
唯一相关的是结果。
生成的 JPEG 是否具有转换性?
> 方法和行为者都无关紧要。
这可能是你最关心的问题,但在决定法律问题时绝对不是这样。
我相当肯定这通常是法律问题的决定性因素?
如果你最初制作的内容与已经存在的东西非常相似,而你从未见过其他东西,那么你遇到麻烦的可能性(是指有人会提出异议,而不是指你会被定罪)要比你抄袭已有的东西并将其改造成无法辨认的东西的可能性大得多。
你是第二个对我的话理解相反的人。我不是本地人,你能告诉我为什么我说的话模棱两可或与我的本意相反吗?
我相信法律会关心这些事情,比如为什么我们有杀人罪、故意杀人罪、非故意杀人罪。
我就是这么说的?
这是一个荒谬的观点,会导致 “我的字节是什么颜色的”。
是的。既然我们谈论的是法律问题,那么你的字节的颜色就相当重要了:https://ansuz.sooke.bc.ca/entry/23
这篇文章提出了一个不切实际的观点。
> 他们在该网站上提供了有关太阳升起和落下的时间等信息……但他们也在免责声明中指出,这些信息不适合在法庭上使用。如果你需要知道太阳升起或落下的时间,以便在法庭上使用,那么你需要一位专家证人–因为你实际上不仅仅需要太阳升起时间的信息。您需要为这些比特加上颜色,以便在法庭上使用,而 USNO 并不提供这种服务….,这是一个数字从何而来的问题。
这只是说你的比特必须经过认证/验证才能被认为是准确的。
这是有道理的,与 “你的比特是非法的,而你的其他相同比特是合法的 ”完全不同。
> 你的比特是非法的,而你的其他相同比特是合法的
这种情况经常发生。如果我为备份目的翻录了一份电影拷贝,那翻录就是合法的。如果我上传了它的 torrent,我磁盘上完全相同的片段现在就是非法传播版权作品。
如果我是拥有作品版权的艺术家,我的比特就可以合法地进行再传播。
比特的意图和法律地位在很多情况下都很重要。
这与拍摄受版权保护作品的照片是一样的。你拥有照片的版权。但未经许可不能出售,否则就侵犯了原权利人的版权。
或者,它可能与影印书籍一样,法律限制未经许可复制作品的比例。
又或者,它将成为一个独立的事物,由法院和政府决定现有的法律是否足够,我们需要新的法律。
不明白你为什么会被降权,这是一个合理的论点。如果是人类手工压缩 JPEG 文件,那就不是合理使用了,不是吗?
吉姆-帕夫洛夫(Jim Pavloff)重建了传说中的 “神童”(Prodigy)音轨,请参阅:
1. “Smack my bitch up” https://www.youtube.com/watch?v=eU5Dn-WaElI
2. “Voodoo people” https://www.youtube.com/watch?v=6ZYLp5uX9Yw
这些作品听起来与原版一模一样,但并不违反版权,因为它们是手工制作的。令人叹为观止!
在 Prodigy 的辩解中,这些采样经过了非常有创意的转换,因此最终结果与原版并不相似。这更像是从油画中剪下一小块补丁来制作一幅新画(而不是绘制一幅类似的画),这不是现在的 ML 模型所能做到的。
它们听起来绝对不一样,非常相似,但相去甚远。此外,是否有法庭或其他法律实体证明这些歌曲不属于侵犯版权行为?没有立法并不能证明不侵犯版权。
总之,我绝对不是版权专家,但我只是觉得这种说法非常无力。
版权不是这样运作的。在美国和许多类似的法律体系中,音乐都有强制许可条款,只要满足所有许可要求,任何人都可以制作和发行翻唱音乐。由于翻唱音乐的历史悠久,在满足许可要求这一点上的执行情况也大相径庭。但是,如果你不遵守许可条款,而权利持有人找你麻烦,那么无论你手工复制了多少歌曲,都无法保护你免受版权索赔。
同样,我用纸笔绘制蝙蝠侠漫画,也无法在出售剧集时避免版权索赔。
请不要到处侵犯版权,并认为这没关系,因为你是手工重新创作的。
> 这些作品听起来和原版一模一样,但并不违反版权,因为它们是手工制作的。令人震惊!
吉姆-帕夫洛夫从未被 Prodigy 或版权所有者起诉过。
另一方面
https://ethicsunwrapped.utexas.edu/case-study/blurred-lines-…
> 马文-盖伊(Marvin Gaye)的遗产赢得了对罗宾-西克(Robin Thicke)和法瑞尔-威廉姆斯(Pharrell Williams)的诉讼,原因是热门歌曲《模糊界限》(Blurred Lines)与马文-盖伊的歌曲有相似之处。
这反驳了你关于没有潜在版权侵犯的说法。
A. 这些从未诉诸法庭。
B. 它们的声音与原版不完全相同。
C. 它们是手工还是自动化生产并不重要。
[删除]
既然我们讨论的是版权法而不是物理法,那么机器是否有意创造新作品并不重要。机器不能获得版权。机器的操作者或所有者可能会获得版权。
没必要指名道姓。
想要完全避免知识产权侵权问题的人类,请使用无尘室设计:
https://en.wikipedia.org/wiki/Clean-room_design
https://www.law.cornell.edu/wex/clean_room
如葡萄酒:
https://wiki.winehq.org/Clean_Room_Guidelines
作为一名摄影师,我希望这能成为一个方向,即任何看过我作品的摄影师都欠我一个未来利润的百分比,因为他们已经在我的知识产权上训练了他们的湿件模型。
专利也是这么运作的,只不过即使没有看过你作品的人也欠你未来的利润。
我想我希望得到的结果是,任何人都可以在任何内容上训练任何模型,无论该内容的版权状况如何。主要是因为我希望人工智能助手工具能够尽可能有效,能够获取与我所能获取的相同的信息。但无论结果如何,都可能会产生一些意想不到的后果。
你要知道,这也意味着迪斯尼这样的公司现在有了新的收入来源。追捕那些拍出来的照片看起来像是看过一次《小人鱼》的人拍的流浪汉。
这就需要在允许任何人浏览你的作品之前签订一份法律合同。在现行法律下,没有什么能阻止你这么做。
复制。根据法律,培训要求总是很脆弱。如果我保存了你的代码副本,我可能并没有做错什么。如果我做了一台老虎机,有时会随机向别人发送你的代码,如果我没有得到许可,当它真的发送了一份拷贝出来时,我就有麻烦了。
你的问题引出了答案。从法律上讲,人工智能无法学习。它不是法律认可的行为人。这里涉及的是建立或操作它的人。就像法律上版权法涉及的是摄影师而不是相机一样。
一旦从法律角度进行了正确的界定,你就会发现有人在使用受版权保护的材料制作工具。这合法吗?对于图像来说,可能是。但是,出售或出租该工具或使用该工具生成的图像则是一个悬而未决的问题。你可以合法地使用相机拍摄受版权保护的图像。但未经原始权利人许可,你不能出售照片,因为这侵犯了他们的版权。而受版权保护的文本,如书籍(和计算机源代码?) 你只能合法地复印一本书的一部分作为合理使用。未经许可复制整本书则属于侵犯版权行为。
你在误用 “学习 ”一词(就像误用 “盗版 ”一词侵犯版权一样)。ML 模型不是人,无法学习任何东西。此外,ML 模型也不是法律主体。
因此,你的句子应该是 “风险投资初创公司的工程师通过处理受版权保护的内容来计算模型参数,而人类则从代码库中学习,两者之间的界限在哪里?这样,区别就显而易见了。
肉体?
或者是能够正确地注明来源,而不是假装是自己编造的或幻觉中的赝品?
我一生中读过很多代码,并从中学到了很多东西。你认为我每写一行代码都会注明出处吗?
如果你真正从代码中学到了知识,你就了解了代码结构,是的,它们是有归属/命名/注释的。从 “四人帮 ”模式到应用数学算法(如快速傅里叶变换),都有归属和历史。
我对你提出的一般论点感到沮丧的地方在于,它声称模式提取是人类学习的范围和本质。
我不认为当前LLM即人工智能的趋势既没有抓住智能的本质,也没有抓住学习的本质。我承认,我们不能用一刀切的方式来描绘整个研究领域,但行业内存在着一定程度的 “酷爱 ”消费,这或许会得到市场上更多轻信者的回报,但却毒害了公众的善意。
这只会导致非常严酷的反弹,我们已经看到,这种反弹正在破坏那些企图把这种东西作为 “人工智能 ”强加给全世界的资金雄厚的公司。
计算机不是人,将来也不会是人。事实上,CoPilot 在训练数据之外没有代码的概念,它只是一台模式提取机器。你可以否定这一说法,但你无法反驳它。
告诉所有封闭的人工智能公司,它们对聊天机器人输出的法律保护比对人类输入的法律保护更强。
交出你的肉体,等待你的将是一个崭新的世界。
我们要求这样做。
我的意思是,人类绝对可以因此而触犯知识产权保护法。
任何重要的人都已经划清了界限
这只是无权无势的底层民众意识到,他们与我们的法律机制的完全和终生隔离现在正在咬他们的屁股。
你能说得更具体些吗?什么底层(为什么他们不重要),什么隔离?
lol. “意识到”?这又不是阶级斗争。太戏剧化了。
意见遵循阶级界限
这真是荒诞不经的胡言乱语,真不敢相信会有人信以为真。一个是产品,一个是人。
现在你只需在法律上划清界限。在法律上,公司也是人。最近,在马来西亚,我们重新定义了许多法律,以涵盖 “自然人”(又称人类),因为这样做的后果是,公司会偷钱和做其他不道德的事情,而这些行为将归咎于公司,而不是管理公司的人类。
(2024年7月10日)
很多人都不喜欢 LLM 和生成式人工智能(相当地),并且条件反射地试图在我们的法律框架中伸手要工具,声称这显然已经是违法的了。我认为这行不通。对于任何不否认的人来说,生成式人工智能显然都是新颖的–声称现有版权法将涵盖它似乎是一个失败的事业。
我们需要新的法律。尤其是关于深度伪造的法律,令人震惊的是,很多人都认为报复色情法之类的法律在这里就足够了。我们需要更基本的法律和权利,而不是仅仅关注数据的使用,比如控制自己表象的权利,就像日本那样,在日本,以自己的肖像制作图像或语音/视频是可以直接起诉的。同样,我们需要明确针对培训数据使用的法律,这与版权是分开的。
LLM的训练方式显然与人类的学习方式过于相似,而转换和输出也会像人类一样,在 “学习 ”的基础上产生新颖的作品。这与版权法所要涵盖的内容有着本质的不同,许多人对这些论点置之不理,这让我感到非常气愤。只有在完美的 1 对 1 复述中,才会让人觉得版权法所涵盖的内容近乎于此。
我是 “不喜欢 ”者之一,尽管在我看来,神经网络本身就是一个了不起的工具。我喜欢用一个简单得多的论据(非专业,也非法律建议)来反驳:这些代码生成工具能否在不读取(训练)加密代码的情况下生成代码?
人类可以学习语法和基本程序,然后不受任何 “类似代码 ”的影响,产生解决特定问题的新算法。当然,类似的代码可以在互联网上搜索到,但这些代码是有 “归属 ”的,而且很可能包含许可证。如果人类抄得太近,归属权和许可权就会发挥作用。LLM 显然只是在归属问题上保驾护航。
LLM 的训练方式就是给他们灌输大量的代码,人类无法通过这种方式进行训练,因为需要阅读的代码量太大了。
滥用开放源代码许可证的后果就是,我再也不写任何开放源代码了。如果代码生成器在 GPl 代码的基础上生成 GPL 代码,而 LLM 也是 GPL 下的代码,我就不会有那么多问题了。在我看来,商业许可和付费似乎违背了这些许可的初衷。
我想,微软已经得到了它想要的,它的开源计划终于进入了熄火阶段,而它需要的只是一个聊天机器人。
说个题外话,在人工智能事件发生后,我开始将我的东西授权为公有领域,这样我就可以不受限制地鼓励人工智能模型的开发。
虽然我认为由于人工智能的特性,署名(MIT 和 GPL 的要求)对人工智能没有意义,但这些争论让我不得不说 “去他妈的”,并完全取消了署名的法律要求。在有意义的情况下,署名仍然是件好事,不过现在从法律上讲,这太疯狂了,我不想参与这种版权制度。
我很想知道,同样的规定是否会适用于其他材料,如新闻、书籍、图片、音乐、电影等。
老实说,我真的不知道将来这一切在法律上如何运作。
只要有足够的时间,我不知道 LLM(或 “人工智能”)能做什么人类做不到的事情。如果它能给人类带来麻烦,那么它也应该给人工智能的操作者带来麻烦。同样,如果人类能做到,我也不明白为什么人工智能会有什么不同。
> 有足够的时间
如果一本教科书的容量是 1 兆字节(2^20),可能需要一周的时间来阅读和理解,那么阅读 1 太字节(2^40)就需要 2^20 周,也就是 2 万年。
据报道,ChatGPT-3 是在 570GB 的文本数据上进行训练的。因此,如果你有 1 万年的时间,是的,当然,人类可以读完它。但记忆和回忆呢?
这也正是我们拥有电脑的原因。做超出我们自然能力的事情。
我想的是更专业的。我的意思是,人们经常会想出相同的旋律或曲调,最后却对簿公堂?你并不需要人工智能来有意或无意地规避版权。
对正在编写的代码拥有版权(机器不能拥有版权)的实体有责任确保其编写的代码不存在许可负担。
这与一个人从 Stack Overflow 上复制了一段代码片段(该代码片段受 GPL 保护)并在 Stack Overflow 上作为教育目的合理使用的一部分并无区别。
作为编写代码的人,你有责任确保你的代码是你自己的。
> 这与从 Stack Overflow 上复制代码片段的人没有任何区别,该代码片段属于 GPL 下的代码片段,在 Stack Overflow 上作为教育目的合理使用的一部分。
Stack Overflow 上的代码片段和答案也有自己的许可证[1],其条款[2]明确规定,如果你发布了未经许可的内容,他们将不承担任何责任(第 8 条)。
不同之处在于,各种聊天机器人都取消了这种归属。即使是许可协议也要求注明出处。
毫无疑问,OpenAI 的条款规定最终用户应承担最终责任,但你不认为这造成了一个问题,即他们可以有效地模糊和违反许可条款吗?
版权指的是复制。无论你创造的场景有多复杂,最终如果输出的内容是对他人拥有版权内容的复制,你都要承担责任。至少我作为一个随机的开发者是这样。这里的论点是不是说,OpenAI 可以自由地做同样的事情,而且因为他们做了一个足够复杂的烟雾和镜像系统,他们就不应该承担责任?
[1]: https://stackoverflow.com/help/licensing [2]: https://stackoverflow.com/legal/terms-of-service/public
我可以在 Stack Overflow 上发布使用 GPL 软件的代码示例吗?- https://opensource.stackexchange.com/a/6870 我认为更适用。
或者来自甚至远在 LLM 之前的 – 在 Stack Overflow 上发布代码是否需要担心版权问题?https://meta.stackexchange.com/q/12527(也链接自 https://news.ycombinator.com/item?id=25621815 )
以教育为目的在 Stack Overflow 上以 CC-BY-SA 4.0 许可发布 GPL 许可的代码是合法的,并不违反版权法(不注明许可出处)。
如果使用发布到 Stack 上的 GPL 许可代码(未注明许可出处),并在您的代码中使用该代码,并假定该代码是根据 CC-BY-SA 4.0 许可发布的,则违反了 GPL 许可/版权规定。
从 Stack Overflow(可以在那里)复制 GPL 许可的代码与从 Copilot 复制代码在侵犯版权方面并无实质区别–无论在哪种情况下,进行复制和粘贴的人都是侵权者,都有责任确保所复制的代码没有任何许可负担。
收音机(机器)播放它从电波中接收到的歌曲并不侵犯版权。但如果你这个人把收音机拿去在公园里表演,让人们随着收音机里高声播放的音乐翩翩起舞,这就侵犯了版权。
没有代理权的机器不能侵犯版权。如果我用 iPhone 拍了一张书页的照片,而 iPhone 把照片上的文字变成了图像,这不是 iPhone 的错。而且,我可能有权拍摄这张照片。如果我发布了该图片或 iPhone 生成的文字,那就是侵权行为。
我相信/理解的是,只有拥有代理权的实体才有可能侵犯版权,而拥有代理权的实体就是最终出版或转发作品的实体。
为此,代码是由 Copilot 写的,还是从 StackOverflow 复制的,或者是 Fiver 上的某个人(他可能用过也可能没用过 Copilot)写的,这都不重要。如果我发布了它,我就是侵犯版权的代理者。
如果我们说 “啊哈,但你使用了 Copilot – 那是侵权行为”……好吧,我从 Stack Overflow 复制了一些未署名的代码,我认为它是 CC-BY-SA。StackOverflow 是否要为我的意外侵权负责?如果答案是 “不,作为将代码粘贴到作品中的人,您应该始终检查您粘贴的未知代码的版权归属”,那么我认为同样的答案也应该适用于所有其他情况。
https://www.synopsys.com/blogs/software-security/stack-overf…
https://opensource.com/law/13/7/fantec-german-foss-complianc…
> 法院要求 Fantec 根据事先达成的和解协议支付 5100 欧元的合同违约金。此外,法院还判决原告支付执行 GPLv2 的费用。(该裁决是德国法律的标准裁决,依据是《德国著作权法》第 97a (1)、31、69c 第 3 和 4 条。德国版权法》第 97a(1)、31、69c 第 3 和 4 条规定,被警告的一方有正当理由提出警告的,应承担相应的费用)。法院将 Fantec 的侵权行为归类为过失侵权行为,从而确认了该侵权行为的罪责:固件销售商不得依赖供应商关于合规性的声明。GPLv2 软件的经销商必须进行评估或委托专家进行评估,即使他们会产生额外费用。
https://fsfe.org/news/2013/news-20130626-01.en.html
> 法院判定 FANTEC 的行为存在疏忽:他们本应确保在 GPLv2 的条件下发布软件。法院明确指出,FANTEC 仅依靠其供应商保证遵守许可证规定是不够的。FANTEC 本身必须确保第三方的权利不受侵犯。
经销商有责任遵守许可证的规定。
有鉴于此,Copilot 对代码许可的 “说法 ”并不重要–复制代码的程序员有责任核实代码的版权状况,如果他们发布了该代码,则应承担过错责任。
> 没有代理权的机器不能侵犯版权。如果我用 iPhone 拍了一页书的照片,而 iPhone 把照片上的文字变成了图像,这不是 iPhone 的错。而且,我可能有权拍摄这张照片。如果我发布了该图片或 iPhone 生成的文字,那就是侵权行为。
> 我相信/理解,只有拥有代理权的实体才能侵犯版权,而拥有代理权的实体就是最终出版或重新分配作品的实体。
这种说法的最大问题在于,发布作品的不是机器,而是 OpenAI 公司。他们创造了复制行为发生的整个环境。
让我们来看看 Napster 案。如果说 “软件不能侵犯版权”,那么 RIAA 对大规模复制和分享他们的音乐有什么意见?为什么 Napster 公司能被起诉到不存在的地步?毕竟,他们只是创造了软件。
这里有一个先例,即软件的创造者可以为软件导致或允许的版权滥用承担责任。
> 发行商有责任遵守许可证的规定。
无论从哪个角度看,OpenAI 都是代码的传播者。毕竟,他们的软件正在输出授权代码。
我认为 OpenAI 和施乐公司之间有更多的相似之处,也有关于人们复制材料的版权危机。
https://www.copyright.gov/title37/201/37cfr201-14.html
> 美国版权法(《美国法典》第 17 编)对受版权保护的材料的影印或其他复制做出了规定。
> 在法律规定的某些条件下,图书馆和档案馆有权提供影印件或其他复制品。其中一个具体条件是影印或复制不得 “用于私人学习、学术或研究以外的任何目的”。如果用户申请或后来使用影印件或复制品的目的超出了 “合理使用 ”的范围,该用户可能要承担侵犯版权的责任。
> 本机构保留拒绝接受复制订单的权利,如果本机构认为执行该订单会违反版权法。
机器复制受版权保护的资料并无过错。如果是用于私人学习、学术或研究,则完全符合版权的合理使用。
如果该人超出了这一范围,并将复制用于超出这一范围的目的,则应由该人承担侵权责任,而不是机器。
要想与之相提并论,施乐公司必须是各地所有复印机的唯一持有者,并收取使用费。更何况,你当时还在物理世界里。
正因为如此,Napster 才更有可比性。它全部是软件,通过互联网,其规模是复印机无法比拟的。只是它比 Napster 更糟糕。就 Napster 而言,他们只是建立了以促进 P2P 文件共享为主要目的的软件和服务。而在 OpenAI 的案例中,他们自己负责制作侵权材料的副本。他们进行了搜刮,也进行了传播。
当然,但你漏掉了一步:LLM/AI 向你吐出一块受版权保护的代码本身就是侵权行为,OpenAI(等)应该为此负责。然后,你可以通过将这些代码复制到你的项目中并进行分发,从而进一步侵犯版权。
Stack Overflow 的情况也类似:他们要求贡献者只能张贴他们有合法权利张贴的代码,但实际上没有任何规定可以阻止他们在答案中包含他们无权张贴的受版权保护的代码。版权所有者有权对发布者采取法律行动,和/或向 Stack Overflow 发送 DMCA 侵权通知。同样,你也可以将该代码复制到你的项目中并发布,从而进一步侵犯版权。
嗯,这就是我的意思。
如果你使用人工智能来 “绕过 ”版权,你就应该承担后果。如果你雇了一个 “顾问 ”来进行侵权,也是一样。
我看不出 copilot 与 napster、kazaa 等有什么不同。
它的唯一目的是允许用户侵犯他人版权,而它的创建者(以前是 Napster 公司,现在是微软公司)则因此而获利
如果没有制作侵权作品的能力,它就什么都不是
> 它的唯一目的就是允许用户侵犯他人版权
我不是 Copilot 的粉丝,但这是一个荒谬的观点。直接将其与 Napster 等相提并论毫无意义。
> 没有制作侵权作品的能力,它什么也不是
我不太同意。虽然 Copilot 对大量数据进行了训练,但它并没有重新分配这些数据的合法权利,其输出结果往往(根据法官的意见,几乎总是)与任何特定版权作品不够相似,因此不会被视为侵权。
我确实认为,当输出结果与特定版权作品足够相似时,就应该承担相应的后果。
哪些运营商?是运行它的人,还是要求它做麻烦事的人?
这取决于你是与第三方建立了服务关系,由他们提供服务,还是你自己推出服务。举例来说,如果我花钱请第三方公司的顾问为我编写一些代码,但他们提供的源代码并不是他们有权使用的,我认为我应该追究他们的责任。不管是人还是自动化程序,都不会改变这一点。
我希望通过法庭审理来确定一个正常人的预期、顾问公司的代理以及我的具体要求,从而确定双方的过错程度。
> 我认为我应该让他们为此负责。
你应该?还是版权代码的所有者应该?
权利受到侵犯的所有人。GPL 通常在技术上把 “其他人 ”变成了 “每个人”,因为它把原本独有的权利(制作和分发拷贝)授予了每个人,然后又从侵权者手中夺走了这些权利。
例如,X 公司用 GPL 编制了一个程序来做 A,但 Y 公司只是把它复制粘贴到著名的产品 P 中,就好像是他们编制的一样,而且显然没有提供源代码。作为一个连 P 都不拥有的人,他们的论点是,从技术上讲,GPL 规定你应该能够从 Y 公司获得程序的源代码,即使你并没有购买他们的产品 P – 他们拒绝按照 GPL 的要求行事损害了你的利益,所以你可以起诉他们。
在这种情况下,起诉可能不是一个好主意,法院可能会坚持认为你并没有真正受到伤害,或者他们帮不了你,或者两者兼而有之,但我认为至少在理论上是可行的。
> 你的论点是,从技术上讲,GPL 规定你应该能够从 Y 公司获得程序的源代码,即使你没有购买他们的产品 P – 你受到了他们拒绝执行 GPL 规定的伤害,所以你可以起诉他们。
我认为情况并非如此。每当我看到有关违反 GPL 的讨论时,版权持有者都是那个必须对违反者穷追猛打的人(而且让他们采取行动往往很困难,因为法律挑战可能很昂贵);共识似乎是,以不符合 GPL 的方式接收软件的用户没有资格起诉。但我不确定是否有用户尝试过,所以也不确定这是否在法庭上得到过验证。
SFC 诉 Vizio 案正是你所说的不存在的情况。证监会故意提起诉讼,而他们并不拥有版权,并说他们受到了损害,这就是为什么法院应该判他们胜诉。
我认为这是因为即使他们不是原始权利人,他们仍然有资格,因为他们(作为公众)被任何使用 GPL 的人隐含地赋予了 GPL 下的权利,用于 GPL 涵盖的项目。既然他们被剥夺了这些权利,他们就受到了损害,因此他们也就有资格。
至少这是我这个 “认为法庭案件和对案件的讨论很有趣,因此经常将其作为娱乐消遣的门外汉 ”的最佳猜测。
我的意思是,如果你因使用受版权保护的代码而被所有者追究责任,那么反过来,你也应该能够追究作为代码来源的顾问的责任,而且责任和义务可以部分或全部转移。
我认为,这与我是一名雇主,而我的雇员做了违法的事情没有什么不同。可以进行调查,以确定员工是否根据公司的指示或普遍理解自行行事。这可能会改变谁应承担部分或全部责任,以及需要采取哪些措施向受非法活动影响的人提供补偿。
每种情况都有其自身的复杂性和独特性。这就是法院的职责所在,确定案件的独特方面,并根据法律和情况做出具体裁决,法官(确定什么是可以接受的、愿意被看到的)和陪审团(确定是否需要追究某人的责任,以及如何追究责任)认为合适。
这需要有法律经验和知识的人来回答。
我只能提出我的看法和更多的问题。举个例子;如果你是一个朋克摇滚乐队,雇了一个艺术家来制作宣传材料,而他们在你不知情的情况下画了一只 “低俗的米老鼠”,谁会有麻烦?看来你应该倒着来,直到你找到一个人或一个组织,然后让他们在法庭上逐一受审。也许这不是个好主意,原因别人可以解释,但这只是我目前的看法。
我听过一些企业把开源项目称为 “安全隐患 ”和 “共产主义者的胡言乱语”,但这确实阻止了他们试图免费获取作品并从中获利。这是贪婪和两面性。这是捕获。
我猜是微软收买了他们
[删除]
作为一名曾在联邦司法机构工作过的律师,法律界以外的人有这样的观点是可以理解的……但他们的观点实际上是非常偏激的。
> 法官的薪酬往往比主要律师低数倍
这部分是真实的。
>,而且它们并不是令人向往的工作,因此很多人都被权力大/能力低的工作所吸引。
不对,不对,也不对。法官职位是整个法律界最有声望、最令人向往的工作。你必须获得美国总统的提名,并得到参议院的确认。然后,你才能享有受宪法保护的终身任期。作为大公司合伙人赚取数百万美元的精英律师离职成为联邦法官的情况屡见不鲜。(注意,我说的是联邦法官)。
> 另外,如果只有一名法官,政党/国家只需影响一个人。
理论上是这样吧?但实际上,这种情况并不会发生。部分原因是法官非常重视自己的独立性。而且他们的判决是可以上诉的,所以这种腐败很容易被发现,或者至少会被推翻,这就使得它既危险又没什么用处。
> 公众通常无法获得所有文件和记录誊本,而且大多数情况下公布的都是法官对各方陈述的版本(即一个人书写历史)。
没有。除非有特定的机密材料需要编辑,否则一般都是公开的。但这种情况并不常见,也不受欢迎。
> 当法官驳回一个案件并将其归类为不可重新立案时,总是会让人瞠目结舌。
嗯 比这复杂得多。在某些情况下,这种做法可能会让人瞠目结舌–比如索赔是最近才提交的,而且有理由认为可以通过修改的方式使其恢复名誉。但是,如果从根本上讲,它显然是注定要失败的,或者如果允许它重新提交会不公平地损害其他当事人的利益,或者出于其他各种原因,这样做是完全合法的。
>法官的薪酬往往比主要律师低数倍,而且他们的工作并不令人向往
前半部分是事实,但后半部分却令人啼笑皆非。联邦法官职位非常珍贵,几乎不可能得到。全国只有大约 900 名三级法官,而且是终身制。
>公众通常无法获得所有文件和记录誊本,所公布的大多是法官对当事人所提交材料的解释。
完全错误。虽然会对商业机密等敏感信息进行编辑,但一般来说,所有内容都是公开记录。特别是,根据第一修正案和公开审判的权利,有一个强有力的推定,即法院在做出判决时所依据的任何信息都应不予编辑。
>当法官驳回一个案件并将其归类为不可重新立案时,一定要瞠目结舌。
当法官认为您可以合理地申辩更多的事实,而这些事实一旦被视为属实,就能证明您的诉求成立时,您就有机会重新申请。当诉讼请求因法律问题而失败时,修改许可将是徒劳的,因为你无法围绕这一点进行抗辩。
最后,伟大的知识产权洗衣机嗡嗡作响,可以溶解整个结构。拿出你的反汇编,生成草案,重新生成干净的源代码。合作共产主义!就这么办
我不认为这能证明你可以随便洗掉版权–我也不认为在这一点上连我们自己都希望如此。
首先:被驳回的诉讼请求与《美国法典》第 17 卷第 1202 条有关,即《数字千年版权法》中涉及版权管理信息的部分。在版权侵权诉讼中加入 CMI 索赔是原告的一个惯用伎俩[0]。显然,如果你侵犯了版权,你也就无法保留 CMI。而且,如果人工智能反刍输出,它甚至不知道自己这样做了,所以即使它想保存 CMI 也是不可能的。
问题是,人工智能的反刍并不稳定,不足以提出移除 CMI 的法律主张。该模型有时确实会产生法律上不同的输出。你需要指出具体的世代,并将模型与输出结果联系起来,从而在法律上牵涉到 GitHub、OpenAI 和/或微软,而《美国法典》第 17 编第 512 条的安全港条款并不免除责任。这有别于培训时间侵权索赔,后者仍然有效,不会依赖于次要责任,也不能通过遵守 DMCA takedowns 而免责,而且我认为后者是更有力的索赔。
让我们跳出合法性的范畴。我们为什么要废除版权?对我来说,是因为版权集中了对创造力的控制。它告诉其他艺术家他们能做什么,迫使他们进入越来越大的等级制度。问题是,人工智能模型也在做同样的事情。使用人工智能模型并不能让你成为艺术家[1],但它确实将艺术控制权进一步推向了大型创意产业。这就是为什么很多出版商和大型媒体的首席执行官都对人工智能持奇怪的看好态度,一群通常免费发布垃圾信息的艺术家对此感到愤怒,而憎恨软件版权的自由和开放源码软件(FOSS)人则是第一个提出起诉的人。
换句话说,人工智能正在破坏版权,以便用更多我们痛恨的版权取而代之。
[0] 至少理查德-利博维茨在被取消律师资格之前就喜欢这么做。
[1] 就像委托创作一件艺术品本身并不能使你成为艺术家一样
谢谢你的发言;你真是一针见血地指出了这一问题的严重性。如果建立、培训和运营 LLM 是任何人都有能力做到的事情,那么我对我的开源代码被 Copilot 这样的产品侵犯版权就不会有那么大的意见了。
但现在的情况并非如此,其结果让人感觉非常糟糕。
开源模型已经存在,并且可以在本地运行。对于普通人来说,从头开始训练是不切实际的,但如果我们已经有了免费(如自由)的模型,我们就可以在此基础上进行训练,这并不重要。
我身边有几个 “开放 ”模型,可以用于实验和偶尔使用,但我认为可下载的权重并不能解决根本问题。
首先,没有一个好的模型是我们通常所期望的自由和开放源码软件,即四大自由。在最不苛刻的情况下,OpenRAIL 许可证下的稳定扩散模型有一个道德条款[0]和技术保护措施[1]来执行该条款。LLaMA 的许可证只对低于一定 MAU 的实体开放,而 Stable Diffusion 3 最近从 OpenRAIL 转向了类似于 LLaMA 的 “免费啤酒 ”许可证。这不仅不是免费的,而且变得越来越专有,因为为人工智能培训付费的实体开始要求投资回报,而获得投资回报的最简单方法就是直接要求支付许可费。
人工智能公司–而不是他们从艺术家或程序员那里偷来的东西–之所以能够要求这些许可条款,是因为他们控制着训练模型所需的资金。如果FOSS的工匠们还能在前沿领域从头开始训练,我们就不用担心OpenAI会读取我们所有的GPT查询,也不用担心Stability会想方设法在他们的开放性品牌上打上星号。自由和开放源码软件开发是一种业余爱好,所以如果一个项目搞砸了,你可以重新做一个。人工智能不是这样工作的。如果 “稳定 ”把事情搞砸了,你还是得遵守 “稳定 ”的规则,除非你训练一个新的基础模型,而这是非常昂贵的。
你看,尽管这在法律上违反了版权法的文字和精神,但却非常 “像版权”。进入壁垒推动了产业整合,使我们向资本主义私有指令性经济的方向发展。如果我能从头开始训练模型,我会制作一个纯粹在公共领域数据集[2]上训练的像样的模型,在上面涂上Grokfast[3],并内置一些用户界面,以便有选择地对授权数据或自定义数据进行微调。
[0] 说白了,我个人并不太反对道德条款,这也是我使用 OpenRAIL 模型的原因。但我仍然认为在其他自由和开放源码软件许可中加入道德条款是个坏主意。至少,为了将道德价值观纳入法律合同,我们必须作为一个社区就版权应执行哪些道德价值观达成一致。此外,版权和合同也不是道德的执行工具。
[1] 例如,稳定扩散安全过滤器
[2] 相信我,我试过
[3] 一种通过对梯度进行 FFT 并放大慢梯度来提高摸索(概括)速度的算法。
这正是在无尘室中实现规范的意义所在,早在 20 世纪 80 年代,Phoenix BIOS 就是这样为克隆 PC 完成的。
因此,“终于 ”一词可能并不准确…
这让我觉得,我们需要一些模型来刻意尝试制作与受版权保护的代码等价的代码,但又要进行足够的改动,以避免侵权。
这样做的最终目的是使重写功能足够强大,以至于试图声称侵权的行为也会打击到手动创建的代码。
另一种方法是,根据某些指标生成针对某些任务进行了优化的代码,并证明由于该代码在此标准下是最佳的,因此并不显示出创造性。
这里的另一种可能性是,LLM 供应商记录下通常要求的代码生成任务,然后用经过审核的、正确的、不侵权的代码为这些问题的模型加盐。
虽然我认为这可能会解决版权侵权问题,但它仍然困扰着我。
我不喜欢这样的想法,即一家公司可以囤积无数的开放源代码和贡献(包括我的贡献),然后利用这些代码向其他人出售代码生成辅助工具来赚钱,即使代码生成的输出与任何特定的受版权保护的代码块有足够大的差异,从而不会导致版权侵权索赔。
我们甚至不清楚是否能阻止这种情况的发生;当然,如果 “GPLv4 ”中规定禁止使用受保护的代码进行 LLM 跟踪,那么在法律上(如果不只是实际上)是无法执行的。
对我来说,最棘手的部分是集中化。虽然随着时间的推移,模型和培训工具可能(也许?)会越来越便宜,但建立和运营像 Copilot 这样的系统需要大量的资金和资源。我们真的希望这些能力被锁在资本雄厚的大公司内部吗?对我来说,答案是否定的。
在 HN 上看到人工智能版权主题总是很有趣–那些希望废除版权的人突然希望有史上最强大的版权存在。
任何网站的评论员都不是铁板一块。你这是在虚构一个人来气人。
话虽如此,但这些人在特定主题中的出现或缺席却令人好奇。在迪斯尼主题中,“所有形式的版权都是不道德的 ”这种人比比皆是。当然,任何对版权法和版权政策有浓厚兴趣的人都会希望对这个主题发表评论,因为主题是如此相似?
说句不好听的,这篇文章已经发表一小时了。人们甚至还来不及知道它的存在。
你以为人们只是为了争论而恼羞成怒,只要 HN 上有涉及版权的话题,就会在半夜设闹钟叫醒他们吗?
这并不矛盾。Copyleft 是柔道的终极招式。版权越强,版权保护就越强。
> 相同的人
也许,只是也许,这是不同的人,而 HN 并不是一个无定形的蜂巢,每个人总是想同样的事情。
HN 上总有人抱怨 HN 的虚伪,这让人摸不着头脑。显然,在这个网站上并不是每个人都对所有事情持有相同的观点,否则你们就不会提出这样的批评了。
同样的人也不介意绕过付费墙来阅读他们感兴趣但不付费的内容。
我认为 “同样的人 ”是一种侮辱。它几乎总是意味着刻板印象。