国华的世界

这是国华对读过的书, 看过的电视/电影, 听过的音乐, 访游过的地方, 经历过的事物, 和时事的感想或点评.
个人资料
国华P (热门博主)
  • 博客访问:
正文

DeepSeek与OpenAI孰是孰非

(2025-01-30 12:51:35) 下一个

DeepSeek的指控

在DeepSeek发布其惊世骇俗的DeepSeek v3, 尤其是其1月20日发布的r1模型引发美国股市狂泻后,美国朝野政治和科技界开始了“反思”。回溯DeepSeek的发展史,人们似乎发现了猫腻(下图 digit)。

微软和OpenAI调查DeepSeek是否从ChatGPT非法获取数据(OPENTOOLs/Yahoo)。偏保守的《纽约邮报》(New York Post)在昨天(1月29日)的一篇题为“OpenAI says it has proof DeepSeek used its technology to develop its AI model”的文章中说,特朗普总统的人工智能和加密货币顾问萨克斯(David Sacks)认为,DeepSeek可能窃取了OpenAI的技术(下图 threads)。

萨克斯在接受福克斯新闻采访时表示:“人工智能中有一种技术(即蒸馏distillation 下图 yahoo),一个模型通过复制其知识从另一个模型中学习。有强有力的证据表明,DeepSeek对OpenAI的模型做到了这一点。”但《纽约邮报》注意到萨克斯并未“没有提供具体的证据”。 同时,《纽约邮报》还指出,“专家表示,中国和美国的人工智能初创企业经常使用已建立的人工智能模型的结果来改进自己的系统。”(Experts say it is common for AI start-ups in China and the US to use results from established AI models to improve their own systems.)

AI中的”fair use”

谷歌发明了变压器(transformer)架构,OpenAI在transformer的基础上将其扩展(scale it up),成就了后来蜚声全球的ChatGPT语言大模型。但是,《纽约时报》起诉OpenAI和微软未经许可使用《纽约时报》文章来训练大语言模型(下图 RubyMediaGroup)。

《纽约时报》的核心指控是,OpenAI在训练模型期间未经许可和授权使用和复制(数百万)《纽约时报》作品,作为大语言模型的训练材料,侵犯了版权。《纽约时报》列举的例子中包括一篇发表于2012年关于苹果全球产业链的文章。ChatGPT几乎是将《纽约时报》的文章一字不漏的生成出来。《纽约时报》认为,OpenAI的行为对高质量新闻报道构成重大威胁 (下图 SBSTamil)。

OpenAI的律师在答辩时称,用于其训练人工智能机器人的大量数据受到“合理使用”(fair use)规则的保护。所谓“fair use”是美国法律中的一项原则,允许将受版权保护的材料用于教育、研究或评注等目的。OpenAI的最大投资者微软的律师提出,OpenAI采用《纽约时报》的新闻文本并不违法,因为版权法对大语言模型(LLM)的适用性应该比照录像机(VCR),或复印机、个人电脑、互联网、搜索引擎或钢琴。目前《纽约时报》与OpenAI/微软的官司仍在继续当中。另谷歌的Gemini大语言模型也是用百度的文心一言大模型数据来训练其中文的。在2023年12月18日的一次对Gemini-Pro的测试中,有人问它“你是谁”,Gemini-Pro答称:我是百度文心大模型。

由总部位于纽约市的Recurrent Ventures媒体公司出版的电子刊物Futurism在1月29日一期中有一篇题为“OpenAI hit with wave of ockery for crying that someone stole its work without permission to build a competiting product”( OpenAI因有人未经许可窃取其作品以构建竞争产品而受到嘲笑 下图 Futurism)。

文中有一段引用人工智能评论家Ed Zitron的这么一段话:“OpenAI这家靠窃取整个互联网而成立的公司正在哭泣,因为DeepSeek可能已经接受了ChatGPT的输出训练。”文章还引用了另一位Bluesky用户的更为激进的观点:“如果你窃取了全世界所有的艺术,来制造出欺骗性和不能进行算术运算的技术,并为此收取200美元/每月的费用。而有人窃取了你的技术,然后免费提供这项技术。也许,你并非真正的受害者。”人工智能评论家Gary Marcus在他的推特X上表示, OpenAI可能也未经许可窃取了YouTube、纽约时报以及无数艺术家和作家的产权。是不是有点尴尬?(下图 CHANNEL)

笔者看来,DeepSeek与OpenAI现在是一损俱损,一荣俱荣的关系。如果OpenAI输了与《纽约时报》的官司,DeepSeek的“合理使用”也就不成立,我是说如果有确凿证据证明DeepSeek在训练中蒸馏了ChatGPT的数据的话。如果OpenAI的“合理使用”得到法官的支持,那OpenAI/Microsoft没有理由只许州官放火,不让百姓点灯。己所不欲,勿施于人。OpenAI CEO曾经说过,如果没有剽窃受版权保护的材料,就不会有OpenAI。现在OpenAI已经闭源,这话是否对别的开源公司更合适呢?你说呢?


参考资料

巴比特. (2024). AI new horizon | daily must-read: Gemini revealed that it used Baidu Wenxin Yiyuan for Chinese language training. AiCoin. 链接 https://www.aicoin.com/en/article/380285

Allyn, B. (2025). 'The New York Times' takes OpenAI to court. ChatGPT's future could be on the line. npr radio. 链接 https://www.npr.org/2025/01/14/nx-s1-5258952/new-york-times-openai-microsoft

Basa, D. (2025). How China’s new AI odel DeepSeek is threatening U.S. dominance. CNBC. 链接 https://www.youtube.com/watch?v=WEBiebbeNCA

The New York Times. (2023). The Times sues OpenAI and Microsoft over A.I. use of copyrighted work. 链接 https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

O’Brien, M. & Chan, K. (2025). Did DeepSeek copy ChatGPT to make new AI chatbot? Trump’s adviser thinks so. AP. 链接 https://apnews.com/article/deepseek-ai-chatgpt-openai-copyright-a94168f3b8caa51623ce1b75b5ffcc51

Wu, J. and Bosa, D. (2025). How China’s new AI model DeepSeek is threatening U.S. dominance. CNBC. 链接 https://www.cnbc.com/2025/01/24/how-chinas-new-ai-model-deepseek-is-threatening-us-dominance.html

[ 打印 ]
阅读 ()评论 (2)
评论
老北京炸酱面 回复 悄悄话 DS做的,属于偷窃
老北京炸酱面 回复 悄悄话 Open AI和DS做的是两码事,就像那个漫画所说,open AI是从大海里钓点,DS是从Open AI的鱼篓里钓鱼,这是两码事,本质的区别
登录后才可评论.