网页抓取和人工智能

rumana777 · Post by **rumana777** » Mon Mar 17, 2025 8:51 am

高质量的网络数据有助于将人工智能技术的关键类型之一——大型语言模型 (LLM) 推向如今的水平。训练 LLM 以理解人类语言并生成情境感知响应需要大量数据。

例如，GPT-4 的前身 GPT-3 的训练需要45 TB 的文本。来自互联网的公开信息是用于训练人工智能的重要信息支柱之一。

预计未来几年，人工智能市场将呈指数 Viber数据级增长。这自然引发了关于使用网络数据训练人工智能和创建人工智能产品的问题。

人工智能训练和版权法
有人认为，这项蓬勃发展的技术背后的公司未经许可抓取在线数据来训练人工智能和创造新产品，违反了版权法。此外，还有人认为，像 ChatGPT 这样的大型语言模型会使用训练数据集中的所有数据来生成响应，有时会“模仿”原始内容。

为了更好地理解双方的争论，让我们来看看自 OpenAI 推出领先的法学硕士之一 ChatGPT 并向公众开放以来发生的一些案例。
《纽约时报》与 OpenAI
2023 年底，《纽约时报》起诉 OpenAI使用其内容训练 AI，这是第一家这样做的美国主要媒体。此后，其他几家媒体也起诉了 OpenAI，声称该公司使用其文章训练 AI 系统违反了联邦版权法。

内容许可协议
一些媒体公司采取了不同的做法。例如，《金融时报》与一家生成式人工智能公司达成了内容许可协议，允许他们使用《金融时报》的内容来开发人工智能产品。

使用公共数据训练人工智能
而站在讨论另一方的 OpenAI 则认为，使用公共网络数据来训练 AI 是合理使用。从这个角度来看，许多新闻出版物都是向公众开放的，无需登录或付费墙，因此，它们应该被视为公共网络数据。网络上的其他内容也是如此，例如维基百科文章、公司网站、社交网站等。

与此同时，人工智能无疑正在彻底改变我们的工作和经商方式。它还为社会提供了可用于造福社会的工具，帮助研究人员和科学家找到解决环境、医疗和其他全球挑战的解决方案。此外，许多营利性人工智能公司免费提供强大的模型，例如 GPT-3.5 或 Gemini Pro。