GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。

我認為那不會很久 OpenAI 它還將在基於人工智能的搜索引擎的開發中發揮作用。新的 web crawler GPTBot cu modeGPT-5 廣泛語言已經發布。

那些使用 ChatGPT 我知道這個 model 廣泛的語言（LLM) 當前正在運行 GPT-3.5，正在接受 2021 年 XNUMX 月更新的數據集的培訓。因此，如果從該日期開始請求更新的信息， ChatGPT 無法提供準確的信息。當然，適用於不支持使用輔助插件的免費版本。

通過推出 GPTBot, OpenAI 通過這個新的方式為網頁索引開闢了道路 web crawler。正如穀歌、微軟、雅虎等許多公司多年來一直在做的那樣。

GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。

新 web crawler GPTBot 利用 web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

網站所有者可以通過文件控製網頁的索引 robots.txt，使用與其他指令相同的指令 web crawler以及其他公司的。

例如，如果網站所有者不希望 OpenAI 要從網站收集信息，可以添加 robots.txt 行：

User-agent: GPTBot
Disallow: /

即使他表現得像一個 web crawler, GPTBot 將有一個明確的目的：收集公開可用的數據，同時小心避免涉及付費牆、收集個人數據或違反政策的內容的來源 OpenAI.

但存在不少爭議，有些甚至引起了針對該公司的法律訴訟 OpenAI 未經作者同意或未指明來源的隱私和內容使用。

XNUMX 月，日本隱私監管機構發出警告 OpenAI 關於未經授權的數據收集。意大利今年早些時候也暫時禁止使用 ChatGPT 由於涉嫌違反歐盟隱私法。