我認為那不會很久 OpenAI 它還將在基於人工智能的搜索引擎的開發中發揮作用。 新的 web crawler GPTBot GPT-5 廣泛的語言模型已經發布。
使用 ChatGPT 的人都知道,這種廣泛的語言模型(LLM) 當前正在運行 GPT-3.5,正在接受 2021 年 XNUMX 月更新的數據集的培訓。因此,如果從該日期開始請求更新的信息, ChatGPT 無法提供準確的信息。 當然,適用於不支持使用輔助插件的免費版本。
通過推出 GPTBot, OpenAI 通過這個新的方式為網頁索引開闢了道路 web crawler。 正如穀歌、微軟、雅虎等許多公司多年來一直在做的那樣。
GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。
新 web crawler GPTBot 利用 web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
網站所有者可以通過文件控製網頁的索引 robots.txt
,使用與其他指令相同的指令 web crawler以及其他公司的。
例如,如果網站所有者不希望 OpenAI 要從網站收集信息,可以添加 robots.txt
行:
User-agent: GPTBot
Disallow: /
即使他表現得像一個 web crawler, GPTBot 將有一個明確的目的:收集公開可用的數據,同時小心避免涉及付費牆、收集個人數據或違反政策的內容的來源 OpenAI.
但存在不少爭議,有些甚至引起了針對該公司的法律訴訟 OpenAI 未經作者同意或未指明來源的隱私和內容使用。
XNUMX 月,日本隱私監管機構發出警告 OpenAI 關於未經授權的資料收集。此外,今年早些時候,義大利因涉嫌違反歐盟隱私法而暫時禁止使用 ChatGPT。