GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。

我認為那不會很久 OpenAI 它還將在基於人工智能的搜索引擎的開發中發揮作用。 新的 web crawler GPTBot cu modeGPT-5 廣泛語言已經發布。

那些使用 ChatGPT 我知道這個 model 廣泛的語言(LLM) 當前正在運行 GPT-3.5,正在接受 2021 年 XNUMX 月更新的數據集的培訓。因此,如果從該日期開始請求更新的信息, ChatGPT 無法提供準確的信息。 當然,適用於不支持使用輔助插件的免費版本。

通過推出 GPTBot, OpenAI 通過這個新的方式為網頁索引開闢了道路 web crawler。 正如穀歌、微軟、雅虎等許多公司多年來一直在做的那樣。

GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。

新 web crawler GPTBot 利用 web agent:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

網站所有者可以通過文件控製網頁的索引 robots.txt,使用與其他指令相同的指令 web crawler以及其他公司的。

例如,如果網站所有者不希望 OpenAI 要從網站收集信息,可以添加 robots.txt 行:

User-agent: GPTBot
Disallow: /

即使他表現得像一個 web crawler, GPTBot 將有一個明確的目的:收集公開可用的數據,同時小心避免涉及付費牆、收集個人數據或違反政策的內容的來源 OpenAI.

但存在不少爭議,有些甚至引起了針對該公司的法律訴訟 OpenAI 未經作者同意或未指明來源的隱私和內容使用。

XNUMX 月,日本隱私監管機構發出警告 OpenAI 關於未經授權的數據收集。 意大利今年早些時候也暫時禁止使用 ChatGPT 由於涉嫌違反歐盟隱私法。

對技術充滿熱情,我很高興寫 StealthSettings.com 自 2006 年起。我在作業系統方面擁有豐富的經驗: macOS, Windows 對 Linux,而且還包括程式語言和部落格平台(WordPress)和線上商店(WooCommerce、Magento、PrestaShop)。

如何 » GPT AI » GPT-5 和由 OpenAI 開發的新網路爬蟲 GPTBot。
發表評論