ฉันไม่คิดว่ามันจะนานถึงตอนนั้น OpenAI มันจะเข้ามามีบทบาทในการพัฒนาเสิร์ชเอ็นจิ้นที่ใช้ปัญญาประดิษฐ์ ใหม่ web crawler GPTBot ด้วยโมเดลภาษากว้าง GPT-5 เปิดตัวแล้ว
ผู้ที่ใช้ ChatGPT ทราบดีว่ารูปแบบภาษาที่กว้างนี้ (LLM) กำลังดำเนินการอยู่ GPT-3.5กำลังฝึกอบรมเกี่ยวกับชุดข้อมูลที่อัปเดตในเดือนกันยายน 2021 ดังนั้นหากมีการขอข้อมูลที่ใหม่กว่าจากวันที่นี้ ChatGPT ไม่สามารถให้ข้อมูลที่ถูกต้องได้ แน่นอน ใช้ได้กับเวอร์ชันฟรีที่ไม่รองรับการใช้ปลั๊กอินเสริม
ด้วยการเปิดตัว GPTBot, OpenAI ได้เปิดให้จัดทำดัชนีหน้าเว็บผ่านทางใหม่นี้ web crawler. อย่างที่บริษัทต่างๆ เช่น Google, Microsoft, Yahoo และอื่นๆ ได้ทำมาหลายปีแล้ว
GPT-5 และเว็บครอลเลอร์ใหม่ GPTBot ที่พัฒนาโดย OpenAI.
ใหม่ web crawler GPTBot ใช้ประโยชน์ web agent:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
เจ้าของเว็บไซต์สามารถควบคุมการจัดทำดัชนีหน้าเว็บผ่านไฟล์ robots.txt
โดยใช้คำสั่งเดียวกันกับผู้อื่น web crawlerและของบริษัทอื่นๆ
ตัวอย่างเช่น หากเจ้าของเว็บไซต์ไม่ต้องการเช่นนั้น OpenAI เพื่อรวบรวมข้อมูลจากเว็บไซต์ อาจเพิ่มเข้ามา robots.txt
เส้น:
User-agent: GPTBot
Disallow: /
แม้ว่าเขาจะทำตัวเหมือน web crawler, GPTBot จะมีวัตถุประสงค์ที่แตกต่างกัน: เพื่อเก็บเกี่ยวข้อมูลที่เปิดเผยต่อสาธารณะโดยหลีกเลี่ยงแหล่งที่มาที่เกี่ยวข้องกับเพย์วอลล์ การรวบรวมข้อมูลส่วนบุคคล หรือเนื้อหาที่ละเมิดนโยบายอย่างระมัดระวัง OpenAI.
แต่ก็มีข้อโต้แย้งอยู่ไม่น้อย บางข้อถึงกับต้องดำเนินคดีกับบริษัทด้วยซ้ำ OpenAI เกี่ยวกับความเป็นส่วนตัวและการใช้เนื้อหาโดยไม่ได้รับความยินยอมจากผู้เขียนหรือไม่ระบุแหล่งที่มา
ในเดือนมิถุนายน หน่วยงานกำกับดูแลความเป็นส่วนตัวของญี่ปุ่นได้ออกคำเตือนถึง OpenAI เกี่ยวกับการรวบรวมข้อมูลโดยไม่ได้รับอนุญาต นอกจากนี้ เมื่อต้นปีนี้ อิตาลียังได้ห้ามใช้ ChatGPT เป็นการชั่วคราวเนื่องจากถูกกล่าวหาว่าละเมิดกฎหมายความเป็นส่วนตัวของสหภาพยุโรป