
โมเดล Generative AI ใหม่ล่าสุดจาก OpenAI คือ GPT-4o (ไม่เรียกว่า GPT-5 อย่างที่คาด) โดย “o” มาจากคำว่า “omni” เป็นโมเดลรุ่นเรือธงที่มีประสิทธิภาพที่สุด และจะให้คนทั่วไปใช้ฟรี
โมเดลเดิมที่ใช้กันอยู่ในปัจจุบัน คือ GPT-3.5, GPT-4
ตัวอย่างของประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนๆ
-Input และ Output ได้หลากหลายมิติพร้อมกัน คือ ข้อความ เสียง รูปภาพ วิดีโอ (ยกเว้น Output เฉพาะวิดีโอ)
-ความเร็วที่สามารถโต้ตอบกับ Input อยู่ที่ 232 Millisecond (232/1,000 วินาที) โดยมีค่าเฉลี่ยอยู่ที่ 320 Millisecond ซึ่งอยู่ในระดับเดียวกับการพูดโต้ตอบของมนุษย์
-การทำงานกับข้อความภาษาอังกฤษและการโค้ดดีเท่ากับโมเดล GPT-4 Turbo แต่ทำงานเร็วกว่าอย่างชัดเจน
-ค่าธรรมเนียมการติดตั้ง API โมเดล GPT-4o ต่ำกว่าเดิม 50%
-มีความสามารถเหนือกว่าโมเดลอื่นในเรื่องความเข้าใจ การมอง การฟังเสียง
-มี Latency หรือความหน่วงด้านเสียงเพียง 2.8 วินาที
-สามารถ Output เสียงที่มีอารมณ์ความรู้สึก สูงต่ำ ช้าหรือเร็ว พูดเสียดสีประชดประชันได้ ร้องเพลงได้ มันจะหยุดพูดเมื่อมีการแทรกพูดจากคน
ประสิทธิภาพใหม่ของ GPT-4o เริ่มใกล้ความเป็นมนุษย์มากขึ้น ทำได้ดีกว่าโมเดลอื่นของ OpenAI และเหนือกว่าคู่แข่งที่อยู่ในตลาด
ตัวอย่างที่มีการสาธิตการใช้งาน เช่น
• เป็นเพื่อนที่มองเห็นคุณ ได้ยินเสียงคุณ รู้ว่าคุณกำลังทำอะไร สามารถโต้ตอบได้ไม่ต่างจากเพื่อนคนหนึ่ง
• AI คุยกับ AI ด้วยกันเองได้
• GPT-4o เข้าใจภาพและเสียงที่เกิดขึ้นรอบข้าง
• คอยตรวจจับสภาพแวดล้อมในขณะที่คุณกำลังทำงานอย่างอื่น เป็นตาหลังของคุณ
• มันเห็นหน้าหรือได้ยินเสียงแล้วรู้ว่าเป็นอะไร จับความรู้สึกได้ ขอความเห็นเรื่องหน้าตา ทรงผม การแต่งตัว จากมันได้
• แต่งและเล่าเรื่องต่างๆได้ ใช้เสียงที่แสดงความรู้สึก
• ทำหน้าที่เป็นครูหรือติวเตอร์ส่วนตัว
• ฟังเรื่องตลกของคนแล้วหัวเราะได้
• ทำหน้าที่เป็นตาให้กับคนตาบอด
• เป็นผู้ดำเนินการประชุม เรียบเรียง สรุป แปลภาษา
• แปลงคำพูดภาษาต่างๆได้แบบเรียลไทม์
สำหรับนักพัฒนา จะได้เห็นการติดตั้ง API เพื่อเอาไปเพิ่มประสิทธิภาพในการทำงานของแอพต่างๆ รวมถึงมีแอพใหม่ที่จะตามมาอีกมาก เช่น
• วิเคราะห์ข้อมูลแบบเรียลไทม์สำหรับข้อมูลหลายหลายมิติ คือ ภาพ เสียง วิดีโอ ข้อมูล
• เพิ่มประสิทธิภาพฝ่ายสนับสนุนลูกค้า มีระบบอัตโนมัติที่ดีขึ้น
• การศึกษาเรียนรู้ที่โต้ตอบสองทาง
• การสร้างเนื้อหาที่มีความคิดสร้างสรรค์มากขึ้น
• แปลง Text เป็น Audio ได้อย่างรวดเร็ว
• ช่วยงานด้านการแพทย์ ทำหน้าที่วินิจฉัยโรคได้
• เชื่อมต่อกับระบบ Smart Home
• ช่วยบริหารจัดการด้านการเงิน
• ไกด์ทัวร์ที่โต้ตอบได้ การท่องเที่ยวแบบเสมือนจริง
• แต่งเพลง ช่วยแต่งเพลง
• สร้างเกมที่น่าสนใจ
• Tracking สุขภาพและการออกกำลังกาย
• สรุปรวบรวมข่าว
• ทำงานด้านการรักษาความปลอดภัย ตีความภาพและเสียงที่เห็นจากวงจรปิดต่างๆ
• คอยดูเด็กเล็กแทนผู้ปกครอง
• ตรวจสอบคุณภาพสินค้า ตั้งแต่บนสายพานการผลิต หรือก่อนการส่งมอบให้ลูกค้า
มีแอพพลิเคชั่น AI หลายแอพที่มีการสร้างขึ้นมาสำหรับกิจกรรมเฉพาะอย่าง แต่วันนี้สามารถใช้ GPT-4o ของ OpenAI ทดแทนได้
GPT-4o มีไมค์เป็นหู มีลำโพงเป็นปาก มีกล้องเป็นตา
ถ้ามันดมกลิ่นได้ รู้ร้อนรู้หนาวด้วย ก็คงไม่ต่างอะไรจากคน….
https://openai.com/index/spring-update
