GPT-4o, AI ที่ใกล้เป็นมนุษย์ยิ่งขึ้น GenAI ก้าวล้ำมากที่สุด Input-Output ข้อความ เสียง ภาพ

โมเดล Generative AI ใหม่ล่าสุดจาก OpenAI คือ GPT-4o (ไม่เรียกว่า GPT-5 อย่างที่คาด) โดย “o” มาจากคำว่า “omni” เป็นโมเดลรุ่นเรือธงที่มีประสิทธิภาพที่สุด และจะให้คนทั่วไปใช้ฟรี

โมเดลเดิมที่ใช้กันอยู่ในปัจจุบัน คือ GPT-3.5, GPT-4

ตัวอย่างของประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนๆ

-Input และ Output ได้หลากหลายมิติพร้อมกัน คือ ข้อความ เสียง รูปภาพ วิดีโอ (ยกเว้น Output เฉพาะวิดีโอ)

-ความเร็วที่สามารถโต้ตอบกับ Input อยู่ที่ 232 Millisecond (232/1,000 วินาที) โดยมีค่าเฉลี่ยอยู่ที่ 320 Millisecond ซึ่งอยู่ในระดับเดียวกับการพูดโต้ตอบของมนุษย์

-การทำงานกับข้อความภาษาอังกฤษและการโค้ดดีเท่ากับโมเดล GPT-4 Turbo แต่ทำงานเร็วกว่าอย่างชัดเจน

-ค่าธรรมเนียมการติดตั้ง API โมเดล GPT-4o ต่ำกว่าเดิม 50%

-มีความสามารถเหนือกว่าโมเดลอื่นในเรื่องความเข้าใจ การมอง การฟังเสียง

-มี Latency หรือความหน่วงด้านเสียงเพียง 2.8 วินาที

-สามารถ Output เสียงที่มีอารมณ์ความรู้สึก สูงต่ำ ช้าหรือเร็ว พูดเสียดสีประชดประชันได้ ร้องเพลงได้ มันจะหยุดพูดเมื่อมีการแทรกพูดจากคน

ประสิทธิภาพใหม่ของ GPT-4o เริ่มใกล้ความเป็นมนุษย์มากขึ้น ทำได้ดีกว่าโมเดลอื่นของ OpenAI และเหนือกว่าคู่แข่งที่อยู่ในตลาด

ตัวอย่างที่มีการสาธิตการใช้งาน เช่น

• เป็นเพื่อนที่มองเห็นคุณ ได้ยินเสียงคุณ รู้ว่าคุณกำลังทำอะไร สามารถโต้ตอบได้ไม่ต่างจากเพื่อนคนหนึ่ง

• AI คุยกับ AI ด้วยกันเองได้

• GPT-4o เข้าใจภาพและเสียงที่เกิดขึ้นรอบข้าง

• คอยตรวจจับสภาพแวดล้อมในขณะที่คุณกำลังทำงานอย่างอื่น เป็นตาหลังของคุณ

• มันเห็นหน้าหรือได้ยินเสียงแล้วรู้ว่าเป็นอะไร จับความรู้สึกได้ ขอความเห็นเรื่องหน้าตา ทรงผม การแต่งตัว จากมันได้

• แต่งและเล่าเรื่องต่างๆได้ ใช้เสียงที่แสดงความรู้สึก

• ทำหน้าที่เป็นครูหรือติวเตอร์ส่วนตัว

• ฟังเรื่องตลกของคนแล้วหัวเราะได้

• ทำหน้าที่เป็นตาให้กับคนตาบอด

• เป็นผู้ดำเนินการประชุม เรียบเรียง สรุป แปลภาษา

• แปลงคำพูดภาษาต่างๆได้แบบเรียลไทม์

สำหรับนักพัฒนา จะได้เห็นการติดตั้ง API เพื่อเอาไปเพิ่มประสิทธิภาพในการทำงานของแอพต่างๆ รวมถึงมีแอพใหม่ที่จะตามมาอีกมาก เช่น

• วิเคราะห์ข้อมูลแบบเรียลไทม์สำหรับข้อมูลหลายหลายมิติ คือ ภาพ เสียง วิดีโอ ข้อมูล

• เพิ่มประสิทธิภาพฝ่ายสนับสนุนลูกค้า มีระบบอัตโนมัติที่ดีขึ้น

• การศึกษาเรียนรู้ที่โต้ตอบสองทาง

• การสร้างเนื้อหาที่มีความคิดสร้างสรรค์มากขึ้น

• แปลง Text เป็น Audio ได้อย่างรวดเร็ว

• ช่วยงานด้านการแพทย์ ทำหน้าที่วินิจฉัยโรคได้

• เชื่อมต่อกับระบบ Smart Home

• ช่วยบริหารจัดการด้านการเงิน

• ไกด์ทัวร์ที่โต้ตอบได้ การท่องเที่ยวแบบเสมือนจริง

• แต่งเพลง ช่วยแต่งเพลง

• สร้างเกมที่น่าสนใจ

• Tracking สุขภาพและการออกกำลังกาย

• สรุปรวบรวมข่าว

• ทำงานด้านการรักษาความปลอดภัย ตีความภาพและเสียงที่เห็นจากวงจรปิดต่างๆ

• คอยดูเด็กเล็กแทนผู้ปกครอง

• ตรวจสอบคุณภาพสินค้า ตั้งแต่บนสายพานการผลิต หรือก่อนการส่งมอบให้ลูกค้า

มีแอพพลิเคชั่น AI หลายแอพที่มีการสร้างขึ้นมาสำหรับกิจกรรมเฉพาะอย่าง แต่วันนี้สามารถใช้ GPT-4o ของ OpenAI ทดแทนได้

GPT-4o มีไมค์เป็นหู มีลำโพงเป็นปาก มีกล้องเป็นตา

ถ้ามันดมกลิ่นได้ รู้ร้อนรู้หนาวด้วย ก็คงไม่ต่างอะไรจากคน….

https://openai.com/index/spring-update

Leave a Reply