AI สร้างเสียงสังเคราะห์จากเสียงต้นแบบ 3 วินาที ทำออกมาเป็นเนื้อเสียงเดิม หรือเสียงใหม่

สร้างเสียงต่อเนื่องที่เป็นการสร้างสรรค์ใหม่

เสียงดนตรี เสียงพูด เสียงแบล็กกลาวด์จากธรรมชาติ

ลิงก์นี้เป็นผลงานวิจัย AI สร้างเสียง จาก Google

https://google-research.github.io/seanet/audiolm/examples/

AudioLM ของกูเกิล ใช้ข้อความเสียงต้นแบบยาว 3 วินาที แล้วสร้างเสียงใหม่ต่อเนื่องยาว 10 วินาที

หากต้นแบบเสียงเป็นเสียงพูดสั้นๆ AI จะสร้างเสียงต่อเนื่องที่มีเนื้อหายาวๆ ฟังแล้วเหมือนกับการฟังเรื่องราวต่อเนื่อง ทั้งๆที่มีต้นแบบจากสิ่งที่ป้อนให้ AI เพียง 3 วินาที มันสามารถสร้างเสียงสังเคราะห์เป็นเนื้อเสียงเดิมที่มีความเป็นเอกลักษณ์ของผู้พูด มีฉันทลักษณ์ สำเนียง สอดคล้องกับเสียงต้นแบบ

หรือจะให้มันสร้างเสียงใหม่ที่แตกต่างกันโดยสิ้นเชิงกับเสียงต้นแบบก็ได้

การสร้างข้อความเสียงใหม่นี้ เป็นเทคโนโลยีที่พัฒนาต่อเนื่องจาก AI Writer ซึ่งเป็นการป้อนข้อความสั้นๆเพียงแค่ชื่อเรื่อง AI ก็สามารถสร้างเรื่องราวใหม่ยาวๆออกมาได้ แต่คราวนี้เป็นการถ่ายทอดออกมาในรูปแบบของเสียง

นอกจากเสียงพูดของคนแล้ว AudioLM ของกูเกิล ยังสามารถสร้างเสียงสังเคราะห์จากเสียงเปียโน โดยเริ่มต้นให้มันได้ยินเสียงต้นแบบเพียง 3 วินาที มันสามารถสร้างโน้ตและเสียงเปียโนต่อเนื่องที่น่าไพเราะยาว 20 วินาทีได้ หากพัฒนาต่อไป จะให้มันยาว 3-4 นาทีหรือทำออกมาเป็นเพลงทั้งเพลงก็คงไม่มีปัญหาอะไร

วันนี้ยังเป็นเสียงสังเคราะห์ที่สร้างจากเสียงต้นแบบของเสียงเปียโนเท่านั้น ในอนาคตอาจใช้เสียงต้นแบบจากเครื่องดนตรีหลายๆชิ้น แล้วได้เพลงที่เล่นกันแบบเต็มวง

สิ่งที่กูเกิล กำลังพัฒนาต่อเนื่องจากเสียงพูดและเสียงดนตรี คือ การเลียนแบบ และสร้างเสียงสังเคราะห์ใหม่ของเสียงที่มาจากธรรมชาติ

ยกตัวอย่างเช่น เอาเสียงต้นแบบสั้นๆของป่าธรรมชาติในเขตร้อนใช้เป็นต้นแบบ แล้วปล่อยให้ AI สร้างเสียงต่อเนื่องยาวๆออกมาตามที่ต้องการ

หรือจะเอาเสียงต้นแบบสั้นๆจากเมืองที่มีผู้คนหนาแน่น มีกิจกรรมหลายอย่างที่มีเสียงแตกต่างกันทำอยู่พร้อมๆกัน ป้อนต้นแบบเสียงสั้นๆให้ AI มันจะช่วยสร้างเสียงแบล็กกลาวด์ยาวๆของเสียงในเขตเมืองได้

สิ่งที่เทคโนโลยี AudioLM จะสร้างประโยชน์ในด้านดีได้ เช่น

-นักแต่งเพลงคิดทำนองเพลงดีๆได้เพียงท่อนเดียวสั้นๆ AI สามารถช่วยแต่งเพลงต่อได้จนจบเพลง สร้างเพลงใหม่ๆทั้งเพลงออกมาได้ง่ายขึ้น

-สคิปต์การพูดที่เริ่มจาก 1-2 ประโยค กลายเป็นการพูดสื่อสารยาวๆที่มีสาระ ฟังดูน่าเชื่อถือ นำเสียงดีไม่ต่างจากเสียงพูดคนจริง แยกไม่ออกว่าเป็นเสียง AI

-สามารถสร้างเสียงเพลง เสียงแบล็กกลาวด์สำหรับวิดีโอต่างๆได้แบบอัตโนมัติ

แต่ความกังวลของผู้คนที่กลัวว่าเทคโนโลยีนี้จะถูกใช้ทางที่ผิดก็ตามมา

คำพูดที่สร้างโดย AI ผู้คนทั่วไปแยกไม่ออกว่าเป็นของจริงหรือของปลอม ทำให้ข้อมูลเท็จแพร่กระจายได้ง่ายขึ้น

กูเกิลแจ้งว่ากำลังสร้างเครื่องมือที่สามารถแยกแยะเสียงที่เป็นธรรมชาติออกจากเสียงที่สร้างโดย AudioLM

https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/