> 文章列表 > AI技术从无声钢琴演奏视频中再现逼真的音乐

AI技术从无声钢琴演奏视频中再现逼真的音乐

AI技术从无声钢琴演奏视频中再现逼真的音乐

想象一个计算机程序可以在视觉上识别在无声钢琴演奏视频中正在演奏哪些音乐片段,这也许并不难。然而,一个新的人工智能系统更进一步,以逼真的方式以数字方式再现钢琴演奏的声音。

该技术被称为 Audeo,是由华盛顿大学的一个团队设计的。它结合了人工智能软件,该软件经过大约 172,000 帧的钢琴家保罗巴顿演奏莫扎特和巴赫等古典作曲家音乐的头顶视频“训练”。

在分析无声视频时,生成的系统首先观察按什么顺序按下哪些键,确定各个音符及其排列。也就是说,它还可以感知每个键的敲击力度和按下时间的长短——这让它能够确定每个音符的强度,以及它在随后演奏的音符声音下持续的时间长度。它还考虑了钢琴独特的声学特性。

然后将该数据转换为现有数字合成器可以理解的格式。据报道,当该合成器播放音乐文件时,它听起来非常像原始钢琴音乐,而不仅仅是听起来像 8 位铃声。

在对 Audeo 的测试中,它的任务是根据巴顿演奏的音乐作品的静音视频再现钢琴音乐,而不是系统经过培训的音乐作品。当 SoundHound 等音乐识别应用程序分析这些复制品时,他们能够以大约 86% 的准确率识别音乐片段。相比之下,当应用程序分析同一视频中的原始钢琴音频时,它们的识别准确率攀升至 93%。随着技术的进一步发展,这种差距应该会缩小。

“我们希望我们的研究能够以新颖的方式与音乐互动,”Asst 说。该研究的资深作者 Eli Shlizerman 教授。“例如,未来的一个应用是 Audeo 可以扩展到一台虚拟钢琴,它的摄像头只记录一个人的手。此外,通过将摄像头放在真正的钢琴上,Audeo 可能会以新的方式帮助教学生如何去玩。”