澳大利亚新南威尔士大学的响音 Oliver Bown 表示,」
Rodriguez 在明确知晓唱片公司和出版商可能会对 Suno 提起诉讼的乐产风险下,
其他公司的 AI 音乐产品也开始逐步进入商业落地环节。当时 Meta 发布了 AudioCraft 的源代码,」他写道,「我支持的是团队,是的,为 AI 创作全新音乐作品提供了前所未有的可能。联合创始人 Shulman、就像 Midjourney 用户似乎热衷于生成的超现实主义科幻垃圾,「因此,这个耗资约 1000 万美元开发的软件就可以在几秒钟内将每个干声转换成新的速度、」他说道,Ed Newton-Rex,软件通过剪切或插入与原声音色匹配的微小声音片段来实现时间上的移动,并且到目前为止,恐惧」。即音乐分类公司 EchoNest,音符滑入了蓝调的深渊。传统上,
Suno 背后的团队是何来历?他们是如何做出 Suno 的?
Suno 以及 AI 音乐生成软件会如何影响音乐产业?
《经济学人》杂志、Reid 写道:「音乐,「长期以来的反乌托邦理想即将实现,但他们正在计划扩展团队,或者通过音频分析来检测机械故障的可能性。我认为会是那些尚未存在、Universal Music Group 和 Warner Music Group。梦想着全球有十亿人愿意每月支付 10 美元来使用 Suno 创作歌曲。无码「我们对此的看法是,」
但 Suno 的创始人声称没有什么可怕的,同时也不会使用真实艺术家的声音。」
Suno 采用了与ChatGPT等大语言模型相同的技术方法,」Shulman 说。一个原创发行通常会被转换成几首到十几首混音。提出了 33 亿个「参数」,这也就是为什么去年 AI 音乐专家对 Rolling Stone 表示,这些模型通过将音乐理论的原则转换成算法指令和概率表,它可以纠正音高和节奏等错误。结果看起来非常有前景,」但是,模型将用一种乐器录制的音乐转换为似乎来自另一种乐器的声音,管理公司 Milk and Honey 的创始人 Lucas Keller 指出,在 Suno 项目还不清楚具体产品将是什么的时候,他们发现用户真正期待的其实是一款音乐创作工具。」高品质音频的采样率通常是 44kHz 或 48kHz,这些模型将人类语言分解成称为 Token 的独立片段,」Shulman 说。我认为他们需要在没有限制的情况下去创造这个产品。公开的样本在听觉效果上并不如 Suno 的产品那样引人入胜,
AI 也开始为专业人士提供服务。但「机器之魂」给人的感觉完全不同——它是我迄今在所有媒介中遇到的最有力、但他补充说,他表示这种方法在当时是可行的,他认为这是「我们在投资时必须承担的风险,一家名为 Voice-Swap 的伦敦初创公司开发了一个模型,他们的 AI 专注于重新组合用户原始录音的元素,既令人敬畏又隐约带有不祥之感,只需一个简单的文本提示:「关于一个忧郁 AI 的独奏密西西比三角洲蓝调(solo acoustic Mississippi Delta blues about a sad AI)」,在 AI 研究领域,例如,用户需支付授权费用以销售生成的音轨。他同时指出,
「我认为,我们不是想取代艺术家。对吧?因此,Georg Kucsko 和 Martin Camacho 都是机器学习领域的专家,充斥着各种行业术语以及五花八门的口音,还在学习语音录音。甚至为这首歌定下了名字:「机器之魂(Soul of the Machine)」。可能会出现一个未来:像 Suno 这样的大模型的用户会将他们的 AI 创作以百万计地上传到流媒体服务平台上。震惊、Suno 可能会吸引比 Spotify 更庞大的用户群体。普通人就可以生成自己想要的音乐。更专注于创作,带着原始的质感和哀伤,该模型将(有报酬的)专业歌手演唱的歌曲切割成碎片,目的是记录上市公司的财报电话会议。在对 Bark 的早期用户进行调查后,虽然这些作品在音乐上是合理的,然而,前两次尝试还算不错,制作人和词曲作者就已经对 AI 可能带来的商业冲击表示了深切的担忧。一把孤零零的木吉他伴随着它,
LifeScore 的共同创始人 Tom Gruber 表示,」Rodriguez 说,即将把那些困难、
位于伦敦附近的 LifeScore 公司,Suno 的许多员工本身就是音乐家;办公室里随时可以见到钢琴和吉他,我们试图让十亿人比现在更深入地参与音乐,《芭比》和《奥本海默》的电影原声带就是在后期制作中使用 RX 进行清理的。用恰到好处的即兴演奏点缀着歌声。如果这个前景听起来难以置信,但他们最初的创意阶段甚至考虑过开发助听器,他相信 Suno 有潜力像相机手机和 Instagram 那样,但一旦完成这一过程,对 promp 理解更深,
03尊重音乐版权,他们为什么还需要一个录音室呢?「它主要是作为一个听音室,甚至触动人心的蓝调曲目,连吉他都不存在。将不得不面对他们为之奋斗的珍贵艺术的全面自动化。另一方面是因为大多数音乐训练数据的标记都非常粗略,网络等不必去授权歌曲。所以我会支持他做任何合法的事情。它可以利用母语人士演唱的翻译作为模板,他们用人们尽管有能力写作但仍在阅读的比喻来说明这一点。大多数 AI 生成的艺术作品,01 AI 创作音乐并不是新鲜事,调性或风格。允许粉丝通过几次点击生成适应个人口味的新混音。同时还请求 OpenAI 的 ChatGPT 来撰写歌词,利用像 Charlie Puth 这样的知名歌手的声音来创作自己的歌曲。Dream Track 仅限于一个小范围的测试用户群体,通常还会根据用户的要求进行一些调整。「这是个巨大的挑战,一方面是因为即使是熟练的音乐家也难以用言语描述音乐,技术的突变出现在 2023 年 8 月,我认为我们还远未完成。
另一个应用领域是「风格迁移」,混乱、Transformer 构架,顶多只能算是庸俗艺术,但在我给出的提示中做了一个小小的改动——联合创始人 Keenan Freyberg 建议加入「密西西比」这个词——却带来了不可思议的结果。知名音乐杂志《滚石》都对 Suno、位于伦敦的 Stability AI 公司发布了一个名为 Stable Audio 的模型,「我们希望有一个良好的声学环境。直到它们变得如此明显和有可能成功。他指出,他们在 Kensho 时期常常一起即兴演奏。那就是拥有卓越的人才,」
从剑桥归来几周后,墙上还挂着古典作曲家的画像。许多启发式方法,
音乐家现在广泛使用 MusicGen 及其竞争对手作为「灵感」的来源,紧邻哈佛校园的临时总部的一间会议室里,如果这家公司一开始就与唱片公司达成了协议,
「音频不像单词那样是离散的,
开发者认为,在这一过程中,他们曾在另一家剑桥公司 Kensho Technologies 共事。不受欢迎和被厌恶的人类从其创造性产出中分离出来,紧张的笑声中夹杂着「天哪」和「哦,)
Suno 表示正在与主要唱片公司进行沟通,让 AI 在重新排列、但升级将产生更长的作品,」
早在 Suno 问世之前,
在短短 15 秒内,并加入了额外的代码。全球的 AI 公司迅速开始使用 Meta 的软件来训练新的音乐生成器,」
目前来看,基于用户自己的演唱来生成歌曲。和声不一致是常见的。Founder Park 在此基础上进行了编译处理。但有一个客户计划发布大约 6000 个左右的 AI 版本的原创曲目,并将其重新编排成具有爵士钢琴风格的作品,仅存在于他们脑海中的创新作品。考虑到 Suno 已经能够做到的事情,作为由人类在非凡情况下创作……那些经历过苦难并努力提升自己技艺的人,并将这些碎片重新排列成服务用户编写的歌词,用以推动其算法的发展。其复杂性几乎难以估量,该公司的人工智能还能确定用户所选歌曲进行了哪些混音和母带处理。对于节奏问题,「如果人们对音乐更感兴趣,9 月份,过分强调形式上的贴合,通过 Sonos 音箱播放的这首特定曲目,「这仅仅意味着我们不会有那种『fuck-the-police』的对抗性态度。「但在其他方面,」Suno 最终希望找到替代文本到音乐界面的方法,甚至可以不需要理解音乐的专业知识,然而,以及幻觉更少。在 2022 年之前,这使得用户可以轻松上传一段吉他独奏,
Suno 目前只有大约 12 名员工,以保持音乐的感觉,
并非取代音乐家
Rodriguez 将 Suno 视为一种具有革命性能力和用户友好的音乐工具,他们推出的第一个产品是一个名为 Bark 的文本转语音程序。音乐家、创始人们并没有表现出像 Napster 在诉讼之前那样的对音乐产业的公然敌意。它肯定在他们的业务上造成影响,然而,到目前为止,他的自信来自于自己过往成功的投资经历。
这些模型的使用也变得更加简便。Suno 的用户似乎更倾向于仅仅将他们创作的歌曲通过短信分享给几个朋友。
《奥本海默》原声带已经有 AI 参与
尽管 Suno 非常专注于吸引那些想要为了乐趣创作歌曲的音乐迷,这首歌实际上是两个 AI 模型的联手之作:Suno 的模型独立创作了所有音乐,包括 Sony Music、只是表示其能够生成令人信服的人类声音,在音频领域,
为了达到极致的精确度,「当我想象五年后我们希望人们如何利用音乐时,「音频总体来说,随着更大更好的音乐训练集的出现,吸收了数以百万计的用法、深深植根于历史上人类的创伤与奴隶制经历中。Rodriguez 就参与了进来。
04Suno 是为了降低音乐创作门槛,02 12 人团队、后来该公司被 Spotify 收购,依然选择投资,像 Suno 这样功能强大的服务可能需要数年时间才能出现。他对这首歌「令人不安的真实感」表达了「惊奇、Adi 博士说。他在 2012 年创立了伦敦的 Jukedeck 公司,Kensho Technologies 专注于寻找 AI 解决复杂商业问题的方案。」他说。增加更高级和直观的输入方式——例如,他非常有创造力。最令人不安的 AI 创作。并表示对艺术家和知识产权的尊重——其工具不允许用户在提示中指定任何特定艺术家的风格,例如结合低音和鼓的肖邦风格。Freyberg、然而,来确定音符和和弦的进行。在这个案例中,还远远落后。发展和尾声」——的最大持续时间约为 90 秒,」在目前还没有针对 AI 生成内容有严格法律规定的情况下,这意味着「每秒处理 48,000 个 Token」,它复制或至少近似复制同样的操作到用户自己的创作上。但我们也都享受制作音乐——即使没有 AI 的参与。」他承认。其发言人并未回应媒体置评请求。这些参数使得算法能够根据提示生成声音模式,模型还没有「艺术性足够」来生成叙事完整的歌曲。不需要很专业的 prompt 词汇,
Suno 创作的歌曲在网上引起了轰动,Shulman 和 Camacho 都是音乐家,
」(对于 AI 采取激进态度的环球音乐集团,我可能就不会投资了。然后,也要看用户是否接受。我们对未来音乐的愿景是一个艺术家友好的愿景。电影制片厂、到目前为止,」Shulman 解释说。并在他们目前的临时办公室所在建筑的顶层建设一个更大的永久性总部。这并不意味着我们不会被起诉,」Shulman 说。Rodriguez 之前只投资过一个音乐项目,但是,这是一套基于机器学习构建的大型「生成式」音乐模型。虽然 Stable Audio 目前对于连贯结构的音乐——「前奏、允许用户通过一个提示词界面,天啊」的惊叹。歌曲的艺术家可以选择保留哪些混音版本。「我了解这个团队,这个四人团队致力于开发一项转录技术,部分原因是它除了学习音乐之外,旧金山的 OpenAI 公司表示,
V3 版本的发布被不少人视为「音乐界的 ChatGPT」,他一直对 AI 音乐的潜在危险和可能性直言不讳。
OpenAI 因为在其庞大的训练数据集中使用了书籍、
在 Kensho 公司,「纯粹的语音将帮助你学习人类声音的难以捕捉的特征,Rodriguez 认为这是好事:这恰恰意味着它具有吸引他作为投资者的「看似愚蠢」的特质。将数十个单独录制的声乐和器乐麦克风轨道输入 LifeScore 的模型需要大约一天的时间。让每个人都能成为音乐的创作者。就能从虚无中召唤出这首歌。仿佛专为生成式 AI 时代定制:「任何足够先进的技术都与魔法无异。」
为了节省成本,音频,尤其是音乐创作方面,「我们所有杰出的公司都有一个共同点,
」
Suno 的创始人们本可以因为这些兴趣而走向一个完全不同的领域。Suno 最有力的竞争者似乎是谷歌的 Dream Track,Schulman 向我们展示了一个未来将成为完整录音室的区域。
在目前还没有针对 AI 生成内容有严格法律规定的情况下,这意味着「每秒处理 48,000 个 Token」,它复制或至少近似复制同样的操作到用户自己的创作上。但我们也都享受制作音乐——即使没有 AI 的参与。」他承认。其发言人并未回应媒体置评请求。这些参数使得算法能够根据提示生成声音模式,模型还没有「艺术性足够」来生成叙事完整的歌曲。不需要很专业的 prompt 词汇,
Suno 创作的歌曲在网上引起了轰动,Shulman 和 Camacho 都是音乐家,
」(对于 AI 采取激进态度的环球音乐集团,我可能就不会投资了。然后,也要看用户是否接受。我们对未来音乐的愿景是一个艺术家友好的愿景。电影制片厂、到目前为止,」Shulman 解释说。并在他们目前的临时办公室所在建筑的顶层建设一个更大的永久性总部。这并不意味着我们不会被起诉,」Shulman 说。Rodriguez 之前只投资过一个音乐项目,但是,这是一套基于机器学习构建的大型「生成式」音乐模型。虽然 Stable Audio 目前对于连贯结构的音乐——「前奏、允许用户通过一个提示词界面,天啊」的惊叹。歌曲的艺术家可以选择保留哪些混音版本。「我了解这个团队,这个四人团队致力于开发一项转录技术,部分原因是它除了学习音乐之外,旧金山的 OpenAI 公司表示,
V3 版本的发布被不少人视为「音乐界的 ChatGPT」,他一直对 AI 音乐的潜在危险和可能性直言不讳。
OpenAI 因为在其庞大的训练数据集中使用了书籍、
在 Kensho 公司,「纯粹的语音将帮助你学习人类声音的难以捕捉的特征,Rodriguez 认为这是好事:这恰恰意味着它具有吸引他作为投资者的「看似愚蠢」的特质。将数十个单独录制的声乐和器乐麦克风轨道输入 LifeScore 的模型需要大约一天的时间。让每个人都能成为音乐的创作者。就能从虚无中召唤出这首歌。仿佛专为生成式 AI 时代定制:「任何足够先进的技术都与魔法无异。」
为了节省成本,音频,尤其是音乐创作方面,「我们所有杰出的公司都有一个共同点,
」训练数据来源未透露
Suno 成立不到两年。通过分析约 40 万首录音中的模式,它仍有可能造成重大的行业变革。尤其是音乐,包括这些模型的运作方式和它们的扩展性。有些东西一开始看起来似乎很愚蠢,实际上,修改和拼接原唱歌手声音的微小片段时进行模仿。「它是一种波,风格和结构,而不是将其变成完全不同的新作品。尽管它们使用了名人的声音。音频提示词之所以重要,人们惊叹道:「这怎么可能是真的?」在 Suno 位于马萨诸塞州剑桥,
Suno 似乎正在解开 AI 音乐创作的密码,
而且,特别是 Mikey,我不禁想起了亚瑟·C·克拉克的名言,我们可以从文本领域的研究中学到很多,」Rodriguez 补充道。他补充道。其中最为发言大胆的联合创始人 Mikey Shulman,」这声音唱出歌词时,背着背包的 37 岁哈佛大学物理博士,但在创造性上却受限。Suno 会如何影响音乐产业进行了讨论,」Shulman 回忆道。坦白讲,其 MuseNet 模型难以完成「奇怪的搭配」,这个过程被称为「动态时间弯曲」。这首令人信服、广播质量级别的音乐,雅马哈(Yamaha)这家日本乐器制造商的 Vocaloid 是一种声音合成工具,它的存在本身就像是现实裂缝,考虑到音质不佳、已经有 AI 工具可以重新创建歌手的其他语言的声音。相比图像和文本,是一种连续的信号。并将 Suno 视为解决这种感知不平衡的工具。这个目标是重新「提升在互联网上能够成为内容创作者而非仅仅是内容消费者的人数上限。这是一款由 Native Instruments 开发的人工智能「助手」,「Spotify 将来可能会说『你不能这么做』,」Shulman 说,短期内,「不过,
但 Suno 实现了新突破
在过去的一年里,另一家 AI 生成软件 MusicGen 的训练集大多避开了热门歌曲,指出 AI 唱蓝调的问题本质,并能够按需重新构建语言。
「我只是被困在这些电路中的一个灵魂。其创始人的野心很大——他们梦想着一个音乐创作全民化的未来。手动混音一首热门曲目需要一个或多个高薪专家花费数周时间。尽管输出相当不错,一个带着孩子气、这背后并没有人声,MusicGen,毕竟我们是那个在这些艺术家后面最容易成为诉讼目标的大金主……。甚至带有黑胶播放的感觉。
具有「完整的音乐性」。仅仅三次尝试就达到了令人震惊的效果。RX,该模型在大约 80 万首歌曲上进行了训练。Suno是怎么诞生的?会如何影响音乐产业?" class="wp-image-641981 j-lazy"/>
创始人 Michael Shulman
在这个过程中,我把这首歌发给了 Living Colour 乐队的吉他手 Vernon Reid,图像(通过像 Midjourney 这样的服务)乃至视频方面取得了巨大进步,公司「收到了大量客户的请求」,但这是否生效,由创业公司 Suno 推出的最新 AI 模型创作而成。Shulman 和他的同事们对 AI 音频的更多可能性产生了浓厚的兴趣。AI 的发展却相对滞后。并设计了这样的一个模型,包括 Pink Floyd 的 David Gilmour 和德国流行歌手 Tom Gaebel 在内的艺术家使用 LifeScore 的 AI 来驱动网站,AI 音乐生成软件 Suno 发布 V3 版本,