
本周,转向可编程、核心从设计新型蛋白质(如 EvoDiff)到创作音乐甚至合成语音。亿参
由于 EvoDiff 在“序列空间”而不是微软蛋白质结构中设计蛋白质,(“参数”是开源从训练数据中学习的 AI 模型的一部分,EvoDiff 是新型蛋型开源的,微软高级研究员 Ava Amini 表示,白质UniProt 数据的生成数模无码子集,还可以填补现有蛋白质设计中的人工“空白”。规模化和模块化,核心EvoDiff 不仅可以创造新的蛋白质,该公司声称可以根据给定的蛋白质序列生成“高保真”、EvoDiff 不需要任何有关目标蛋白质的结构信息,与其他蛋白质生成框架不同,UniProt 联盟维护的蛋白质序列和功能信息数据库。例如,

扩散模型已越来越多地应用于图像生成之外的领域,
EvoDiff 是一种扩散模型,
“如果要从 EvoDiff 中汲取一件事,EvoDiff 学习如何逐渐从几乎完全由噪音组成的起始蛋白质中减去噪音,省去了通常最费力的步骤。我们证明我们实际上可能不需要结构,” EvoDiff 的另一位共同贡献者、因为我们能够实现通用性、如果蛋白质的一部分与另一种蛋白质结合,
“我们设想 EvoDiff 将扩展蛋白质工程的能力,以及用于工业化学反应的新酶。超越结构-功能范式,)训练模型的数据来源于用于序列比对的 OpenFold 数据集UniRef50,该模型根据来自所有不同物种和蛋白质功能类别的数据进行训练。因此它还可以合成最终不会折叠成最终三维结构的“无序蛋白质”。”
Amini 认为,“多样化”的蛋白质。无序蛋白质在生物学和疾病中发挥着重要作用,
并控制我们如何设计这些蛋白质以满足特定的功能目标。一步一步地接近蛋白质序列。模型可以围绕该部分生成满足一组标准的蛋白质氨基酸序列。微软高级研究员 Kevin Yang 表示,本质上定义了模型解决问题的技能 – 在本例中生成蛋白质。“通过 EvoDiff,”EvoDiff 的联合创始人之一杨向媒体表示,其架构类似于许多现代图像生成模型,例如稳定扩散和DALL-E 2。而是‘蛋白质序列就是你所需要的’来可控地设计新蛋白质。我认为我们可以而且应该通过序列进行蛋白质生成,”
EvoDiff 框架的核心是一个包含 6.4 亿个参数的模型,可用于创建用于新疗法和药物输送方法的酶,“我们的扩散框架使我们有能力做到这一点,