Nat. Commun. | 晶体手性分离的预测性设计

今天与大家分享一篇发表在Nat. Commun.上的文章,标题是“晶体手性分离的预测性设计”。本文的通讯作者是剑桥大学的Alpha A.Lee教授。
手性分子在材料科学和制药科学中扮演着重要角色。尽管一个手性分子的两种镜像异构体(即对映异构体)具有相同的物理和化学性质,但在手性环境中(例如与平面偏振光相互作用时),它们的行为会出现差异。将手性分子引入有机-无机杂化材料中,可实现多种专用手性光电器件的设计,包括圆偏振光探测器和自旋电子学器件。
在医药应用中,人体本身就是一个手性环境,因为生命的基本构建单元--氨基酸--均为L-构型的手性分子。因此,同一分子的两个对映体可能表现出不同的代谢速率、不同的靶点亲和力,甚至具有截然不同的毒理学特征。尤其是后一点,能促使制药行业更加专注于开发单一对映体药物制剂。
近年来,不对称合成技术的进步使得即使高度复杂的天然产物也能以对映体纯的形式直接合成。然而,在许多情况下,由于手性催化剂成本高昂或不对称合成路线过于复杂,工业上更倾向于先合成外消旋混合物,再通过手性拆分工艺将其分离为单一的对映体。
在工业化生产中,若目标化合物含有酸性或碱性官能团,则非对映异构盐结晶法是首选的拆分技术。在理想的非对映异构盐拆分过程中,一种对映体纯的拆分剂会与外消旋体中的某一特定对映体形成溶解度较低的非对映异构盐而析出结晶,而另一对映体则保留在溶液中。非对映异构盐结晶法的核心挑战在于:如何为给定的外消旋体找到合适的拆分剂。尽管该技术已有逾百年历史,但迄今为止,针对特定底物预测最优拆分剂的问题仍未得到解决。
在此,作者开发了一种基于物理原理的机器学习模型,用于预测特定外消旋体与拆分剂组合的成功拆分概率(见图1)。该模型将分子动力学(MD)模拟快照所提取的分子表示与基于Transformer的神经网络架构相结合。与基线方法相比,作者的模型筛选出的成功拆分条件的效率提高了4至6倍。进一步发现,该网络识别出的分子间相互作用模式与相应盐类的X射线晶体结构高度一致,表明模型已成功捕捉到驱动晶体形成的关键物理相互作用。

图1、配对表征实现对映异构体的区分。作者的研究框架聚焦于酸碱对的表征方式,两种对映异构体间的差异在此自然显现。机器学习模型通过分析两种非对映异构体盐的表征数据,可预测特定拆分实验的成功概率。
为验证该方法的有效性,作者将模型应用于六种此前未见过的外消旋体,以预测潜在有效的拆分剂。在仅进行一轮实验的情况下,成功为其中三种外消旋体找到了有效的拆分条件,并在整个测试预测集中实现了8:1的真实阳性与假阴性比率。
作者首先对覆盖类药化学空间中的非对映异构拆分高通量数据进行了分析。作者公开了超过6000条此前未发表的手性盐拆分反应数据,这些数据是在约10年间的药物化学合成支持工作中积累获得的。该数据集包含450种手性化合物,形成了2000多个独特的酸碱配对,其分子大小范围从12到72个重原子不等。数据中涵盖了多种溶剂;然而,乙醇--作为初始筛选的首选溶剂--占全部数据的40%。据作者所知,以往公开的数据通常仅限于特定分子或骨架结构,因此作者认为,本数据集是迄今为止发布的规模最大的非对映异构盐结晶数据集。每项实验的结果通过两个关键指标进行表征:固体质量分数(mass fraction, m.frac.)和对映体过量(enantiomeric excess, e.e.)。

此处,minitial表示拆分底物的初始质量,msolid表示从沉淀中回收的两种对映体的总质量。χR和χS表示沉淀中各对映体的摩尔分数。理想的拆分应同时具备高的固体质量分数--即仅有一种对映体被完全结晶析出,而另一种则几乎完全保留在溶液中。然而在实践中,理想的拆分效果很少能够实现:图2显示,大多数数据点集中在低固体质量分数(m.frac.)和低对映体过量(e.e.)的区域——其中97%的数据要么m.frac.低于20%,要么e.e.低于25%,或两者同时偏低。

图2、低质量分数和低对映体过量数据在分布中占主导。边缘区域显示了成功与失败的拆分实验中质量分数和对映体过量的分布情况。成功拆分仅占全部数据的3%。为清晰起见,作者将两组分布数据分别进行了归一化处理。图中“最大可能ee”线标示了在给定固体质量分数下可能达到的最大对映体过量值——为考虑实验误差,作者将落在线条5%误差带(阴影区域)内的数据点予以保留。
造成这类结果的因素多种多样。例如,低质量分数可能源于结晶动力学缓慢(实验在完全结晶前就已终止),或溶剂选择不当(导致两种非对映异构盐均保持溶解状态)。同样,即使获得了足量的固体,低对映体过量也可能由固溶体形成、混合盐共结晶等现象引起。鉴于本研究数据是通过高通量方式收集的,对每个实验进行深入机理分析并不可行。因此,在后续建模中,作者做出如下简化假设:所有结晶过程均已达到热力学平衡,且两种非对映异构盐之间的相对能量差异是决定拆分成败的主要因素。遗憾的是,这种低性能指标区域恰恰也是数据不确定性最高的区域。训练数据中的高不确定性可能引入偏差,并显著降低模型性能。为此,作者专门开发了一种定制化的训练策略,以应对这一由数据特性带来的独特噪声问题。
随后,作者进行了手性敏感性的机器学习。为了预测手性分离的成功与否,作者将建模重点放在非对映异构的酸-碱配对上,而非单独考虑对映体或拆分剂本身。从根本上说,拆分效果取决于这对非对映异构盐之间的能量差异--这种差异会影响它们各自的晶格能和溶剂化能,从而决定其相对溶解度。
当然,非对映异构盐与其溶解度之间的关系并非总是简单直接。多晶型(polymorphism)和溶剂化物(solvate)的形成意味着每一对非对映异构盐可能以多种固态形式存在,而每种形式都可能具有不同的能量。尽管存在这一额外复杂性,作者仍假设:通过直接表征酸-碱配对本身,机器学习模型能够有效捕捉驱动成功拆分的关键物理差异,即使未考虑多晶型或显式溶剂化效应。
表征酸-碱配对的一个核心挑战在于如何充分描述其庞大的构象空间。除了单个分子自身的构象外,还必须考虑两个分子之间的相对取向。为解决这一问题,作者为每一对独特的对映体–拆分剂组合生成了分子动力学(MD)轨迹。从这些轨迹中提取的快照代表了丰富多样的相对取向,能够将酸-碱配对相互作用的动态信息纳入模型之中。
为充分利用分子动力学(MD)轨迹中所蕴含的三维结构信息,作者采用了一种原子密度表示方法(atom density representation)。该方法通过编码每个原子周围的三维邻域,生成一组局部原子描述符。这类描述符已被广泛用于直接预测分子性质,或作为其他机器学习任务的基础。通常,这些描述符对每个原子最近邻的环境最为敏感。
在此基础上,作者引入了专门的长程交互通道,以捕捉酸-碱配对中分子间的相互作用,而不仅限于每个原子的局部环境。对于单个原子,其最终表示由其在所有MD快照中所处环境的均值与方差构成。这种设计强调了酸-碱配对内部的分子间相互作用,旨在为下游模型提供更直接、更具物理意义的输入信号。
在获得这一信息丰富的表示后,采用基于Transformer模块的神经网络来预测非对映异构盐拆分实验的成功概率。这一架构选择尤为契合问题本质: 首先,输入本质上是以原子为中心的集合,而Transformer天生适合处理此类无序但结构化的集合型数据;其次,非对映异构盐拆分的成功依赖于晶体中微妙且长程的分子间相互作用,而Transformer核心的注意力机制正是为捕捉此类复杂、远距离依赖关系而设计,使模型能够学习哪些分子间特征最能预测拆分成功。
此外,Transformer已在多个领域展现出强大泛化能力——从复杂的自然语言任务到自然科学问题,进一步支持了在本研究中的架构选择。在本模型中,Transformer模块充当可训练的信息筛选器,自动学习哪些分子环境或相互作用对晶体形成起关键作用,哪些则相对无关紧要。具体而言,模型同时接收一次拆分实验中形成的两种非对映异构盐的表示(见图3A),从而既能考虑整体结构特征,又能聚焦于决定拆分成败的关键相互作用差异。为应对低性能指标区域(即m.frac. < 20%)实验数据中的高不确定性,作者采用两阶段集成训练策略: 第一阶段:使用全部训练数据(包括高不确定性标签样本)训练一个回归模型,使其学习到通用且信息丰富的内部表示;第二阶段:仅使用低噪声子集(即高质量数据)对每个模型的最后一层进行微调,并将训练目标从回归转为分类(例如“成功”vs“失败”)。这一策略促使模型不再试图拟合噪声较大的连续数值,而是专注于识别最有可能成功的酸-碱配对。通过这种方式,模型首先构建稳健的物理表征,再利用该表征高效定位最优拆分条件。图3B展示了该模型架构的抽象示意图,并突出了上述两阶段训练流程。
鉴于历史数据中真正具有高性能量化指标(figure of merit)的拆分案例极为稀少(见图2),将固体质量分数(m.frac.)> 20% 且对映体过量(e.e.)> 25%的实验定义为“成功”拆分。这一划分标准虽相对宽松,但能够在保持训练数据类别分布相对平衡的同时,仍能引导模型优先关注那些更有可能带来有效拆分结果的条件。

图3、模型架构编码化学直觉。A.当与拆分剂相互作用时,外消旋混合物会形成两种非对映异构的酸碱对。作者为这两种配对创建表征,并将其均值与差值输入模型。高亮氮原子的原子密度表明,表征的均值聚焦于每个原子周围的局部环境,而差值部分则强调长程分子间相互作用。B.模型利用Transformer模块,从非对映异构体盐的结构及其差异中,创建出信息丰富的内部表征。
作者用模型准确预测类药物分子的手性分离。为评估模型,采用富集因子(enrichment factor)作为核心指标,该指标用于量化模型在发现“成功拆分”方面相较于随机猜测的提升程度。具体而言,对于一个大小为N的样本集,富集因子定义为:模型在前n个预测中命中的成功案例数与通过随机抽样预期命中的平均成功案例数之比。测试集覆盖了数据集中所有手性混合物,并通过一种改进的5折交叉验证方式构建--确保每一折测试集中仅包含训练阶段未见过的外消旋体,从而真实反映模型对新底物的泛化能力。
如图4A所示,模型在前100个预测中实现了4至6倍的富集因子。随着考虑的预测数量增加,富集因子逐渐下降,这是因为大多数成功的拆分条件已在排名靠前的预测中被识别;根据定义,考虑全部预测时,富集因子自然衰减至1(即等同于随机水平)。
为更全面地衡量模型性能,作者将其与三种复杂度递增的基线模型进行对比:零知识随机森林模型(Zero-knowledge Random Forest):每个分子被赋予一个随机生成的条形码。该模型用作对照,以排除组合化学数据集中常见的实验设计偏差(例如某些拆分剂或底物被过度测试)可能导致的虚假性能。基于Morgan指纹的随机森林模型:Morgan指纹编码了包括手性在内的化学子结构模式,用于检验简单的化学相似性是否足以预测拆分结果。3DMolCSP:一种最初为手性色谱预测开发的深度神经网络。它是三个基线中最复杂的模型——能显式处理手性、采用灵活的神经网络架构,且参数量略大于作者的模型,因此构成最具挑战性的对比对象。
图4A显示,两种神经网络模型均显著优于简单基线,而作者的模型进一步超越了3DMolCSP。这一结果不仅验证了模型不存在因数据偏差导致的“捷径学习”,更凸显了对手性敏感的表示方法的重要性。
作者推测,酸-碱配对的联合表示是性能优势的关键:作者的模型可直接捕捉不同对映体与同一拆分剂之间相互作用的差异,而3DMolCSP只能从单个分子结构中间接推断这些效应。关于3DMolCSP的适配修改及详细对比,请参见支撑信息。为确保公平比较,作者已将3DMolCSP适配用于非对映异构盐拆分任务,并采用相同的两阶段训练流程。
除表示方法外,两阶段训练策略也是两类神经网络表现优异的共同关键因素。如图4B所示,经过微调的模型在性能上显著优于直接回归或直接分类的训练方式。这表明,针对此类高噪声、低成功率的复杂预测任务,精心设计的训练机制至关重要。
尽管如此,训练数据中成功拆分案例的绝对数量仍然有限,这构成了模型性能的瓶颈。因此,一个核心问题是:模型性能是否可通过增加数据量系统性提升?图4C显示,随着训练数据规模的扩大,模型的平均精度持续提高,且未出现平台期。这一可扩展性关系有助于估算达成目标性能所需的数据集规模,也为未来通过更大规模实验数据进一步提升模型能力提供了明确路径。

图4、使用模型使命中率提升至四倍。A.富集因子作为所选顶部预测数量的函数,通过5折交叉验证实验估算得出,其中每一折对应未见的手性盐数据。蓝线表示将所有参与分子编码为随机数的结果,橙线表示使用摩根指纹编码分子结构的结果,红线代表另一种在手性色谱领域达到最先进成果的深度学习方法,绿线则对应本研究工作。阴影区域表示基于五个模型集成估算的标准差。需注意,8%的基准率是指数据低噪声子集中成功命中案例的比例。B.采用两步训练法的模型性能优于直接使用全部训练数据训练的模型(无论分类器或回归器)。C.以平均精确率衡量的模型性能随训练数据量的增加而系统性提升。每个数据点代表10个模型集成性能的平均值,误差条则对应集成性能的标准差。
非对映异构盐之间的能量差异是实现成功拆分的根本原因。一个关键问题是:作者的模型仅通过拆分实验结果(即成功与否)进行训练,是否真正学到了与分子堆积相关的、具有物理意义的相互作用,而这些相互作用正是导致能量差异的来源?
为探究这一点,作者借鉴了分子机器学习中解释注意力机制的成熟方法,分析了模型中成对注意力权重与已知手性盐X射线晶体结构之间的关联。获得了四种盐的晶体结构,并在每种结构中将距离小3.5 Å的原子对定义为“邻近原子”。
结果显示,某些注意力头(attention heads,即Transformer模块中的子组件)对这些邻近原子的关注程度比均匀权重基线高出最多达50%。这与化学直觉高度一致:例如,如图5A顶部两个示例所示,一个典型的注意力头明确识别出了羧酸–胺这一关键离子/氢键相互作用。
更引人注目的是,其他注意力头还突出了不那么直观但晶体学上真实存在的接触。例如,图5C展示了一个案例:模型在甲基(methyl)和羟基(hydroxyl)之间分配了高注意力权重,而X射线结构证实这两个基团在晶格中确实相邻。然而,这类基团之间并不存在明显的强分子间作用力(如氢键或离子作用),说明模型捕捉到了由整体堆积环境驱动的微妙空间关联。
另一个例子中,某个注意力头在奎宁环(quinuclidine)中的一个碳原子与酸分子环丙基上的亚甲基(CH2)之间赋予高权重。X射线数据确认该CH2确实与之邻近,但也显示环丙烷上的另一个碳原子同样邻近——而该注意力头并未关注到后者。这表明模型虽能识别部分关键接触,但未必覆盖所有晶体学邻近关系。
值得注意的是,具体的注意力模式会因模型初始化(随机种子)不同而有所变化。这种变异性暗示:在模型高维解空间中,存在多种不同的注意力权重组合,均可实现同样有效的预测性能,不同注意力头可能学会聚焦于不同但同样相关的结构模式。尽管如此,在多个随机种子下,部分注意力头始终倾向于优先关注晶体中实际邻近的原子对,这一趋势具有良好的一致性。

图5、模型中的注意力头识别晶体中的邻近原子。A.模型通过成对注意力识别晶体结构中原子近距离接触的示例。注意力在参考原子与其余原子间计算。每个示例中,作者均已确认参考原子与最高注意力原子在晶体结构中的距离小于3.5Å。B.模型在四种不同晶体结构中,每个注意力头对邻近原子对与非邻近原子对计算的平均注意力值。相较于均匀基线,模型中部分注意力头对邻近原子对的关注度高出50%;同时,没有任何注意力头专注于非邻近原子对。这一结果是在模型训练过程中从未接触晶体结构数据的情况下实现的。作者将晶体中距离小于3.5Å的原子对定义为邻近原子对。C.某X射线晶体结构片段的可视化呈现,突显了模型所识别的非平庸堆积模式。
尽管关于注意力权重可解释性的争论仍在持续,但一个积极的信号是:即使模型从未接受过任何晶体学数据的显式训练,它仍能定性地捕捉到具有化学意义的空间关系。这种对晶体邻近原子赋予更高注意力的倾向,为模型学习到了与分子堆积相关的真实物理相互作用提供了有力佐证。
在验证了模型的回顾性性能及其与底层物理机制的联系后,作者进一步开展了前瞻性实验验证。为模拟真实研发场景,选取了六种全新的、此前未拆分过的外消旋体(三种酸+三种碱),它们均未出现在原始训练数据中。利用该模型,对这些分子进行了完整的组合虚拟筛选:每种酸与实验室所有可用的单一对映体手性碱配对(反之亦然),并在训练数据中涵盖的所有溶剂体系中进行预测。此次虚拟筛选共评估了超过20000种拆分条件。
为选择实验验证对象,按所有溶剂中预测成功概率的最大值对拆分剂进行排序,并针对每种外消旋体,在四种常用溶剂(乙醇、乙腈、四氢呋喃、乙酸乙酯)中分别测试了排名前13位和后13位的拆分剂。
实验结果共获得9个成功拆分条件。其中8个来自模型预测排名靠前的拆分剂,仅有1个来自排名靠后的化合物(见图6A;图6B展示了完整的混淆矩阵)。这表明,使用该模型指导实验设计不太可能遗漏真正有效的拆分剂。
在此前瞻性验证中,采用了比训练阶段更严格的成功标准,以符合工业界对“可优化条件”的实际要求:拆分前需实现完全溶解,并且综合指标 ( z =m.fracsolid·e.e. solid ≥0.25 )(理想拆分对应 ( z = 0.5 ))。根据历史数据,满足此标准的拆分仅占约1%。因此,模型通过其Top预测成功找到8个有效条件,相当于实现了3至4倍的历史性能富集,充分证明了其在真实应用场景中的实用价值。

图6、模型在预测性实验中识别成功拆分案例。A.已拆分外消旋体的结构及其成功拆分条件。B.未拆分底物示例。C.预测性实验的完整混淆矩阵。
值得注意的是,成功拆分在不同外消旋体之间的分布极不均匀。在历史数据中,某些外消旋体被成功拆分了数十次,而另一些则仅成功一次,甚至从未成功过。作者在前瞻性实验中观察到了这一现象:六种测试分子中有三种未能获得任何成功的拆分条件。
尽管如此,作者的模型展现出很高的召回率--在所有成功拆分中,除了一例之外,其余均通过模型排名靠前的拆分剂被发现。这凸显了模型在“大海捞针”式的高难度筛选任务中,有效识别稀有但高潜力拆分条件的能力。
本方法的主要局限在于训练数据中成功拆分案例的严重稀缺(尽管这是该领域固有的现实问题)。正如图4C所示,模型性能可随着训练数据量的增加而系统性提升。因此,采用一种迭代式策略--即在每一批新外消旋体和拆分剂完成实验筛选后,将新数据用于更新模型--有望进一步放大模型的优势,形成“实验→学习→预测→再实验”的正向循环,从而持续加速手性拆分工艺的开发进程。
综上所述,作者开发了一种强大的方法,通过将基于物理的分子表示与机器学习相结合,用于预测非对映异构盐拆分的结果。对模型注意力权重的定性分析提供了令人鼓舞的证据,表明该模型能够捕捉到具有化学意义的空间相互作用关系。无论是回顾性验证还是前瞻性实验,均证明了该方法具有良好的通用性和鲁棒性。
更广泛而言,本研究及其所伴随公开的训练数据集,为解决“预测非对映异构盐拆分中最优拆分剂”这一长期存在的挑战奠定了坚实基础,并有望推动形成一套系统性解决方案。为进一步提升模型性能并应对潜在的数据局限性,未来的研究可探索其他机器学习范式,例如多任务学习或迁移学习(transfer learning)等策略,以更高效地利用有限的高质量实验数据,并拓展模型在更广泛化学空间中的适用性。
文字:张玺
审核:叶曦翀
参考文献:DOI: 10.1038/s41467-025-62825-4
https://doi.org/10.1038/s41467-025-62825-4