
3.4 化学计量学与拉曼光谱
一般来说,常用的光谱(包括紫外可见光谱、红外光谱、近红外光谱、拉曼光谱等)包含了化学物质的结构与特征信息。不同的化学物质一般都有不同的光谱,适用于以多变量分析为基础的化学计量学。
但是,拉曼信号激发的同时也会激发荧光,而荧光强度通常高于拉曼信号强度若干数量级,对拉曼光谱的定性及定量造成很大干扰,如何消除荧光干扰一直是困扰拉曼光谱应用的关键问题。
3.4.1 光谱预处理
(1)平滑去噪 拉曼光谱中存在的噪声主要来源是散粒噪声、荧光背景、闪烁噪声、暗电流和热噪声。光子散粒噪声是检测器在收集光子时出现的统计误差,因此,信噪比(S/N)可以通过增加积分时间来提高。基于噪声多表现为高频,而信号多为低频的事实,平滑经常被用于拉曼光谱的降噪。其中一种方法就是傅里叶滤波,但通过这个方法去除噪声经常会引起拉曼光谱的失真。S-G滤波是一种常见的平滑方法,S-G滤波基于移动窗口的局部多项式拟合。随着移动窗口的增加,一些拉曼谱带可能会消失,因此,选择合适的移动窗口数是非常重要的。其他平滑方法还有局部加权散点图平滑和小波滤波,该方法使用离散小波变换分解,以通过将噪声在空间和频率定位,一旦分离,就可以设置为零,并且使用小波逆变换重建数据。上述所有的方法,参数必须仔细选择,以避免平滑过程中被淘汰的是重要拉曼谱带。(上述方法均为常见算法,关于具体计算此处不再赘述。)
(2)荧光消除 拉曼光和荧光都由激发光激发产生,荧光强度通常比拉曼光高出若干数量级,而且激发波长越短,荧光强度越大。为了避免荧光干扰,往往推荐采用波长更长的激发光,如785nm或者1064nm的激光。受到造价和元器件性能约束,785nm是目前拉曼光谱主要选择的激发波长,尽管如此,荧光干扰问题仍然普遍存在。另一方面,长波长激发又带来其他问题,诸如拉曼激发效率低、热效应导致损坏样品等。
对于拉曼光谱的荧光及基线问题,在数据处理上,主要通过峰谷连线,或者小波等手段进行高通滤波,拟合出基线,实现直观的扣减,满足“视觉”要求。这种扣减并非机理或实质上的解释,因而难以保证数据处理的真实性与合理性。处理荧光的另一类方法是调整激发波长形成拉曼光和荧光的差异,拉曼光随激发光迁移,而微小的激发波长调整不会导致荧光显著变化,通过双波长或多波长激发,区分出荧光和拉曼光,并加以消除,这类方法提出了对设备硬件的附加要求,增加了复杂性,提高了设备造价。
从使用者的角度,有经验的用户往往会通过增长照射时间来降低荧光强度,利用物质的“荧光褪色效应”,实质是荧光的不完全猝灭,随照射时间增长荧光强度出现不同程度下降,经过数秒至小时级的照射,有可能使得荧光降到很低程度。但并不是所有体系的荧光都会降至可接受的程度,另外也延长了测量时间,还存在强光下体系变质的风险。
既然大多数体系存在不同程度的“荧光褪色效应”,如果这种“褪色”均匀可测,就能够通过追溯并累积出光谱响应信号中荧光所占总量,实现拉曼光和荧光的分离,达到消除干扰的目的。以盐酸二甲双胍片的拉曼测量为例,如图3-10所示,对盐酸二甲双胍片持续照射100s,每10s记录一次拉曼测量系列信号(仪器型号HF-ExR610,激发波长532nm,积分时间1s,CCD像素数3648),由图可见基线下降随时间变化逐渐缓慢,长时间照射后,并未实现基线平直。图3-11所含系列数据构成3648×10矩阵,沿矩阵列(照射时间)方向求取差分,绘于图3-11,可以看出一致轮廓,但其中包含了大量噪声。也就是说,光谱“褪色”均匀可测,不同时刻下的褪色强度仅是光照时间的函数,如果函数能从微元累加得到,那么,就可以从整体光响应测量中消除荧光影响,得到该时刻实际的拉曼响应。

图3-10 盐酸二甲双胍片的拉曼光谱

图3-11 包含噪声的拉曼光谱
基于此现象,提出荧光褪色差分法(FBDA),对微小时刻内的测量光谱求取差分,高频滤波降噪,获得体系的荧光强度差分,然后再经过逆差分得到整体荧光响应,从受影响光谱内扣除荧光响应,达到消除荧光背景干扰的目的。
如图3-12~图3-17为采用荧光褪色差分法对不同样品的拉曼光谱处理效果。FDBA校正方法的优势在于不需要改造设备,利用荧光强度随时间改变这一特性,得到更满足机理解释的校正结果。与目前常用的基线校正方法相比,技术原理更清晰,测量结果更真实,操作更便捷,合理真实地解决了荧光干扰问题。

图3-12 微晶纤维素拉曼光谱图
(激发波长为532nm;积分时间为12s)

图3-13 聚维酮拉曼光谱图
(激发波长为532nm;积分时间为10s)

图3-14 纳米二氧化锡拉曼光谱图
(激发波长为532nm;积分时间为1s)

图3-15 无水茶碱拉曼光谱图
(激发波长为532nm;积分时间为1s)

图3-16 辛伐他汀片拉曼光谱图
(激发波长为532nm;积分时间为6s)

图3-17 聚醚砜树脂拉曼光谱图
(激发波长为532nm;积分时间为5s)
(3)归一化 来自同一样品的拉曼光谱可以具有不同的强度水平,如果它们由不同的时间或由不同的实验参数获取,如激光功率水平的变化。归一化处理通过使相同材料的特定拉曼谱带的强度是相同的或类似的来校正光谱的这种差异。一种方法是面积归一化。当拉曼峰不重叠时,归一化是非常有用的。最好通过归一化光谱使得光谱的总面积为1。这种方法的优点是不依赖于任何单一的谱带,但缺点是易受背景的影响。另一种方法是峰高归一化,使用某个特定拉曼峰的中心频率强度作为参考(内部或外部)。此方法假设参考峰在不同光谱之间不会改变,所以不适合样品的性质可能导致谱带位置偏移的情况。
3.4.2 多变量定性/定量分析
(1)多变量定性分析 不同种类的中药材分类与真伪鉴别(或植物物种的化学分类与鉴别),天然香精香料提取物的分类与鉴别,不同疾病患者的代谢组学分析,不同土壤、不同纤维、不同烟草及卷烟等的识别,对于这些分析场景,人们不在乎是否能对其进行穷尽的化学组分定性定量分析,而是主要追求样品之间整体性(包括共同性和差异性)分析,可对不同样本进行区别进而找到区分样本之间的主要化学因素(或特征变量),化学计量学为此提供了相应的基于多变量的解析方法。
拉曼光谱的常用模式识别方法有k-最近邻(KNN)、聚类分析(HCA)、人工神经网络(ANN)、判别分析(DA)和支持向量机(SVM)。KNN方法通过光谱之间的相似性使用的指标的像的欧几里得距离数据集中的所有光谱进行比较。该方法与主成分分析(PCA)和拉曼光谱组合被用于结肠癌的诊断[26]。HCA使用各种多元距离计算,比如欧氏和马氏距离来标识相似的光谱,在拉曼中的用法与红外类似。ANN是一种比较成熟的多元非线性校正技术,该技术在不少领域的应用中有良好的效果,因而在非线性技术中占有重要地位。ANN可用于识别群集或寻找复杂的数据模式。ANN是受到中枢神经系统的功能和结构启发的计算模型和所述网络包括节点或神经元的相互连接,例如数据输入、输出、存储、转发。ANN的布局是由多个层和每层的多个神经元组成。该方法用于分析健康人与患有阿尔茨海默症病人的血清拉曼光谱[27]。
为了克服各种算法自身的优缺点,人们将不同算法加以组合,如将PCA与ANN组合起来使用,首先对样品光谱进行PCA,再将其作为ANN的输入节点,从而建立定标模型,这样既减少了ANN的训练时间和输入节点数,又充分利用了全光谱的数据,达到了良好的实际效果。再如模式识别的应用中,可采取将PCA和马氏距离判据相结合的方法,借用光谱定性中的聚类分析在建模过程中剔除异常光谱样本。还有将SRA、PCA、ANN三种结合的组合算法,效果更好。
支持向量机(SVM)是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最好的推广能力。拉曼光谱结合SVM已经被用作癌症的筛查方法[28]。
(2)多变量定量分析 由于化学计量学中主成分(PCR)和偏最小二乘法(PLS)多变量解析方法的引入,使得拉曼光谱快速定量成为可能。PLS是在PCA的基础上发展而来的,该方法考虑应变量信息的影响,同时对光谱矩阵和应变量进行降维处理。
目前,在线性问题处理中,PLS是一种近红外光谱分析中的应用最广、效果最好的建模方法,这种建模方法在各种商业软件中都有包含。PLS是一种将回归分析和因子分析相结合的方法,利用的是全光谱数据。但是,当某些样品的性质超出校正集样本的正常范围,或是校正集中出现异常样品时,则可能出现较大的误差。
近些年,SVM回归、极限学习机(ELM)、ANN等非线性多元校正方法也越来越多地用于建立复杂混合物的拉曼光谱定量校正模型。
3.4.3 仪器校准与模型转移
拉曼光谱的仪器标准化,主要体现在拉曼位移和强度校准,在用特征拉曼峰等方法做未知物质匹配鉴定或模式识别中,不同仪器间的拉曼位移校准尤为重要。梁逸曾[29]等提出移动窗口快速傅里叶变化交叉(Moving Window Fast Fourier Transform,MWFFT)结合实验设计选取的多个标准物去做仪器之间的标准化,可以处理拉曼光谱分析仪之间拉曼位移的非线性漂移,解决了拉曼光谱仪间的数据共享问题。图3-18是使用MWFFT方法处理的拉曼光谱。

图3-18 使用MWFFT方法处理的拉曼光谱
3.4.4 二维相关光谱
二维相关光谱(Two-dimensional Correlation Spectrum,2D-COS)的基本概念最早应用于核磁振动(NMR)领域,并得到广泛应用。直到1986年,Noda就2D-NMR技术的理论提出了一个概念性的突破,把磁实验中的多重射频看作是一种对体系的外部扰动,在1993年破除了外绕波形的局限,这使2D-COS开始应用于红外、拉曼、荧光、X射线等光谱技术。
体系对外绕动的反应经常表现为有特征的光谱变化,称为动态光谱。2D-COS就是考虑外绕动引起的外绕变量随着时间的变化,也就是动态光谱的变化。外扰动可以是时间,也可以是任意其他物理变量,如温度、压强、浓度、电压等。
二维光谱通过扫描一束光的频率,并让它与待测物质相互作用,而产生不同的中间态。然后再让另一束光与物质相互作用,并且扫描这束光的频率,观察这束光与物质作用的结果,从而得出各个吸收、发射模式之间的耦合情况。简单地说,根据具体的测试手段,二维光谱中的正负信号可能有不同的意义。一般而言,正负信号分别代表发射和吸收。但取决于具体采用的测试手段,正信号可能代表发射也可能代表吸收。峰的强度就表示吸收或者发射的强度。位于对角线上的峰代表单个模式的光谱线型,可以根据其展宽模式获得微环境的信息。而非对角线上的峰代表不同模式之间的耦合情况。出现峰代表两个模式之间存在相互作用,而非对角线上的峰的形状可以给出模式之间耦合方式的信息。陈达等[30]尝试引入2D-COS法应用于橄榄油掺杂检测,以提升常规拉曼光谱的分辨率及检测准确度。在外界温度微扰下,二维相关拉曼光谱法能够准确反映橄榄油组成成分以及官能团的变化情况,这些变化随着掺杂油含量和种类的差异而呈现相应的特征信息,进而为实现橄榄油中掺杂其他劣质油的定量分析提供可靠的依据。在二维相关拉曼光谱技术的基础上,结合多维偏最小二乘法(N-way Partial Least Square,N-PLS)与多尺度建模(Multi-scale Modeling,MM)思想,利用2D-COS所提取的二维信息,建立了多尺度二维相关拉曼光谱模型。计算结果表明,多尺度二维相关拉曼算法显著提升了常规拉曼光谱分析模型的精度和可靠性,不仅准确挖掘出了掺杂橄榄油光谱中新的表征信息,而且能克服噪声和基线带来的干扰,使得拉曼光谱分析更加简单、可靠,有望在复杂体系光谱分析中得到广泛的应用。
2D-COS可进一步提高光谱的分辨率,解决光谱技术在复杂体系分析中存在的分辨率不够高、重叠峰分析困难等问题。导数二维相关光谱、投影二维相关光谱与双二维相关光谱的应用可进一步提高2D-COS的质量,解析高度重叠的特征峰。