產(chǎn)品分類(lèi)

文章詳情

近紅外光譜無(wú)損檢測(cè)技術(shù)中數(shù)據(jù)的分析方法概述

日期：2024-09-20 07:32

瀏覽次數(shù)：234

摘要：近紅外光譜檢測(cè)技術(shù)的成本低，對(duì)于樣本無(wú)損傷、無(wú)污染、方便在線分析。在食品無(wú)損檢測(cè)中得到了廣泛的應(yīng)用。近紅外光譜技術(shù)是建立一個(gè)穩(wěn)定可靠的定性或者定量模型來(lái)實(shí)現(xiàn)數(shù)據(jù)樣本的校準(zhǔn)，常用于定性分析。定性分析中常用的方法有主成分分析法（principal component analysis ，PCA）、模式識(shí)別方法等；定量分析中常用的方法主要是各種多元校正技術(shù)，如偏*小二乘回歸（partial least squares ，PLS）、支持向量機(jī)（support vector machine ，SVM）以及神經(jīng)網(wǎng)絡(luò)算法（back propagation ，BP）等。 ...

近紅外光譜檢測(cè)技術(shù)的成本低，對(duì)于樣本無(wú)損傷、無(wú)污染、方便在線分析。在食品無(wú)損檢測(cè)中得到了廣泛的應(yīng)用。

近紅外光譜技術(shù)是建立一個(gè)穩(wěn)定可靠的定性或者定量模型來(lái)實(shí)現(xiàn)數(shù)據(jù)樣本的校準(zhǔn)，常用于定性分析。定性分析中常用的方法有主成分分析法（principal component analysis ，PCA）、模式識(shí)別方法等；定量分析中常用的方法主要是各種多元校正技術(shù)，如偏*小二乘回歸（partial least squares ，PLS）、支持向量機(jī)（support vector machine ，SVM）以及神經(jīng)網(wǎng)絡(luò)算法（back propagation ，BP）等。

偏*小二乘法

偏*小二乘法（partial least squares ，PLS）是一種新的多元校正方法，可以建立多元的回歸模型，主要是基于因子分析。偏*小二乘法的原理是首先將樣本的光譜矩陣X和光譜濃度矩陣Y進(jìn)行分解，同時(shí)把包含在樣本中的信息引入進(jìn)來(lái)，分解后提取出樣本中的m個(gè)主因子，如公式（1）所示：

式（1）中：測(cè)量矩陣X和Y的得分矩陣分別是T和U；t_k和u_k分別表示光譜矩陣X的第k個(gè)主成分因子和濃度矩陣的第k個(gè)主成分因子；p_k和q_k表示主成分因子的載荷，m為成分因子的個(gè)數(shù)。對(duì)于和進(jìn)行線性關(guān)聯(lián)，如公式（2）所示：

在進(jìn)行回歸預(yù)測(cè)時(shí)，首先求出未知樣品光譜矩陣的得分T_x，再根據(jù)公式（3）得到組分濃度預(yù)測(cè)值，如公式（3）所示：

在該算法的整個(gè)運(yùn)算過(guò)程中，矩陣的分解和回歸分析是同時(shí)進(jìn)行的，計(jì)算新的主成分時(shí)，首先交換T和U，使的主成分和測(cè)量矩陣Y直接關(guān)聯(lián)。偏*小二乘PLS算法分析是通過(guò)建立光譜數(shù)據(jù)和品種分類(lèi)之間的回歸模型來(lái)實(shí)現(xiàn)的。使用PLS分析得到的結(jié)果中，不僅可以建立更優(yōu)化的回歸模型，還可以同時(shí)進(jìn)行主成分分析來(lái)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)，觀察變量之間的相互關(guān)系等研究?jī)?nèi)容，提供更多的建模信息。所有的獨(dú)立變量都可以包含在*終建立的回歸模型中，PLS可以有效解決變量多重性問(wèn)題。

主成分分析

主成分分析是一種線性投影方法，它主要被應(yīng)用在多元統(tǒng)計(jì)分析中，在不損害樣本的原始信息的前提下，對(duì)高維數(shù)據(jù)進(jìn)行降維處理，將其映射到低維空間中。PCA的基本思路是通過(guò)*優(yōu)化方法簡(jiǎn)化樣本的數(shù)據(jù)矩陣，降低維數(shù)，從原本樣本的指標(biāo)中，得到幾個(gè)主成分，用來(lái)揭示樣本中包含的信息。

計(jì)算步驟首先是對(duì)原始數(shù)據(jù)矩陣X進(jìn)行拆分，如公式（4）所示：

借助投影矩陣L^T將X投影到多維子空間。T中的列向量和L中的列向量是相互正交的關(guān)系，如公式（5）所示：

重建后的數(shù)據(jù)變量相互獨(dú)立，各主成分按照方差順序進(jìn)行排列，**主成分包含了數(shù)據(jù)方差的絕大部分，排名越靠前的主成分，其所包含的的數(shù)據(jù)信息量越大。經(jīng)過(guò)計(jì)算所得到的新的橫坐標(biāo)是樣本原來(lái)變量的線性組合。**主成分元素可以表示為如下形式：

主成分分析的對(duì)象減少，從而可以有效地降低分析的工作量和誤差。分析過(guò)程中只使用獨(dú)立變量，這樣可以達(dá)到消除噪音的目的。對(duì)數(shù)據(jù)進(jìn)行降維處理可以幫助信息的提取和聚類(lèi)分析。

BP神經(jīng)網(wǎng)絡(luò)算法

BP算法又稱(chēng)為誤差反向傳播算法，是人工神經(jīng)網(wǎng)絡(luò)中的一種基于誤差反向傳播的監(jiān)督式學(xué)習(xí)算法。在理論上，BP神經(jīng)網(wǎng)絡(luò)算法可以逼近任意函數(shù)，基本的結(jié)構(gòu)是由很多非線性變化的單元組成，具有實(shí)現(xiàn)輸入和輸出數(shù)據(jù)高度非線性映射能力。人工神經(jīng)網(wǎng)絡(luò)是對(duì)人類(lèi)大腦結(jié)構(gòu)以及信息處理運(yùn)作過(guò)程進(jìn)行模擬之后，提出的信息處理系統(tǒng)。因此具有自學(xué)習(xí)和自適應(yīng)的能力。

BP神經(jīng)網(wǎng)絡(luò)的計(jì)算包括正向和反向兩個(gè)子過(guò)程。正向傳播過(guò)程中，是從輸入層逐層轉(zhuǎn)向傳出層。如果輸出和期望不同的時(shí)候，則進(jìn)行反向傳播，把誤差沿著正向傳播路徑的原路徑反向傳播回去，經(jīng)過(guò)各個(gè)神經(jīng)元的修改，使得誤差達(dá)到*小。BP神經(jīng)網(wǎng)絡(luò)法的缺點(diǎn)是學(xué)習(xí)速度慢；在解決全局問(wèn)題時(shí)，很有可能陷入局部*優(yōu)化，使得訓(xùn)練失??；由于學(xué)習(xí)能力和泛化能力之間的矛盾，過(guò)程中容易出現(xiàn)“過(guò)擬合”現(xiàn)象。

支持向量機(jī)算法

支持向量機(jī)算法的優(yōu)化原則是采用以結(jié)構(gòu)化風(fēng)險(xiǎn)*小化取代我們常用的經(jīng)驗(yàn)風(fēng)險(xiǎn)*小化；基本思想是利用核函數(shù)代替向高維空間的非線性映射，對(duì)于樣本，若是非線性可再分，則構(gòu)建一個(gè)或多個(gè)甚至無(wú)限多個(gè)高維的超平面，在經(jīng)過(guò)變換后的高維空間，利用這個(gè)超平面來(lái)對(duì)樣本點(diǎn)進(jìn)行分類(lèi)。一個(gè)好的超平面要求離分類(lèi)邊界*近的訓(xùn)練樣本點(diǎn)的與分類(lèi)邊界的距離越大越好，這個(gè)距離被稱(chēng)之為間隔（Margin），這些樣本點(diǎn)被稱(chēng)之為支持向量。SVM的目標(biāo)就是要找出使間隔*大的分類(lèi)超平面。

給定的樣本集，步驟一般如下：首先要將樣本集分為訓(xùn)練集和測(cè)試集，訓(xùn)練集是(x₁,y₁) (x₂,y₂)…(x_i,y_i)，其中橫坐標(biāo)x_i∈Rⁿ為輸入變量的值，y_i∈Rⁿ為相應(yīng)的輸出值。通過(guò)對(duì)訓(xùn)練集進(jìn)行機(jī)器學(xué)習(xí)，尋求*優(yōu)化的模式M（x），要求這個(gè)模式不僅滿足訓(xùn)練集輸入和輸出的對(duì)應(yīng)關(guān)系，而且對(duì)于測(cè)試集的樣本輸入變量的值進(jìn)行預(yù)測(cè)，同樣能得到效果較好的輸出。

在支持向量機(jī)算法中，使用不同的核函數(shù)會(huì)產(chǎn)生不同的算法，因?yàn)?/span>SVM具有優(yōu)良的泛化能力，所以是一種適合小樣本的學(xué)習(xí)方法。在SVM進(jìn)行分類(lèi)的時(shí)候，起到?jīng)Q定性作用的是支持向量。計(jì)算的復(fù)雜性取決于支持向量的數(shù)目，在實(shí)驗(yàn)的過(guò)程中只需要抓住關(guān)鍵的樣本。SVM在運(yùn)算的過(guò)程中很少涉及到概率測(cè)度及大數(shù)定律等規(guī)律，而且支持向量法整體具有較好的“魯棒”性。

在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中，一般要解決多類(lèi)的分類(lèi)問(wèn)題。如：將SVM與粗集理論結(jié)合，形成一種優(yōu)勢(shì)互補(bǔ)的多類(lèi)問(wèn)題的組合分類(lèi)器。

*小二乘支持向量機(jī)算法

*小二乘支持向量機(jī)（least square support vector machines ，LS—SVM）是支持向量機(jī)的一種類(lèi)型，是在經(jīng)典SVM的基礎(chǔ)上改進(jìn)得來(lái)的。LS—SVM既可以進(jìn)行線性，也可以進(jìn)行非線性的多元建模，支持少量的訓(xùn)練樣本中高維特征空間的學(xué)習(xí)，是解決多元建模的一種快速方法。*小二乘支持向量機(jī)具有建模速度快、優(yōu)化參數(shù)少、泛化能力強(qiáng)等優(yōu)點(diǎn)，因此被廣泛應(yīng)用于近紅外光譜技術(shù)檢測(cè)的定量分析中。*小二乘支持向量機(jī)同時(shí)具有很好的非線性處理能力，可以用于快速建立多元模型。

K*近鄰分類(lèi)算法

在K*近鄰分類(lèi)算法（K-nearest neighbor，KNN）算法中每個(gè)樣本都可以用它*接近的k個(gè)鄰居來(lái)代表。KNN算法的核心思想是在特征空間中，如果以一個(gè)樣本為中心，它周?chē)?相鄰的k個(gè)樣本，它們大多數(shù)屬于某一個(gè)類(lèi)別，則這個(gè)樣本也屬于這個(gè)類(lèi)別，并且具有這個(gè)類(lèi)別上其他k個(gè)樣本的特性。

如圖1所示，有三類(lèi)不同樣本，分別以方框、空心圓點(diǎn)和實(shí)心圓點(diǎn)表示。其中以“+”標(biāo)記出的樣本，需要分析出它所屬的類(lèi)別。在此圖中以該樣本作為圓心，畫(huà)出兩個(gè)圓，如果以小圓為界線，只有2個(gè)實(shí)心圓點(diǎn)落在小圓的范圍內(nèi)，此時(shí)按照KNN原理應(yīng)該將樣本劃分為實(shí)心圓點(diǎn)那一類(lèi)。如果以大圓為界線，共有10個(gè)點(diǎn)落在了大圓的范圍內(nèi)，其中有3個(gè)方框類(lèi)，有8個(gè)實(shí)心圓點(diǎn)類(lèi)，按照KNN理論，也應(yīng)該被劃為實(shí)心圓點(diǎn)這一類(lèi)。這說(shuō)明K值的大小對(duì)判別的結(jié)果是有一定的影響的。如果K>1，則這K個(gè)*近鄰樣本不一定都屬于這一類(lèi)。如果K=1，很自然這一個(gè)*近鄰樣本屬于哪類(lèi)，那么未知樣本就屬于此類(lèi)。

KNN分類(lèi)算法的*大優(yōu)點(diǎn)是其適合于屬性較多或者數(shù)據(jù)量很大的問(wèn)題。在進(jìn)行數(shù)據(jù)處理的過(guò)程中，不需要提前設(shè)計(jì)分類(lèi)器對(duì)訓(xùn)練樣本進(jìn)行分類(lèi)，而是可以直接進(jìn)行分類(lèi)，確定每個(gè)類(lèi)的類(lèi)標(biāo)識(shí)號(hào)，不需要估計(jì)參數(shù)，無(wú)需訓(xùn)練；在解決多分類(lèi)的問(wèn)題上KNN比SVM表現(xiàn)要好。KNN在實(shí)際的應(yīng)用中存在下面兩個(gè)問(wèn)題：當(dāng)對(duì)估計(jì)參數(shù)沒(méi)有相應(yīng)的限制時(shí)，訓(xùn)練集的數(shù)目又比較大，這時(shí)尋找*近鄰所花費(fèi)的時(shí)間較長(zhǎng)。其次，對(duì)于觀測(cè)集的增長(zhǎng)速度有較高要求。

線性判別分析法

主要用來(lái)判斷樣品的類(lèi)別，即可以對(duì)樣品中的成分進(jìn)行定性分析，線性判別分析法（linear discriminant analysis，LDA）在醫(yī)學(xué)診斷、氣象學(xué)、市場(chǎng)預(yù)測(cè)、經(jīng)濟(jì)學(xué)和地質(zhì)勘探等領(lǐng)域中均已起著重要作用。

LDA算法的基本思想是通過(guò)特征向量將已經(jīng)分組的數(shù)據(jù)向低維的方向投影，使得同一個(gè)組的數(shù)據(jù)關(guān)系更為緊密，不同組的之間盡可能的分開(kāi)。LDA的目標(biāo)是要根據(jù)樣本中的n個(gè)指標(biāo)變量x=（x₁，x₂，…，x_n）^T建立一個(gè)*優(yōu)分類(lèi)判別函數(shù)，判別函數(shù)的建立*終是尋找一個(gè)矢量w=（w₁，w₂，…，w_n）^T，那建立一個(gè)如下的判別模型，如公式（9）所示：

矢量w是個(gè)常數(shù)，稱(chēng)作閥值權(quán)，相應(yīng)的決策規(guī)則則可表示為，如公式（10）所示：

f（w，x）=0是相應(yīng)的決策面方程，如公式（11）所示：

f（w，x）也就是該決策面到d維空間中任一點(diǎn)w距離的代數(shù)度量，根據(jù)其到該面距離的正負(fù)號(hào)，該決策平面將樣本分類(lèi)，并且確定出相應(yīng)的類(lèi)別。W（w₀≠0）表示的是決策面在特征空間中的位置，當(dāng)其值為0時(shí)，表示這個(gè)決策面過(guò)原點(diǎn)。

連續(xù)投影算法

連續(xù)投影算法（successive projections algorithm，SPA）是在線性空間中，使共線性達(dá)到*小化的一種前向變量選擇算法。設(shè)定標(biāo)集中樣品個(gè)數(shù)為n，包含波長(zhǎng)數(shù)為m，組成一個(gè)光譜矩陣X_n×m，SPA從任選一個(gè)波長(zhǎng)作為起始波長(zhǎng)點(diǎn)，循環(huán)進(jìn)行搜索，搜索投影中沒(méi)有被引入波長(zhǎng)組合的部分，每次都將*大的投影方向不斷地引入，直到循環(huán)W（w<n-1）次以后，就可以形成一個(gè)波長(zhǎng)鏈，使得此鏈中的任意相鄰兩個(gè)波長(zhǎng)之間線性關(guān)系*小。算法如下：初始化波長(zhǎng)：令n=1，任取一個(gè)波長(zhǎng)x_j作為算法循環(huán)的起始點(diǎn)，記為X_m（0）。把剩下的沒(méi)有選擇到波長(zhǎng)鏈中的所有波長(zhǎng)，記為一個(gè)集合s={j，1≤j≤m，j ?{m（0），m（1），…，m（n-1）}}計(jì)算S中波長(zhǎng)與x_j的投影向量，如公式（12）所示：

選擇其中*大的投影，并且記錄下相應(yīng)序號(hào)作為入選的波長(zhǎng)，如公式（13）所示：

當(dāng)n=w時(shí)停止循環(huán)，否則返回到**步不斷地做投影優(yōu)選波長(zhǎng)。這樣總共得到w×m個(gè)模型。

連續(xù)投影算法的優(yōu)點(diǎn)是：*大程度的降低了變量之間的共線性，提取*低限度的冗余信息變量組可以減少建立模型所需要變量的個(gè)數(shù)，提高建模效率和速度。

以上算法都是近紅外光譜在建立定性或定量模型中的常見(jiàn)算法。但目前很多商用的近紅外光譜儀將算法整合到建模軟件中，并不需要使用人員完全了解算法即可建模。但今后近紅外的發(fā)展離不開(kāi)人們對(duì)算法的研究?？梢灶A(yù)見(jiàn)的是，隨著近紅外的發(fā)展普及，越來(lái)越多人會(huì)對(duì)近紅外的算法產(chǎn)生興趣。隨著時(shí)代，未來(lái)將會(huì)有新的技術(shù)誕生，給光譜儀產(chǎn)業(yè)帶來(lái)翻天覆地的變化。

下一篇：米面重金屬污染物來(lái)源及其檢測(cè)方法
上一篇：如何使用近紅外光譜儀對(duì)米糠的三粗進(jìn)行分析？

粵公網(wǎng)安備 44010302000429號(hào)

毛j片,亚洲国产精品成人一区二区在线,亚洲男人的新天堂网,热re99久久精品国产99热

近紅外光譜無(wú)損檢測(cè)技術(shù)中數(shù)據(jù)的分析方法概述