北方偉業(yè)計(jì)量集團(tuán)有限公司
溶解氧是反映水污染程度的一個(gè)重要指標(biāo),準(zhǔn)確的預(yù)測可以高效合理的判斷水質(zhì)環(huán)境的狀況。由于水質(zhì)環(huán)境的實(shí)時(shí)變化和復(fù)雜性,以及收集數(shù)據(jù)的偏差,在水生系統(tǒng)中獲得高效、精確的預(yù)測模型是困難的。因此,首先利用主成分分析(PCA)確定影響水質(zhì)溶解氧的變量數(shù)目,降低數(shù)據(jù)維數(shù),為解決變量間的非線性和非平穩(wěn)性問題,提出用互信息(MI)選取影響強(qiáng)的因素作為預(yù)測模型的輸入變量。然后利用一種基于高斯函數(shù)的非線性遞減權(quán)重的粒子群算法優(yōu)化支持向量回歸(GNIPSO-SVR)模型中的參數(shù)選擇過程,有效克服傳統(tǒng)SVR預(yù)測模型的參數(shù)選擇問題,并考慮空氣中的污染物因素,構(gòu)建污染物影響的GNIPSO-SVR模型。然后將該模型應(yīng)用于上海的水質(zhì)溶解氧的預(yù)測中,把GNIPSO-SVR模型與BP神經(jīng)網(wǎng)絡(luò)、SVR模型、PSO-SVR模型對比分析,結(jié)果表明,提出的方法可以有效解決溶解氧變量間的冗余性與相關(guān)性問題,提高預(yù)測精度和運(yùn)行速度。
水質(zhì)系統(tǒng)是一個(gè)受諸多具有非確定性的時(shí)變特征的因素共同影響的復(fù)雜生態(tài)系統(tǒng),各項(xiàng)水質(zhì)指標(biāo)之間存在不同程度的多重相關(guān)性和冗余信息,在短期的水質(zhì)指標(biāo)預(yù)測中,若直接利用這些因子建立預(yù)測模型,易出現(xiàn)“過擬合”現(xiàn)象,導(dǎo)致預(yù)測精度低。溶解氧(Dissolved Oxygen, DO)是衡量水生生態(tài)系統(tǒng)狀況的重要指標(biāo),濃度越高,說明水體受到污染的程度越嚴(yán)重,準(zhǔn)確的溶解氧預(yù)測仍然是水管理人員面臨的挑戰(zhàn),在生態(tài)系統(tǒng)可持續(xù)性發(fā)展中起著重要作用。通過對溶解氧影響因素分析與預(yù)測模型的建立,對水質(zhì)溶解氧的變化特征和趨勢進(jìn)行研究,有助于管理者進(jìn)行早期決策,因此,準(zhǔn)確預(yù)測水質(zhì)指標(biāo)DO具有一定的經(jīng)濟(jì)價(jià)值和現(xiàn)實(shí)意義。
一些學(xué)者通過溶解氧的含量,來預(yù)估水庫受到有機(jī)污染物污染的趨勢,并取得了巨大成就。傳統(tǒng)的專家評價(jià)系統(tǒng)、數(shù)理統(tǒng)計(jì)、時(shí)間序列、灰色理論等預(yù)測方法在檢測水質(zhì)指標(biāo)之間的非線性和非平穩(wěn)性關(guān)系時(shí)易出現(xiàn)局部極值、過學(xué)習(xí)等問題,導(dǎo)致預(yù)測模型的精確度降低。由于BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的計(jì)算復(fù)雜度較低和泛化能力較強(qiáng)等優(yōu)點(diǎn),在解決非線性問題時(shí)吸引了學(xué)者更多的關(guān)注。支持向量機(jī)能克服BP神經(jīng)網(wǎng)絡(luò)的易出現(xiàn)重復(fù)性差、過度擬合等缺陷,對于小樣本數(shù)據(jù)集具有較強(qiáng)的泛化能力,而且支持向量回歸機(jī)(SVR)不需要先驗(yàn)地定義體系結(jié)構(gòu),結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理使SVR在處理未知變化情況的數(shù)據(jù)中具有不降低預(yù)測精度和運(yùn)行效率的獨(dú)特優(yōu)點(diǎn),更適用于水質(zhì)指標(biāo)的預(yù)測。研究問題時(shí)為了使預(yù)測結(jié)果更具有代表性,采集數(shù)據(jù)時(shí)會盡可能多的獲取特征變量,導(dǎo)致部分特征變量間存在弱相關(guān)且冗余。因此,選擇最佳的特征選擇方法也是構(gòu)建溶解氧預(yù)測模型的一項(xiàng)重要任務(wù)。張森等首先利用偏最小二乘法提取與水質(zhì)指標(biāo)強(qiáng)相關(guān)弱冗余的特征變量,降低了預(yù)測模型的輸入維度,然后利用改進(jìn)的粒子群(PSO)算法優(yōu)化SVM的模型進(jìn)行水質(zhì)預(yù)測,通過仿真實(shí)驗(yàn)證明了該模型的預(yù)測精度和運(yùn)行效率都優(yōu)于其它模型。但是,對于選取水質(zhì)指標(biāo)溶解氧影響因素的特征選擇方法沒有具體的定義,而且確定特征變量的個(gè)數(shù)也是提高預(yù)測模型精確度的關(guān)鍵因素。主成分分析(PCA)是一種降維的多元統(tǒng)計(jì)分析方法,它在考慮數(shù)據(jù)集潛在結(jié)構(gòu)的情況下,將原始數(shù)據(jù)映射到幾個(gè)具有較大特征值的主成分組成的線性子空間,在確定特征變量維數(shù)上具有實(shí)際應(yīng)用。吳慧英等建立了主成分分析和支持向量回歸機(jī)(PCA-SVR)結(jié)合的預(yù)測模型,通過對DO含量的預(yù)測驗(yàn)證了該模型的有效性。但當(dāng)數(shù)據(jù)集較大時(shí),PCA的內(nèi)存處理效率低,需要其它方法來尋找特征值。互信息(MI)在保留強(qiáng)相關(guān)特征的同時(shí)在一定程度上去除冗余。如果只利用互信息算法選取特征,會存在相關(guān)特征過度刪除,導(dǎo)致數(shù)據(jù)集丟失有用信息且在選取特征變量的數(shù)目上具有主觀因素。因此,為了解決單一模型的局限性,本文選取PCA與MI組合的特征選擇方法對溶解氧的特征變量進(jìn)行選取,減少特征變量之間的強(qiáng)耦合性引起的誤差。
現(xiàn)在國內(nèi)外學(xué)者通過SVR模型對溶解氧預(yù)測的研究很少,且尋找支持向量回歸機(jī)(SVR)的懲罰函數(shù)c和核函數(shù)g的最優(yōu)參數(shù)沒有具體的策略,一些學(xué)者利用遺傳算法(GA)、粒子群算法(PSO)對SVR的c和g進(jìn)行了優(yōu)化。薛同來等利用GA優(yōu)化SVR的參數(shù),構(gòu)建了GA-SVR的水質(zhì)指標(biāo)組合預(yù)測模型并進(jìn)行仿真,把該模型與BP神經(jīng)網(wǎng)絡(luò)、SVR模型的預(yù)測結(jié)果進(jìn)行對比分析,證明了GA-SVR模型減少了最優(yōu)參數(shù)的選取時(shí)間,具有較高的準(zhǔn)確性與泛用性。Huan J等提出一種混合的“分解-預(yù)測-重建”模型,將集成經(jīng)驗(yàn)?zāi)J椒纸?EEMD)和最小二乘支持向量機(jī)(LSSVM)相結(jié)合,提高了DO預(yù)測的精確度和有效性。羅學(xué)科等利用差分自回歸移動(dòng)平均(ARIMA)與粒子群優(yōu)化算法(PSO)搜尋支持向量回歸機(jī)(SVR)模型的最優(yōu)參數(shù)的組合預(yù)測模型對巢湖水域的DO進(jìn)行預(yù)測,通過對比單一和組合模型的預(yù)測結(jié)果,驗(yàn)證了組合模型的適用性和可靠性。但GA算法的收斂速度較慢,而且其參數(shù)交叉率和變異率等的選擇憑借于經(jīng)驗(yàn),具有主觀性,影響優(yōu)化結(jié)果;PSO算法在優(yōu)化SVR的參數(shù)上具有較快逼近最優(yōu)解的速度,但易出現(xiàn)早熟收斂現(xiàn)象。為了解決上述問題,本文在結(jié)合線性遞減慣性權(quán)重的PSO算法理論下,借鑒高斯函數(shù)的分布特性對PSO算法的權(quán)重進(jìn)行改進(jìn),建立了一個(gè)非線性動(dòng)態(tài)慣性權(quán)重的粒子群算法(Particle swarm optimization with nonlinear decreasing weight based on Gaussian function, GNIPSO)優(yōu)化SVR參數(shù)的模型(GNIPSO-SVR),提高預(yù)測模型的精確度、收斂速度和搜索能力。
綜上所述,本文采用PCA和MI組合特征選擇方法選取的特征變量作為GNIPSO-SVR模型的輸入,建立了組合預(yù)測模型,并對考慮了空氣中污染物的影響因素的上海水質(zhì)指標(biāo)溶解氧的進(jìn)行影響因素分析和預(yù)測,以驗(yàn)證該模型的可行性與應(yīng)用價(jià)值。
信息熵是由美國科學(xué)家香農(nóng)(Shannon C.E.)提出,主要是用來判斷隨機(jī)變量的不確定性程度,其值越大,所包含的信息量就越大。用H(X)表示信息源X={x1,x2,...,xn}對應(yīng)的信息熵,每個(gè)信息源xi所對應(yīng)的概率為p(xi),則:
在條件Y確定的情況下,信息源X可以用條件熵來描述,如式(2):
p(xi,yj)為二維向量(X,Y)的聯(lián)合概率分布,則聯(lián)合熵可以定義為式(3)的形式:
互信息(Mutual information,MI)是機(jī)器學(xué)習(xí)的一種算法,不僅能反映每個(gè)輸入變量與目標(biāo)輸出變量之間的線性關(guān)系,也能反映其非線性關(guān)系。它在反應(yīng)變量之間的相關(guān)性比相關(guān)系數(shù)更加全面,主要是從所有測量信號中選擇最相關(guān)的變量作為模型的輸入變量。對于給定目標(biāo)變量Y后,特征變量X的不確定性減少程度為:
式(4)中p(xi)為X的邊緣概率分布,p(yj)為Y的邊緣概率分布。
聲明:本文所用圖片、文字來源《信息與控制.北大核心CSCD》,版權(quán)歸原作者所有。如涉及作品內(nèi)容、版權(quán)等問題,請與本網(wǎng)聯(lián)系刪除。
采集到的數(shù)據(jù)一般不直接采用,需經(jīng)過數(shù)據(jù)的歸一化處理。這是因?yàn)樗|(zhì)因子指標(biāo)的范圍比較大,不同的數(shù)據(jù)具有不同的量綱單位,為了消除水質(zhì)指標(biāo)彼此之間的量綱影響及保證這些數(shù)據(jù)之間具有可比性以及提高模型的運(yùn)行速度和預(yù)測精度。本文采用MATLAB R2018a的map-maxmin函數(shù)進(jìn)行歸一化處理,如式(23)所示,“apply”模式是將數(shù)據(jù)指標(biāo)轉(zhuǎn)化到[-1,1]之間,便于對比預(yù)測,而“resver”模式可以將數(shù)據(jù)反歸一化回去。
了解更多> >在選取的樣本信息中,水質(zhì)指標(biāo)濁度與水溫之間的相關(guān)系數(shù)為0.58>0.5,氨氮與電導(dǎo)率之間的相關(guān)系數(shù)為0.547>0.5,在99%的置信區(qū)間下,具有顯著相關(guān)性。而互信息值0.7759(濁度)>0.6800(水溫),0.7854(電導(dǎo)率)>0.7598(氨氮),因此選取電導(dǎo)率、總磷、濁度、高錳酸鉀指數(shù)、PH、總氮等作為水質(zhì)指標(biāo)中影響溶解氧含量的特征變量。
了解更多> >綜上所述,在研究水質(zhì)指標(biāo)溶解氧問題時(shí)選擇的特征變量過少導(dǎo)致建模效果不佳,預(yù)測結(jié)果不具有代表性,特征變量多可以提供描述問題的更多信息,但數(shù)據(jù)中會存在無關(guān)和弱相關(guān)且冗余的特征變量,會降低模型的泛化性能。在對溶解氧預(yù)測實(shí)踐中,PCA-MI特征選擇方法選取的特征變量更具有代表性,能更有效的提高模型預(yù)測性能。
了解更多> >在解決水質(zhì)指標(biāo)溶解氧的預(yù)測問題時(shí),將經(jīng)過PCA和MI組合特征選擇的溶解氧數(shù)據(jù)作為GNIPSO-SVR預(yù)測模型的輸入,并與BP神經(jīng)網(wǎng)絡(luò)、SVR、PSO-SVR等預(yù)測模型進(jìn)行對比分析。各個(gè)溶解氧預(yù)測模型的總體趨勢與實(shí)際值都比較吻合,但本文提出的GNIPSO-SVR模型預(yù)測DO的曲線更接近實(shí)際值的曲線,PSO-SVR模型的預(yù)測效果次之,SVR的預(yù)測曲線與實(shí)際值曲線擬合度最差,尤其是對突變值的擬合情況,各個(gè)模型的預(yù)測值和實(shí)際值的擬合曲線的可視化結(jié)果如圖4-圖7所示。
了解更多> >本文利用主成分分析(PCA)、互信息(MI)、非線性慣性權(quán)重遞減的粒子群優(yōu)化算法(GNIPSO)和支持向量回歸機(jī)(SVR),提出了一種基于高斯函數(shù)的非線性權(quán)重遞減的粒子群算法優(yōu)化支持向量回歸機(jī)(GNIPSO-SVR)的預(yù)測模型,通過實(shí)驗(yàn)證明了GNIPSO算法優(yōu)化SVR的參數(shù)優(yōu)于標(biāo)準(zhǔn)的PSO算法和慣性權(quán)重線性遞減的PSO算法。
了解更多> >通話對您免費(fèi),請放心接聽
溫馨提示:
1.手機(jī)直接輸入,座機(jī)前請加區(qū)號 如13803766220,010-58103678
2.我們將根據(jù)您提供的電話號碼,立即回電,請注意接聽
3.因?yàn)槟潜唤蟹?,通話對您免費(fèi),請放心接聽
登錄后才可以評論