|
如何深入學習數據分析? 目前已經學習了numpy, pandas, matplotlib 的基本使用方法,但還停留在理論階段,如何深入學習呢?大神們有好的數據分析實例教程,或者適用于自學者的數據分析網站或論壇推薦嗎?51自學網!或是關注我,給你發資料!MES環境下,CNC數控系統、PLC壓裝及測試設備、三坐標等數據提供了海量數據進行分析,而工業過程中,由于變化因子較多,且往往是在短期內變化因子數量較少、在較長時間內之前變化的因子又重新發生了變化,而之前穩定的因子,又發生了變化,故,我們稱之為因子變化的隨機性和不確定性。 此時,數據源不成為問題,而如何根據MES框架下的數據進行分析,快速查找到產品失效的根本原因,則成為了重中之重。本文提供一種分析思路,用于解決沒有頭緒情況下的問題分析。 時間序列分析,顧名思義,是以時間為軸進行分析,主要評價生產過程中的周期性變化;時間序列提供了很好的時間軸,幫助用戶縮小問題范圍;在具體使用時間分析時,有基于秒為單位進行時間序列分析,也有基于小時和天進行時間序列分析,這往往取決于要分析對象的變化周期或影響因素的變化周期,而天,則是一個相對比較常用的變化周期:一方面考慮到在很多行業,潛在因素變化的概率較??;另一方面,則要考慮到生產過程中的抽檢特性,以便在分析問題時,數據本身能夠具備映射關系,便于分析。 上圖是作者在某具體項目時,確認以天為時間軸,進行數據分析,該時間軸覆蓋了2013/01/12到2014/02/10這段時間軸范圍內的數據,通過時間序列分析發現(每天的樣本量約2000多),不同天之間的Y輸出變化較大,具備選取時間為基準因素的條件。注意,選擇時間為基準因素時,我們將借用謝林BOB 、WOW的概念在這里;同時,需要注意選取BOB、WOW樣本時,樣本時間盡量間隔周期較短,避免長時間階段下其他因素帶來的影響(混雜其他因子);BOB和WOW的狀態差別也要夠大,以避免α和β風險。 通過時間序列圖和正態性時間匯總信息,本例中選定了兩組對應的BOB和WOW,樣本量各為5。此時,通過時間序列分析方法,借用謝林BOB 和WOW的思想,成功取樣,用以避免統計上的α和β風險。而5對BOB和5對WOW對比,也具備了99.4%的置信度(Man Whitny test)。 此時的5對5的檢驗,目的是從連續性測試轉化到離散型測量上來,用以規避傳統的連續性測試和離散型測量之間的非映射關系,此時,通過,自動調取三坐標中的關鍵零件測量數據(MES+環境下的三坐標數據管理與分析一文),進行對比分析: 通過Y時間序列變化鎖定時間軸,基于時間軸調出測量系統中關鍵數據,借用Man Whitney統計思想,快速找到關鍵零件中的關鍵尺寸差異。 當然,現在需要進一步確認因子帶來的影響是否顯著,可以單獨設定實驗進行確認,而方法則可以多樣化,線性分析、方差分析等方法,都能夠在這個場景下進行應用。 基于MES框架下,工業過程的數據采集將變得越來越容易,而數據本身卻具備連續狀態和離散狀態,如何在不同狀態下進行切換和對應,除了在大數據維度下的插補技術、線性擬合技術等,也需要對工藝有著較深的理解,本文僅以此拋磚引玉,期望得到更多討論。 西格數據致力于通過工業數據采集、管理與分析服務,實現工業數據的互聯互通和智能分析,助推中國進入智慧型工廠制造時代! @8 p. |. @! Y3 `: y0 r
|
|