辨證論治是中醫(yī)學(xué)的特色,病證結(jié)合是目前中醫(yī)藥現(xiàn)代研究的一種新模式。中、西醫(yī)學(xué)的不同臨床診斷方式與疾病臨床表現(xiàn)的復(fù)雜性有關(guān)。因此,如何在同一疾病中辨識(shí)中、西醫(yī)診斷的特色及其異同,成為發(fā)掘中醫(yī)特色,并推動(dòng)其深入研究的重要前提和基礎(chǔ)。日前,清華信息國(guó)家實(shí)驗(yàn)室生物信息學(xué)研究部、中國(guó)中醫(yī)科學(xué)院基礎(chǔ)理論研究所、皖南醫(yī)學(xué)院弋磯山醫(yī)院科研人員,采用文獻(xiàn)數(shù)據(jù)采集與分析技術(shù),以常見(jiàn)的復(fù)雜性疾病類(lèi)風(fēng)濕性關(guān)節(jié)炎(RA)為例,對(duì)中、西醫(yī)診察的異同及其關(guān)聯(lián)進(jìn)行初步探討,為中醫(yī)辨證論治提供了一定的科學(xué)方法和依據(jù)。
研究人員共采集85項(xiàng)RA常見(jiàn)的臨床信息,歸為病變部位、量化診斷、癥狀描述、普遍狀況、環(huán)境因素5類(lèi);并從中國(guó)期刊網(wǎng)和Medline網(wǎng)中分別提取RA西、中醫(yī)診察的數(shù)據(jù)集,分析5類(lèi)臨床信息在中西醫(yī)數(shù)據(jù)集中的出現(xiàn)頻數(shù)并進(jìn)行卡方檢驗(yàn);再基于“同時(shí)出現(xiàn)”方法分析中醫(yī)若干診察與RA有關(guān)生物因素的關(guān)聯(lián)。
研究人員發(fā)現(xiàn),在所調(diào)查Medline網(wǎng)的9495篇文獻(xiàn)中,RA的癥狀出現(xiàn)率依次為:疼痛(32.8%),晨僵(6.6%),握力(5.3%),骨質(zhì)疏松(4.5%)等,均側(cè)重于對(duì)RA中客觀病理變化有關(guān)臨床表現(xiàn)的診察與研究;在CNKI的1012篇中醫(yī)文獻(xiàn)中,除重視RA的共性臨床表現(xiàn)外,RA中、西醫(yī)臨床診察比較結(jié)果具有極顯著性差異(P
研究人員認(rèn)為,中醫(yī)學(xué)對(duì)RA診察的特點(diǎn)在于側(cè)重于癥狀描述及內(nèi)外環(huán)境因素;而西醫(yī)學(xué)診察側(cè)重于RA客觀的量化診斷。中醫(yī)學(xué)側(cè)重于對(duì)RA機(jī)體與內(nèi)、外環(huán)境因素的關(guān)聯(lián),如RA患者對(duì)寒冷、溫?zé)岬拳h(huán)境刺激的反應(yīng),以及地域、時(shí)令等等的診察。同時(shí),中醫(yī)學(xué)對(duì)患者癥狀的證候?qū)傩栽\察與判斷側(cè)重于癥狀的屬性描述、動(dòng)態(tài)變化以及癥狀與外界刺激的關(guān)系。
此外,研究人員還發(fā)現(xiàn),若干中醫(yī)診察數(shù)據(jù)與RA生物學(xué)因素的關(guān)聯(lián)。如以RA中醫(yī)辨證論治中具有一定代表性的“口渴”癥狀以及“舌”診為例,通過(guò)Medline網(wǎng)文獻(xiàn)挖掘,結(jié)果發(fā)現(xiàn)“口渴”及“舌”診與部分RA相關(guān)的生物學(xué)因素存在一定的關(guān)系。其中一次關(guān)聯(lián)(直接關(guān)聯(lián))者涉及腫瘤壞死因子α(TNF-α)、白細(xì)胞介素(IL)-6等炎癥細(xì)胞因子以及免疫細(xì)胞,二次關(guān)聯(lián)則涉及激素、神經(jīng)肽等。
研究人員認(rèn)為,RA是一種免疫系統(tǒng)調(diào)節(jié)紊亂所致的炎癥反應(yīng)性疾病,涉及全身多系統(tǒng)受損。RA在中醫(yī)學(xué)屬于“痹病”的范疇。中醫(yī)藥治療RA的常用辨證方法為寒熱辨證、氣血津液辨證、臟腑辨證等。由于個(gè)體差異、遺傳因素、內(nèi)外環(huán)境影響、精神心理等原因,RA雖然在病理學(xué)和免疫學(xué)上具有一定的共性,然而RA臨床表現(xiàn)及其基因表達(dá)(基因型與表型)均具有明顯的多樣性,導(dǎo)致了RA在機(jī)理研究和治療上的困惑。研究人員指出,RA等常見(jiàn)復(fù)雜性疾病具有多樣的臨床表現(xiàn),是目前西醫(yī)以“疾病”為主體的診療模式和中醫(yī)以“證候”為主體的診療模式并存的背景,也從一個(gè)側(cè)面反映了“病證結(jié)合”研究的合理性和必要性。因此,探索中、西醫(yī)學(xué)對(duì)于疾?。≧A)的不同診察方式,是深入研究疾病病理生理變化、臨床表現(xiàn)、分子機(jī)制及其與證候類(lèi)型之間關(guān)系的重要基礎(chǔ)。
數(shù)據(jù)挖掘是從大量的、模糊的、隨機(jī)的數(shù)據(jù)中,提取潛在有用的信息和知識(shí)的過(guò)程。目前已經(jīng)建立了大量的醫(yī)學(xué)、生物學(xué)數(shù)據(jù)庫(kù),文獻(xiàn)數(shù)據(jù)挖掘方法已在基因表達(dá)網(wǎng)絡(luò)等研究上取得成果。研究人員采用基于文獻(xiàn)的數(shù)據(jù)挖掘方法,對(duì)RA的中、西醫(yī)診斷標(biāo)準(zhǔn)及文獻(xiàn)調(diào)查顯示,現(xiàn)代醫(yī)學(xué)側(cè)重于診察、研究與RA客觀病理變化密切相關(guān)的臨床表現(xiàn)。與此不同的是,中醫(yī)學(xué)診察不僅重視RA的共性因素,還側(cè)重于診察疾病與環(huán)境因素(自然環(huán)境,社會(huì)環(huán)境)的關(guān)聯(lián),體現(xiàn)了中醫(yī)“整體觀”的診療思維;側(cè)重于對(duì)RA癥狀的屬性描述、動(dòng)態(tài)變化以及癥狀與外界刺激關(guān)系的診察,體現(xiàn)了中醫(yī)“辨證論治”的診療實(shí)踐。以上這些為現(xiàn)代醫(yī)學(xué)診察RA所忽視的信息,正是中醫(yī)證候分類(lèi)的基礎(chǔ),也是“異病同證,同病異證”的重要依據(jù)。同時(shí),中醫(yī)學(xué)對(duì)于RA的共性臨床表現(xiàn)的重視,也反映了“病證結(jié)合”研究思維在中醫(yī)藥現(xiàn)代研究中的發(fā)展與進(jìn)步?!巴瑫r(shí)出現(xiàn)”是文獻(xiàn)挖掘中尋找相互關(guān)系的重要方法之一。研究人員前期研究中還發(fā)現(xiàn)RA“寒熱”證候與神經(jīng)、內(nèi)分泌等狀態(tài)間的聯(lián)系,與此次研究具有較好的一致性。
研究人員指出,通過(guò)以上研究提示,中醫(yī)學(xué)與西醫(yī)學(xué)是有所分野的、具有中醫(yī)自身特色的診斷,在一定程度上也客觀反映了RA發(fā)生發(fā)展過(guò)程中的一些生物化學(xué)變化??傊?,對(duì)于疾病過(guò)程中環(huán)境因素的考察以及癥狀信息的全面采集與提煉,這是中、西醫(yī)學(xué)診斷RA有所區(qū)別的重要原因之一。即中醫(yī)學(xué)通過(guò)并非特異的病因病理所導(dǎo)致的、但卻客觀體現(xiàn)于患者的整體、動(dòng)態(tài)的診察,為RA等疾病的診療提供了更為豐富的資料,并有助于RA等疾病復(fù)雜臨床信息的歸類(lèi),以及寒、熱等機(jī)體不同整體狀態(tài)(證候)的提取和判別。
研究人員相信,中醫(yī)學(xué)辨證論治的有效實(shí)踐,可在與RA疾病特異性病理改變的比較中顯示特色,并有望為推動(dòng)疾病復(fù)雜性狀的研究,提供一定的途徑。研究人員從文獻(xiàn)挖掘的角度分析還認(rèn)為,雖然中醫(yī)學(xué)與現(xiàn)代醫(yī)學(xué)對(duì)同一疾病的診察各有側(cè)重,中醫(yī)學(xué)診察與機(jī)體內(nèi)的生物分子卻存在潛在的關(guān)聯(lián),提示以“證候”為特點(diǎn)的中醫(yī)學(xué)診察可成為現(xiàn)代醫(yī)學(xué)“疾病”診療體系的重要借鑒,同時(shí)也為探索中醫(yī)學(xué)的診斷與觀察特點(diǎn),提供了一種方法和途徑。
寫(xiě)給新人數(shù)據(jù)挖掘基礎(chǔ)知識(shí)介紹
對(duì)企業(yè)來(lái),堆積如山的數(shù)據(jù)無(wú)異于一個(gè)巨大的寶庫(kù)。但是如何利用新一代的計(jì)算技術(shù)和工具來(lái)開(kāi)采數(shù)據(jù)庫(kù)中蘊(yùn)藏的寶藏呢?
在市場(chǎng)需求和技術(shù)基礎(chǔ)這兩個(gè)因素都具備的環(huán)境下,數(shù)據(jù)挖掘技術(shù)的概念和技術(shù)就應(yīng)運(yùn)而生了。
基本概念數(shù)據(jù)挖掘(Data Mining)旨在從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中, 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)。
還有很多和這一術(shù)語(yǔ)相近似的術(shù)語(yǔ),如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。
基本任務(wù)數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)、預(yù)測(cè)、時(shí)序模式和偏差分析等。
1、關(guān)聯(lián)分析 association analysis關(guān)聯(lián)規(guī)則挖掘由Rakesh Apwal等人首先提出。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律性稱(chēng)為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個(gè)閥值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
2、聚類(lèi)分析 clustering聚類(lèi)是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。聚 類(lèi)分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。
3、分類(lèi) classification分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息,即該類(lèi)的內(nèi)涵描述,并用這 種描述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹(shù)模式表示。分類(lèi)是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類(lèi)規(guī)則。分類(lèi)可被用于規(guī)則描述和預(yù)測(cè)。
4、預(yù)測(cè) predication預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。 預(yù)測(cè)關(guān)心的是精度和不確定性,通常用預(yù)測(cè)方差來(lái)度量。
5、時(shí)序模式 time-series pattern時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。
6、偏差分析 deviation在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。
基本技術(shù)1、統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)雖然是一門(mén)“古老的”學(xué)科,但它依然是最基本的數(shù)據(jù)挖掘技術(shù),特別是多元統(tǒng)計(jì)分析,如判別分析、主成分分析、因子分析、相關(guān)分析、多元回歸分析等。
2、聚類(lèi)分析和模式識(shí)別聚類(lèi)分析主要是根據(jù)事物的特征對(duì)其進(jìn)行聚類(lèi)或分類(lèi),即所謂物以類(lèi)聚,以期從中發(fā)現(xiàn)規(guī)律和典型模式。這類(lèi)技術(shù)是數(shù)據(jù)挖掘的最重要的技術(shù)之一。除傳統(tǒng)的基于多元統(tǒng)計(jì)分析的聚類(lèi)方法外,近些年來(lái)模糊聚類(lèi)和神經(jīng)網(wǎng)絡(luò)聚類(lèi)方法也有了長(zhǎng)足的發(fā)展。
3、決策樹(shù)分類(lèi)技術(shù)決策樹(shù)分類(lèi)是根據(jù)不同的重要特征,以樹(shù)型結(jié)構(gòu)表示分類(lèi)或決策集合,從而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。
4、人工神經(jīng)網(wǎng)絡(luò)和遺傳基因算法人工神經(jīng)網(wǎng)絡(luò)是一個(gè)迅速發(fā)展的前沿研究領(lǐng)域,對(duì)計(jì)算機(jī)科學(xué) 人工智能、認(rèn)知科學(xué)以及信息技術(shù)等產(chǎn)生了重要而深遠(yuǎn)的影響,而它在數(shù)據(jù)挖掘中也扮演著非常重要的角色。人工神經(jīng)網(wǎng)絡(luò)可通過(guò)示例學(xué)習(xí),形成描述復(fù)雜非線性系統(tǒng)的非線性函數(shù),這實(shí)際上是得到了客觀規(guī)律的定量描述,有了這個(gè)基礎(chǔ),預(yù)測(cè)的難題就會(huì)迎刃而解。目前在數(shù)據(jù)挖掘中,最常使用的兩種神經(jīng)網(wǎng)絡(luò)是BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò) 不過(guò),由于人工神經(jīng)網(wǎng)絡(luò)還是一個(gè)新興學(xué)科,一些重要的理論問(wèn)題尚未解決。
5、規(guī)則歸納規(guī)則歸納相對(duì)來(lái)講是數(shù)據(jù)挖掘特有的技術(shù)。它指的是在大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中搜索和挖掘以往不知道的規(guī)則和規(guī)律,這大致包括以下幾種形式:IF … THEN …
6、可視化技術(shù)可視化技術(shù)是數(shù)據(jù)挖掘不可忽視的輔助技術(shù)。數(shù)據(jù)挖掘通常會(huì)涉及較復(fù)雜的數(shù)學(xué)方法和信息技術(shù),為了方便用戶理解和使用這類(lèi)技術(shù),必須借助圖形、圖象、動(dòng)畫(huà)等手段形象地指導(dǎo)操作、引導(dǎo)挖掘和表達(dá)結(jié)果等,否則很難推廣普及數(shù)據(jù)挖掘技術(shù)。
實(shí)施步驟
數(shù)據(jù)挖掘的過(guò)程可以分為6個(gè)步驟:1) 理解業(yè)務(wù):從商業(yè)的角度理解項(xiàng)目目標(biāo)和需求,將其轉(zhuǎn)換成一種數(shù)據(jù)挖掘的問(wèn)題定義,設(shè)計(jì)出達(dá)到目標(biāo)的一個(gè)初步計(jì)劃。2) 理解數(shù)據(jù):收集初步的數(shù)據(jù),進(jìn)行各種熟悉數(shù)據(jù)的活動(dòng)。包括數(shù)據(jù)描述,數(shù)據(jù)探索和數(shù)據(jù)質(zhì)量驗(yàn)證等。3) 準(zhǔn)備數(shù)據(jù):將最初的原始數(shù)據(jù)構(gòu)造成最終適合建模工具處理的數(shù)據(jù)集。包括表、記錄和屬性的選擇,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清理等。4) 建模:選擇和應(yīng)用各種建模技術(shù),并對(duì)其參數(shù)進(jìn)行優(yōu)化。5) 模型評(píng)估:對(duì)模型進(jìn)行較為徹底的評(píng)價(jià),并檢查構(gòu)建模型的每個(gè)步驟,確認(rèn)其是否真正實(shí)現(xiàn)了預(yù)定的商業(yè)目的。6) 模型部署:創(chuàng)建完模型并不意味著項(xiàng)目的結(jié)束,即使模型的目的是為了增進(jìn)對(duì)數(shù)據(jù)的了解,所獲得的知識(shí)也要用一種用戶可以使用的方式來(lái)組織和表示。通常要將活動(dòng)模型應(yīng)用到?jīng)Q策制訂的過(guò)程中去。該階段可以簡(jiǎn)單到只生成一份報(bào)告,也可以復(fù)雜到在企業(yè)內(nèi)實(shí)施一個(gè)可重復(fù)的數(shù)據(jù)挖掘過(guò)程。控制得到普遍承認(rèn)。
應(yīng)用現(xiàn)狀人工智能研究領(lǐng)域的科學(xué)家普遍認(rèn)為,下一個(gè)人工智能應(yīng)用的重要課題之一,將是以機(jī)器學(xué)習(xí)算法為主要工具的大規(guī)模的數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)。盡管數(shù)據(jù)挖掘還是一個(gè)很新的研究課題,但它所固有的為企業(yè)創(chuàng)造巨大經(jīng)濟(jì)效益的潛力,已使其很快有了許多成功的應(yīng)用,具有代表性的應(yīng)用領(lǐng)域有市場(chǎng)預(yù)測(cè)、投資、制造業(yè)、銀行、通訊等。
英國(guó)廣播公司(BBC)也應(yīng)用數(shù)據(jù)挖掘技術(shù)來(lái)預(yù)測(cè)電視收視率,以便合理安排電視節(jié)目時(shí)刻表。信用卡公司Alllelicall KxT,ress自采用數(shù)據(jù)挖掘技術(shù)后,信用卡使用率增加了10% 一15%。AT&T公司賃借數(shù)據(jù)挖掘技術(shù)技術(shù)偵探國(guó)際電話欺詐行為,可以盡快發(fā)現(xiàn)國(guó)際電話使用中的不正?,F(xiàn)象。
數(shù)據(jù)挖掘是一個(gè)新興的邊緣學(xué)科,它匯集了來(lái)自機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、人工智能以及管理信息系統(tǒng)等各學(xué)科的成果。多學(xué)科的相互交融和相互促進(jìn),使得這一新學(xué)科得以蓬勃發(fā)展,而且已初具規(guī)模。
以上是小編為大家分享的關(guān)于寫(xiě)給新人數(shù)據(jù)挖掘基礎(chǔ)知識(shí)介紹的相關(guān)內(nèi)容,更多信息可以關(guān)注環(huán)球青藤分享更多干貨
本文地址:http://m.mcys1996.com/zhongyizatan/77381.html.
聲明: 我們致力于保護(hù)作者版權(quán),注重分享,被刊用文章因無(wú)法核實(shí)真實(shí)出處,未能及時(shí)與作者取得聯(lián)系,或有版權(quán)異議的,請(qǐng)聯(lián)系管理員,我們會(huì)立即處理,本站部分文字與圖片資源來(lái)自于網(wǎng)絡(luò),轉(zhuǎn)載是出于傳遞更多信息之目的,若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請(qǐng)立即通知我們(管理員郵箱:douchuanxin@foxmail.com),情況屬實(shí),我們會(huì)第一時(shí)間予以刪除,并同時(shí)向您表示歉意,謝謝!
下一篇: 胸痹程度與冠脈病變程度不成正比