時間:2020年08月24日 分類:醫學論文 次數:
摘要:目的 以溫膽治法的清溫傾向沿革為例,探索以法統方結合機器學習的中醫治法研究方法。方法 根 據以法統方原理,將中醫治法比較轉化為方劑集合的比較,通過方劑藥物組成變化研究治法的變化。建立并應 用隨機森林模型,量化比較 2 組或多組方劑集合的相似性,即不同治法之間的相似性。結果 在《三因方》之 前,溫膽治法與溫法的相似性為 75%;在《三因方》之后,溫膽治法與溫法的相似性為 19%。結論 中醫溫 膽治法在《三因方》之前以溫法為主,之后則傾向于清法。以法統方結合機器學習方法建立模型可用于中醫治 法領域的量化研究。
關鍵詞:方劑學;中醫治法;機器學習;隨機森林;溫膽治法
以往中醫治法研究多為回溯性研究,總結某個治 法篩選出的方劑集合內部的規律;其更多作為一個分 類工具,依附于其他研究對象如專病或特定醫家的組 方用藥等。不同治法之間的關系一直是中醫方劑研究 的盲點。 以法統方是對治法和方劑關系的高度概括,包括 依法遣方、以法組方、以法釋方和以法類方四方面[1]。
其數據挖掘領域的本質是對于治法與方劑組成關聯數據集的研究。通過以法統方,在給定樣本總體范圍 內,可以將 2 種治法的比較問題轉化為其所代表的 2 個方劑集合的比較。隨機森林是機器學習中一種高級 分類技術,通過隨機放回抽樣,削弱數據間的相關性, 構建大量的規則樹,進而通過簡單投票判斷類別,實 現對學習樣本集合規則的較優擬合[2]。
與其他常見基 于連續數據的算法比較,隨機森林有適用性廣泛的特 點,尤其是對離散數據的擬合[3]。方劑集合的組成數 據為離散型,適合運用隨機森林算法。 溫膽是針對膽寒病機的治法,最早見于《備急千 金要方》“治大病后,虛煩不得眠,此膽寒故也,宜 服溫膽湯方”[4],學術界對于溫膽治法是溫膽還是清膽有諸多討論[5-8]。本研究基于以法統方理論,將治 法的比較轉化為方劑集合的比較,再通過機器學習模 型對方劑集合進行量化比較,從而量化“溫膽治法” 與溫法、清法的相似程度,厘清溫膽治法清溫傾向的 沿革,更好地繼承和理解歷代醫家的認識。
1 研究對象
針對溫膽治法的溫清傾向,“溫膽治法”與“溫 法”的比較可以轉化為溫膽治法的方劑集合與溫法方 劑集合的比較(V 溫膽/V 溫法),“溫膽治法”與“清法” 的比較可以轉化為溫膽治法的方劑集合與清法方劑 集合的比較(V 溫膽/V 清法)。在給定樣本總體范圍內比較 2 個方劑集合的問題,可通過隨機森林算法轉化為 以一個方劑集合建模,另一方劑集合應用模型的形 式,量化比較 2 個方劑集合的相似性。
以“溫膽治法” 方劑集合(V 溫膽)與“溫法”方劑集合(V 溫法)比較 為例:先由 V 溫法和“清法”方劑集合(V 清法)生成研 究范圍內的溫法辨別模型(F 溫法),則 V 溫膽/V 溫法=F 溫法(V 溫膽)/F 溫法(V 溫法)=F 溫法(V 溫膽)。也就是近 似地建立一個含有幾百個方劑學專家的辨別模型系 統,通過投票來量化 V 溫膽與 V 溫法的相似性,即“溫 膽治法”與“溫法”的相似性。同理,V 溫膽與 V 清法的比較即 F 清法(V 溫膽)。
2 方法與結果
2.1 模型建立
采用《中醫方劑大辭典》(第一版)[9]的清法和溫 法方劑組成數據,基于隨機森林算法構建溫法辨別模 型 F 溫法,運用模型判別溫膽治法對應方劑 是否屬于溫法,通過其被判別為溫法的比例 F 溫法(V 溫膽)分析溫膽治法與溫法的相似性。同理可 獲得溫膽治法與清法的相似性。
2.2 數據錄入
將《中醫方劑大辭典》(第一版)共 15163 首具 有功用字段的方劑導入數據庫。以“清熱”等 50 個治法關鍵詞檢索獲得清法方劑 2110 首,以“散寒” 等 39 個治法關鍵詞檢索獲得溫法方劑 968 首,兩者 構成學習集;以“膽寒”“膽冷”“膽虛冷”“溫膽” 為關鍵詞檢索獲得溫膽治法方劑 48 首,構成應用集。
2.3 數據清洗
排除清溫并用的方劑 25 首、與膽有關的治法方 劑 1 首。提取方劑組成字段的中藥,剔除劑量、炮制 和服法等信息,根據《中華人民共和國藥典》[10]、《中 華本草》[11]、《中藥大辭典》[12]、《中藥學》[13]、《中 藥別名速查大辭典》[14]對藥名進行規范。
2.4 模型訓練
從隨機森林調參效率角度,將學習集中出現 30 次以上的中藥(共 192 味)作為隨機森林的構成參數。 袋外錯誤率是一種取代測試集的誤差泛估計[15]。 使用 R 語言,調用 randomForest 包,通過不斷人工調 整參數,以較低袋外錯誤、較高學習集正確率,選定 參數 try=19、nodesizes=15、ntree=1500,其他參數 使用默認值。通過 set.seed 保證隨機模型的可重復性, 不斷人工調整參數,以袋外錯誤率 0.09、學習集正確 率 0.96,選擇為“溫法辨別模型”。同理獲得相同袋 外錯誤率和學習集正確率的清法辨別模型。
2.5 模型應用
使用溫法辨別模型對應用集(溫膽治法方劑集) 進行判斷,獲得溫膽治法的總體溫法相似性為 31%。 同理獲得溫膽治法的總體清法相似性為 69%。 在溫法辨別模型、清法辨別模型判斷應用產生的 數據結果基礎上,以《中醫方劑大辭典》(第一版) 為數據來源,補充方劑出處(方書)的成書年代,作為該方劑的出現時間。
在 1174 年以前,即《三因方》出現之前,新 增加的溫膽治法方劑多傾向于溫法,溫膽治法與溫法 的相似性為 75%,與清法的相似性為 25%,組方多為 含有肉桂、附子、烏頭的溫補之劑,可見溫膽治法早 期主要為溫法;在 1174 年及以后,即《三因方》出 現后,溫膽治法方劑多傾向于清法,與溫法的相似性 為 19%,與清法的相似性為 81%,尤其在明代方書整 理過程中,溫膽的清法特性被加強,甚至將溫膽默認 為清法,其源頭為《千金》溫膽湯[16],可見溫膽治法 后期傾向于清法。
3 討論
隨機森林相對其他簡單分類方法難以解釋,只能 從結果進行逆向推測,且調參困難,對失衡分布學習 集效果不佳,故本研究在構建學習集時,盡量平衡數 據,采用樣本加倍的方式構建清法學習集。隨機森林 結果具有隨機性,本研究通過 set.seed 保證可重復性。
針對不同模型結果不穩定問題,改進為建立 5 個同參 數不同隨機數(不同 seed)的模型,各模型結果基本 與原模型結果分析無差異。 對于單個方劑,劑量、味數、炮制和服法都是影 響其清溫傾向的重要屬性。但對于方劑集合來說,其 中某個方劑的特殊劑量等信息對整體屬性影響有限。
從大數據角度,個別偏差會被排除,藥物組成是方劑 集合最主要的屬性特點,因此,本研究雖然僅采用藥 物組成建模進行研究,仍可大致反映方劑集合的整體 屬性。如將藥物劑量、味數、炮制和服法也納入分析, 數據模型分析結果會更加全面和準確。 本研究建立的方法可運用于各種治法相似性研 究,以及基于治法相似性的古方、古法的傳承脈絡探 索研究。經過一定變化,可以運用于中醫疾病的異名 準確性研究(如消渴各種異名的相對準確性),以及 現代病名與古代病名的對應關系研究(如骨質疏松癥 對應的古代病名)。本方法變換后可應用于基于對應 方劑的各種中醫基本概念量化比較,如以五臟方劑集 構成學習集,三焦方劑集構成應用集,可以從方劑組 成角度量化判斷三焦與各臟的相關性。
醫學論文投稿刊物:《內蒙古中醫藥》已經有24年的辦刊歷史,由內蒙古自治區衛生廳主管,內蒙古自治區中醫藥學會、內蒙古自治區中蒙醫研究所主辦的綜合性中醫藥學術期刊。
綜上所述,本研究以探索溫膽治法的清溫傾向歷 史沿革為例,結合以法統方和機器學習,將方劑集合 量化比較問題轉換為隨機森林的建模和應用,進而反 映與方劑集合關聯的中醫治法之間的量化關系,提供 了一種新的中醫治法量化研究方法。本方法尚不十分 成熟,對于將中醫各種治法轉化為方劑集合、方劑集 合變換為隨機森林模型的過程中,如何更好地進行數 據信息的取舍,最終結果的參數評估,以及本方法在 不同研究范圍內的有效性,還需要通過大量實踐進一 步積累經驗。
參考文獻:
[1] 鄧中甲.方劑學[M].北京:中國中醫藥出版社,2003:11.
[2] BREIMAN L. Random forests[J]. Machine Learning,2001,45(1): 5-32.
[3] 洪燕珠,周昌樂,張志楓,等.基于隨機森林法的慢性疲勞證候要素特 征癥狀的選擇[J].中醫雜志,2010,51(7):634-638.
[4] 孫思邈.備急千金要方[M].北京:中醫古籍出版社,1997:371.
[5] 侯志明,王艷榮.膽寒癥淺析[J].內蒙古中醫藥,2008,27(3):21-22
作者:楊巍,文小平,郭晶磊