時(shí)間:2021年03月17日 分類:農(nóng)業(yè)論文 次數(shù):
摘要:命名實(shí)體識(shí)別是信息抽取的基礎(chǔ)任務(wù),面向農(nóng)作物病蟲害領(lǐng)域的命名實(shí)體識(shí)別對(duì)于農(nóng)業(yè)信息化建設(shè)具有重要意義。為了提高面向農(nóng)作物病蟲害領(lǐng)域命名實(shí)體識(shí)別的準(zhǔn)確率,本文提出了采用字符級(jí)詞性標(biāo)注與自定義領(lǐng)域詞典結(jié)合雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)+條件隨機(jī)場(chǎng)模型(CRF)的方法對(duì)“病蟲害”、“作物”、“地名”、“農(nóng)藥”4類實(shí)體詞進(jìn)行識(shí)別。實(shí)驗(yàn)表明,該方法的準(zhǔn)確率達(dá)到了97.10%,因此該模型能夠有效應(yīng)用于農(nóng)作物病蟲害領(lǐng)域的命名實(shí)體識(shí)別任務(wù)。
關(guān)鍵詞:命名實(shí)體識(shí)別;Bi-LSTM;CRF;病蟲害
農(nóng)作物病蟲害是我國(guó)主要的農(nóng)業(yè)災(zāi)害之一。農(nóng)作物是指具有經(jīng)濟(jì)價(jià)值而被用于田間種植的植物,包括糧食、棉麻、油料、糖煙、茶桑等作物。農(nóng)作物在其生長(zhǎng)過程中,經(jīng)常會(huì)受到各種病蟲害為害,比如:稻飛虱、葉銹病、玉米蚜等,嚴(yán)重影響農(nóng)作物的質(zhì)量和產(chǎn)量。由于農(nóng)作物的病蟲害種類繁多、生長(zhǎng)發(fā)育規(guī)律各有不同,因此,認(rèn)識(shí)病蟲害、掌握其生活習(xí)性等特點(diǎn),對(duì)于病蟲害的有效防控極為重要[1-3]。
農(nóng)作物論文范例:白水縣農(nóng)作物種質(zhì)資源普查與收集工作探析
命名實(shí)體識(shí)別(namedentityrecognition,NER)又稱實(shí)體抽取,其目的是從文本中抽取實(shí)體信息元素,包括人名、地名、組織機(jī)構(gòu)名等[4-5]。目前,基于通用領(lǐng)域的命名實(shí)體識(shí)別已經(jīng)相對(duì)成熟[6-9],尤其是人名、地名等實(shí)體識(shí)別準(zhǔn)確率較高,然而,針對(duì)農(nóng)作物病蟲害領(lǐng)域的命名實(shí)體識(shí)別研究甚少,且由于其特定的病害、蟲害、病原、藥物等實(shí)體信息構(gòu)詞復(fù)雜,存在大量的單詞組合和實(shí)體嵌套現(xiàn)象,因而,其識(shí)別的準(zhǔn)確率較低。
1相關(guān)工作
自1995年提出命名實(shí)體概念后[10],命名實(shí)體識(shí)別受到國(guó)內(nèi)外研究者的廣泛關(guān)注。命名實(shí)體識(shí)別方法主要分為:基于規(guī)則、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法;谝(guī)則的方法通過分析實(shí)體構(gòu)詞特點(diǎn)和上下文特征,人工構(gòu)建規(guī)則集合,規(guī)則集合需要領(lǐng)域?qū)<覅⑴c構(gòu)建,該方法在小數(shù)據(jù)集上表現(xiàn)較好,但隨著數(shù)據(jù)量的增大,人工構(gòu)建成本高昂,可遷移性差;跈C(jī)器學(xué)習(xí)的方法主要包括隱馬爾科夫模型[11]、支持向量機(jī)[12]和條件隨機(jī)場(chǎng)[13]等。
其中,條件隨機(jī)場(chǎng)(ConditionalRandomFields,CRF)模型應(yīng)用較為廣泛,CRF是LaffertyJ·D等在2001年提出的一種典型的判別式模型[13];诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別研究的重點(diǎn)是構(gòu)建特征集,包括詞的上下文信息、詞的位置、詞語之間的搭配。近年來,基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法因其能夠從數(shù)據(jù)中自主學(xué)習(xí)特征,而不需要人為設(shè)定,在自然語言處理中也獲取了廣泛的成功。近年來,農(nóng)業(yè)領(lǐng)域命名實(shí)體識(shí)別的研究隨著自然語言處理的浪潮也逐漸受到重視。李想等提出基于條件隨機(jī)場(chǎng)的農(nóng)作物病蟲害及農(nóng)藥命名實(shí)體識(shí)別方法[14],對(duì)分詞后的語料采用6類特征進(jìn)行標(biāo)注,然后采用CRF模型進(jìn)行分類,進(jìn)而對(duì)農(nóng)作物、病蟲害、農(nóng)藥實(shí)體進(jìn)行識(shí)別。
張劍等人采用基于條件隨機(jī)場(chǎng)方法,將農(nóng)業(yè)命名實(shí)體分為病蟲害、作物、化肥及農(nóng)藥4種實(shí)體類別進(jìn)行命名實(shí)體識(shí)別[15],并利用自定義的詞性標(biāo)注集對(duì)分詞進(jìn)行標(biāo)注,后通過CRF模型添加不同特征進(jìn)行實(shí)體識(shí)別。李冬梅等提出了BCC-P方法,基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)模型的植物屬性文本命名實(shí)體識(shí)別方法[16]。但是面向農(nóng)作物病蟲害領(lǐng)域的命名實(shí)體識(shí)別仍處于起步階段,農(nóng)作物病蟲害知識(shí)大部分是以非結(jié)構(gòu)化的形式進(jìn)行存儲(chǔ),如圖1所示。農(nóng)作物病蟲害實(shí)體識(shí)別的主要任務(wù)是找到并提取各類農(nóng)作物病害(比如:條銹病、禿尖、小麥蠕孢葉斑根腐病)、蟲害的名稱(比如:十四點(diǎn)負(fù)泥甲、麥蜘蛛)、病原、藥物等特定類型的實(shí)體。
2農(nóng)作物病蟲害文本命名實(shí)體識(shí)別方法
2.1識(shí)別任務(wù)本文的數(shù)據(jù)來源是國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心作物病蟲害數(shù)據(jù)庫。該數(shù)據(jù)庫是以非結(jié)構(gòu)化文本的形式存儲(chǔ)農(nóng)作物病蟲害相關(guān)信息。針對(duì)病蟲害、與病蟲害相關(guān)的作物、病蟲害易發(fā)生的地點(diǎn)、農(nóng)藥等四類實(shí)體進(jìn)行識(shí)別。
2.2預(yù)處理通過網(wǎng)絡(luò)爬蟲獲取作物病蟲害數(shù)據(jù)信息并進(jìn)行預(yù)處理。農(nóng)作物病害、蟲害和農(nóng)藥等信息存在大量的專業(yè)名詞,在分詞的過程中并不能有效識(shí)別專有名詞,如“東方螻蛄別命非洲螻蛄”,其中“東方螻蛄”和“非洲螻蛄”都是蟲害的名字,但是在分詞的時(shí)候會(huì)切分為“東方/螻蛄/別命/非洲/螻蛄”。目前針對(duì)作物病蟲害領(lǐng)域尚沒有一份公開的作物病蟲害詞典,本實(shí)驗(yàn)采用網(wǎng)絡(luò)爬蟲的形式對(duì)該數(shù)據(jù)庫的表頭信息進(jìn)行爬取,在此基礎(chǔ)上進(jìn)行人工校對(duì)建立病蟲害領(lǐng)域詞典,以增強(qiáng)深度學(xué)習(xí)的先驗(yàn)知識(shí),對(duì)語義特征進(jìn)行補(bǔ)充,使用jieba進(jìn)行分詞,在對(duì)標(biāo)注集進(jìn)行自動(dòng)標(biāo)注的同時(shí)進(jìn)行人工校對(duì)。
利用詞典的先驗(yàn)知識(shí)強(qiáng)化神經(jīng)網(wǎng)絡(luò)對(duì)各類實(shí)體的認(rèn)識(shí),以彌補(bǔ)實(shí)驗(yàn)數(shù)據(jù)規(guī)模上的不足。對(duì)于農(nóng)作物病蟲害領(lǐng)域的專有名詞,雖然構(gòu)建了領(lǐng)域詞典,但仍然存在不少專有名詞未納入詞典,尤其存在較多組合新詞,且實(shí)驗(yàn)采用的數(shù)據(jù)集樣本較少,因此文本標(biāo)注的對(duì)象采用字級(jí)別的標(biāo)注,以獲取更多的標(biāo)記數(shù)量,有利于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)。語料標(biāo)注采用BIO標(biāo)注集,“B”表示一個(gè)字是一個(gè)實(shí)體詞的開始,“I”表示一個(gè)字是一個(gè)實(shí)體詞的非開始部分,“O”表示一個(gè)字不屬于任何實(shí)體。
2.3基于Bi-LSTM—CRF的實(shí)體識(shí)別模型為了能充分利用農(nóng)作物病蟲害文本的上下文依存關(guān)系,本文采用Bi-LSTM模型進(jìn)行建模。Bi-LSTM是一種雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),一個(gè)正向的LSTM利用上文信息,一個(gè)逆向的LSTM,利用下文信息,這樣,在t時(shí)刻,既能利用t-1時(shí)刻的信息,也能利用t+1時(shí)刻的信息。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LongshortTermMemorynetwork,LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)[17],能夠?qū)W習(xí)長(zhǎng)時(shí)間依賴。
3結(jié)果與分析
3.1實(shí)驗(yàn)數(shù)據(jù)集
本文采用的作物病蟲害數(shù)據(jù)庫,是中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所建立的,擁有4000多農(nóng)業(yè)病蟲害信息。該數(shù)據(jù)庫按照作物種類進(jìn)行分類,每個(gè)類別下詳細(xì)的按照作物的病害、蟲害的名字記錄其具體的病蟲害信息。對(duì)于作物病害信息,記錄主要包括病害名稱、癥狀、發(fā)生范圍、病原、傳播途徑和發(fā)病條件以及防治方法。對(duì)于作物的蟲害,記錄主要包括蟲害名稱、分布范圍、寄主信息、為害特點(diǎn)、形態(tài)特征、生活習(xí)性和防治方法等。在對(duì)爬取的文檔進(jìn)行預(yù)處理后得到最終的數(shù)據(jù)集,數(shù)據(jù)集的信息如表1所示。
由于數(shù)據(jù)集的規(guī)模較小,為了能夠充分利用數(shù)據(jù)集的樣本,本實(shí)驗(yàn)將數(shù)據(jù)集按4:1的比例劃分訓(xùn)練集和測(cè)試集,采用五折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn)。為了驗(yàn)證結(jié)合自定義領(lǐng)域詞典的Bi-LSTM—CRF神經(jīng)網(wǎng)絡(luò)對(duì)命名實(shí)體識(shí)別的意義,輔以CRF模型進(jìn)行對(duì)比實(shí)驗(yàn)。
4結(jié)論
本文介紹了一種面向農(nóng)業(yè)病蟲害領(lǐng)域的實(shí)體識(shí)別方法,希望構(gòu)建農(nóng)作物病蟲害數(shù)據(jù)集。該方法融合領(lǐng)域詞典和深度學(xué)習(xí)的優(yōu)勢(shì),能夠識(shí)別出作物病蟲害文本中的“病蟲害”、“作物”、“地名”、“農(nóng)藥”等實(shí)體,且取得了較好的效果。但是農(nóng)作物病蟲害領(lǐng)域命名實(shí)體識(shí)別任務(wù)相較于通用領(lǐng)域的實(shí)體識(shí)別還存在著很大的提升空間,在未來的研究中,可以構(gòu)建一個(gè)大規(guī)模的領(lǐng)域詞典,以增強(qiáng)先驗(yàn)知識(shí),構(gòu)建標(biāo)準(zhǔn)語料庫,利用規(guī)模更大的語料庫來構(gòu)建高質(zhì)量的詞向量,充分利用詞語潛在的抽象特征,以期待進(jìn)一步提升已有的識(shí)別效果。
參考文獻(xiàn)
[1]張奎棟.農(nóng)作物病蟲害專業(yè)化防治探討[J].種子科技,2020,38(3):71+73.
[2]劉鑫,郜翻身,高娃等.巴彥淖爾市主要農(nóng)作物施肥情況調(diào)查及存在問題分析[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,39(3):15-24.
[3]郭沛沛.內(nèi)蒙古特色農(nóng)產(chǎn)品產(chǎn)業(yè)化發(fā)展研究[J].內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(2):104-107.
[4]LiuL,WangDB.Areviewonnamedentityrecognition[J].JournaloftheChinaSocietyforScientificandTechnicalInformation,2018,37(3):329-340.
[5]劉瀏,王東波.命名實(shí)體識(shí)別研究綜述[J].情報(bào)學(xué)報(bào),2018,37(3):329-340.
[6]GaoYan,WangYandong,WangPatrick,etal.MedicalNamedEntityExtractionfromChineseResidentAdmitNotesUsingCharacterandWordAttention-EnhancedNeuralNetwork.[J].InternationalJournalofEnvironmentalResearchandPublicHealth,2020,17(5):1-17.
作者:謝聰嬌,高靜*,陳俊杰