本發(fā)明涉及智能語(yǔ)音教育領(lǐng)域,尤其是涉及了一種基于圖像分析的幼兒智能語(yǔ)音教育的方法。
背景技術(shù):
幼兒時(shí)期的認(rèn)知教育對(duì)兒童的成長(zhǎng)有著重要的作用,現(xiàn)在大多對(duì)幼兒的認(rèn)知教育是由老師和家長(zhǎng)利用卡片或顯示器等完成,即使是智能教育也是以主動(dòng)輸出知識(shí)的方式進(jìn)行,沒(méi)有獲取用戶(hù)的知識(shí)需求,容易產(chǎn)生乏味無(wú)趣的感覺(jué)。
本發(fā)明提出了一種基于圖像分析的幼兒智能語(yǔ)音教育的方法,采用包括動(dòng)物、食物、植物、生活用品等幼兒認(rèn)知教育的圖片形成素材庫(kù),結(jié)合知識(shí)庫(kù)形成問(wèn)題與解決系統(tǒng)。當(dāng)語(yǔ)音輸入問(wèn)題時(shí),利用長(zhǎng)短期記憶模型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的語(yǔ)音識(shí)別方法,通過(guò)端到端的訓(xùn)練方法,進(jìn)行語(yǔ)音識(shí)別;采用VQA模型,包括引導(dǎo)反向傳播技術(shù)和閉塞模型來(lái)確定重要的字詞和圖像區(qū)域,進(jìn)行語(yǔ)義分析和圖像分析;在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息,通過(guò)多層感知分類(lèi)器獲得最高概率答案并返回答案、語(yǔ)音輸出答案并以文字顯示。
本發(fā)明的智能性體現(xiàn)在它能自動(dòng)分析語(yǔ)音輸入獲得用戶(hù)問(wèn)題信息,進(jìn)行自動(dòng)推理生成問(wèn)題答案,進(jìn)行智能語(yǔ)音教育。而且使用方便,操作快捷,減少了家長(zhǎng)和老師的機(jī)械性勞動(dòng);增加了趣味性,避免幼兒階段對(duì)學(xué)習(xí)產(chǎn)生厭惡情緒;這種將圖片和學(xué)習(xí)結(jié)合,采用問(wèn)答的形式,使知識(shí)更加具體不抽象,提高學(xué)習(xí)效率。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)語(yǔ)音識(shí)別的誤差較大等問(wèn)題,本發(fā)明的目的在于提供一種基于圖像分析的幼兒智能語(yǔ)音教育的方法,使用幼兒認(rèn)知教育圖片建立素材庫(kù),利用長(zhǎng)短期記憶模型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的語(yǔ)音識(shí)別方法,通過(guò)端到端的訓(xùn)練方法,進(jìn)行語(yǔ)音識(shí)別;采用VQA模型,包括引導(dǎo)反向傳播技術(shù)和閉塞模型來(lái)確定重要的字詞和圖像區(qū)域,進(jìn)行語(yǔ)義分析和圖像分析;在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息并返回答案、語(yǔ)音輸出答案并以文字顯示。
為解決上述問(wèn)題,本發(fā)明提供一種利用圖片檢索定位導(dǎo)航的方法,其主要內(nèi)容包括:
(一)訓(xùn)練數(shù)據(jù)庫(kù);
(二)智能教育流程;
其中,所述的訓(xùn)練數(shù)據(jù)庫(kù),包括將圖像導(dǎo)入素材庫(kù),分析推理,結(jié)合知識(shí)庫(kù)形成問(wèn)題與解決系統(tǒng)。
進(jìn)一步地,所述的素材庫(kù),包括動(dòng)物、食物、植物、生活用品等幼兒認(rèn)知教育的圖片,素材庫(kù)圖片為10000張。
進(jìn)一步地,所述的知識(shí)庫(kù),包含了對(duì)于數(shù)據(jù)庫(kù)中物品的今本知識(shí),包括概念,種類(lèi),大小,用途,習(xí)慣等相關(guān)知識(shí);素材庫(kù)經(jīng)過(guò)推理和知識(shí)庫(kù)形成對(duì)應(yīng)關(guān)聯(lián),獲得問(wèn)題與解決系統(tǒng);所述的問(wèn)題與解決系統(tǒng),作為推理規(guī)則查詢(xún)知識(shí)信息,是智能教育過(guò)程中最重要的一環(huán),決定了推理的正確性和效率,以文本和語(yǔ)音的形式呈現(xiàn)供用戶(hù)查看。
其中,所述的智能教育流程,包括問(wèn)題語(yǔ)音輸入、語(yǔ)義分析和圖像分析、在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息、返回答案、語(yǔ)音輸出答案并以文字顯示。
進(jìn)一步地,所述的語(yǔ)音輸入,利用長(zhǎng)短期記憶模型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的語(yǔ)音識(shí)別方法,通過(guò)端到端的訓(xùn)練方法,和長(zhǎng)短期記憶模型結(jié)合,實(shí)現(xiàn)了16.8%的測(cè)試集誤差,使用靈活,效果好。
進(jìn)一步地,所述的語(yǔ)義分析和圖像分析,采用VQA模型,視其為一個(gè)學(xué)習(xí)函數(shù)a=fw(i,q),輸入圖像i和圖像問(wèn)題q,參數(shù)化參數(shù)ω,并產(chǎn)生一個(gè)答案a,為了衡量組件i和q的重要性(即像素和單詞),線性近似f圍繞每個(gè)測(cè)試點(diǎn)(itest,qtest),
計(jì)算的兩個(gè)關(guān)鍵量和即函數(shù)關(guān)于每個(gè)輸入的偏導(dǎo)數(shù)(圖片和問(wèn)題),這些表達(dá)式表面上看類(lèi)似于梯度計(jì)算的反向傳播神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,然而,有兩個(gè)關(guān)鍵的差異:
(1)計(jì)算的是預(yù)測(cè)輸出的概率偏導(dǎo)數(shù),不是真實(shí)的輸出;
(2)計(jì)算相對(duì)于輸入的偏導(dǎo)數(shù)(即圖像和嵌入字的像素強(qiáng)度),沒(méi)有參數(shù)。
進(jìn)一步地,所述的語(yǔ)義分析,采用引導(dǎo)反向傳播技術(shù),它確定了問(wèn)題中的重要詞語(yǔ),是一種基于梯度的可視化技術(shù),用于可視化神經(jīng)網(wǎng)絡(luò)的不同層中的神經(jīng)元激活;引導(dǎo)反向傳播技術(shù)限制負(fù)向輸入層,形成更清晰的圖像可視化;
引導(dǎo)反向傳播技術(shù)(引導(dǎo)BP)和經(jīng)典反向傳播技術(shù)(經(jīng)典BP)基本相同,除了在反向傳遞時(shí)采用線性(ReLUs),讓hl表示輸入層l,hl+1表示輸出,ReLUs定義為:
hl+1=relu(hl)=max(hl,0) (2)
使表示ReLU輸出的偏導(dǎo)數(shù),(接收作為反向傳遞的輸入)
以上是兩BP之間的關(guān)鍵差異。
進(jìn)一步地,所述的圖像分析,采用閉塞模型,封閉輸入的部分,觀察模型的預(yù)測(cè)概率的變化來(lái)計(jì)算圖像區(qū)域的重要性,系統(tǒng)地阻斷輸入子集,向前傳播輸入通過(guò)VQA模型,計(jì)算答案與原始輸入預(yù)測(cè)概率的變化;因?yàn)橛?個(gè)輸入到模型中,我們一次針對(duì)一個(gè)輸入,固定其他的輸入(模擬偏導(dǎo)數(shù));具體來(lái)說(shuō),要計(jì)算一個(gè)問(wèn)題的重要性,通過(guò)在問(wèn)題中去除這個(gè)詞,并以原始圖像作為輸入,輸入到模型中,問(wèn)題詞的重要性得分計(jì)算為原來(lái)的預(yù)測(cè)答案的概率的變化;
我們遵循相同的程序上的圖像,以計(jì)算圖像區(qū)域的重要性;將圖像劃分成一個(gè)大小為16x16的網(wǎng)格,并計(jì)算原始預(yù)測(cè)答案的概率的減少。
其中,所述的在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息,采用多層感知分類(lèi)器預(yù)測(cè)概率,VQA模型采用基于圖像嵌入的卷積神經(jīng)網(wǎng)絡(luò)(CNN),基于問(wèn)題嵌入的長(zhǎng)短期記憶(LSTM),結(jié)合了這兩種嵌入,并采用了多層感知器作為分類(lèi)器來(lái)預(yù)測(cè)答案概率分布。
其中,所述的返回答案和語(yǔ)音輸出答案并以文字顯示,是通過(guò)分類(lèi)器獲得最高概率答案并返回,結(jié)果以語(yǔ)音輸出和文字顯示。
附圖說(shuō)明
圖1是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的訓(xùn)練數(shù)據(jù)庫(kù)的流程圖。
圖2是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的幼兒認(rèn)知教育圖片素材庫(kù)。
圖3是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的智能教育流程圖。
圖4是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的智能教育圖片和文字顯示過(guò)程。
具體實(shí)施方式
需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
圖1是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的訓(xùn)練數(shù)據(jù)庫(kù)的流程圖。訓(xùn)練數(shù)據(jù)庫(kù)包括將圖像導(dǎo)入素材庫(kù),分析推理,結(jié)合知識(shí)庫(kù)形成問(wèn)題與解決系統(tǒng)。
知識(shí)庫(kù)包含了對(duì)于數(shù)據(jù)庫(kù)中物品的今本知識(shí),包括概念,種類(lèi),大小,用途,習(xí)慣等相關(guān)知識(shí);素材庫(kù)經(jīng)過(guò)推理和知識(shí)庫(kù)形成對(duì)應(yīng)關(guān)聯(lián),獲得問(wèn)題與解決系統(tǒng);問(wèn)題與解決系統(tǒng)作為推理規(guī)則查詢(xún)知識(shí)信息,是智能教育過(guò)程中最重要的一環(huán),決定了推理的正確性和效率,以文本和語(yǔ)音的形式呈現(xiàn)供用戶(hù)查看。
圖2是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的幼兒認(rèn)知教育圖片素材庫(kù)。素材庫(kù)包括動(dòng)物、食物、植物、生活用品等幼兒認(rèn)知教育的圖片,素材庫(kù)圖片為10000張。通過(guò)分析推理,結(jié)合知識(shí)庫(kù)形成問(wèn)題與解決系統(tǒng)。
圖3是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的智能教育流程圖。智能教育流程包括問(wèn)題語(yǔ)音輸入、語(yǔ)義分析和圖像分析、在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息、返回答案、語(yǔ)音輸出答案并以文字顯示。
語(yǔ)音輸入利用長(zhǎng)短期記憶模型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的語(yǔ)音識(shí)別方法,通過(guò)端到端的訓(xùn)練方法,和長(zhǎng)短期記憶模型結(jié)合,實(shí)現(xiàn)了16.8%的測(cè)試集誤差,使用靈活,效果好。
語(yǔ)義分析和圖像分析采用VQA模型,視其為一個(gè)學(xué)習(xí)函數(shù)a=fw(i,q),輸入圖像i和圖像問(wèn)題q,參數(shù)化參數(shù)ω,并產(chǎn)生一個(gè)答案a,為了衡量組件i和q的重要性(即像素和單詞),線性近似f圍繞每個(gè)測(cè)試點(diǎn)(itest,qtest),
計(jì)算的兩個(gè)關(guān)鍵量和即函數(shù)關(guān)于每個(gè)輸入的偏導(dǎo)數(shù)(圖片和問(wèn)題),這些表達(dá)式表面上看類(lèi)似于梯度計(jì)算的反向傳播神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,然而,有兩個(gè)關(guān)鍵的差異:
(1)計(jì)算的是預(yù)測(cè)輸出的概率偏導(dǎo)數(shù),不是真實(shí)的輸出;
(2)計(jì)算相對(duì)于輸入的偏導(dǎo)數(shù)(即圖像和嵌入字的像素強(qiáng)度),沒(méi)有參數(shù)。
語(yǔ)義分析采用引導(dǎo)反向傳播技術(shù),它確定了問(wèn)題中的重要詞語(yǔ),是一種基于梯度的可視化技術(shù),用于可視化神經(jīng)網(wǎng)絡(luò)的不同層中的神經(jīng)元激活;引導(dǎo)反向傳播技術(shù)限制負(fù)向輸入層,形成更清晰的圖像可視化;
引導(dǎo)反向傳播技術(shù)(引導(dǎo)BP)和經(jīng)典反向傳播技術(shù)(經(jīng)典BP)基本相同,除了在反向傳遞時(shí)采用線性(ReLUs),讓hl表示輸入層l,hl+1表示輸出,ReLUs定義為:
hl+1=relu(hl)=max(hl,0) (2)
使表示ReLU輸出的偏導(dǎo)數(shù),(接收作為反向傳遞的輸入)
以上是兩BP之間的關(guān)鍵差異。
圖像分析采用閉塞模型,封閉輸入的部分,觀察模型的預(yù)測(cè)概率的變化來(lái)計(jì)算圖像區(qū)域的重要性,系統(tǒng)地阻斷輸入子集,向前傳播輸入通過(guò)VQA模型,計(jì)算答案與原始輸入預(yù)測(cè)概率的變化;因?yàn)橛?個(gè)輸入到模型中,我們一次針對(duì)一個(gè)輸入,固定其他的輸入(模擬偏導(dǎo)數(shù));具體來(lái)說(shuō),要計(jì)算一個(gè)問(wèn)題的重要性,通過(guò)在問(wèn)題中去除這個(gè)詞,并以原始圖像作為輸入,輸入到模型中,問(wèn)題詞的重要性得分計(jì)算為原來(lái)的預(yù)測(cè)答案的概率的變化;
我們遵循相同的程序上的圖像,以計(jì)算圖像區(qū)域的重要性;將圖像劃分成一個(gè)大小為16x16的網(wǎng)格,并計(jì)算原始預(yù)測(cè)答案的概率的減少。
在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息,采用多層感知分類(lèi)器預(yù)測(cè)概率,VQA模型采用基于圖像嵌入的卷積神經(jīng)網(wǎng)絡(luò)(CNN),基于問(wèn)題嵌入的長(zhǎng)短期記憶(LSTM),結(jié)合了這兩種嵌入,并采用了多層感知器作為分類(lèi)器來(lái)預(yù)測(cè)答案概率分布。
返回答案和語(yǔ)音輸出答案并以文字顯示,是通過(guò)分類(lèi)器獲得的最高概率答案并返回,結(jié)果以語(yǔ)音輸出和文字顯示。
圖4是本發(fā)明一種基于圖像分析的幼兒智能語(yǔ)音教育的方法的智能教育圖片和文字顯示過(guò)程。當(dāng)語(yǔ)音輸入問(wèn)題時(shí),利用長(zhǎng)短期記憶模型(LSTM)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的語(yǔ)音識(shí)別方法,通過(guò)端到端的訓(xùn)練方法,進(jìn)行語(yǔ)音識(shí)別。采用VQA模型,包括引導(dǎo)反向傳播技術(shù)和閉塞模型來(lái)確定重要的字詞和圖像區(qū)域,對(duì)問(wèn)題進(jìn)行語(yǔ)義分析和對(duì)圖片進(jìn)行圖像分析。然后在問(wèn)題與解決系統(tǒng)中查詢(xún)知識(shí)信息,通過(guò)多層感知分類(lèi)器獲得的最高概率答案并返回答案,最后語(yǔ)音輸出答案并以文字顯示。
對(duì)于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實(shí)施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實(shí)現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。