广东透码高手坛|香港内部提前透码|

您當前的位置:檢測資訊 > 科研開發

人工智能醫療器械輔助診斷及探測性能評估參數的討論

嘉峪檢測網        2019-10-08 15:54

摘要

目的:人工智能醫療器械的應用越來越廣泛, 但目前并沒有對其性能的評價標準。希望通過本文研究為人工智能醫療器械的客觀評估提供幫助。

方法:從不同的應用角度對人工智能醫療器械評估參數進行了梳理, 比較了各個參數的特點和使用場景。

結果與結論:不同的評估參數所適用的場景不同, 評估結果也存在差異, 在進行人工智能產品評價時應根據產品特性合理選擇。

 

人工智能醫療器械作為一種新興的醫療器械,在輔助診斷、輔助篩查等諸多領域實現了突破。基于神經網絡的深度學習可以幫助醫生識別CT影像、病理切片、皮膚損傷、視網膜圖像、心電圖、內窺鏡檢查、面部和生命體征[1-3]。人工智能產品一般是對樣本數據進行分類或對樣本數據的異常特征進行標記或提取。對于它們的評估多為算法的評估結果與參考標準(臨床“金標準”或有經驗臨床醫生的診斷結果)進行比較[4],使用召回率、特異性、準確度等參數的數值大小或曲線關系來表示產品的質量水平。對于人工智能產品不同的功能,如分類、分割、檢出;或者不同的應用場景,如體檢應用、門診應用;或者不同的評價目的如產品研發過程的評價、迭代后性能的評價、不同產品的比較評價,都應該依據自身特點合理地選擇評價參數,因為不同的參數所體現產品的能力是不一樣的。
 
目前,我國雖組建了人工智能醫療器械歸口單位,相應的標準也在不斷的規劃中,但現階段國內外尚未建立人工智能醫療器械的評價標準與方法規范。本文對工智能產品的評估參數進行了分析,簡述了各個參數的特點,這將有助于進一步明晰影像類人工智能產品的評價工作,為人工智能產品的研發和質控提供指導。
 
1 分類評估參數
 
人工智能(Artificial Intelligence,AI)醫療器械的輔助篩查、輔助識別或輔助診斷等功能多是給出患者數據的狀態分類,如二分類的陰性(非患病)、陽性(患病),或多分類如糖尿病視網膜病變篩查的0期~Ⅵ期[5]。對于分類問題可采用混淆矩陣的方法[6],見表 1,進而計算靈敏度、特異性、準確率等參數。
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
表 1 多分類混淆矩陣(n為分類種類)
 
靈敏度:
人工智能醫療器械輔助診斷及探測性能評估參數的討論                                   (1)
特異性:
人工智能醫療器械輔助診斷及探測性能評估參數的討論                         (2)
 
 
 
準確率:
人工智能醫療器械輔助診斷及探測性能評估參數的討論                                                                    (3)
 
 
Ni, j(i=1~n,j=1~n)為真實分類為i類,被AI產品判為j類的個數;Psen, i為第i類為陽性,其他類為陰性的靈敏度;Pspe, i為第i類為陽性,其他類為陰性的特異性。
 
靈敏度指參考標準中實際的陽性樣本被正確判斷的比率,見式(1),用來評估人工智能產品對目標疾病的識別能力。相反,特異性是指參考標準中實際的陰性樣本被正確判斷的比率,見式(2),用來評估人工智能產品對非目標疾病的識別能力。而準確度是指所有樣本被正確判斷的比率,見式(3)。這些參數都是0~1的數值,越接近1表示算法的性能越好。
 
單一參數很高并不能說明產品的優劣。比如準確度,其數值與發病率有一定相關性,當某一類數據的樣本量遠大于另一類時,即使另一類全部判斷錯誤也不會對準確度產生太大影響,所以即使分數很高,也無法對于特定類別的識別能力進行判斷。所以大部分情況下可用多個參數同時用于產品性能的評估,比如用靈敏度和特異性兩個參數來評價產品的性能。一般成熟的產品算法的評估閾值是一定的,也就是靈敏度和特異性是唯一的。特定閾值下的參數只能體現產品應用性能的優劣,并不能評價產品算法的優劣,比如一個優質算法在一個存在偏倚的數據集上進行訓練,產品出廠時并沒有選擇最優的閾值,這導致召回率等參數沒達到預期。所以為了進一步評價算法的好壞通常采用ROC、Precision-Recall(P-R)曲線等來對產品進行評價[7]。在醫用范疇,多數情況下正負樣本比例差距較大(與發病率相關,Precision-Recall曲線在正負樣本不均衡的情況下會出現較大波動),且ROC曲線包含混淆矩陣的所有信息(Precision-Recall曲線缺少混淆矩陣的真陰性個數信息),因此ROC曲線更常見。它通過調節算法的閾值來計算不同閾值下的靈敏度和特異性,以1減特異性為橫坐標,靈敏度為縱坐標,繪制ROC曲線,ROC曲線不僅能體現算法在不同閾值下的泛化能力,同時,還通過計算曲線下面積(AUC)對不同的AI產品用一個參數進行比較。
 
2 分割評估參數
 
人工智能輔助檢測功能多應用于影像識別類產品,其作用在于準確地識別圖像中的病灶位置并進行邊界分割,其分割性能多采用分割結果與參考標準比較,比如在FDA發布的計算機輔助探測(Computer-assisted Detection Devices)的510(k)提交指導原則[8]中提到了用分割區域的位置關系進行評價計算。目前比較算法中被廣泛應用的評價方式有兩種:Jaccard系數[也稱之為交并比(IoU)]和Dice系數[9-10]。
 
交并比是指參考標準和人工智能算法區域交集與并集(見圖 1)的比率,見式(4):
人工智能醫療器械輔助診斷及探測性能評估參數的討論
 
 
A.參考標準的分割面積;B.人工智能算法的分割面積;C.參考標準與人工智能算法分割面積的重疊部分。
圖 1 尺寸分割評價參數舉例
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論                                  (4)
 
Dice系數是指參考標準和人工智能算法區域交集與二者區域平均值的比率,見式(5):
人工智能醫療器械輔助診斷及探測性能評估參數的討論                     (5)
從公式(4)和(5)可以看出,雖然二者都是在0~1變化的數值,但相同情況下IoU數值要低于Dice系數,見式(6):
人工智能醫療器械輔助診斷及探測性能評估參數的討論                 (6)
 
IoU比Dice系數提供了更寬的數值評估范圍,尤其是在分割結果較差的情況下,IoU能更好地評估分割圖像中的微小變化,對于不同產品的評價提供了更好的區分度;如果一個AI產品的分割性能進行了提升,隨著重疊面積的增加,Dice系數呈線性變化,而IoU呈非線性變化,這對于同一產品分割性能的評價,尤其在算法整改后的評價上,Dice更為直觀。
 
對于分割性能,在檢出類AI產品如肺結節識別上,有可能會通過區域分割指標來判斷真陽性(TP)和假陽性(FP),進而計算靈敏度、特異性等參數,就是要確定分割性能參數閾值的大小,這涉及了標記匹配的內容[11]。比如交并比不低于某一小于1的數,這個數值直接決定了是否被命中,進而影響靈敏度、精確度等參數。我們能判斷越接近于1,算法是越優秀的,但是我們無法確切定義哪個百分比對于臨床醫生的使用是足夠了,也就是檢出來了,這部分還有待進一步研究。
 
此外,還可以把算法分割結果與參考標準當成兩個像素集,二者重疊像素點記為TP,參考標準去掉TP部分為FN,算法分割結果去掉TP部分為FP,這樣可以用召回率[見式(7)]和精確度[見式8)]兩個參數對分割結果進行評價,見圖 2。這類似于對于病灶檢出的評價方式。
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
A.參考標準的分割區域;B.人工智能算法的分割區域。
圖 2 像素點集合進行分割參數評價
 
召回率:
人工智能醫療器械輔助診斷及探測性能評估參數的討論
 
(7)精確度:
人工智能醫療器械輔助診斷及探測性能評估參數的討論
 
(8)當召回率為1時,參考標準被完全包裹在算法分割區域范圍內,如圖 3所示;當精確度為1時,算法分割區域被完全包裹在參考標準范圍內,如圖 4所示。通過兩個參數不僅可以分析分割結果的相關度,還可以對分割的位置及形狀進行判斷,IoU和Dice雖然能分析分割結果的相關度,但通過參數不能判斷分割面積的大小和相互包含關系。
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
參考標準被完全包裹在算法分割區域范圍內,召回率為1。
圖 3 位置及形狀示例一
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
算法分割區域被完全包裹在參考標準范圍內,精確度為1。
圖 4 位置及形狀示例二
 
3 檢出算法的曲線評估參數
 
檢出類算法一般會在一幅圖像上診斷出多個異常,這種病灶檢出的方式無法采用ROC曲線進行評價,因為假陽性的個數是沒有限制的。這種情況一般采用FROC曲線來進行評價。其繪制方法是在不同的閾值下,計算算法的召回率和平均假陽個數(平均每個病人所含有的假陽個數)。以召回率為縱坐標,平均假陽個數為橫坐標,繪制曲線。對于曲線評價,我們不僅希望從曲線的趨勢圖或曲線上特定點來評價算法的好壞,我們更希望通過曲線提取出一個綜合參數,用這個參數對算法進行評價,比如ROC曲線的AUC。對于FROC,同樣可以計算曲線下的面積,但這種方式可能需要調節多個閾值,計算量較大。且假陽結節的數量會因為產品的性能不同而不同,這導致FROC曲線橫坐標(平均假陽個數)終點不一致,這樣計算的面積很難進行橫向比較。為解決這一問題,可以采用給橫坐標一個限制,如橫坐標都采用平均假陽個數8個,這樣面積的理想值就進行了統一,但損失了一部分閾值下的數據考量。另一個問題,對于較好或較差的算法,平均假陽個數8個可能會太多或者太少,給評價帶來一定的局限。我們還可采用曲線上召回率的平均值,這種對于線性度較好的曲線是個不錯的選擇,但對于線性度較差的曲線,可能會存在偏差。
 
Precision-Recall曲線是以召回率為橫坐標,精確度為縱坐標繪制的曲線。曲線構造和ROC曲線類似[10],曲線下面積理想值為1。該曲線的評價方式很好地繼承了ROC曲線的優點,能夠實現不同算法性能的評估和統計比較。
 
FROC與P-R曲線都包含了TP、FP、FN的信息,兩種曲線有著各自的特點,見圖 5、圖 6。在FROC曲線上能更為直觀地找到曲線的拐點,這對于產品研發階段合理的閾值調節具有很大的幫助。但曲線在閾值無限小的情況下,召回率趨于定值,而平均假陽個數是在不斷增加的,無法通過計算FROC曲線下的面積對AI算法進行評估,這一點上P-R曲線更具優勢。P-R曲線理想狀態下曲線下面積為1,隨著閾值的減小精確度趨于0,可以通過曲線下面積對不同算法進行比較[12]。此外,P-R曲線的橫坐標和縱坐標都和TP的數量密切相關,如果數據集陽性樣本數量變化時,曲線的變化有可能會大于FROC曲線。
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
圖 5 FROC曲線
 
人工智能醫療器械輔助診斷及探測性能評估參數的討論
圖 6 P-R曲線
 
4 總結
統一的評價標準是人工智能算法質量評估重要的研究內容之一,這有助于實現AI算法的橫向比較,使評價更為客觀。本文討論了不同評估參數的定義及適用場景,簡述了它們各自的優缺點,但目前還沒有形成統一的標準。相信隨著人工智能在醫療領域的普及,以及臨床實際應用經驗與應用模式(如人+AI工作、AI單獨工作)的不斷進步,評價標準會逐步統一和提高。但現階段,任何對于AI算法的評估,不僅要給出數據集的情況描述,還應給出全面的質量評估算法的描述,不能直接給出一個最終結果。
 
參考文獻
[1] Eric J Topol. High-performance Medicine:The Convergence of Human and Artificial Intelligence[J]. Nature Medicine, 2009, 25: 44-56.
[2] Setio A AA, Traverso A, De Bel T, et al. Validation, Comparison, and Combination of Algorithms for Automatic Detection of Pulmonary Nodules in Computed Tomography Images:The LUNA16 Challenge[J]. Medical Image Analysis, 2017, 42: 1-13.
[3] Gulshan V, Peng L, Coram M, et al. Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographs[J]. JAMA, 2016, 316(22): 2402-2410.
[4] Petrick N, Sahiner B, Armato SG, et al. Evaluation of Computer-aided Detection and Diagnosis Systems[J]. MedPhys, 2013, 40(8): 87001.
[5] 中華醫學會眼科學會眼底病學組. 我國糖尿病視網膜病變臨床診療指南(2014年)[J]. 中華眼科雜志, 2014, 50(11): 851-865. DOI:10.3760/cma.j.issn.0412-4081.2014.11.014
[6] 孟祥峰, 王浩, 王權, 等. 影像類人工智能醫療器械評價方法研究[J]. 中國醫療設備, 2018, 33(12): 23-26, 30.
[7] Jesse Davis, Mark Goadrich. The Relationship Between Precision-recall and ROC Curves[C].Appearing in Proceedings of the 23rd International Conference on Machine Learning: Pittsburgh, PA, 2006.
[8] FDA. Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data-Premarket Notification[510(k)] Submissions[S]. Washington DC: Food and Drug Administration, 2009.
[9] Chang H H, Zhuang A H, Valentino D J, et al. Performance Measure Characterization for Evaluating Neuroimage Segmentation Algorithms[J]. NeuroImage, 2009, 47(1): 122-135.
[10] Cárdenes R, de LuisGarcía R, Bachcuadra M. A Multidimensional Segmentation Evaluation for Medical Image Data[J]. Comput Methods Programs Biomed, 2009, 96(2): 108-124.
[11] Kallergi M, Carney G M, Gaviria J. Evaluating the Performance of Detection Algorithms in Digital Mammography[J]. Medical Physics, 1999, 26(2): 267.
[12] Sahiner B, Chen W, Pezeshk A, et al. Semi-parametric Estimation of the Area Under the Precision-recall Curve[C]. Spie Medical Imaging, 2016. https://www.researchgate.net/publication/300331546_Semi-parametric_estimation_of_the_area_under_the_precision-recall_curve
 

 

作者:孟祥峰 , 王浩 , 張超 , 任海萍

中國食品藥品檢定研究院

 

分享到:

來源:醫檢所

广东透码高手坛
江苏快3遗漏一定牛 滚球和初盘哪个好赢 天津娱乐场所 千牛怎么做图赚钱 埃瓦尔微信 大红鹰彩票网手机登录 华东15选5尾号走势图 今天吉林快3形态走势图 河南11选5今日开奖号码是多少 福建快三专家推荐号