數智賦能人類健康管理
——中國科學技術情報學會健康信息學專業委員會2023 年年會分論壇紀要

2023-04-23 11:57整理彭雪瑩張康輝汪璠

圖書情報知識 2023年6期

整理：彭雪瑩張康輝汪璠

中國科學技術情報學會健康專業委員會于2023年5月在武漢大學信息管理學院舉辦了“中國科學技術情報學會健康信息學專業委員會2023年年會”。本次議程包括五個主旨報告和三個分論壇。三個分論壇主題分別為：在線健康社區用戶信息行為、AI賦能的用戶健康信息實踐研究、健康信息學的理論探索和實踐趨勢。在分論壇中，發言專家介紹了各自團隊的新近研究成果，并與參會者進行了充分的交流互動，涉及和關注到的很多問題已經突破了具體的研究本身。我們把學者們的觀點和研討結果進行了細致梳理和重新組織，精煉整理成這份非常規的紀要，希望為大家帶來有益的參考和啟發。

1 數據和研究模型，誰先行？

在研究中，是先獲取數據還是先設計理論模型？

很多的計量研究多數是以數據為驅動，一般來講大多數研究是先有數據再有模型。最初會有一些相關的想法，但是沒有數據，所以就會被擱置。后面找到了合適的平臺后，會先進行一個小型的探索性研究。數據是非常重要的，但是如果說理論梳理不夠，對理論的把握不充分，故事的邏輯不夠清晰，也很難發到好的期刊。理論上來講要做一個好的研究，應該是兩頭走。你既要設計你的模型，又要考慮你的數據。因為往往你設計了很完美的模型，但沒有數據也無法進行深入研究。有一些人可能會認為理論分析不重要，但是理論分析對于學寫論文，學寫基金申請書都是重中之重。

2 數據分析中的因果性

在研究領域，因果性和相關性的區分與應用成為了重要議題。一般來說，相關性描述的是兩個或多個變量之間的統計關聯，而因果性則涉及到一個變量如何影響另一個變量。

在許多研究方法，例如深度學習中，相關性分析往往占據主導地位。例如，大數據研究中的隨機對照試驗（RCT）和基于基因組的潛在腫瘤預測，都依賴于相關性分析。然而，這種依賴在醫學領域中產生了問題，因為在此領域，決策需要依賴強烈的因果關系，而非簡單的相關性。遺憾的是，相關性結果常被誤解或夸大為因果關系，這種現象在學術界和公眾領域都十分普遍。事實上，研究顯示大約五分之一的研究存在相關性被夸大的情況。這種現象的根源在于混淆了相關性和因果性的概念，以及實驗設計的問題，例如缺乏隨機化和雙盲化。

證明因果關系的關鍵在于保證因素在結果之前，這是我們理解因果關系的基礎。因此，在科研論文和實驗中，我們必須明確區分哪些是已知事實，哪些僅是可能性。

總的來說，在醫學研究中需要更好地理解并應用因果性和相關性，這不僅涉及初試的研究設計，也關系到知識向政策的轉化和決策過程中的不確定性的表達。

3 誤導信息、網絡健康謠言、健康信息可信度評價

3.1 誤導信息

誤導信息（misinformation）在醫學研究中是一個重要而深遠的問題，尤其是在大數據驅動的研究中，這個問題的嚴重性更為突出。首先，誤導信息的主要來源在于相關性結果被夸大為因果關系。研究顯示，大約五分之一的研究存在相關性被夸大的情況，具體表現為在大學官網的研究有40%的相關性結果被夸大，以及各種藥物療效的過度解讀。這種夸大相關性的現象也被反映在科學媒體的報道中，首次研究的報道往往會被過度夸大，然而，很多初步的研究在后期被否定或證偽。

其次，實驗設計的問題也會引發信息誤導。例如，缺乏隨機和雙盲設計的實驗可能導致相關性被誤解為因果關系。對此，《自然》雜志上一篇由斯坦福大學發表的研究指出，醫學領域中大約有90%至95%的研究是錯誤的。因此對實驗的證偽對研究的意義更大，因為可以篩除掉當前研究中很多誤導性的研究內容。很多研究由于人群、區域和實驗方式的不同，在當時顯示了陽性的結果，后期都被否定掉了。因此，在論文中需要明確指出，所描述的內容是可能的結果還是事實。

當前很多都是大數據驅動的研究，有很多“未知的未知”和“未知的已知”。因此，需要將那些確定的已知的知識和不確定的知識給區分出來，構成一個新的知識庫，以減少誤導信息的產生和傳播。

3.2 網絡健康謠言

在一般的認知中，網絡謠言往往利用公眾的恐懼、好奇心、情感等心理，混淆是非、顛倒黑白，使大眾產生錯誤的印象和看法，影響公眾的判斷力和決策能力。通過以往研究梳理，發現當前關于網絡健康謠言主要集中在三個方面：特征與檢測分析、影響因素分析和謠言治理研究?；谝酝芯?，治理網絡健康謠言需要明確三個重要問題：健康信息的知識性和科學性、健康謠言信息的溢出效應和健康謠言傳播的特征。從這三個問題出發，可以設計一個從形成、發展到消退等各個階段持續治理的整體框架從防窯、辟謠和止謠三道防線出發剖析阻斷網絡健康謠言的內部機制，明確在每道防線中可以采取的措施和主要任務。

謠言在學術概念上是一個中性詞，從謠言的可信度出發，可以分為三大類：真的、假的和不確定。由于沒有機關或媒體能夠評估謠言的可信度，因此謠言暫時沒有特定的定義。但在計算機領域，謠言的定義相對來說是較為具體的。計算機默認謠言是錯誤信息和虛假信息，因此計算機領域研究的謠言一般是虛假信息。并且在傳統的認知中也是認為謠言是一個虛假信息。相比于其他謠言，健康謠言的可識別度更高。健康信息不同于其他信息的關鍵在于健康信息有很強的知識性和科學性，即健康信息是一個較為客觀的信息。在鑒定的過程中，一般科學共同體會對健康信息有一個共同的認識。而娛樂類的謠言很難用現有的知識去證明，只能通過警方一步步去調查，等待娛樂謠言水落石出。此外，政治類的謠言具有更強的主觀性。

有學者支持以上的觀點，認為在當前的學術界缺乏大家都認可的謠言定義。在不考慮極端事件的情況下，目前大家較為認可的說法大致可分為兩類：捏造和不存的信息、未經證實的信息。而謠言的論證是一種后驗式事件。在謠言誕生之處，沒有人可以證明謠言的真假。如果不研究謠言的共性就不能去研究謠言的范式和治理謠言。從后驗式的視角對謠言展開研究（報告人的研究），學者們認為是有意義且有必要的。在未來的一些危機事件，破壞性最大的往往不是那種確定性的災難，而是在當時沒辦法確定的謠言。

另外，一個有意思的話題是二次反辟謠，即某些人或團體為了獲取輿論的熱度，對已認定是虛假的信息從多方維度證實辟謠信息的錯誤，從而再次引發輿論風波。如何進行二次反辟謠顯得尤為重要。除此之外，也有學者認為當前國內外的謠言研究是基于純技術的角度展開的剖析，謠言問題的研究過于簡化，因此，從多元的角度看待謠言問題和開展謠言研究會更有意義。

3.3 健康信息的可信度評價

對健康信息的信度進行評估是至關重要的，因為這有助于用戶獲得正確的健康信息。目前，健康信息信度評估主要有三種方法：檢查列表、第三方認證和人工智能輔助工具。然而，每種方法都有其局限性。例如，檢查列表方法雖然全面，但復雜且冗長，用戶體驗并不理想；第三方認證可以提供信息的保障，但用戶不太可能專門去查驗這些認證；人工智能輔助工具雖然能幫助識別可靠信息，但由于其缺乏透明度和可解釋性，可能會引發一些問題。

為了克服這些限制，提出一種新的方法，即通過交互界面將用戶與在線健康信息的信度評估工具連接起來。具體來說，通過開發一個插件，當用戶打開網頁時，該插件將在網頁右側顯示幫助用戶判斷網頁信度的信息。這些評價指標不是隨意設定的，而是基于相關的理論依據。這種方法的優勢在于它能夠直觀地展示信息的可信度，從而幫助用戶做出更好的決策。

4 科學研究與臨床實踐的結合

4.1 醫療服務體系存在的問題

科學研究需要和臨床實踐進行結合，用戶的健康實踐對醫療服務具有深遠影響。在醫療和人工智能結合的背景下，一些創新的健康管理工具和服務被開發出來。然而，這些新興的工具和服務在實際的臨床環境中能否得到有效應用，仍是一個待解決的問題。舉例來說，人工智能在醫療領域產生了一系列新的診斷工具和治療方法，如人工智能輔助診斷系統、人工智能導向的遠程醫療服務等。然而，這些工具和服務的可用性、有效性以及對醫療服務質量的實際影響，需要在臨床實踐中得到驗證和評估。

城鄉醫療服務質量的差異是另一個重要的研究領域?？茖W研究可以幫助我們了解和量化城市地區和農村地區在醫療服務質量、資源配置以及疾病案例分布等方面的具體差異。例如，醫聯體策略試圖通過整合城市和鄉村的醫療資源，來緩解城鄉醫療服務質量的差距?？茖W研究可以對這種策略的實際效果進行評估，從而指導更有效的政策和實踐。

當前醫療體系主要存在數據質量、醫療知識應用和醫療教育三個方面的問題。首先，一些錯誤的病例或誤診案例被記錄并傳播，而這些信息的錯誤性并未被標注，這可能對醫療服務產生誤導性影響?？茖W研究可以通過深入分析這些案例，找出錯誤來源并提出改進方案。其次，醫療知識與醫生實踐的有效結合是一個挑戰?？紤]到醫生的工作壓力，他們往往沒有足夠的時間去查閱人工智能提供的輔助資料，因此，我們需要提供更為精準的，能夠滿足醫生需求的信息服務。此外，當前的醫療知識服務系統在設計上并未充分考慮醫生的實際需求，導致醫生需要去適應這些系統，而不是系統去服務醫生。這種現象在醫療知識提供方面尤為明顯，通常所提供的是通用的基礎知識，對資深醫生的幫助有限。人工智能技術可以幫助我們更精準地提供滿足醫生需求的信息服務，從而提高醫療服務的效率和質量。最后，醫學教育中存在臨床經驗不足的問題。很多從事教學的醫學老師來自生命科學等非臨床背景，他們在撰寫學術論文方面可能有較強的能力，但在臨床經驗方面可能不足。反之，臨床醫生雖有豐富的診治經驗，但往往缺乏撰寫SCI論文的能力。因此，大學教材往往由臨床醫生撰寫，而不是大學老師。學生在學習過程中，更偏向于學習教科書，而非臨床經驗。通過深化科研和臨床的結合，我們可以提高醫學教育的實效性，更好地為未來的醫療服務提供人才支持。

4.2 臨床案例與科學文獻知識的整合

在大數據醫療領域，臨床案例和科學文獻知識的整合是一項重要的任務。然而，這兩類知識的性質差異可能在整合過程中引發一些問題。在當前醫療診斷系統中，知識源主要分為兩類：通用知識和案例知識。通用知識通常由教科書和科學文獻經過整理、歸納后形成，主要以查詢功能形式提供。與此相反，案例知識是基于醫生在診斷過程中對病情演化的具體觀察和判斷形成的。

案例知識在提供和轉化過程中可能存在許多變化，包括但不限于疾病早期、中期和后期的診斷手段和方式的不同，這些具體細節和特點是無法僅依靠算法理解的，而需要醫生的專業判斷和推薦。此外，大量的診斷和案例知識并未在教科書或文獻中明確記錄。由于病患個體差異和疾病病程的復雜性，每個患者的具體病情往往會有所不同，這就需要結合案例知識和醫生的專業判斷，以實現個體化的診斷和治療。因此，在臨床案例和科學文獻知識的整合過程中，應注重醫生的專業參與和案例知識的細節處理，以更好地滿足個體化醫療需求。

4.3 醫院數據確權

目前醫院數據的所有權尚未明確。盡管這些數據在醫院環境中可供使用，但并不直接屬于醫院所有。由于缺乏明確的法律規定，這些數據也難以判定為個人所有。如果數據歸個人所有，那么個人可能會要求獲取這些數據，但這可能導致醫院在數據管理上面臨困境。同樣，一些敏感的醫療數據，如艾滋病等傳染性疾病的數據，一旦泄漏，可能引發公共衛生事件和社會恐慌。當前的實際情況是，全民健康數據歸屬于國家衛生健康委員會。

另一個重要問題是這些數據的定價。對于不同的購買者，同一份數據可能具有不同的價值。就目前而言，金融數據受到嚴格的法律保護，不能離開銀行。相比之下，醫院數據的管理則沒有明確的法律規定。醫院的原始數據不應離開醫院，但經過抽取和分析的數據，特別是反映群體特征的數據，是可以被合理使用的。

在此情況下，保護患者的隱私成為一項重要任務。例如，如果醫院原始數據直接泄漏給商業保險公司等，可能會引發社會問題。因此，可以考慮將部分不涉及用戶隱私的信息處理、抽取和脫敏后提供給商業保險公司，以判斷購買資格，但同時確保提供的信息最小化，既滿足了相應的信息需求，又保障了患者的隱私安全。

5 人工智能賦能醫療

生成式人工智能在醫療領域具有強大的應用潛力，大家比較關注三個問題。

（1）生成式人工智能是否能夠在智慧醫療系統中，有效地進行回答患者問題、回復問診和提供診斷建議等任務，實現對醫生的部分替代？

生成式人工智能在處理通用知識方面表現良好，但在處理主觀問題的回答方面仍有待改進。生成式人工智能缺乏病例知識，這些知識基本上都在醫院中，不在互聯網上，無法獲取。即使有一天患者將自己的病例上傳到數據庫中，生成式人工智能也無法做出詳細的診斷，因為它無法獲取醫療影像資料，且不能在長時間間隔內對比多次檢查結果。由于病人的生理和心理狀態都可能影響疾病的發展，因此在處理這些問題時需要人工非常細致和專業的判斷。

在某些方向上，人工智能可以在一定程度上輔助醫生進行診斷，但由于當前90%-95%的醫療信息存在不準確的情況，這會導致模型學習后產生的結果也不可靠。

人工智能和醫生不應該對立。研究應該更關注使用了人工智能的醫生和沒有使用人工智能的醫生對患者的治療效果，以及是否能降低死亡率。人工智能在處理復雜的醫療工作方面存在困難，如診斷、手術決定、后遺癥處理等，這些都使得人工智能難以完全替代醫生。

（2）生成式人工智能天然具有“非真實”的屬性，如何保證AI或生成式人工智能在醫療領域應用的真實性和準確性？

雖然生成式人工智能在醫學基礎知識方面表現較好，但在提高其在醫療領域的真實性和準確性方面，仍需依靠人類。生成式人工智能的信息抽取能力強大，但在自我糾錯和對自己生成內容質量進行判斷的能力上仍需進一步發展。此外，由于大部分訓練數據來自開放互聯網，如維基百科等，因此，如果知識庫中存在誤導信息，生成的內容也可能含有誤導信息。

人工智能由于數據集的限制，可能會陷入局部最優解，而不是全局最優解。當處理來自不同患者的信息時，它可能在為特定患者生成解決方案時存在偏差。例如，如果輸入數據大部分來自某一特定人群，那么生成的結果可能會對該人群有更好的匹配度，但可能不適用于其他人群。

（3）在使用人工智能為醫療領域進行賦能的同時需要注意哪些問題？

AI的出現引起了震驚，主要是因為它和人類展現出了一種競爭性。AI在某些領域可以超越人類，如在初步的診斷和常見病癥診斷中，AI可以作為一種工具，幫助普通消費者做健康診斷，這與使用默沙東的診療手冊是類似的，這樣可以避免浪費三甲醫院的資源。

AI與管理、數據、醫療的結合需要綜合能力。為了實現健康信息AI，需要跨專業合作，這對于培養非常專業的學生是一個挑戰。然而，管理學院可以提供一個解決方案，因為它包含了公共衛生管理、信息管理等一系列可以合作的專業。在未來的手術室里，可以使用AI來輔助醫生，提供關鍵時刻的幫助。但當前的醫院很多智能設備并未被充分利用，我們需要對智能設備進行更好的治理。

生成式人工智能最大的能力在于對信息的歸納和整理。對患者數據的深度挖掘是十分合適的，然后將這些信息整理并提供給醫生，這可能是一種有效的方式。在此基礎上，提出一種個體化和群體化結合的理念，即如果能夠通過數據驅動的方式來為每個個體提供獨特的醫療服務，而不僅僅是為大多數人提供標準化服務，那么人工智能將能夠發揮巨大的潛力。

致謝：分論壇主講嘉賓和參會者較多，紀要中未能一一列出。在此一并致謝！

數智賦能人類健康管理——中國科學技術情報學會健康信息學專業委員會2023 年年會分論壇紀要

1 數據和研究模型，誰先行？