發展階段層面,《展望》指出,按照行業整體需要解決的問題,可以把 AI for Science 的歷史和未來十年可預見的發展大致分為三個時期:以科學家為主導的“概念導入期”(2016-2021)、以科學家和工程師協作為標志的“大規模基礎設施建設期”(2021-2026),和以工程師為主導的“成熟應用期”(2026 年及以后),三個時期的演進也是人們對 AI for Science 開發程度不斷加深、使用范圍不斷擴大的過程。
AI for Science 的發展不僅取決于 AI 算法的應用,還取決于大量經典算法的改進和提升。算法迭代層面會經歷從“簡單模擬”到“智能化搜索”3 個階段:1.0 階段的關鍵詞是“模仿”,即基于實驗的思路,在實驗基礎上進行簡單的外推和擴大;2.0 階段的關鍵詞是“預測”,即有邊界地預測,有明確、可驗證的置信區間;3.0 階段的關鍵詞是“搜索”,即算法可以非常準確的對真實場景進行建模,并在此基礎上根據特定需求設計并返回所需結果。
《展望》指出,目前正處于 2.0 階段,未來幾年內 AI for Science 的相關領域都將會完成 2.0 階段的算法升級,而后將逐漸進入到智能化設計的 3.0 階段,最終實現 AI for Science 廣泛普及。
圖|AI for Science 的相關要素(來源:2023 版《AI4S 全球發展觀察與展望》)
AI for Science 的發展既包含 AI 行業的要素,也包含科學領域的要素,更需要來自產業和公共管理側的發展要素,所有這些要素相互交織影響,共同促成 AI for Science 發展的正反饋。
近十年來,AI 的強大之處大家有目共睹,但其“黑箱”屬性也向來被學界詬病,即能知其然卻不能知其所以然。《展望》指出,由于 Science 本身的客觀存在性,將 Science 與 AI 融合為 AI 提供了絕佳的“驗證”步驟,讓 AI 在特定領域內能產出“可解釋”的成果,而這不亞于為人類發現新的科學原理。
而在科學領域,從“數據”中可以提煉出經驗性“原理”,亦可以使用“原理”來仿真模擬出“數據”,因此“數據”和“原理”在一定程度上能夠接近無損轉化。
圖|AI for Science 系統工程(來源:深勢科技)
AI for Science 在模型驅動和數據驅動深度融合的過程更像是一個系統化的工程,不僅需要原理層面的創新,也需要從基礎設施、產品、場景交互的全方面變革,各個場景可能都需要龐大的團隊來支撐和完成,同時這也意味著巨大的空間和機會。
AI4S 在多個領域的產研實踐
新版《展望》著重介紹了 AI for Science 在生命科學、材料科學、能源、半導體、地球與環境等眾多領域及細分領域的產研實踐。整體而言,在具體的實踐中,如何更好地構建 AI-Science 之間的紐帶是核心的創新點,而這在不同的科學場景中其思路也不盡相同。
生命科學領域,在過去的十余年間,大量基于機器學習和深度學習的理解基因調控的方法被開發出來,AI 在驅動藥物研發和個性化醫療中取得新突破。如今,AI 正在藥物研發、疾病篩查、生物學機制研究等方面發揮著越來越重要的作用,未來,隨著 AI 的滲透,很多疾病的通路和影響因素將不再神秘,最終有望介導人類健康乃至整個生命科學領域的系統進步和重大突破。
圖|藥物研發的主要環節(來源:2023 版《AI4S 全球發展觀察與展望》)
以藥物研發為例,新藥開發過程是個多環節、漫長且昂貴的流程,每個環節的效率提高都有巨大的商業價值。如今,將 AI 與底層生物機制結合的新范式(AI for Life Science),正在從底層技術的突破為整個行業注入嶄新活力,帶來更多機會。
在 AI for Life Science 范式下,藥物研發過程中的大部分實驗可以像汽車、飛機等工業領域實現仿真模擬,通過計算手段進行測試和篩選,再通過真實實驗進一步的驗證和篩選,能夠大幅減少真實實驗帶來的時間和經濟成本的消耗。
AI for Life Science 的其他應用,比如,當今比較熱門的 CAR-T 細胞療法,CAR 分子的胞外結構域中識別抗原的單鏈抗體片段十分重要 ,AI 技術可被應用于學習抗體片段規律,對抗體親和力或人源化性質進行預測和推薦;再比如,Cas9 是 CRISPR-Cas9 基因編輯技術的重要組成部分,AI 算法可用于尋找毒性更弱的 Cas9 酶,同時還可以借助 AI 在酶設計中的應用,嘗試對已知的 Cas9 酶進行優化和改造。
合成生物學領域,AI for Science 的設計與合成生物學的工程模式相輔相成,共同打造“假設、構建、測試、學習”的閉環(DBTL),并且還有可能基于自動化實驗室利用 AI 對于實驗的定量設計來反向補充數據庫,以及探索更多的規律,突破理性設計的瓶頸。