跟蹤智慧實驗室的理論研究發(fā)展狀況、產(chǎn)業(yè)發(fā)展動態(tài)、主要設備供應商產(chǎn)品研發(fā)動態(tài)、國內(nèi)外智慧實驗室建設成果現(xiàn)狀等信息內(nèi)容。本文由中科院上海生命科學信息中心與曼森生物合作供稿。
本期“前沿技術(shù)”欄目,編譯了 Partha Pratim Mondal 等發(fā)表在 Bioresource Technology 期刊上的綜述論文《基于機器學習的生
物過程優(yōu)化、監(jiān)測和控制系統(tǒng)綜述》(Review on machine learning-based bioprocess optimization, monitoring, and control systems),作者首先深入介紹了機器學習領(lǐng)域的基本理解,并討論了其復雜性,以獲得更全面的應用。隨后概述了機器學習模型對控制生物過程操作所生成的龐大數(shù)據(jù)集的統(tǒng)計和邏輯分析的相關(guān)性。然后,批判性地討論了生物過程行業(yè)不同子領(lǐng)域的當前知識、局限性和未來方面。此外,還討論了采用混合方法將不同的建模策略、網(wǎng)絡和集成傳感器相結(jié)合以開發(fā)新的
數(shù)字生物技術(shù)的前景。
目錄/CONTENT
01/前言
02/機器學習的基本概念
2.1 機器學習模型設計
2.2.生物過程開發(fā)中的機器學習
2.3.選擇正確的機器學習方法的過程
03/機器學習算法
04/ML 在生物加工工業(yè)中的應用
4.1 生物燃料行業(yè)
4.2.生物制藥行業(yè)
4.3.生物廢水處理
05/研究需求和未來展望
06/結(jié)論
1.前言
在生物過程行業(yè)中觀察到了這方面的重大發(fā)展,新的生物產(chǎn)品和生物工藝的產(chǎn)量成倍增加。這些發(fā)展主要與生物加工子領(lǐng)域相關(guān),如生物制藥/生物治療生產(chǎn)、生物燃料生產(chǎn)和生物廢水處理工藝,這些領(lǐng)域的需求從未如此之大。為了確保這些生物產(chǎn)品開發(fā)過程的商業(yè)經(jīng)濟性和可持續(xù)性, 必須在整個生產(chǎn)生命周期中同步規(guī)劃和執(zhí)行。生物技術(shù)行業(yè)正在經(jīng)歷數(shù)字化轉(zhuǎn)型, 以克服這些限制,采用人工智能(AI)和機器學習(ML)等創(chuàng)新技術(shù)是相關(guān)生產(chǎn)過程自動化的首要任務;谌斯ぶ悄艿 ML 技術(shù)開發(fā)、監(jiān)控、控制和優(yōu)化過程系統(tǒng)。它們能夠有效地學習工藝參數(shù)和性能之間的復雜關(guān)系。ML 可以預測和影響關(guān)鍵工藝參數(shù)(CPP)和產(chǎn)品關(guān)鍵質(zhì)量屬性(CQA),控制工藝系統(tǒng)以應對參數(shù)偏差,并理解制造過程中的完整數(shù)據(jù)分析。
2.機器學習的基本概念
2.1 機器學習模型設計
在 21 世紀末,在開發(fā)計算機輔助系統(tǒng)設計、體系結(jié)構(gòu)、計算機視覺和信號處理方面取得了許多進步。ML 被認為是一個研究領(lǐng)域,它允許計算機在最初編程后學習、自學、分析數(shù)據(jù)和估計,而不需要在每個階段都進行明確的編程。ML 在生物過程行業(yè)中已經(jīng)建立了重要的應用,其影響力展示了領(lǐng)域理解和創(chuàng)新,繞過了人工工作和預測。圖 1a 展示了 ML 在生物過程系統(tǒng)中的使用、相關(guān)挑戰(zhàn)、 優(yōu)勢和模型設計的圖形視圖。圖 1b 描繪了用于生物廢水的機器學習算法的典型圖形工作流程。用于上采樣、下采樣、模型輸入訓練、驗證、測試和機器學習類別(監(jiān)督、半監(jiān)督和非監(jiān)督)的特征點代表了典型的 ML 模型工作流。ML 的領(lǐng)域及其與各種 ML 模型設計和數(shù)學方程的關(guān)系的綜合視圖見補充表。
因此,為了在自動化設計中處理來自參數(shù)數(shù)據(jù)和圖像的未處理原始文件的挑戰(zhàn)性方面,需要結(jié)合起來。深度學習(DL)方法用于此類任務,從而為微流體輔助和高通量生物工藝開發(fā)奠定了基礎。DL 領(lǐng)域從未處理的輸入中確定多層次、分層的特征。在同一條線上,深度神經(jīng)網(wǎng)絡(DNN)由一系列包含激活函數(shù)的層組成。使用 I/P-O/P(輸入-輸出)域?qū)⒍鄠映射到一個,表示所需的輸出類別,稱為訓練數(shù)據(jù)。處理測試數(shù)據(jù)集(看不見的數(shù)據(jù))有助于建立和開發(fā)相關(guān)性模式。ML 與評估中給定數(shù)據(jù)的統(tǒng)計和經(jīng)驗模型相互關(guān)聯(lián)。模型設計的第一部分,即輸入層,確定了原位過程參數(shù)、外部生態(tài)系統(tǒng)條件和作為 ML 設計和神經(jīng)網(wǎng)絡模型輸入的幾個觸發(fā)神經(jīng)元(圖 1c)。
2.2.生物過程開發(fā)中的機器學習
2.3.選擇正確的機器學習方法的過程
根據(jù)任務的性質(zhì),ML 規(guī)則是明確的,需要一個選擇過程。第一步是選擇 ML 學習的類型,即強化學習、有監(jiān)督、半監(jiān)督和無監(jiān)督的學習方法(見補充材料)。在監(jiān)督學習中,向算法提供一組“明確的正確答案”或因變量或 y 變量,以拓寬描述自變量和因變量之間關(guān)系的特征。變量之間的關(guān)系適合進行預測。監(jiān)督方法為算法提供了最有說服力的統(tǒng)計數(shù)據(jù),用于確定數(shù)據(jù)的一般形式和特征,這是一種實驗策略。為了指示一組規(guī)則實現(xiàn) y 變量目標,ML 包括一個“功績授予功能”, 該功能選擇最大化總體響應的路徑。決定 w-v 比至關(guān)重要,其中 w 是輸入的寬范圍,v 是變量的多樣性。更高的 w-v 比率是有益的。03 機器學習算法
04ML 在生物加工工業(yè)中的應用
ML 算法的使用越來越有規(guī)律,以加深對生物過程的理解。該領(lǐng)域的收縮性研究需要將生物化學工程和計算機科學聯(lián)系起來。
4.1 生物燃料行業(yè)
為了在生物燃料行業(yè)取得重大進展,已經(jīng)進行了廣泛的研究。ML 建模被有意用于研究生物燃料生產(chǎn)中操作參數(shù)之間的非線性關(guān)系。這一特定研究領(lǐng)域的大量綜述已經(jīng)發(fā)表在公開文獻中。主要集中在 ML 模型在優(yōu)化、控制和監(jiān)測生物柴油生產(chǎn)(生物氫、生物乙醇、沼氣等)方面的適應性、靈活性和最新應用。
4.2.生物制藥行業(yè)
近年來,原子模擬已成為大型工業(yè)中生物制藥過程開發(fā)、優(yōu)化、控制和設計的寶貴工具。ML 技術(shù)的制定包括對藥物的可行的普遍需求,以及向具有自動化監(jiān)管的工業(yè) 5.0 的轉(zhuǎn)變。ML 技術(shù)已經(jīng)在解決生物制藥制造的多個方面找到了基礎。這些研究領(lǐng)域包括生物標志物識別、藥物發(fā)現(xiàn)、蛋白質(zhì)工程、藥物再利用、 臨床試驗質(zhì)量跟蹤、實時錯誤處理和過程自動化。廢水處理對社區(qū)發(fā)展至關(guān)重要。目前,生物處理工藝是最有效、最可行的工藝。然而,由于生物系統(tǒng)的分支和不確定的時間間隔,生物廢水處理在行業(yè)中具有挑戰(zhàn)性。數(shù)學建模技術(shù)不僅給出了過程動力學的明確描述,而且提前為后續(xù)動作提供了提示。因此,必須設計一種有效而明確的廢水處理算法,該算法可以預測瞬態(tài)操作條件,如管道泄漏引起的突然故障、生物反應器的操作故障、進料負載的突然變化和不正確的物理參數(shù)(即流速、pH 和溫度),以做出現(xiàn)場智能決策。
05研究需求和未來展望
盡管在生物過程行業(yè)中實現(xiàn) ML 已經(jīng)進行了大量的研究和應用,但它仍處于早期開發(fā)和使用階段。ML 在企業(yè)連續(xù)體中的成功應用在很大程度上取決于適當?shù)拇鎯蛿?shù)據(jù)管理。此外,以下幾點針對生物過程行業(yè)中實施 ML 的研究需求和需求:
(1)由于真實的現(xiàn)場數(shù)據(jù)集的可用性鮮為人知,生物過程中來自軟離線傳感器的反饋增加了不相關(guān)和瑣碎信息的成本和交付支出。
(2)利用現(xiàn)場傳感器和算法開發(fā)基于網(wǎng)絡的在線物理系統(tǒng),以控制集成的生物并將其與歷史數(shù)據(jù)聯(lián)系起來。這些成為這種生物過程工業(yè)的原始來源投入。即使是生物過程建模系統(tǒng)也不能提供可信的結(jié)果。最近的調(diào)查表明,運行模擬和統(tǒng)計技術(shù)可以優(yōu)化運營成本,提高運營效率。
(3)基于神經(jīng)網(wǎng)絡的設計的出現(xiàn)和過程驅(qū)動技術(shù)的發(fā)展,從順序過程到分層再到混合,都在不斷發(fā)展。最近,基于模型的控制器被要求通過 ML 進行端到端神經(jīng)網(wǎng)絡生物過程建模。
(4)單元操作的根本原因分析、分子相互作用和模型細化可以根據(jù)傳感器反饋進行多種輸入。這得益于基于混合模型和先進的深度學習架構(gòu),如卷積神經(jīng)網(wǎng)絡-遞歸神經(jīng)網(wǎng)絡和深度 CNN。這樣的模型在優(yōu)化和性能指標方面優(yōu)于競爭對手。
(5)在設計控制技術(shù)水平時,必須實現(xiàn)精度、準確性和魯棒性。生物治療開發(fā)人員可以從大規(guī)模生產(chǎn)的角度進行思考,并從流程開發(fā)的早期階段就融入自動化概念。
(6)軟件、硬件和設計規(guī)范之間的標準化不足使自動化嘗試變得復雜。
(7)利益相關(guān)者和技術(shù)解決方案提供商應縮小生物制造領(lǐng)域的創(chuàng)新差距。生物治療開發(fā)人員的職責是設計和開發(fā)新藥,并建立一個鏈接,提供可以與 ML 集成的自動化解決方案。
(1)需要對生物傳感器進行深入研究,包括微流體傳感器和微型傳感器。高通量表型平臺應使用物聯(lián)網(wǎng)和生物燃料和生物制藥行業(yè)的混合建模進行連接。
(2)通過 ML 架構(gòu)設計提供的自動化無線軟傳感器網(wǎng)絡的使用,能夠部署和開發(fā)分散的智能產(chǎn)品質(zhì)量監(jiān)控系統(tǒng)。
(3)市場上需要一種低成本的無線傳感器節(jié)點解決方案來經(jīng)濟地實現(xiàn)這一 新一代系統(tǒng);谖锫(lián)網(wǎng)的模塊化設計(圖 2)表明,該系統(tǒng)具有在線和實時管理廢水質(zhì)量參數(shù)的功能。
(5)物聯(lián)網(wǎng)集成系統(tǒng)具有先進的功能,可在智能城市的配水系統(tǒng)中部署大規(guī)模傳感器,使用戶能夠近實時地識別污染發(fā)生和負面趨勢(圖 3 )。
(6)商業(yè)或公共機構(gòu)監(jiān)測和管理水質(zhì)的責任將能夠更快、更有效地應對問 題,減少有害影響,減少已發(fā)現(xiàn)的問題(即污染點和目標源)。基于 ML 的操作控制的未來使用旨在幫助研究人員和技術(shù)人員了解和分析 生物過程屬性、操作周期中的實時參數(shù)估計、診斷偏差和分析遇到的錯誤。
文章來源:Mondal PP, Galodha A, Verma VK, et al. Review on machine learning-based bioprocess optimization, monitoring, and control systems. Bioresour Technol. 2023;370:128523. doi:10.1016/j.biortech.2022.128523