在過去十年中,人工智能技術一直是安防行業智能化發展的核心驅動力,為行業注入了新的活力和機遇。在深度學習的熱潮中,安防是AI應用落地的先行者,當下大模型時代的開啟,安防行業再次站在了技術應用的前沿。目前,眾多安防企業正聚焦于多模態大模型等關鍵技術的研究,致力于推動這些技術的產業化應用,助力各行各業實現數字化和智能化的飛躍。
中國安全防范產品行業協會旗下《中國安防》雜志,對依圖科技總裁段愛國進行了深入的采訪,探討了智能安防行業中大模型的應用實踐、現狀,面臨的挑戰以及未來的發展趨勢,分享給大家。
多模態大模型落地 重塑智能安防新紀元
安防行業是應用AI和多模態大模型的先鋒領域。安防從高清化走向智能化階段,即AI安防1.0。這一階段,人臉識別、人體ReID、視頻結構化、車輛/非機動車結構化等技術是這個時期的重要創新成果。隨著安防技術產品在各個領域的廣泛應用,長尾算法的需求日益凸顯。傳統深度學習模型是基于監督學習方法訓練出來的,在面臨復雜場景時會有很多約束和限制,這導致了過去幾年間盡管AI安防取得了一定進展,但在實際應用落地效果上并未完全達到預期效果。現在,隨著大模型時代的到來,我們進入了AI安防2.0。基于Transformer架構的多模態大模型,顛覆了傳統安防行業的碎片化特點,并展現出以下三個主要特征:
一是“會思考”。多模態大模型不再像過去一樣只是某種算法、某種工具,而是呈現出助手、智能體的特征,讓機器看一遍視頻,它能夠準確識別視頻中的內容,將機器看視頻的能力轉化為直觀的算法,為行業帶來革命性的變革。
二是“可對話”。人們使用多模態大模型的過程更像與另外一個人交流。用戶可以通過語義搜索和語音指令調取視頻,例如僅需簡單地說出“請調取有積水的點位視頻”,系統便能迅速響應,展現所有相關的視頻片段。這一功能極大地提升了指揮調度的效率,節省了寶貴的決策和調度時間。
三是“能進化”。不能根據用戶和環境而進化的智能系統是工具,不是真智能。真正的智能系統能夠根據用戶需求和環境變化進行自我進化。以依圖天問大模型為例,它支持現場算法訓練,能夠根據實際應用需求快速迭代和優化。一個新的算法需求可以在1分鐘內實現0樣本冷啟動,1小時內完成在線標注訓練,并在1天內快速上線,展現了前所未有的智能化和靈活性。
因此,多模態大模型使視覺和語言的模型歸一,統一了物理世界和認知世界的底層框架,讓多模態的信息之間可以無差別表示和無縫轉換,為大模型的人機交互模式、產品迭代模式、服務運營模式提供了更多的可能性。AI 2.0走向安全生產、走向基于數據和算力驅動的智慧運營,是未來安防行業發展的方向。
數據、算法、算力的挑戰與解決方案
“數據、算法、算力”構成了人工智能的三大要素,大模型在安防行業落地過程中,首先,數據是AI的基礎,但目前大量數據沉睡在硬盤中未能得到有效利用。現有的視頻結構化技術對數據的挖掘能力有限,無法滿足精細管理的識別需求。為了解決這個問題,多模態大模型的引入成為了關鍵。多模態大模型能夠識別視頻中的內容,不管是小貓大狗塑料袋,還是公園天橋菜市場,不管是刀具橫幅行李箱,還是電瓶車帶煤氣罐,都可以精準識別,從而喚醒沉睡的數據,為安防領域帶來更豐富的信息。
其次,算法是AI的大腦,其需求本質上來源于業務需求,而非廠商實驗室的設想。因此,算法的開發和應用天然就需要與實際業務環境緊密結合。依圖天問大模型提供了算法現場訓練的能力,可以快速響應精細化管理需求,一個新的算法需求可以實現快速上線。這不僅符合數據合法保護的要求,同時也滿足了業務對算法時效性的需求,確保算法能夠快速響應并適應變化。
第三,算力成本是決定 AI 大模型應用規模的關鍵因素。當前高昂的算力成本限制了大模型的廣泛應用。在模型調優上,依圖基于視頻監控場景做語義調優,同時行業首款xPU融合架構的服務器把低成本的內存虛擬化為顯存統一尋址,從而在整體上達到了萬倍性能提升、百倍成本下降。
綜上所述,面對大模型落地應用過程中“數據、算法、算力”的挑戰,多模態大模型、算法現場訓練以及超融合架構的軟硬件優化是目前較為有效的解決策略。這些方案有助于推動安防大模型的落地應用,提高人工智能在安防領域的實用性和效率。
除了數據、算法、算力這三大核心要素外,大模型在場景落地和應用過程中還存在一些挑戰和困境:一是技術與現有安防系統的兼容性問題,需要確保新技術能夠無縫集成到現有的基礎設施中;二是用戶接受度問題,特別是對于新興技術的適應和信任;三是法規和標準滯后于技術發展,可能導致應用上的不確定性和合規風險。還有跨領域技術整合的復雜性,這需要多學科知識和技術的融合;四是商業化落地難題,尤其是在高度定制化和成本控制方面,需要找到平衡點以實現可持續的商業模式。解決這些問題需要行業內外的共同努力,包括政策支持、行業協作、技術研發和市場教育等。
大模型落地應用正迅速推進
得益于大模型的深度內容理解、廣泛的適應性與場景泛化能力,以及更自然的人機交互體驗,智能安防領域的大模型落地應用正迅速推進。作為人工智能領域的資深從業者,依圖在2023年7月首個發布“天問”多模態大模型,這一創新成果目前已在全國幾十個項目中部署實戰,它在視頻語義搜索、萬物識別、AI智能體編排以及算法零樣本冷啟動等方面展現出巨大潛力。在具體場景中,公共安全、智慧城市建設、智慧交通、內容審核和智慧園區、智慧應急等方向的應用進展顯著,這些領域對視頻分析、行為識別和實時反應的需求不斷增長。以2023年下半年西部某省份發生的烈性犬傷人事件為例,城運中心的工作人員面臨快速生成烈性犬檢測算法并布控到城市公共區域的挑戰。如果采用常規深度學習的算法訓練方法,要求數據搜集、標注、訓練,一個新算法的產生至少需要半個月,這嚴重影響了管理的時效性。而基于多模態大模型的算法訓練方法大大簡化了這一過程。預訓練的大模型基座帶來近70%的準確性,工作人員在預警處置的過程中僅需簡單點擊預警的對錯,不到5天的時間就可以完成超過90%的算法準確率。現場生產新算法的能力展現了驚人的速度和靈活性,有效保障了公共安全。這種以用戶需求為核心,以技術創新為驅動的策略,是推動AI 2.0發展的關鍵動力。隨著技術的不斷進步,預計未來智能安防的大模型將在更多細分市場和復雜場景中發揮關鍵作用,特別是在需要高度個性化和動態適應性的場景中,大模型的應用將更具潛力。
智能安防行業大模型發展前景可期
智能安防行業的大模型正處在突破性發展的前夜,其發展趨勢和前景十分廣闊。隨著大模型技術的進一步發展,特別是多模態大模型的應用,促使安防系統正從傳統的視覺監控向更深層次的內容理解、場景適應性和人機交互發展。未來的智能安防將更加注重數據和算力的結合,推動傳統安全防范到安全生產管理的轉變,以及智慧運營的實現。在這樣的趨勢指引下,依圖在當前新一輪AI浪潮下將聚焦技術創新和產品落地的深度融合,加強多模態大模型技術與領域知識深度結合的產品與方案,打造更懂行業、更懂客戶、更懂場景、更易使用的產品,助力“AI+”能更快地在各行業落地,拓展人工智能新疆界,開啟視頻情境理解的新紀元!
您可以復制這個鏈接分享給其他人:http://www.jisvip.com/node/929