人工智慧(AI)應用對數據消耗有著無盡的需求。當今用於商業應用的 AI 模型是為了吸收大量複雜資料集而建構的。然而,收集和管理用於訓練人工智慧模型的數據的成本可能是驚人的。在物聯網(IoT),例如,在大數據規模的網路中部署感測器和其他機器的成本可能非常昂貴。
但是,如果您的 AI 產品的訓練資料可供用戶在線上訪問,該怎麼辦?模仿合法用戶的不良行為者可以竊取您收集的大量數據,然後使用這些訓練數據廉價地建立競爭的 AI 產品。資料遺失給競爭對 廣告數據 手可能意味著失去市場佔有率。例如,在中國,一家公司投入巨資在公車上安裝感測器網絡,以收集即時公車位置資料。該公司開發了一款流行的人工智慧應用程序,可以高精度地預測未來的公車時間。該人工智慧應用程式使用感測器收集的即時公車位置資料進行訓練。一家競爭對手編寫了一個機器人,可以抓取即時公車位置數據,以提高其競爭對手的人工智慧應用程式的準確性。雖然最終訴諸法庭,但由於即時公車位置數據被競爭對手奪走,該公司仍然遭受了經濟損失和品牌損害。
考慮到訓練資料被競爭對手遺失的風險,制定擁有或以其他方式保護企業訓練資料的策略至關重要。但是這些策略是什麼?
版權可以保護人工智慧產品的訓練資料嗎?
是的,但是訓練資料的版權保護可能很薄弱。訓練資料的單一資料元素不能受到版權保護,但如果資料元素的選擇或排列具有原創性,則訓練資料的組織結構可以受到保護。然而,在大數據規模上,訓練資料可能很混亂且不斷增長。