我們都知道,AI的發展離不開大量的數據。大數據和大模型構成了AI的兩條腿,缺一不可。一提到AI,就會說訓練模型的數據量有多大,到目前為止頂尖AI訓練模型的數據參數規模已經到了萬億級別,不可謂不大,可以說是真的大數據了。
然后AI卻不一定是數據越多,模型越大就是最好的,在很多場景下,尤其是在傳統行業,基于公開數據進行預訓練的大模型好像就不靈了。很多時候,并不需要那么多的數據,數據量大反而會裹挾很多用不到的數據,影響運算效率和最終的產出。

隨著各國的數據和隱私安全法規的紛紛落地,能拿到的公開數據量或者能夠合法使用的數據量,已經不能跟前幾年同日而語,AI的大數據紅利期已經過去。
根據Gartner的報告,到2025年,70%的組織將被迫將重點從大數據轉移到小數據和泛數據,并減少AI對數據的需求。但這并不意味著大數據以及AI的發展會止步不前。
以往的大數據一味地追求數據參數規模大,對數據質量的把控比較薄弱,在數據應用方面也不夠普遍。反而小數據和泛數據更符合國內企業的實際,可以根據具體的場景構建特定的數據模型,從而生成商業洞察和實現自動化決策。
而目前,小數據的處理方案也是多種多樣,常見的有少樣本學習、知識圖譜、遷移學習、自監督學習、合成數據等。

大數據固然好,但小數據才是常態,尤其是在各國陸續出臺針對個人數據保護的政策法規之后,大規模收集個人相關的數據收集開始變得很難。但即使這樣,通過科學的數據采集、數據治理,小數據也一樣可以發揮大作用。
光點科技自主研發的GI大數據中臺系統,就是幫助客戶把海量分散且異構的數據建立數據標準,統一口徑后采集存儲起來,再通過大數據、機器學習等方式進行價值提煉,形成企業數據資產,為政企單位的商業洞察和自動化決策提供支持,賦能前端業務。
數據無疑已經成為了這個時代最重要的生產要素,作為政企單位重要的戰略資源,那些優質的小數據,即使參數量級不大,潛力也不容小覷,在不遠的未來必將發揮更大的價值。