News and information
2024.04.15來源: 人民郵電報編輯:媒體部
美國人工智能公司OpenAI推出GPT Store,掀起AI應用新潮流;谷歌遭遇裁員風波,聚焦AI戰略調整;特斯拉創始人埃隆·馬斯克起訴OpenAI,指控其背離了初衷,將人工智能用于盈利而非為人類福祉服務……近期,人工智能領域大模型聲勢高漲,產品與服務推陳出新,但同時也伴隨著諸多爭議,尤其是在數據安全方面。
AI大模型訓練是一個復雜而精細的過程,它依賴于大量的高質量數據來提升模型的性能和智能水平。在這個過程中,科技巨頭為了保持競爭優勢,不斷尋求更豐富的數據資源,包括文本、圖片、視頻以及專業領域的知識等,從而使AI模型能夠更好地生成和理解內容。
訓練AI模型時,數據的來源和使用方式也引起了公眾和法律界的廣泛關注。特別是當涉及版權、隱私和知識產權等敏感問題時,數據的使用就更需謹慎。最近,視頻網站YouTube首席執行官尼爾·莫漢(Neal Mohan)在一次采訪中提到了這一問題,他表示,盡管沒有直接證據表明OpenAI使用了YouTube的視頻內容來訓練其文生視頻AI工具Sora,但如果確實存在這種行為,那么這將明顯違反YouTube平臺的使用條款。
莫漢表示,YouTube平臺上的內容創作者有權對他們的作品進行控制,包括如何使用這些內容。當創作者將他們的作品上傳到YouTube時,他們期望這些內容能夠受到保護,并按照平臺的規則和他們與平臺之間的協議來使用。這意味著,任何未經授權的使用,尤其是用于商業目的的AI模型訓練,都可能構成侵權行為。
此外,《紐約時報》的報道認為,OpenAI和谷歌可能使用了YouTube視頻的轉錄文本來訓練他們的AI模型,這可能侵犯了內容創作者的版權。OpenAI被指控使用其Whisper語音識別工具轉錄了超過100萬小時的YouTube視頻內容,并用這些數據來訓練其模型。這一行為如果未經內容創作者的許可,就可能違反了版權法,并引發關于AI訓練數據合法性的討論。
在AI領域,數據的重要性不言而喻。隨著數據資源的日益緊張,如何合法、合規地獲取和使用數據成為一個亟待解決的問題。特別是在AI大模型備受矚目且承載厚望的當下,數據的質量、多樣性以及專業性等將直接決定AI模型生成內容的質量高低和適用場景的廣泛程度。
推動人工智能產業快速發展,要把保障數據安全放在突出位置。近年來,我國高度重視人工智能安全發展,逐步完善相關政策法規。國務院印發《新一代人工智能發展規劃》,提出面向2030年我國新一代人工智能發展的指導思想、戰略目標、重點任務和保障措施,部署構筑人工智能發展的先發優勢,加快建設創新型國家和世界科技強國。面向算法治理,出臺《關于加強互聯網信息服務算法綜合治理的指導意見》《互聯網信息服務算法推薦管理規定》等。面向人工智能合成技術的快速突破,出臺《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》等。在全球數字經濟激烈競爭格局下,科學把握風險防范的尺度至關重要。
以大模型為代表的人工智能技術,其潛能正日益顯現。要抓住這一技術所帶來的巨大機遇,必須同時警惕其潛在的安全風險和隱患。因此,科技企業需要采取更為透明和負責任的舉措來對待數據問題。這要求企業積極與內容創作者建立合作關系,確保獲取的數據擁有合法授權。同時,積極探索新的數據來源,例如利用合成數據和公開數據集。合成數據可以幫助解決數據匱乏、數據質量不高等問題,特別是在一些難以獲取真實數據的場景中,合成數據成為訓練AI模型的有效手段。此外,企業還需要加強內部的數據管理和合規審查,確保所有的數據使用都符合法律法規和道德標準。