所有人都歡呼我們的新 AI 霸主

人工智能將對我們的生活產生巨大影響。我們如何為此做好準備？

免責聲明：作者僅代表個人觀點，並不代表卡巴斯基（公司）的官方立場。

除了定義 2022 年的各種地緣政治事件之外，在技術層面上，這是人工智能的一年。我不妨從乾淨開始：直到最近，每當我被問及網路安全中的 AI 時，我都會將其視為軟硬體。我一直都知道機器學習有很多現實世界的應用；但對於訊息安全世界的我們來說，AI 只被用在最危險的產品推薦。對我來說，“人工智能驅動”只是供應商表達“我們沒有現成的知識庫或遙測技術，所以我們設計了一些啟發式方法”的一種優雅方式。我仍然相信，在超過 95% 的情況下，最終的產品也幾乎不包含真正的人工智能。但問題是，當營銷團隊忙於在任何涉及k均值的產品上貼上“AI”標籤時微積分作為其運作的一部分，真正的人工智能領域實際上正在取得進展。

當我第一次嘗試DALL-E 2（之後不久，Midjourney）時，我的清算日到來了。這兩個項目都允許您根據文本描述生成圖像，並且已經在藝術界引起了重大動盪。

這幅畫是在 Midjourney 中使用提示“All hail our new AI overlords”生成的

然後，在去年 12 月，ChatGPT風靡全球。簡單地說，ChatGPT 是一個聊天機器人。我假設大多數人此時已經嘗試過，但如果您還沒有嘗試過，我強烈建議您嘗試一下（請確保不要將它與病毒混淆）。沒有任何語言可以表達它比以前的項目有多大改進，僅僅聽到它是不夠的。你必須體驗它才能感受到即將發生的一切……

ChatGPT 不言而喻

語言模型

用 Arthur C. Clarke 的話來說，“任何足夠先進的技術都與魔法沒有區別”。我喜歡技術有時如何將這種驚奇感帶入我們的生活，但不幸的是，當我們試圖思考新突破的含義或局限性時，這種感覺就會成為障礙。出於這個原因，我認為我們首先需要花一些時間了解這些技術在幕後是如何工作的。

讓我們從 ChatGPT 開始。這是一個語言模型；換句話說，它代表了我們的語言。與許多大型機器學習項目的情況一樣，沒有人真正知道這個模型是如何工作的（甚至不知道它的創建者 OpenAI）。我們知道模型是如何創建的，但它太複雜了，無法被正式理解。ChatGPT 是迄今為止最大的（公共？）語言模型，擁有超過 1750 億個參數。要理解這意味著什麼，請想像一台擁有 1750 億個旋鈕的巨型機器。每次您向 ChatGPT 發送文本時，此文本都會轉換為每個旋鈕的設置。最後，機器根據他們的位置產生輸出（更多文本）。還有一個隨機性元素，以確保相同的問題不會總是導致完全相同的答案（但這也可以進行調整）。

這就是為什麼我們將此類模型視為黑盒子的原因：即使您將一生都花在研究機器上，也不清楚您是否能夠弄清楚單個旋鈕的用途（更不用說所有旋鈕了） . 儘管如此，我們仍然知道機器的作用，因為我們知道它的生成過程。語言模型是一種可以處理文本的算法，它在訓練階段接受了很多文本：所有維基百科、抓取的網頁、書籍等。這允許創建一個統計模型，該模型知道具有的可能性一個字接一個字。如果我說“玫瑰是紅色的，紫羅蘭是”，你可以比較有把握地猜到下一個詞是“藍色”。簡而言之，這就是任何語言模型的工作原理。對於這樣的模特，完成你的句子與根據之前閱讀的所有內容猜測你的問題後面可能出現的單詞序列沒有什麼不同。在 ChatGPT 的案例中，實際上還涉及一個步驟——稱為監督微調。人類“人工智能培訓師”與機器人進行了多次交談，並標記了所有被認為有問題的答案（不准確、有偏見、種族主義等），這樣它就會學會不再重複這些問題。

如果您不能全神貫注於 AI，請將其歸入“數學”或“統計”：這些模型的目標是預測。使用 ChatGPT 時，我們很容易產生人工智能“知道”事物的感覺，因為它能夠針對它第一次看到的查詢返回上下文相關和特定領域的訊息。但它不理解任何單詞的含義：它只能生成更多文本，“感覺”就像是給定內容的自然延續。這解釋了為什麼 ChatGPT 可以展開復雜的哲學論證，但經常在基本算術上出錯：預測微積分的結果比預測句子中的下一個單詞更難。

此外，它沒有任何記憶：它的訓練在 2021 年結束，模型被凍結。更新以使用新數據訓練的新模型（即 2024 年的 GPT-4）的形式出現。事實上，ChatGPT 甚至不記得您與之進行的對話：最近的聊天記錄會與您鍵入的任何新文本一起發送，以便對話感覺更自然。

這是否仍然符合“智能”的條件（以及這是否與人類智能有顯著差異）將成為未來幾年激烈的哲學辯論的主題。

擴散模型

Midjourney 和 DALL-E 等圖像生成工具基於另一類模型。顯然，他們的訓練過程側重於生成圖像（或像素集合）而不是文本。根據文字描述生成圖片實際上需要兩個組件，第一個非常直觀。該模型需要一種將單詞與視覺訊息相關聯的方法，因此它需要輸入帶字幕的圖像集合。就像 ChatGPT 一樣，我們最終得到了一個巨大的、難以理解的機器，它非常擅長將圖片與文本數據進行匹配。機器不知道布拉德皮特的臉長什麼樣，但如果它看過足夠多的他的照片，它就會知道它們都有共同的特徵。如果有人提交一張布拉德皮特的新照片，模特就能認出他並說“是的，又是他”。

我發現更令人驚訝的第二部分是增強圖像的能力。為此，我們使用“擴散模型”，在乾淨的圖像上訓練，逐漸向其中添加（視覺）噪聲，直到它們變得無法識別。這使得模型能夠學習模糊、低質量圖片與其高分辨率對應物之間的對應關係——同樣是在統計層面上——並從嘈雜的圖像中重建出一張好的圖像。實際上有一些人工智能產品專門用於對舊照片進行降噪或提高其分辨率。

用於使用我可信賴的頭像訓練擴散模型的圖像質量越來越低的示例

將所有東西放在一起，我們能夠合成圖像：我們從隨機噪聲開始，逐漸“增強”它，同時確保它包含與用戶提示相匹配的特徵（可以在此處找到 DALL-E 內部的更詳細描述).

錯誤的問題

本文中提到的所有工具的出現都引起了強烈的公眾反應，其中一些是非常負面的。人們對人工智能突然闖入我們的生活感到擔憂是合理的，但在我看來，目前的大部分辯論都集中在錯誤的問題上。讓我們先解決這些問題，然後再繼續討論我認為應該成為圍繞 AI 的討論的核心。

DALL-E 和 Midjourney 竊取了真正的藝術家的作品

有幾次，我看到這些工具被描述為將他們以前見過的圖像拼湊而成的程序，然後應用某種過濾器，使它們能夠模仿所請求的藝術家的風格。任何提出這種說法的人，不是不了解底層模型的技術現實，就是在惡意爭論。

如上所述，該模型完全無法從其訓練的圖像中提取圖像，甚至是簡單的形狀。它能做的最好的事情就是提取數學特徵。

人們認為 DALL-E 的起點（左）與 DALL-E 的實際起點（右）

不可否認，許多版權作品在未經原作者明確同意的情況下被用於訓練階段，也許對此需要進行討論。但同樣值得指出的是，人類藝術家在學習過程中遵循完全相同的過程：他們臨摹大師的畫作，並從他們遇到的藝術品中汲取靈感。什麼是靈感，如果不是捕捉藝術作品本質的能力以及重新探索它的動力？

DALL-E 和 Midjourney 引入了一個突破，從理論上講，他們能夠從人類歷史上產生的每一張照片（並且很可能，從現在開始產生的任何一張照片）中獲得靈感，但這只是規模上的變化——而不是在自然界。

沃爾夫岡·阿瑪迪斯·莫扎特在訓練階段從藝術家那裡偷竊的令人信服的證據

人工智能讓事情變得太簡單

這種批評通常暗示藝術應該是硬的。對我來說，這一直是一個令人驚訝的想法，因為一件藝術品的觀察者通常對它的製作付出了多少（或多少）努力知之甚少。這不是一個新的爭論：在 Photoshop 發布多年後，許多人仍在爭論數字藝術不是真正的藝術。那些說使用Photoshop還是需要技巧的人提出來的，但我認為他們也沒有抓住重點。羅伯特·勞森伯格 (Robert Rauschenberg) 需要多少技巧才能在畫布上塗上白色顏料？在您可以演奏 John Cage 臭名昭著的4’33″之前，您需要多少音樂練習？

即使我們要引入技巧作為藝術的標準，我們又會在哪裡劃清界限呢？多少努力才算足夠？當攝影術被發明時，查爾斯·波德萊爾稱其為“每一個想成為畫家的人的避難所，每一個因天分太差或太懶惰而無法完成學業的畫家”（他並不是唯一一個這樣評價的人）。結果他錯了。

ChatGPT 幫助網路犯罪分子

隨著人工智能的興起，我們將看到全面的生產力提高。現在，許多媒體和供應商正在竭盡全力搭上 ChatGPT 炒作的便車，這導致了最近歷史上最可恥的點擊誘餌。正如我們之前所寫，ChatGPT 可能會幫助犯罪分子起草網路釣魚電子郵件或編寫惡意代碼——這些都不是限制因素。熟悉 GitHub 存在的人都知道惡意軟體的可用性對於惡意行為者來說不是問題，任何擔心加快開發速度的人都應該在Copilot發佈時提出這些擔憂。

我意識到揭穿出於瑣碎的經濟考慮而不是真正的擔憂而引發的媒體狂熱是愚蠢的，但事實是：人工智能將對我們的生活產生巨大影響，並且有真正的問題需要解決。所有這些噪音只是阻礙。

回不去了

無論您對 2022 年發布的所有 AI 支持的工具感覺如何，都知道還會有更多工具問世。如果你認為該領域在失控之前會受到監管，請再想一想：到目前為止，我所看到的政治反應主要是政府決定在人工智能研究方面投入更多資金，同時他們還能迎頭趕上。沒有當權者有興趣放慢這件事的速度。

第四次工業革命

人工智能將導致——或者可能已經導致——生產力的提高。目前還很難想像它們有多大/將有多大。如果你的工作是製作半啟發性的文本，你應該擔心。如果您也是一名從事佣金工作的視覺設計師，這也適用：總會有客戶想要人性化的服務，但大多數人會選擇便宜的選擇。但這還不是全部：逆向工程師、律師、教師、醫生和更多人應該期待他們的工作發生深刻的變化。

要記住的一件事是 ChatGPT 是一個通用的聊天機器人。在未來幾年，專用模型將出現並在特定用例上勝過 ChatGPT。換句話說，如果 ChatGPT 現在不能勝任你的工作，很可能未來五年發布的新 AI 產品可以勝任。我們的工作，我們所有的工作，都將涉及監督人工智能並確保其輸出正確，而不是我們自己做。

AI 有可能會撞到復雜性的牆而不再進步——但在多次犯錯之後，我學會了不要在這個領域做空。人工智能會像蒸汽機那樣改變世界嗎？我們應該希望它不會發生，因為生產資料的殘酷轉移改變了人類社會的結構，而這永遠不會和平發生。

人工智能偏見和所有權

關於 AI 工具的偏見已經有很多說法，不再贅述。一個更有趣的主題是 OpenAI 對抗這些偏見的方式。正如上文所述，ChatGPT 經歷了一個監督學習階段，語言模型基本上學會了不偏執。雖然這是一項理想的功能，但人們不禁注意到，這個過程有效地教會了聊天機器人一種新的偏見。這個微調階段的條件是不透明的：標記“錯誤”答案的無名英雄是誰？第三世界國家的低薪工人，還是矽谷的工程師？（劇透：是前者。）

同樣值得記住的是，人工智能產品不會為共同利益服務。目前設計的各種產品由公司所有，這些公司始終首先受利潤驅動，這些利潤可能與人類的最大利益重疊，也可能不重疊。就像谷歌搜索結果的變化會對人們產生可衡量的影響一樣，人工智能夥伴或顧問將有能力以微妙的方式影響用戶。

現在怎麼辦？

由於問題似乎不再是人工智能是否會進入我們的生活，而是何時進入我們的生活，我們至少應該討論如何為它做好準備。

我們應該非常警惕 ChatGPT（或其任何後代）最終處於做出無人監督決策的境地：ChatGPT 非常擅長展示信心，但仍然有很多事實是錯誤的。然而，將有巨大的動力來削減成本並讓人類擺脫困境。

我還預測，在接下來的十年中，所有可用的在線內容（首先是文本和圖片，然後是影片和遊戲）中的大部分都將由 AI 製作。我認為我們也不應該過分依賴自動標記此類內容的可靠工作——我們只需要對在線閱讀的內容持批評態度，並在十倍的噪音中艱難前行。最重要的是，我們應該警惕即將到來的專業模型。當四大之一用稅法訓練模型並開始詢問漏洞時會發生什麼？當軍方人員玩 ChatGPT 並說：“是的，我想要在我的無人機中使用一些”時會發生什麼？

人工智能將是驚人的：它將接管許多無聊的任務，為每個人帶來新的能力，並啟動全新的藝術形式（是的）。但人工智能也將是可怕的。如果歷史有任何跡象，它將導致權力進一步集中，並將我們推向技術封建主義的道路。它將改變工作的組織方式，甚至可能改變我們與人類知識庫的關係。我們不會對此有發言權。

潘多拉寶盒現已打開。

所有人都歡呼我們的新 AI 霸主ChatGPT

所有人都歡呼我們的新 AI 霸主

語言模型

擴散模型