AI 能創造出人類難以想像的圖像及畫作

Written by Patrick Guan

Let's have a glance at the future together. Tech creates magic. #Python #HTML #CSS

July 16, 2022

一家名為 OpenAI 的公司最近宣布了其 AI 藝術家 DALL-E 2 的新版本。只需一個描述圖片的簡短句子,該工具就可以創建多種不同風格的複雜圖像。

根據人工智能公司 OpenAI 解釋, “ALL-E”這個名字起源自 Pixel 電影《WALL-E》中機器人的名字,以及西班牙畫家Salvador Dalí的名字。喻意著這款AI 也能像 Dalí 般創造出不可思義的圖畫及影像。

例如以下這副神奇的畫作,只需要向AI輸入文字『有著「蒸氣龐克」風格的泰迪熊科學家們,正在調劑一些化學混合物。』

然後DALL-E 2 就創造出了這幅圖片,展示出AI能夠了解人類世界語言的能力,即使龐克這種抽象的風格,都能夠完美的展示在圖片之中。這種程度的理解,展示的技術,都非常的優秀,背後使用的技術就是深度學習(Deep Learning),下文希望能更詳細的解釋。

(Source: OpenAI)

Open AI 提供的應用場景

( Open AI的網頁上也提供著相關的場景,讓大家去感受DALL-E 2的能力;Source: OpenAI

如何運用深度學習訓練AI

OpenAI 是一家專注於人工智能 (AI) 不同用途的公司。它的大部分產品都基於一種稱為「深度學習」的人工智能運用。深度學習,是機器學習的分支,以人工神經網路為架構,對資料進行表徵學習的算法。電腦程序會對大量信息進行深度分類,使它們能夠找到人類通常無法注意到的模式。這些模式被存儲在一個「模型」中,然後在未來需要的時候,邊會應用這些模式到不同的場景之中。

用另一個角度去理解的話,台大電機系助理教授李宏毅形容:「深度學習其實很簡單,就跟把大象放進冰箱一樣,只需三個步驟:『打開冰箱、放進大象、關上冰箱門。』李教授說,「深度學習也只要三個步驟:建構網路、設定目標、開始學習,說穿了就是這麼簡單。」丟進去一些數值,整個網路就輸出一些數值,從這裡面找出一個最好的結果,也就是機器運算出來的最佳解法。人類可以參考電腦的結果去做下一步的決。

Source: OpenAI

DALL-E 是以核心AI技術 GPT-3 為基礎,應用於圖像的領域。GPT-3 是OpenAI 稍早於2020年發布的書寫程式,透過接受大量不同風格的寫作訓練,能夠快速完成一篇語法暢順、文筆通順的文章。 同樣地DALL-E 2 接受了大量具有匹配文字描述的圖片訓練(例如照片、繪畫甚至卡通)。它不斷累積經驗,「知道」人類是如何標籤不同事物及理解事物的外觀。

DALL-E 背後更強大的能力,來自於它可以結合事物的外觀時,能以奇特的方式或有異於人類的角度將它們組合起來。(來源:OpenAI。)DALL-E 以隨機點圖案開始其圖像。然後它會改變這些點的圖案,直到圖像的不同部分開始與給出的描述匹配。

Source: OpenAI

AI的道德規範

儘管如此,OpenAI 也會擔心 DALL-E 的力量過於強大。該公司希望確保該工具不會被濫用,對可以使用 DALL-E 創建的圖像種類有著嚴格的規定,其中一項規則便是阻止DALL-E 創建真實人物的圖片。可以想像如果自己的面貌出現在未知的場景,將會是多麼可怕的事情。由此可見,DALL-E 2的出現,既有好處,其亦有壞處,最終視乎用家如何取捨。

目前,該公司沒有發布 DALL-E 2。它允許少數人使用該工具來了解更多關於什麼是有效的,並試著發現潛在的問題。

More Featured Articles

Let's have a chat?