亚洲狼人综合,本道综合精品,在线看福利影,国产亚洲精品久久久玫瑰,日韩欧美精品在线观看,日韩在线国产,欧美乱码一区二区三区

AI界的七大未解之謎:OpenAI丟出一組AI研究課題

2018-02-02 16:14:04 量子位  點(diǎn)擊量: 評論 (0)
今天,OpenAI在官方博客上丟出了7個研究過程中發(fā)現(xiàn)的未解決問題。OpenAI希望這些問題能夠成為新手入坑AI的一種有趣而有意義的方式,也幫助

今天,OpenAI在官方博客上丟出了7個研究過程中發(fā)現(xiàn)的未解決問題。

OpenAI希望這些問題能夠成為新手入坑AI的一種有趣而有意義的方式,也幫助從業(yè)者提升技能。

OpenAI版AI界七大未解之謎,現(xiàn)在正式揭曉——

AI界的七大未解之謎:OpenAI丟出一組AI研究課題

 

1. Slitherin’

難度指數(shù):☆☆

實(shí)現(xiàn)并解決貪吃蛇的多玩家版克隆作為Gym環(huán)境。

環(huán)境:場地很大,里面有多條蛇,蛇通過吃隨機(jī)出現(xiàn)的水果生長,一條蛇在與另一條蛇、自己或墻壁相撞時即死亡,當(dāng)所有的蛇都死了,游戲結(jié)束。

智能體:使用自己選擇的自我對弈的RL算法解決環(huán)境問題。你需要嘗試各種方法克服自我對弈的不穩(wěn)定性。

檢查學(xué)習(xí)行為:智能體是否學(xué)會了適時捕捉食物并避開其他蛇類?是否學(xué)會了攻擊、陷害、或者聯(lián)合起來對付競爭對手?

2. 分布式強(qiáng)化學(xué)習(xí)中的參數(shù)平均

難度指數(shù):☆☆☆

這指的是探究參數(shù)平均方案對RL算法中樣本復(fù)雜度和通信量影響。一種簡單的解決方法是平均每個更新的每個worker的梯度,但也可以通過獨(dú)立地更新worker、減少平均參數(shù)節(jié)省通信帶寬。

這樣做還有一個好處:在任何給定的時間內(nèi),我們都有不同參數(shù)的智能體,可能出現(xiàn)更好的探測行為。另一種可能是使用EASGD這樣的算法,它可以在每次更新時將參數(shù)部分結(jié)合在一起。

3. 通過生成模型完成的不同游戲中的遷移學(xué)習(xí)

難度指數(shù):☆☆☆

這個流程如下:

訓(xùn)練11個Atari游戲的策略。從每個游戲的策略中,生成1萬個軌跡,每個軌跡包含1000步行動。

將一個生成模型(如論文Attention Is All You Need提出的Transformer)與10個游戲產(chǎn)生的軌跡相匹配。

然后,在第11場比賽中微調(diào)上述模型。

你的目標(biāo)是量化10場比賽預(yù)訓(xùn)練時的好處。這個模型需要什么程度的訓(xùn)練才能發(fā)揮作用?當(dāng)?shù)?1個游戲的數(shù)據(jù)量減少10x時,效果的大小如何變化?如果縮小100x呢?

4. 線性注意Transformer

難度指數(shù):☆☆☆

Transformer模型使用的是softmax中的軟注意力(soft attention)。如果可以使用線性注意力(linear attention),我們就能將得到的模型用于強(qiáng)化學(xué)習(xí)。

具體來說,在復(fù)雜環(huán)境下使用Transformer部署RL不切實(shí)際,但運(yùn)行一個具有快速權(quán)重(fast weight)的RNN可行。

你的目標(biāo)是接受任何語言建模任務(wù),訓(xùn)練Transformer,然后找到一種在不增加參數(shù)總數(shù)情況下,用具有不同超參數(shù)的線性注意Transformer獲取每個字符/字的相同位元的方法。

先給你潑盆冷水:這可能是無法實(shí)現(xiàn)的。再給你一個潛在的有用提示,與使用softmax注意力相比,線性注意轉(zhuǎn)化器很可能需要更高的維度key/value向量,這能在不顯著增加參數(shù)數(shù)量的情況下完成。

5. 已學(xué)習(xí)數(shù)據(jù)的擴(kuò)充

難度指數(shù):☆☆☆

可以用學(xué)習(xí)過的數(shù)據(jù)VAE執(zhí)行“已學(xué)習(xí)數(shù)據(jù)的擴(kuò)充”。

我們首先可能需要在輸入數(shù)據(jù)上訓(xùn)練一個VAE,然后將每個訓(xùn)練點(diǎn)編碼到一個潛在的空間,之后在其中應(yīng)用一個簡單(如高斯)擾動,最后解碼回到觀察的空間。用這種方法是否能得到更好的泛化,目前還是一個謎題。

這種數(shù)據(jù)擴(kuò)充的一個潛在優(yōu)勢是,它可能包含視角變換、場景光纖變化等很多非線性轉(zhuǎn)換。

6. 強(qiáng)化學(xué)習(xí)中的正則化

難度指數(shù):☆☆☆☆

這指的是實(shí)驗性研究和定性解釋不同正則化方法對RL算法的影響。

在監(jiān)督學(xué)習(xí)中,正則化對于優(yōu)化模型和防止過擬合具有極其重要的意義,其中包含一些效果很贊的方法,如dropout、批標(biāo)準(zhǔn)化和L2正則化等。

然而,在策略梯度和Q-learning等強(qiáng)化學(xué)習(xí)算法上,研究人員還沒有找到合適的正則化方法。順便說一下,人們在RL中使用的模型要比在監(jiān)督學(xué)習(xí)中使用的模型小得多,因為大模型表現(xiàn)更差。

7. Olympiad Inequality問題的自動解決方案

難度指數(shù):☆☆☆☆☆

Olympiad Inequality問題很容易表達(dá),但解決這個問題往往需要巧妙的手法。

建立一個關(guān)于Olympiad Inequality問題的數(shù)據(jù)集,編寫一個可以解決大部分問題的程序。目前還不清楚機(jī)器學(xué)習(xí)在這里是否有用,但你可以用一個學(xué)習(xí)的策略減少分支因素。

 

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:任我行

免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個贊
?