√天堂最新版在线中文字幕,国产思思99re99在线观看,男人扒开添女人下部免费视频


首頁
產品系列
行業應用
渠道合作
新聞中心
研究院
投資者關系
技術支持
關于創澤
| En
 
  當前位置:首頁 > 新聞資訊 > 機器人知識 > 深度解析大規模參數語言模型Megatron-BERT  
 

深度解析大規模參數語言模型Megatron-BERT

來源:智東西      編輯:創澤      時間:2020/6/18      主題:其他   [加盟]
大家好,我是NVIDIA解決方案架構師王閃閃。今天主要和大家分享兩個部分的內容:

1.  BERT模型深度解析

2.  大規模參數的語言模型Megatron-BERT

我們今天主要是溫故知新我先帶大家復習一下BERT模型的整體架構,內容不會特別偏數學,主要把BERT一些要點給大家說清楚,包括BERT的輸入/輸出以及具體它是怎么工作的,然后介紹NVIDIA基于BERT開發出的一系列好的模型。

首先介紹一下自然語言處理常見的應用方向,第一類是序列標注,比如命名實體的識別、語義標注、詞性標注,循環智能也是用了序列標注。第二類是分類任務,如文本分類和情感分析,這個方向目前在量化金融領域,尤其是對沖基金上應用性很強,尤其是情感分析。我記得3、4年前,有一條新聞說斯坦福大學的一個碩士生,暑期在他的宿舍里用幾塊GPU卡,自己搭建了一個小的超級計算機,他把Twitter上的信息全部錄下來,每天更新。他使用了BERT進行情感分析,把每天每個人的信息分成三類:positive積極、neutral中性、negative消極。他把三類情感的量化信息和當天納斯達克股票的升跌情況匯總,進行了統計分析,發現如果Twitter上的信息大部分都是積極的,那么股票就有很大的概率會上漲。我們現在把這類數據叫做情感分析因子,它在股票分析上是一個特別重要的推進方向,能讓模型越發準確。第三類NLP應用方向就是對句子關系的判斷,如自然語言的推理、問答系統,還有文本語義相似性的判斷。最后一類,是生成式任務,如機器翻譯、文本摘要,還有創造型的任務比如機器寫詩、造句等。

BERT模型深度解析

現在我們進入正題:對BERT的講解。要了解BERT,首先我們要說一下Transformer,因為BERT最主要就是基于Transformer和注意力機制,這兩點也是BERT能從GPT、RNN、LSTM等一系列架構中能脫穎而出的很大原因。Attention,專業的叫法是Attention Mechanism,Attention是一個Encoder+Decoder的模型機制。Encoder-Decoder模型是在深度學習中比較常見的模型結構:在計算機視覺中這個模型的應用是CNN+RNN的編輯碼框架;在神經網絡機器翻譯的應用是sequence to sequence模型,也就是seq2seq。而編碼(Encoder)就是將序列編碼成一個固定長度的向量,解碼(Decoder)就是將之前生成的向量再還原成序列。

那么問題來了,為什么要在Encoder-Decoder模型機制中引入Attention呢?因為 Encoder-Decoder模型有兩個比較顯著的弊端:

一是Encoder會把序列信息壓縮成一個固定長度的向量,那么在Encoder的輸出中,我們暫且把它叫做語義編碼c,c就有可能無法完全地表示出全部序列的信息,尤其是當信息特別長時。

二是先輸入到網絡中的信息會被后輸入的信息覆蓋掉,輸入的信息越長,對先前輸入信息的遺忘程度就越大。因為這兩個弊端,Decoder在解碼的一開始就沒有獲得一個相對完整的信息,也就是語義編碼c沒有一個相對完整的信息輸入,那么它解碼的效果自然就不好。有的同學可能會說想要解決RNN記憶力差的問題,可以考慮用LSTM。我們的確可以考慮LSTM,但LSTM對超長距離的信息記憶,效果也不是很好。

我們再來看看Attention為什么能夠解決這個問題。Attention,顧名思義是注意力。它是模仿人類的注意力,人類在處理一個問題時會把注意力放到那個特別重要的地方,比如我們在短時間內去看一張照片,第一眼落到照片上的位置可能是某個建筑物或者是某個人,這取決于我們不同的目的和興趣等。我們不會在短時間之內記清楚甚至是看清楚照片上的全部細節,但是我們會將注意力聚焦在某個特定的細節上并記住它。Attention模型最終輸出結果也是能夠達到這么一個效果。 

Attention的機制最早也是應用在計算機視覺上面,然后是在自然語言處理上面發揚光大。由于2018年在GPT模型上的效果非常顯著,所以Attention和 Transformer才會成為大家比較關注的焦點。之所以Attention的能力在NLP領域得到了徹底釋放,是因為它解決了RNN不能并行計算的弊端,Attention使其每一步的計算不依賴于上一步的計算,達到和CNN一樣的并行處理效果。并且由于Attention只關注部分的信息,所以它的參數較少,速度就會快。其次RNN記憶能力較差,所以大家一開始想到的解決方式都是用LSTM和GRU(Gated Recurrent Unit)來解決長距離信息記憶的問題,但是都沒有起到很好的效果。Attention由于只關注長文本中的一個小部分,可以準確地識別出關鍵信息,所以取得了特別不錯的效果。

下面我們來說一下Attention是怎么實現的聚焦。主要是因為它是采用了雙向的RNN,能夠同時處理每個單詞前后的信息。在Decoder中,它首先計算每一個Encoder在編碼隱藏層的狀態,然后會和Decoder隱藏層狀態比較,做出相關程度的評定。得到的權值會通過softmax歸一化得到使用的權重,也就是我們前面所說的編碼向量c。然后對Encoder中對應的不同狀態的權重進行加權求和,有了編碼c之后,我們就可以先計算Decoder隱藏層的狀態,然后再計算Decoder的輸出。這就是一個比較完整的在BERT當中運用Attention以及Encoder-Decoder模型的使用案例。Attention根據計算區域、權值的計算方式等會有很多不同變種。

不止是在NLP領域,在其他很多領域中,Transformer的模型由于很好用都是大家首選的,主要的一個運用機制就是Attention。我們之后會說到的Transformer模型會用到 Multi-head Attention和Self-Attention。首先說一下Self-Attention,Self-Attention是將原文中每個詞和該句子中所有單詞之間進行注意力的計算,主要是為了尋找原文內部的關系。對應到閱讀理解任務,這個模型就可以判定一篇文章中的兩段話是不是同一個意思。Multi-head Attention,則是對一段原文使用多次的注意力,每次會關注到原文的不同部分,相當于多次地在單層中使用Attention,然后把結果給拼接起來。 







億級視頻內容如何實時更新

基于內容圖譜結構化特征與索引更新平臺,在結構化方面打破傳統的數倉建模方式,以知識化、業務化、服務化為視角進行數據平臺化建設,來沉淀內容、行為、關系圖譜,目前在優酷搜索、票票、大麥等場景開始進行應用

基于真實環境數據集的機器人操作仿真基準測試

通過使用仿真和量化指標,使基準測試能夠通用于許多操作領域,但又足夠具體,能夠提供系統的有關信息

看高清視頻,如何做到不卡頓

優酷智能檔突破“傳統自適應碼率算法”的局限,解決視頻觀看體驗中高清和流暢的矛盾

京東姚霆:推理能力,正是多模態技術未來亟需突破的瓶頸

姚霆指出,當前的多模態技術還是屬于狹隘的單任務學習,整個訓練和測試的過程都是在封閉和靜態的環境下進行,這就和真實世界中開放動態的應用場景存在一定的差異性

利用時序信息提升遮擋行人檢測準確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時序信息來輔助當前幀的遮擋行人檢測,目前該方法已在 Caltech 和 NightOwls 兩個數據集取得了業界領先的準確率

基于網格圖特征的琵琶指法自動識別

根據各種指法的具體特點,對時頻網格圖、時域網格圖、頻域網格圖劃分出若干個不同的計算區域,并以每個計算區域的均值與標準差作為指法自動識別的特征使用,用于基于機器學習方法的指法自動識別

知識圖譜在個性化推薦領域的研究進展及應用

新加坡國立大學NExT中心的王翔博士分析了知識圖譜在個性化推薦領域的應用背景,并詳細介紹了課題組在個性化推薦中的相關研究技術和進展,包括基于路徑、基于表征學習、基于圖神經網絡等知識圖譜在推薦系統中的融合技術

重構ncnn,騰訊優圖開源新一代移動端推理框架TNN

新一代移動端深度學習推理框架TNN,通過底層技術優化實現在多個不同平臺的輕量部署落地,性能優異、簡單易用。騰訊方面稱,基于TNN,開發者能夠輕松將深度學習算法移植到手機端高效的執行,開發出人工智能 App,真正將 AI 帶到指尖

達摩院金榕教授113頁PPT詳解達摩院在NLP、語音和CV上的進展與應用實踐

達摩院金榕教授介紹了語音、自然語言處理、計算機視覺三大核心AI技術的關鍵進展,并就AI技術在在實際應用中的關鍵挑戰,以及達摩院應對挑戰的創新實踐進行了解讀

OpenAI發布了有史以來最強的NLP預訓練模型GPT-3

2020年5月底OpenAI發布了有史以來最強的NLP預訓練模型GPT-3,最大的GPT-3模型參數達到了1750億個參數

多尺度圖卷積神經網絡:有效統一三維形狀離散化特征表示

解決了傳統圖卷積神經網絡中圖節點學習到的特征對圖分辨率和連接關系敏感的問題,可以實現在低分辨率的三維形狀上學習特征,在高低分辨率形狀之上進行測試,并且保持不同分辨率特征的一致性

履約時間預估:如何讓外賣更快送達

外賣履約時間預估模型,預估的是從用戶下單開始到騎手將餐品送達用戶手中所花的時間
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機器人未來3-5年能夠實現產業化的方
» 導診服務機器人上崗門診大廳 助力醫院智慧
» 山東省青島市政府辦公廳發布《數字青島20
» 關于印發《青海省支持大數據產業發展政策措
» 全屋無主燈智能化規范
» 微波雷達傳感技術室內照明應用規范
» 人工智能研發運營體系(ML0ps)實踐指
» 四驅四轉移動機器人運動模型及應用分析
» 國內細分賽道企業在 AIGC 各應用場景
» 國內科技大廠布局生成式 AI,未來有望借
» AIGC領域相關初創公司及業務場景梳理
» ChatGPT 以 GPT+RLHF 模
» AIGC提升文字 圖片滲透率,視頻 直播
» AI商業化空間前景廣闊應用場景豐富
» AI 內容創作成本大幅降低且耗時更短 優
 
== 機器人推薦 ==
 
迎賓講解服務機器人

服務機器人(迎賓、講解、導診...)

智能消毒機器人

智能消毒機器人

機器人底盤

機器人底盤

 

商用機器人  Disinfection Robot   展廳機器人  智能垃圾站  輪式機器人底盤  迎賓機器人  移動機器人底盤  講解機器人  紫外線消毒機器人  大屏機器人  霧化消毒機器人  服務機器人底盤  智能送餐機器人  霧化消毒機  機器人OEM代工廠  消毒機器人排名  智能配送機器人  圖書館機器人  導引機器人  移動消毒機器人  導診機器人  迎賓接待機器人  前臺機器人  導覽機器人  酒店送物機器人  云跡科技潤機器人  云跡酒店機器人  智能導診機器人 
版權所有 © 創澤智能機器人集團股份有限公司     中國運營中心:北京·清華科技園九號樓5層     中國生產中心:山東日照太原路71號
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728

  • <button id="4rgfx"></button>
  • 
    
    <cite id="4rgfx"></cite>
  • <code id="4rgfx"><wbr id="4rgfx"></wbr></code>
  • <bdo id="4rgfx"></bdo>
  • <button id="4rgfx"><bdo id="4rgfx"></bdo></button>
    <cite id="4rgfx"></cite><noframes id="4rgfx"><bdo id="4rgfx"></bdo></noframes>
    主站蜘蛛池模板: 高雄县| 高邑县| 靖西县| 玉林市| 明水县| 霸州市| 江城| 东至县| 德安县| 神农架林区| 湖北省| 达拉特旗| 新宁县| 内江市| 额敏县| 桂东县| 永州市| 东乌| 临西县| 永善县| 噶尔县| 青田县| 大城县| 丁青县| 大宁县| 隆尧县| 云南省| 北宁市| 常山县| 南通市| 阆中市| 茂名市| 岱山县| 永善县| 都江堰市| 潮州市| 齐齐哈尔市| 张北县| 定陶县| 晋中市| 朝阳区|