近日,全球人工智能頂會AAAI 2021以虛擬形式在線召開,并于會前公布了論文收錄結(jié)果。AAAI 2021投稿論文總數(shù)達(dá)到“驚人的高技術(shù)水平”,9034篇投稿論文中,7911篇接受評審,最終1692篇被錄取,錄取率為21%;百度再創(chuàng)佳績,一舉貢獻(xiàn)24篇優(yōu)質(zhì)學(xué)術(shù)論文,涵蓋計算機(jī)視覺、自然語言處理、知識圖譜、量子機(jī)器學(xué)習(xí)等多個領(lǐng)域,展示出行業(yè)領(lǐng)先的AI技術(shù)實力,同時這些技術(shù)創(chuàng)新和突破將有助于推進(jìn)智能對話、智能辦公、智慧醫(yī)療、智慧金融、智能交通等場景的落地應(yīng)用,加速中國智能經(jīng)濟(jì)時代的到來。
資料顯示,AAAI是國際AI領(lǐng)域歷史最悠久、涵蓋內(nèi)容最廣泛的國際頂級學(xué)術(shù)會議之一。會議的目的是促進(jìn)人工智能(AI)領(lǐng)域的研究,以及人工智能研究人員、從業(yè)人員、科學(xué)家和附屬學(xué)科工程師之間的科學(xué)交流。
以下為百度AAAI2021部分收錄論文的亮點集錦。
1、ERNIE-ViL:融合場景圖知識的視覺-語言跨模態(tài)預(yù)訓(xùn)練技術(shù)
ERNIE-ViL: Knowledge Enhanced Vision-Language Representations through Scene Graph
論文鏈接:https://arxiv.org/abs/2006.16934
視覺-語言預(yù)訓(xùn)練的目標(biāo)是通過對齊語料學(xué)習(xí)多模態(tài)的通用聯(lián)合表示,將各個模態(tài)之間的語義對齊信號融合到聯(lián)合表示中,從而提升下游任務(wù)效果。已有的視覺語言預(yù)訓(xùn)練方法在預(yù)訓(xùn)練過程中沒有區(qū)分普通詞和語義詞,學(xué)到的聯(lián)合表示無法刻畫模態(tài)間細(xì)粒度語義的對齊,如場景中物體(objects)、物體屬性(attributes)、物體間關(guān)系(relationships)這些深度理解場景所必備的細(xì)粒度語義。本文提出了知識增強(qiáng)的視覺-語言預(yù)訓(xùn)練技術(shù)ERNIE-ViL,將包含細(xì)粒度語義信息的場景圖先驗知識融入預(yù)訓(xùn)練過程,創(chuàng)建了物體預(yù)測、屬性預(yù)測、關(guān)系預(yù)測三個預(yù)訓(xùn)練任務(wù),在預(yù)訓(xùn)練過程中更加關(guān)注細(xì)粒度語義的跨模態(tài)對齊,從而學(xué)習(xí)到能夠刻畫更好跨模態(tài)語義對齊信息的聯(lián)合表示。作為業(yè)界首個融入場景圖知識的視覺語言預(yù)訓(xùn)練模型,ERNIE-ViL在視覺問答、視覺常識推理、引用表達(dá)式理解、跨模態(tài)文本檢索、跨模態(tài)圖像檢索等5個多模態(tài)典型任務(wù)上取得了SOTA效果,同時,在視覺常識推理VCR榜單上取得第一。
2、基于實體結(jié)構(gòu)建模的文檔級關(guān)系抽取
Entity Structure Within and Throughout: Modeling Mention Dependencies for document-Level Relation Extraction
文檔級關(guān)系抽取是近兩年來信息抽取的熱門研究方向之一,針對其涉及多個實體提及(Entity Mention)之間的復(fù)雜交互這一挑戰(zhàn),本文創(chuàng)新性地提出了實體結(jié)構(gòu)(Entity Structure)這一概念,以依賴(dependency)的形式,對實體提及在文檔中的分布進(jìn)行定義,并設(shè)計了結(jié)構(gòu)化自注意力網(wǎng)絡(luò)(SSAN)在上下文編碼的同時對實體結(jié)構(gòu)進(jìn)行建模。實驗表明,SSAN能夠有效地在深度網(wǎng)絡(luò)中引入實體結(jié)構(gòu)的先驗,指導(dǎo)注意力機(jī)制的傳播,以增強(qiáng)模型對實體間交互關(guān)系的推理能力。SSAN在包括DocRED在內(nèi)的多個常用文檔級關(guān)系抽取任務(wù)上取得了當(dāng)前最優(yōu)效果。
3、MVFNet: 用于高效視頻識別的多視角融合網(wǎng)絡(luò)
MVFNet: Multi-View Fusion Network for Efficient Video Recognition
論文鏈接:https://arxiv.org/abs/2012.06977
視頻識別作為視頻理解的基礎(chǔ)技術(shù),是近幾年非常熱門的計算機(jī)視覺研究方向。現(xiàn)有的基于3D卷積網(wǎng)絡(luò)的方法識別精度優(yōu)異但計算量偏大,基于2D網(wǎng)絡(luò)的方法雖然相對輕量但精度不及3D卷積網(wǎng)絡(luò)。本文提出一種輕量的多視角融合模塊(MVF Module)用于高效率且高性能的視頻識別,該模塊是一個即插即用的模塊,能夠直接插入到現(xiàn)有的2D卷積網(wǎng)絡(luò)中構(gòu)成一個簡單有效的模型,稱為MVFNet。此外,MVFNet可以視為一種通用的視頻建??蚣?,通過設(shè)置模塊內(nèi)的參數(shù),MVFNet可轉(zhuǎn)化為經(jīng)典的C2D, SlowOnly和TSM網(wǎng)絡(luò)。實驗結(jié)果顯示,在五個視頻benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet僅僅使用2D卷積網(wǎng)絡(luò)的計算量就能夠取得與當(dāng)前最先進(jìn)的3D卷積網(wǎng)絡(luò)媲美甚至更高的性能。
4、一種基于關(guān)鍵點聚合網(wǎng)絡(luò)的實時任意形態(tài)文字端到端框架
PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering Network
任意形態(tài)文字閱讀問題近幾年受到越來越多的關(guān)注,是學(xué)術(shù)界的研究熱點。然而,現(xiàn)有的解決方案大多數(shù)是建立在檢測模塊和識別模塊兩階段級聯(lián)的框架或者基于單字的方法,這些方法往往受困于比較耗時的NMS、區(qū)域特征提取(ROI)等操作,甚至是昂貴的單字粒度標(biāo)注方式。針對上述問題,本文提出了一種全新的實時的單階段任意形態(tài)文字端到端框架, 命名為PGNet。PGNet在模型單階段前向推理的過程中能夠?qū)⒍说蕉宋淖痔崛⌒枰玫降闹行木€、上下邊界位置偏差、閱讀方向、和每個像素點字符類別預(yù)測信息全部獲取到位。緊接著,根據(jù)本文提出的核心思想-關(guān)鍵點聚合(Point Gathering),將標(biāo)準(zhǔn)CTC Decoder改造成了PG-CTC Decoder, 讓其能夠根據(jù)2D空間上的文本實例所在的中心線像素點位置進(jìn)行對應(yīng)字符類別概率向量聚合,然后直接解碼出文本實例的識別結(jié)果。PGNet無需額外的字符粒度標(biāo)注成本,輕量化模型配置版本在精度可比以往SOTA方法同時加速超過1倍,在任意形態(tài)文本集合Total-Text上最優(yōu)速度達(dá)到46.7FPS(NVIDIA-v100顯卡),端到端精度可以達(dá)到58.4%,該方法為實時或者端上設(shè)備的OCR應(yīng)用帶來廣泛的遐想。
5、基于變分影子量子學(xué)習(xí)的分類算法
VSQL: Variational Shadow Quantum Learning for Classification
論文鏈接:https://arxiv.org/abs/2012.08288
機(jī)器學(xué)習(xí)擅長處理結(jié)構(gòu)化的數(shù)據(jù)特征,其中分類問題因為其泛用性一直處于核心的研究地位。近年來隨著量子機(jī)器學(xué)習(xí)的興起,研究者們開始探索如何采用量子神經(jīng)網(wǎng)絡(luò)去完成針對經(jīng)典和量子數(shù)據(jù)的分類任務(wù)。然而由于目前量子設(shè)備的局限性,訓(xùn)練過程中會出現(xiàn)諸多問題,例如:參數(shù)過多,訓(xùn)練代價太大,測試精度不高等等。針對這些不足,本文提出了一種基于“變分影子量子學(xué)習(xí)”的分類算法,該算法采用了一種特殊的“影子電路”組成的量子神經(jīng)網(wǎng)絡(luò)架構(gòu),通過滑動的影子電路提取特征信息。該工作基于百度飛槳上的量子機(jī)器學(xué)習(xí)工具集量槳(qml.baidu.com)研發(fā),數(shù)值實驗結(jié)果表明該算法在相比于已有的量子分類算法具有更強(qiáng)大分類能力的同時,還大幅減少了網(wǎng)絡(luò)參數(shù),降低了訓(xùn)練代價。
6、C-Watcher:一個新冠肺炎高風(fēng)險小區(qū)預(yù)警框架
C-Watcher: A framework for Early Detection of High-Risk Neighborhoods Ahead of COVID-19 Outbreak
論文鏈接:https://arxiv.org/abs/2012.12169
新型冠狀病毒?。–OVID-19)已經(jīng)對日常的工作產(chǎn)生了嚴(yán)重的影響,并且仍在全世界肆虐。現(xiàn)有的非藥物干預(yù)的解決方案通常需要及時、準(zhǔn)確地選擇一個區(qū)域進(jìn)行出行限制甚至隔離。在區(qū)域的選擇中,已確診病例的空間分布已被視為選擇的關(guān)鍵指標(biāo)。雖然這樣的措施已經(jīng)成功地減緩或者制止了新冠疫情在一些國家的傳播,但是該方法因為確診病例的統(tǒng)計數(shù)據(jù)通常是有延遲性和粗粒度性而被詬病。為了解決這些問題,本文提出了一個名為C-Watcher的機(jī)器學(xué)習(xí)框架,旨在COVID-19從疫情重災(zāi)區(qū)傳播到目標(biāo)城市之前,預(yù)測出目標(biāo)城市中每個社區(qū)的疫情感染風(fēng)險。在模型設(shè)計上,C-Watcher從百度地圖數(shù)據(jù)中抽取了多種特征來刻畫城市中的居民小區(qū)。此外,為了在疫情爆發(fā)之前將有效的知識及時轉(zhuǎn)移到目標(biāo)城市,本文設(shè)計了一個具有創(chuàng)新性的對抗編碼器框架來提取城市之間的共性特征。該方法可以與城市相關(guān)的移動特征中抽取有用信息,以達(dá)到在非常早期的在目標(biāo)城市中進(jìn)行精確的高風(fēng)險社區(qū)預(yù)測的目的。通過使用COVID-19爆發(fā)早期的真實數(shù)據(jù)記錄,對C-Watcher進(jìn)行了的實驗,實驗結(jié)果表明C-Watcher能夠在疫情早期有效的從大量居民小區(qū)中成功篩查出高風(fēng)險小區(qū)。
7、群體感知的多任務(wù)出行需求預(yù)測
Community-Aware Multi-Task Transportation Demand Prediction
出行需求預(yù)測在城市治理和多種在線服務(wù)中都有廣泛應(yīng)用。但是現(xiàn)有研究主要集中在網(wǎng)格化區(qū)域出行需求預(yù)測,忽略了不同人群差異化的出行需求。針對這一問題,本文提出了一種全新的自適應(yīng)互監(jiān)督多任務(wù)圖神經(jīng)網(wǎng)絡(luò)(Ada-MSTNet),可以有效捕捉不同群體在不同時空場景下的關(guān)系。具體地,通過構(gòu)建多視角空間圖和人群圖,研究員同時捕捉了不同區(qū)域和群體的相關(guān)性。同時,本文提出了一種自適應(yīng)多任務(wù)聚類方法,可以更好地在相關(guān)性較高的任務(wù)之間共享信息。此外,還提出了一種互自監(jiān)督策略,基于不同視角學(xué)習(xí)到的表征來監(jiān)督另一視角中任務(wù)的聚類過程。Ada-MSTNet不僅可以在不同群體和區(qū)域?qū)?yīng)的任務(wù)間共享信息,還可以有效防止不相關(guān)任務(wù)之間的噪音傳播。在兩個真實數(shù)據(jù)集上的實驗結(jié)果也從多個角度證實了我們算法的優(yōu)勢。
8、一種基于用戶出行意圖建模的異地POI推薦方法
Out-of-Town Recommendation with Travel Intention Modeling
異地POI推薦旨在為跨城出行的用戶提供推薦服務(wù)。而這些用戶通常對目的地區(qū)域/城市并不熟悉,并沒有足夠的歷史記錄可以借鑒,因而異地推薦的主要挑戰(zhàn)也是推薦系統(tǒng)中的一個經(jīng)典問題——冷啟動問題。直觀上,用戶在異地的行為與用戶個人的偏好和用戶的出行意圖密切有關(guān)。而且,用戶的出行意圖復(fù)雜多變,也為準(zhǔn)確理解異地用戶的出行意圖增加了難度。為此,本文提出了一種出行意圖可感知的異地出行推薦方法。該方法與傳統(tǒng)的異地出行推薦方法的主要區(qū)別體現(xiàn)在三個方面:首先,利用圖神經(jīng)網(wǎng)絡(luò),通過對歷史用戶的本地簽到行為和異地簽到行為進(jìn)行挖掘,表征用戶的本地偏好以及異地的空間地理信息約束;其次,用戶的個體出行意圖建模為通用出行意圖與用戶個體偏好的聚合,其中通用出行意圖被建模成隱式出行意圖的概率分布,并利用主題神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實現(xiàn);第三,通過多層感知機(jī)對本地偏好與異地偏好的遷移進(jìn)行刻畫,同時,利用矩陣分解對異地POI的表征進(jìn)行估計。最后,通過真實物理世界的跨城出行記錄數(shù)據(jù)進(jìn)行實驗,驗證了方法的有效性。而且,該方法所學(xué)習(xí)到的意圖表征可以幫助理解和解釋用戶的出行意圖。
9、高階張量的盲塊對角化分解
A Blind Block Term Decomposition of Higher Order Tensors
張量是高維數(shù)據(jù)的天然表示方法,張量分解是分析高維數(shù)據(jù)的重要工具。當(dāng)前,張量分解已被成功應(yīng)用于信號處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等領(lǐng)域。特別地,在盲源信號分離問題中,人們通過計算觀測信號的高階統(tǒng)計量(例如四階累積量)——一個高階張量的張量分解,可以分離出源信號。然而, 目前計算這種張量分解的方法要求知道相互獨立源信號組的個數(shù),以及每組源信號的大小。并且,即使在已知上述信息的條件下,現(xiàn)有方法常常不能收斂,并且抗噪性較差。本文所提出的高階張量的盲塊對角化分解方法成功解決了上述問題。張量的盲塊對角化分解是一種通用工具,希望其能在更多場景中獲得成功應(yīng)用,特別是在信號處理與自動聚類中。
10、基于特征融合的兩階段深度信息補(bǔ)全
FCFR-Net: Feature Fusion based Coarse-to-Fine Residual Learning for Monocular Depth Completion
論文鏈接:https://arxiv.org/abs/2012.08270
深度信息補(bǔ)全的目標(biāo)是以稀疏的深度信息及對應(yīng)的彩色信息作為輸入,恢復(fù)更加密集準(zhǔn)確的場景深度信息?,F(xiàn)有的方法主要把深度信息補(bǔ)全視為單階段的問題,在這些方法中,特征提取和融合的不夠充分,因此限制了方法的性能。為此,本文提出了一個兩階段的殘差學(xué)習(xí)框架,包括sparse-to-coarse階段和coarse-to-fine階段。在sparse-to-coarse 階段,以稀疏的深度信息和對應(yīng)的彩色信息為輸入,本文使用一個簡單的CNN網(wǎng)絡(luò)對稀疏的深度信息進(jìn)行粗略的填充獲得場景密集的深度信息;在coarse-to-fine階段,以sparse-to-coarse階段的結(jié)果和對應(yīng)的彩色信息為輸入,本文使用通道融合策略和能量融合策略提取獲得更加有效的特征信息,因此可以獲得更優(yōu)的場景密集深度信息。本文方法在目前的KITTI depth completion benchmark中排名第二,同時在室內(nèi)和室外數(shù)據(jù)集的測試也證明了我們所提方法的先進(jìn)性。
11、模擬未標(biāo)注數(shù)據(jù)分布用于單標(biāo)注的醫(yī)療圖像分割
Modeling the Probabilistic Distribution of Unlabeled Data for One-shot Medical Image Segmentation
現(xiàn)有的醫(yī)療圖像分割網(wǎng)絡(luò)往往需要大量的有標(biāo)注的數(shù)據(jù)才能取得比較好的分割結(jié)果。然而3D醫(yī)療圖像的分割標(biāo)注需要大量的專業(yè)知識和人力成本。因此本文提出一種數(shù)據(jù)增廣的方法,即只利用一張有標(biāo)注的圖片和一些未標(biāo)注的圖片就可以生成大量的真實、多樣且有標(biāo)注的訓(xùn)練數(shù)據(jù)。本文首先通過圖像配準(zhǔn)來學(xué)習(xí)有標(biāo)注圖片到無標(biāo)注圖片之間形狀和亮度的真實變換。其次通過VAE網(wǎng)絡(luò)來學(xué)習(xí)這些真實變換的分布,并由此生成多樣且真實的變換。最后將這些生成的變換作用到有標(biāo)注圖片上生成多樣的有標(biāo)注的圖片,并用于分割網(wǎng)絡(luò)訓(xùn)練。在兩個單標(biāo)注的醫(yī)療圖像分割數(shù)據(jù)集上,本文方法超過了SOTA,且實驗表明該方法具有更好的泛化能力。
12、TRQ:基于殘差量化的三值神經(jīng)網(wǎng)絡(luò)
TRQ: Ternary Neural Networks With Residual Quantization
本文認(rèn)為通過簡單的閾值操作進(jìn)行三值量化導(dǎo)致了較大的精度損失,因而提出一種基于基—殘差框架的低誤差量化器。該量化器區(qū)別于普通閾值操作,通過從全精度權(quán)重中提取基與殘差信息并結(jié)合得到重構(gòu)三值權(quán)重,同時通過遞歸量化來精細(xì)化殘差,可以在量化過程中為卷積核保留更多的信息,用以降低量化誤差及準(zhǔn)確度損失。本文的方法是通用的,可以通過遞歸地編碼殘差拓展到多bit量化上。大量的實驗數(shù)據(jù)證明本文提出的方法可以在網(wǎng)絡(luò)加速下得到較高的識別精度。
免責(zé)聲明:本網(wǎng)轉(zhuǎn)載自其它媒體的文章,目的在于弘揚(yáng)科技創(chuàng)新精神,傳遞更多科技創(chuàng)新信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),在此我們謹(jǐn)向原作者和原媒體致以崇高敬意。如果您認(rèn)為本站文章侵犯了您的版權(quán),請與我們聯(lián)系,我們將第一時間刪除。