45353 深入技術,關于智能駕駛的三個細節(jié)
服務熱線:400-858-9000 咨詢/投訴熱線:18658148790
國內(nèi)專業(yè)的一站式創(chuàng)業(yè)服務平臺
深入技術,關于智能駕駛的三個細節(jié)
數(shù)科社 ·

檸溪

2023/01/30
隨著AI正在逐步成為新基建的技術“底座”,助力基建邁入“智造時代”,以深度學習平臺加上大模型為牽引的全行業(yè)智能化升級已拉開帷幕。
本文來自于微信公眾號“數(shù)科社”(ID:sktxs0),作者:檸溪,投融界經(jīng)授權發(fā)布。

轎車自動行駛在高速公路上,路上的電路為車子引導方向,一家人圍坐在車內(nèi)玩著多米諾骨牌……一張上個世紀的老舊插畫描繪出人們對未來出行的憧憬:沒有堵車,沒有疲勞駕駛,能夠安心享受旅程。

這是有關智能駕駛的早期寫照。百年來,經(jīng)過自動駕駛產(chǎn)業(yè)不斷的推進與技術競速,汽車從馬力到算力,插畫里的出行畫面正在逐步被投射在現(xiàn)實生活中,成為當下高熱度的發(fā)展趨勢之一。

這一變遷背后,技術突破與服務升級,正在迭代更多智能駕駛場景。近年,由智能座艙、自動駕駛及車路協(xié)同三大核心構成的智能駕駛產(chǎn)業(yè)鏈,涵蓋了包括芯片、傳感器、大數(shù)據(jù)、算法、高精度地圖以及智慧交通等一系列軟硬件技術,迎來引來傳統(tǒng)主機廠、造車新勢力、Tier1、半導體制造商、及海內(nèi)外科技龍頭公司如谷歌、阿里、百度等的參與。

尤其是在諸多科技公司的投入下,智能駕駛在越來越肥沃的技術土壤里變革成長,拋開硬核難懂的技術名詞不說,就大家當下比較關心的如何用智慧語音改善使用導航應用的體驗,如何提升汽車自動駕駛的安全和智行能力等比較實際的場景落地問題,科技公司是如何用技術寫下注腳的?

#01

語音助手越來越像真人

大家日常行駛總會用到手機導航,享受一定便利的同時也會遇到一些麻煩,比如由于手機里軟件語音播報導航信息時,總是識別不出用戶說的話。前段時間,筆者自駕去郊區(qū)也遇到了這樣的問題,臨時修改導航終點,安全起見只能把車聽到路邊再操作。

行業(yè)專家對此也給出了一些專業(yè)解釋。百度語音首席架構師賈磊表示,在世界范圍內(nèi),很長時間都沒有一個方案能普適的支持在手機上實現(xiàn)全雙工的語音交互,即在手機播放導航提示的同時,能夠聽清用戶的指令,就像真人對話一樣,可以被隨時打斷,對新的語音指令給予反饋。因此,想要實現(xiàn)全雙工語音交互,必須先做回聲消除,避免手機終端識別自己播放的聲音。

不過,這一解決方案在前裝軟件的音箱、車載系統(tǒng)上比較容易實現(xiàn),可以通過硬件適配算法,提前保證回聲消除的效果。而手機App屬于純軟件后裝方案,需要讓軟件算法適配不同型號的終端硬件。而手機終端款式多,硬件參差不齊等因素疊加在一起,會導致聲音信號的回聲消除出現(xiàn)各種各樣的問題。再加上手機硬件的迭代更新非常速,回聲消除效果就更加難以保證了。

為解決手機場景下的回聲消除問題,百度融合傳統(tǒng)信號處理和深度學習模型各自的優(yōu)點,基于語音識別目標,端到端地進行回聲消除和信號增強,解決了手機場景下的回聲消除問題:即使手機音量開到最大,回聲消除量也能達到40分貝,使得手機APP的語音識別功能能夠正常工作。

深入技術,關于智能駕駛的三個細節(jié)

針對手機便攜性導致語音交互中面臨的音樂、閑聊、環(huán)境噪聲、內(nèi)噪殘余等與交互內(nèi)容無關的信息干擾問題,降低語音識別難度,百度研發(fā)了基于SMLTA2的多場景統(tǒng)一預訓練模型,一個模型解決噪聲、用戶口音和回聲消除殘余吸收等難題,在各場景下識別率相對提升超過20%,在業(yè)界同類技術中,準確率最高。

在全雙工狀態(tài)下,除了能實現(xiàn)免喚醒詞連續(xù)對話之外,還有一個非常關鍵的技術突破,稱之為“拒絕反應”,即讓導航能夠判斷出哪些話是針對導航的指令、哪些話是用戶在聊天。如果判斷某些話并非對相應指令,它便會“拒絕反應”,安靜聽、不插嘴。配合語音語義一體化的置信技術,這一套方案可以降低錯誤響應,并且支持交互過程中的引導和澄清,讓人機交互更像人與人的交流。

百度在手機端實現(xiàn)全雙工語音交互后,下一步將用到更多產(chǎn)品,同時,語音產(chǎn)品產(chǎn)生的新數(shù)據(jù)也將促進更多的創(chuàng)新,“人工智能獲得了眼睛、耳朵和無數(shù)其他感官,從而可以收集從來沒有過的新數(shù)據(jù),隨后使用這些數(shù)據(jù)推動更復雜的流程自動化”。正如百度創(chuàng)始人、董事長兼CEO李彥宏在《人民日報》發(fā)表的《推動新一代人工智能健康發(fā)展》文章中所說,人工智能正深刻改變著人們的生產(chǎn)方式、生活方式、學習方式,推動人類社會迎來人機協(xié)同、跨界融合、共創(chuàng)分享的智能時代。

#02

讓自動駕駛比人類駕駛更安全

提到一款車的智能程度,很多人首先想到的便是智能駕駛輔助和智能車聯(lián)系統(tǒng),也就是大家日常聽到的自動駕駛。如今中國自動駕駛產(chǎn)業(yè)不僅在技術和應用上領先,在市場上的接受度也逐漸增高。

據(jù)市場調(diào)研機構J.D. Power發(fā)布的報告顯示,中國消費者對自動駕駛技術信心指數(shù)達到了50分,遠高于美國消費者的36分,說明中國消費者對自動駕駛的接受度更高。隨著智慧的車和聰明的路越來越多,如何讓自動駕駛比人類駕駛更安全是用戶關注的一大難題。

在自動駕駛領域,傳統(tǒng)的圖像空間感知方法是將汽車上的雷達、攝像頭等不同傳感器采集來的數(shù)據(jù)分別進行分析運算,把各項分析結(jié)果融合到統(tǒng)一的空間坐標系中,去規(guī)劃車輛的行駛軌跡。這個過程中,每個獨立傳感器收集到的數(shù)據(jù)往往受到特定視角的局限,經(jīng)過各自的分析運算后,融合階段會導致誤差疊加,無法拼湊出道路實際情況的準確全貌,給車輛的決策規(guī)劃帶來困難,繼而會引發(fā)出一系列安全問題。

深入技術,關于智能駕駛的三個細節(jié)

近些年來,行業(yè)中提出了BEV(Bird‘s Eye View,視覺為中心的俯視圖)自動駕駛感知方案。不同于傳統(tǒng)的方式,BEV自動駕駛感知就好比是一個從高處統(tǒng)觀全局的“上帝視角”,車上多個傳感器采集的數(shù)據(jù),會輸入到一個統(tǒng)一模型進行整體分析推理生成鳥瞰圖,能有效地避免誤差疊加;這種方案還能夠做到時序融合,不僅是收集一個時刻的數(shù)據(jù),分析一個時刻的數(shù)據(jù),而是支持把過去一個時間片段中的數(shù)據(jù)都融合進模型做環(huán)境感知建模,時序信息的引入讓感知到的結(jié)果更穩(wěn)定,使得車輛對于道路情況的判斷更加準確、讓自動駕駛更安全。

即便如此,那些身處全球自動駕駛技術第一梯隊的玩家并沒有止步于BEV自動駕駛感知方案,比如百度在業(yè)內(nèi)提出車路一體的解決方案UniBEV,集成了車端多相機、多傳感器的在線建圖、動態(tài)障礙物感知,以及路側(cè)視角下的多路口多傳感器融合等任務,是業(yè)內(nèi)首個車路一體的端到端感知解決方案。

基于統(tǒng)一的BEV空間,UniBEV 車路一體大模型更容易實現(xiàn)多模態(tài)、多視角、多時間上的時空特征融合。百度借助大數(shù)據(jù)+大模型+小型化技術閉環(huán),在車端路側(cè)的動靜態(tài)感知任務上都取得了領先的成績,在北京高級別自動駕駛示范區(qū),通過對主城區(qū)路口進行智能化升級改造,自動駕駛在相關路口的問題發(fā)生頻率降低80%以上。

作為國內(nèi)自動駕駛的頭部企業(yè),百度一直高度重視并全面布局車路協(xié)同自動駕駛,先后參與多項相關國家標準制定,率先推出Apollo Air計劃,率先開源了全球首個車路協(xié)同數(shù)據(jù)集DAIR-V2X,并持續(xù)在全球范圍內(nèi)推進L4共享無人車規(guī)?;瘻y試運營。依托堅實的AI技術底座,目前,百度自動駕駛技術泛化能力進步速度超預期,落地新城市技術交付時間僅需20天。

此前,百度還發(fā)布了Apollo自動駕駛地圖,強調(diào)其具有知識增強、分層多維、為自動駕駛而生的新一代地圖優(yōu)勢。目前,百度高精地圖構建自動化率已達到96%,大幅解決了應用成本高的問題。同時,為保障自動駕駛高安全性,Apollo 自動駕駛地圖融合車端感知數(shù)據(jù)與多源地圖,實時生成在線地圖,滿足自動駕駛過程中實時更新的需求,確保自動駕駛安全。此外,為提升自動駕駛舒適性,Apollo自動駕駛地圖基于百度地圖1200萬公里的領先路網(wǎng)覆蓋范圍及海量時空數(shù)據(jù),結(jié)合數(shù)億司機的駕駛知識沉淀,構建全路網(wǎng)級別的駕駛知識圖譜。學習人類司機經(jīng)驗,用駕駛知識圖譜為自動駕駛搭建進步的階梯。

此外,備受關注的芯片,也成為自動駕駛公司擁有自主可控技術的關鍵。百度方面透露,百度自研AI芯片昆侖芯2代已完成無人駕駛場景端到端性能適配,將持續(xù)夯實百度Apollo軟硬一體優(yōu)勢。組合拳出擊為中國自動駕駛行業(yè)寫下最好的注腳。

#03

深度學習助力提升用戶體驗

上述關鍵技術不斷持續(xù)提升的同時,深度學習框架技術也在不斷取得突破。更直白的來講,百度自動駕駛技術為了“預知未來”,需要把大量數(shù)據(jù)、以及數(shù)據(jù)之間的關聯(lián),構建為一張“超大的圖”,圖的規(guī)模越大,那么一張圖里能表達的信息量就會更豐富。機器通過對圖中各個節(jié)點的分析,找到更復雜的關系,就可以實現(xiàn)一定的預測。例如,交通路網(wǎng)上兩個地點,雖然它們在物理上不相連,但通過相關性建??梢园褍蓚€具有相似交通規(guī)律的地點關聯(lián)起來,從而構建更具準確性的預測。圖的結(jié)構信息越豐富,相應就能越好地建模交通規(guī)律。

百度架構師胡曉光表示,百度地圖很早就上線了通行時間預估功能,這個功能背后的原理,是把路網(wǎng)中的路口和道路組成一張“交通圖”,基于這張“交通圖”,機器可以對交通路網(wǎng)的流量進行精細建模,然后就具備了路況的預測能力。由數(shù)百億節(jié)點和數(shù)百億邊構成的龐大圖對算法和算力都提出了巨大的挑戰(zhàn),基于規(guī)則的圖計算方法已經(jīng)無法完全適用,這時圖神經(jīng)網(wǎng)絡算法就發(fā)揮了關鍵作用,我們再通過擴大圖神經(jīng)網(wǎng)絡算法的參數(shù)量,對圖的特征進行更完整的表達,從而達到了模型越大效果越優(yōu)的極致表現(xiàn)。

當然,數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模的增大,帶來了計算成本更高、訓練穩(wěn)定性差、策略迭代周期長等一系列問題和挑戰(zhàn)。由此,基于飛槳平臺完成了圖神經(jīng)網(wǎng)絡架構的全新升級,為業(yè)界帶來了超大規(guī)模圖學習訓練技術PGLBox。

深入技術,關于智能駕駛的三個細節(jié)

PGLBox是業(yè)界首個同時支持復雜算法+超大圖+超大離散模型的大規(guī)模圖學習訓練技術,通過顯存、內(nèi)存、SSD三級存儲技術和訓練框架的性能優(yōu)化技術,單機即可支持百億節(jié)點、數(shù)百億邊的圖采樣和訓練,并可通過多機擴展支持更大規(guī)模。PGLBox為百度業(yè)務創(chuàng)新提供了廣闊的空間,目前已經(jīng)在智能交通、信息推薦、搜索等標桿場景實現(xiàn)落地,大幅提升業(yè)務效率和用戶體驗。

技術改變生活,百度近年用技術為數(shù)字社會帶來的變革和發(fā)展先機不止于這三個方面,但可以肯定的是,隨著AI正在逐步成為新基建的技術“底座”,助力基建邁入“智造時代”,以深度學習平臺加上大模型為牽引的全行業(yè)智能化升級已拉開帷幕,在智慧生活的星辰大海里,智能駕駛,僅僅是一個開始。

智能駕駛 AI 汽車
評論
還可輸入300個字
專欄介紹
數(shù)科社
22篇文章
專注數(shù)字與科技的產(chǎn)業(yè)互聯(lián)網(wǎng)平臺 基礎信息
+關注
400-858-9000
免費服務熱線
kefu@trjcn.com
郵箱
09:00--20:00
服務時間
18658148790
投訴電話
投融界App下載
官方微信公眾號
官方微信小程序
Copyright ? 2024 浙江投融界科技有限公司(ghy2.cn) 版權所有 | ICP經(jīng)營許可證:浙B2-20190547 | 浙ICP備10204252號-1 | 浙公網(wǎng)安備33010602000759號
地址:浙江省杭州市西湖區(qū)留下街道西溪路740號7號樓301室
浙江投融界科技有限公司trjcn.com版權所有 | 用戶協(xié)議 | 隱私條款 | 用戶權限
應用版本:V2.7.8 | 更新日期:2022-01-21
 安全聯(lián)盟
在線客服
手機APP
微信訂閱