本篇文章2391字,讀完約6分鐘

電子沙盤(pán)http://www.sidukj.cn/vr.html【科技在線】

大數(shù)據(jù)成熟了嗎? 交換隱私方便嗎? 曾經(jīng)受歡迎的大數(shù)據(jù)的發(fā)掘,最近成為了輿論的熱門(mén)話(huà)題。 有網(wǎng)友的專(zhuān)業(yè)測(cè)試證實(shí)了某商家利用大數(shù)據(jù)挖掘技術(shù)已經(jīng)成熟。 百度董事長(zhǎng)兼首席執(zhí)行官李彥宏表示,中國(guó)人對(duì)隱私問(wèn)題不那么敏感,進(jìn)一步加劇了這種狀況。 大數(shù)據(jù)挖掘技術(shù)就像帶有負(fù)面信息的明星,似乎一眨眼就變暗了,成了竊取隱私的小偷。

在《大數(shù)據(jù)時(shí)代》這本書(shū)暢銷(xiāo)幾年后,大數(shù)據(jù)不再那么受歡迎,但并未退役,其快速發(fā)展成為了人工智能實(shí)現(xiàn)的基礎(chǔ)之一。

那么,大數(shù)據(jù)挖掘是什么技術(shù)呢? 從誕生迅速發(fā)展到現(xiàn)在,什么樣拼命努力的技術(shù)人員又增長(zhǎng)了那些能力? 面對(duì)大數(shù)據(jù)難以管理的問(wèn)題,是否通過(guò)技術(shù)手段進(jìn)行控制?

客戶(hù)圖像:機(jī)器給人類(lèi)貼標(biāo)簽

通過(guò)添加標(biāo)簽來(lái)制作客戶(hù)的圖像是數(shù)據(jù)挖掘中經(jīng)常使用的技術(shù)。 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所多媒體新聞解決研究室主任彭宇新教授指出,繪制客戶(hù)圖像是利用社會(huì)交流互聯(lián)網(wǎng)的新聞,根據(jù)客戶(hù)的社會(huì)屬性、生活習(xí)慣、支出行為等新聞,抽象出標(biāo)簽化的客戶(hù)模型,機(jī)器像人一樣可靠 社會(huì)交流互聯(lián)網(wǎng)數(shù)據(jù)是實(shí)現(xiàn)這一目標(biāo)的基礎(chǔ),機(jī)器見(jiàn)人多來(lái)源于社會(huì)交流互聯(lián)網(wǎng)數(shù)據(jù)的挖掘。

標(biāo)簽一般是分解顧客新聞得到的高度精致的特征表示,便于機(jī)器進(jìn)行新聞提取、聚合分解等解決。 標(biāo)簽本身不再需要分解副本等解決工作,便于利用機(jī)器提取標(biāo)準(zhǔn)化新聞。

有了標(biāo)簽,計(jì)算機(jī)就可以自動(dòng)解決人和相關(guān)的新聞,通過(guò)算法、模型可以逐步了解人。 彭宇新表示,多個(gè)標(biāo)簽可以共同完成圖像,將整個(gè)過(guò)程分為三個(gè)步驟。 一是收集數(shù)據(jù),也就是基于文案的新聞捕捉,口語(yǔ)中叫做爬數(shù)據(jù),二是顧客的行為模型,通過(guò)機(jī)器學(xué)習(xí)技術(shù)形成算法模型,評(píng)價(jià)顧客可能的一點(diǎn)點(diǎn)行為。 第三,可視化展示。 是用能讓人理解的方法展示機(jī)器運(yùn)算的結(jié)果。 這三個(gè)步驟經(jīng)過(guò)了多次調(diào)整,在實(shí)際應(yīng)用中,有可能根據(jù)結(jié)果反饋和業(yè)務(wù)訴求進(jìn)行二次建模等調(diào)整。

整個(gè)過(guò)程的影響參數(shù)相對(duì)多樣,不同行為類(lèi)型的權(quán)重對(duì)標(biāo)簽新聞的影響也不同。 以應(yīng)用廣泛的商品營(yíng)銷(xiāo)為例,例如網(wǎng)絡(luò)銷(xiāo)售葡萄酒時(shí),購(gòu)買(mǎi)權(quán)重為5,僅瀏覽數(shù)為1,考慮瀏覽間隔、停留時(shí)間、生活習(xí)慣等,用許多復(fù)雜的算法最終表現(xiàn)一個(gè)標(biāo)簽的權(quán)重,從而形成圖像

基于客戶(hù)的圖像技術(shù),大數(shù)據(jù)挖掘?qū)⑦M(jìn)行分類(lèi)和相關(guān)規(guī)則的計(jì)算等分解。 例如,有多少客人喜歡葡萄酒? 喜歡葡萄酒的人中,男性、女性的比例是多少? 喜歡葡萄酒的人一般喜歡什么體育企業(yè)品牌?

媒體間的智能識(shí)別:在計(jì)算機(jī)上佩戴慧眼

以前以文案新聞為主流,但現(xiàn)在充斥著圖片和視頻等多媒體數(shù)據(jù)。 彭新表示,后者目前占大數(shù)據(jù)的80%以上。

由于數(shù)據(jù)種類(lèi)發(fā)生了巨大的變化,智能識(shí)別的任務(wù)變得更加困難。 管不住、不好用的問(wèn)題日益突出。 機(jī)器只能讀自己的語(yǔ)言。 彭宇新說(shuō),人類(lèi)世界的所有語(yǔ)言都必須轉(zhuǎn)換成機(jī)器理解的語(yǔ)言才能被識(shí)別。 以前只解決拷貝比較簡(jiǎn)單,但現(xiàn)在必須追加很多復(fù)雜的圖像和視頻等數(shù)據(jù)。

例如,世界上有數(shù)千種鳥(niǎo)類(lèi),許多種類(lèi)的差異非常細(xì)微,即使是擁有專(zhuān)業(yè)信息的人也不容易準(zhǔn)確識(shí)別,計(jì)算機(jī)自動(dòng)識(shí)別更是困難。 彭宇新表示,理解圖像、視頻拷貝的難點(diǎn)在于如何進(jìn)行語(yǔ)義自動(dòng)識(shí)別,這也是他們團(tuán)隊(duì)多年來(lái)的攻關(guān)課題之一,為此,團(tuán)隊(duì)發(fā)明了基于觀察力模型和深度增量學(xué)習(xí)的識(shí)別方法。

觀察力模型,顧名思義,是讓計(jì)算機(jī)自動(dòng)定位圖像的有意義的區(qū)域,提高檢測(cè)精度; 深度學(xué)習(xí)是指計(jì)算機(jī)利用已經(jīng)學(xué)到的知識(shí)加速新知識(shí)的學(xué)習(xí),通過(guò)動(dòng)態(tài)擴(kuò)展,可以幫助檢測(cè)新概念。

新模型新算法的力量,使機(jī)器能夠迅速識(shí)別圖像、視頻的語(yǔ)義新聞。 彭新隊(duì)近幾年在參加國(guó)際權(quán)威評(píng)估trecvid的視頻樣本檢索比賽中6次均獲得第一名,在與卡內(nèi)基梅隆大學(xué)、牛津大學(xué)、ibm watson研究中心等參賽隊(duì)伍的競(jìng)爭(zhēng)中獲勝。 一個(gè)主題是,在464小時(shí)的視頻中快速準(zhǔn)確地找到所有倫敦地鐵的標(biāo)志,彭宇新隊(duì)僅用一秒鐘就獲得了冠軍,獲得了第一名。

在單一媒體新聞的分解和識(shí)別上,如何讓機(jī)器像人一樣看待和理解呢?

為了實(shí)現(xiàn)跨媒體新聞融合和一體化分解識(shí)別的目的,項(xiàng)目小組首先將數(shù)據(jù)自動(dòng)逐個(gè)發(fā)送到每個(gè)不同媒體類(lèi)型對(duì)應(yīng)的分解識(shí)別模塊。 例如,分割視頻鏡頭,提取關(guān)鍵幀,逐一發(fā)送到鏡頭檢索、片段檢索、視頻字幕識(shí)別等模塊,將單一媒體的分解結(jié)果進(jìn)行媒體間的語(yǔ)義關(guān)聯(lián)分解,實(shí)現(xiàn)媒體間新聞的語(yǔ)義協(xié)作。 一種常見(jiàn)的做法是建立第三方空之間的交叉媒體關(guān)聯(lián)。 彭宇新說(shuō),計(jì)算機(jī)根據(jù)我們教給我們的模型分別提取圖像、視頻、拷貝、音頻的特征,投影在一個(gè)第三方空之間,不同媒體的新聞就可以對(duì)話(huà)了。

抽絲技術(shù)剝繭,使圖像和視頻新聞像復(fù)制品一樣透明。 我們是以應(yīng)用為目標(biāo)進(jìn)行的,但準(zhǔn)確率、解決速度都經(jīng)過(guò)多年的優(yōu)化,現(xiàn)在可以實(shí)用了。 彭新新表示,該技術(shù)不僅支持信息媒體等領(lǐng)域的數(shù)據(jù)管理和檢索,還支持網(wǎng)絡(luò)管理部門(mén)分解和監(jiān)測(cè)大數(shù)據(jù)。

延長(zhǎng)瀏覽

匿名解決:預(yù)期的隱私保護(hù)措施

雖然要打破新聞的控制權(quán)幾乎是不可能的,但是保護(hù)隱私有一個(gè)方便的方法。 郵電大學(xué)教授楊義先的《安全簡(jiǎn)史》中有一個(gè)形象的比喻,認(rèn)為數(shù)據(jù)在網(wǎng)絡(luò)上裸奔時(shí),避免被跟蹤的便捷安全手段是捂臉。 這就是所謂的匿名化解決機(jī)制。

根據(jù)客戶(hù)隱私保護(hù)的相關(guān)規(guī)定,數(shù)據(jù)公司在銷(xiāo)售數(shù)據(jù)時(shí)必須匿名解決數(shù)據(jù)。 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員趙東巖說(shuō)。 然而,為了確定準(zhǔn)確的位置和推送服務(wù),匿名化的解決方案可能被忽略。 它指的是目標(biāo)客戶(hù)群的面向身份,而不是發(fā)送給組。 因此,個(gè)性化推送和匿名解決在當(dāng)前技術(shù)中是相互競(jìng)爭(zhēng)的。

的沖突相比,行業(yè)先行者提出了區(qū)塊鏈的處理思路。 我把那個(gè)叫做身份證。 北京領(lǐng)主科技企業(yè)研究員劉偉泰表示,大數(shù)據(jù)的本質(zhì)是集團(tuán)研究,但集團(tuán)的粒度可以細(xì)化一些,另外,區(qū)塊鏈技術(shù)可以賦予顧客授權(quán)的做法。

不難想象,隨著新技術(shù)的不斷創(chuàng)新,新聞安全方面的技術(shù)突破不斷增加。 也可以用來(lái)平衡新聞控制權(quán),而不是挖掘大數(shù)據(jù)。

標(biāo)題:“隱私換便捷?大數(shù)據(jù)發(fā)掘究竟是怎樣的技術(shù)?”

地址:http://m.datongoofay.com//xwdt/41652.html