a级成人毛片久久,三级片黄色电影免费

當(dāng)前位置： OFweek 人工智能網(wǎng) > 操作系統(tǒng) > 正文

清華大學(xué)研究團(tuán)隊(duì)獲KDD 2020首屆時(shí)間檢驗(yàn)應(yīng)用科學(xué)獎(jiǎng)

2020-08-21 10:22

學(xué)術(shù)頭條

個(gè)人自動(dòng)信息抽取

作者首先通過擴(kuò)展“朋友之友（FOAF）”來定義研究者檔案，包含研究者的基本信息（如研究者的名字、照片、職位、工作單位等），研究者的聯(lián)系信息（如研究者的電話、傳真、通訊地址、Email 等），研究者的教育經(jīng)歷（如畢業(yè)學(xué)校、獲得學(xué)位的時(shí)間、每個(gè)階段所學(xué)專業(yè)以及所發(fā)表的論文）。

研究者個(gè)人信息抽取分三步：相關(guān)頁面識(shí)別、預(yù)處理和信息提取。

在相關(guān)的頁面識(shí)別中，對(duì)于每個(gè)研究者，通過 Google 搜索引擎的 API 獲得網(wǎng)頁列表，并判斷是否是研究者的主頁或者包含了較多的研究者個(gè)人信息的介紹性網(wǎng)頁。然后，使用支持向量機(jī)（SVM）作為分類模型對(duì)網(wǎng)頁內(nèi)容進(jìn)行分類處理。

在預(yù)處理中，將文本進(jìn)行標(biāo)記處理，系統(tǒng)利用條件隨機(jī)場（CRF）作為標(biāo)記模型，來確定最可能的對(duì)應(yīng)標(biāo)記序列，每個(gè)標(biāo)簽對(duì)應(yīng)一個(gè)定義的屬性。

作者使用規(guī)則歸納模型算法和SVM模型方法作為概要文件提取的基準(zhǔn)，通過研究每種特征類型在研究者檔案提取中的作用，發(fā)現(xiàn)僅使用一種類型的功能無法獲得準(zhǔn)確的性能分析結(jié)果。

YouTube 網(wǎng)紅程序員，修復(fù)美、日、俄多國古老街景視頻

圖2 ：研究者個(gè)人主頁和理想的標(biāo)注結(jié)果

圖2中的左側(cè)給出了一個(gè)典型的研究者個(gè)人主頁，其中包含研究者的姓名、照片、通信地址、Email地址、教育經(jīng)歷等信息，圖的右側(cè)顯示了最終想要的理想的標(biāo)注結(jié)果。

分析數(shù)據(jù)發(fā)現(xiàn)，個(gè)人信息的各個(gè)屬性之間有依賴關(guān)系，而且有的屬性之間有很強(qiáng)的依賴關(guān)系。

研究者重名排歧

對(duì)于網(wǎng)絡(luò)上不勝其數(shù)的同名作者，如何精確的定位一位作者成為一大難點(diǎn)，同名作者文章的排歧工作面臨每篇文章信息量有限和作者相關(guān)描述不確定性強(qiáng)的難點(diǎn)。
之前的研究工作中，采用監(jiān)督學(xué)習(xí)算法對(duì)每個(gè)排歧目標(biāo)的數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練，這種方法可擴(kuò)展性差；無監(jiān)督學(xué)習(xí)方法受到可利用信息量的限制，排歧效果不太強(qiáng)。

針對(duì)這些問題，作者在文中提出了一個(gè)基于隱馬爾可夫隨機(jī)場（HMRF）的概率框架，該框架可以捕獲每篇論文之間的依賴關(guān)系，從而更加靈活地將各種知識(shí)以約束的形式放到算法中，從而很好地利用各種指導(dǎo)和數(shù)據(jù)來提高重名排歧的精度。

具體而言，利用隱馬爾可夫隨機(jī)場理論構(gòu)造目標(biāo)函數(shù)，將整個(gè)問題轉(zhuǎn)化為最小化目標(biāo)函數(shù)問題。目標(biāo)函數(shù)主要包含兩個(gè)部分：

一是聚類的每個(gè)類別中數(shù)據(jù)點(diǎn)之間的距離，用來衡量每個(gè)聚類結(jié)果的緊密程度；

二是當(dāng)前聚類結(jié)果所違背的所有約束的懲罰值之和。

整個(gè)算法的目標(biāo)是找到內(nèi)部緊密而且盡量少違背約束的聚類結(jié)果，來作為同名排歧的結(jié)果。作者在文中通過大量的實(shí)驗(yàn)數(shù)據(jù)，證明這一方法在消除重名方面明顯優(yōu)于傳統(tǒng)方法。

YouTube 網(wǎng)紅程序員，修復(fù)美、日、俄多國古老街景視頻

圖3 ：一個(gè)重名排岐的實(shí)例

圖 3 給出了一個(gè)重名排岐的實(shí)例。圖中每個(gè)點(diǎn)表示一篇論文，每條有向邊表示兩篇論文之間的不同類型的關(guān)系，這些關(guān)系即可以轉(zhuǎn)化為上述約束。兩個(gè)點(diǎn)之間的距離反應(yīng)了它們?cè)趦?nèi)容上相似度。實(shí)線框表示論文屬于同一個(gè)作者（聚類類別）。

從圖中可以非常直觀地看出，僅根據(jù)內(nèi)容相似度不能取得很好的聚類效果，但是不同類型的關(guān)系對(duì)于區(qū)分不同的作者非常有效。例如，根據(jù)節(jié)點(diǎn)3和8之間的合作關(guān)系，很容易將它們分配到同一個(gè)類別。

異質(zhì)網(wǎng)絡(luò)建模

學(xué)術(shù)網(wǎng)絡(luò)建模對(duì)于任何搜索或建議任務(wù)都是至關(guān)重要的。傳統(tǒng)上，信息通常是基于“詞袋（BOW）”模型來表示的。

AMiner 提供的核心服務(wù)是專家搜索，即根據(jù)用戶查詢的話題找出在相關(guān)領(lǐng)域的權(quán)威專家。因此，僅僅依靠關(guān)鍵詞進(jìn)行專家匹配，幾乎無法返回有效的結(jié)果。而如果我們知道自然語言處理領(lǐng)域的權(quán)威會(huì)議是“ACL”等，根據(jù)研究者發(fā)表的會(huì)議信息，就可以很容易判斷出他是否是該領(lǐng)域的權(quán)威專家。

因此，作者提出了一個(gè)統(tǒng)一的主題模型 ACT，同時(shí)對(duì)研究者論文、作者和會(huì)議的主題進(jìn)行分布建模，設(shè)計(jì)了一種可以有效地利用學(xué)術(shù)網(wǎng)絡(luò)的異質(zhì)實(shí)體與關(guān)聯(lián)信息，來發(fā)現(xiàn)領(lǐng)域內(nèi)專家方法。

文章提出主題模型 ACT 對(duì)研究者異質(zhì)信息網(wǎng)絡(luò)統(tǒng)一進(jìn)行建模，從中估計(jì)出不同類型的實(shí)體，包括研究者、會(huì)議、關(guān)鍵詞以及論文在不同隱含話題上的概率分布。

YouTube 網(wǎng)紅程序員，修復(fù)美、日、俄多國古老街景視頻

圖4 構(gòu)建話題模型生成研究者異構(gòu)信息網(wǎng)絡(luò)

ACT1 模型：每位作者與主題上的多項(xiàng)式分布相關(guān)聯(lián)，并且論文中的每個(gè)單詞和會(huì)議標(biāo)記都是從抽樣的主題中生成的。

ACT2 模型：每個(gè)“作者－會(huì)議”對(duì)都與主題上的多項(xiàng)式分布相關(guān)聯(lián)，然后從采樣的主題中生成每個(gè)單詞。

ACT3 模型：每位作者都與一個(gè)主題分布相關(guān)聯(lián)，并且在為論文中的所有單詞標(biāo)記采樣主題之后，生成會(huì)議標(biāo)記。

有了這些概率分布，當(dāng)用戶給定一個(gè)查詢?cè)~，就可以推斷與之概率分布相近的專家，進(jìn)而還可以推斷出相關(guān)的會(huì)議和論文等異構(gòu)網(wǎng)絡(luò)中存在的各種實(shí)體類型。

<上一頁 1 2 3 下一頁>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

暫無評(píng)論

暫無評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

6月20日
立即下載>> 【白皮書】精準(zhǔn)測量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
免費(fèi)參會(huì)
立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

99久久免费精品国产对白

中文字字幕在线中文乱码6互动交流久久久性爱视频性久久久久美女黄免费 97久久精品人人