Skip navigation
瀏覽
學術出版
教師專書
期刊論文
會議論文
研究計畫
畢業論文
專利資料
技術報告
數位教材
開放式課程
專題作品
喀報
交大建築展
明竹
活動紀錄
圖書館週
研究攻略營
畢業典禮
開學典禮
數位典藏
楊英風數位美術館
詩人管管數位典藏
歷史新聞
交大 e-News
交大友聲雜誌
陽明交大電子報
陽明交大英文電子報
陽明電子報
校內出版品
交大出版社
交大法學評論
管理與系統
新客家人群像
全球客家研究
犢:傳播與科技
資訊社會研究
交大資訊人
交大管理學報
數理人文
交大學刊
交通大學學報
項目
公開日期
作者
標題
關鍵字
研究人員
English
繁體
简体
目前位置:
國立陽明交通大學機構典藏
學術出版
畢業論文
標題:
以概念萃取為基礎之文件分群與視覺化
A Concept Extraction Approach for Document Clustering and Visualization
作者:
張家寧
Chia-Ning Chang
柯皓仁
楊維邦
Hao-Ren Ke
Wei-Pang Yang
資訊科學與工程研究所
關鍵字:
文件分群;關鍵字分群;概念萃取;主題關鍵字;視覺化;引用;Document Clustering,;Keyword Clustering;Concept Extraction;Topic Keyword;Visualization;Citation
公開日期:
2005
摘要:
近年來,網際網路已經成為取得資訊最方便的管道,其中又以在搜尋引擎輸入關鍵字取得資訊的方式最為普遍。然而,搜尋引擎通常不會對搜尋結果進行過濾與篩選,過多的資料提高了評估資料相關性的複雜度,如何在獲取的資料中去蕪存菁,並建立出容易讓使用者了解的模型,進而讓資料有效率地轉化為使用者容易吸收的知識,是目前重要的研究課題之一。分群演算法可以將資料分析之後,依照相似度將類似的資料群聚,不同的群具有不同的含意與概念,如何從群中自動萃取出其含意並賦予概念,是本研究的主要目的之一。 本研究提出以關鍵字分群的方式達到概念萃取的目的,且將文件以多種概念描述後,基於這些概念進行文件分群。進行概念萃取主要分為以下幾個主要的步驟:特徵選擇、特徵關係的建立,以及特徵分群;特徵分群的結果即為所有文件包含的概念。此外,透過文件內引用文章 (Citing Article)的相似度,建立文件間的引用關係 (Citation Relation),進而建立群與群之間的引用關係,達到建立概念之間的相關性。最後,取代傳統條列式的顯示方式,以視覺化的方式展現分群結果並呈現出概念之間的相關性。 本研究採用CiteSeer資料庫的論文做為語料庫,選取標題、摘要及引用做為資料來源,摘要部分所收錄的文字大約只有1000個字元,這個數量相當於在搜尋引擎中以關鍵字查找所得到的結果資料。根據實驗結果分析,本研究所萃取出的概念可以適合地表達出文件的整體概念,在文件分群的□確率(Accuracy)上亦有一定水準,可達到80%的□確率。
The World Wide Web (WWW) contains a giant amount of information, but finding relevant information from WWW is also a great challenge. Keyword-based querying usually returns many documents; however, they are neither strongly related nor presented in a comprehensible order. Clustering is capable of solving such a problem by grouping relevant documents. Users are able to find relevant documents through groups containing documents with similar concepts. This thesis attempts to extract concepts from a corpus, each of which is defined as a collection of keywords in documents, and conduct document clustering on the basis of the extracted concepts. The overall processes are as follows. First, a clustering algorithm groups similar keywords to create concepts. Second, a document is represented by a vector, each element of which indicates the similarity between the document and a concept. Then, documents are clustered according to the abovementioned vector. Furthermore, citations between documents are used to construct documents connections. Such connections are further used for discovering group relations and concept relations. In addition to extracting concepts and clustering documents, this thesis uses the visualization technique to present clustering results and show the relationship between concepts. Several experiments with CiteSeer documents are performed in order to show that concepts extracted by our method can not only clearly represent each group, but also achieve good clustering accuracy, which is about 80%.
URI:
http://140.113.39.130/cdrfb3/record/nctu/#GT009323591
http://hdl.handle.net/11536/79120
顯示於類別:
畢業論文
文件中的檔案:
存到雲端
359101.pdf
359102.pdf
359103.pdf
若為 zip 檔案,請下載檔案解壓縮後,用瀏覽器開啟資料夾中的 index.html 瀏覽全文。
IR@NYCU
CrossRef
Concept Extraction and Clustering for Search Result Organization and Virtual Community Construction / Chen, Shihn-Yuarn;Chang, Chia-Ning;Nien, Yi-Hsiang;Ke, Hao-Ren
概念瀏覽介面的數位圖書館個人化文獻管理系統之研究 / 黃明居
應用在結構化文件之階層式文件分群法 / 雷穎傑;Ying-Chieh Lei;曾憲雄;Shian-Shyong Tseng
以本體論為基礎之學習討論區主題分析器 / 蔡昂叡;曾憲雄
AUTOMATIC PATENT DOCUMENT SUMMARIZATION FOR COLLABORATIVE KNOWLEDGE SYSTEMS AND SERVICES / Trappey, Amy J. C.;Trappey, Charles V.;Wu, Chun-Yi
以模糊理論與高頻項目集為基礎之文件分群研究 / 陳淳齡;Chen, Chun-Ling;梁 婷;曾守正;Liang, Tyne
An approach to discover and recommend cross-domain bridge-keywords in document banks / Su, Yu-Min;Hsu, Ping-Yu;Pai, Ning-Yao
Loading...