Nopadol Rungrasmee. Information Extraction of Terrorism News. Master's Degree(Computer Engineering). King Mongkut's University of Technology Thonburi. KMUTT Library. : King Mongkut's University of Technology Thonburi, 2011.
Abstract:
This project aims to create an information extraction system from terrorism news. This
is to extract relevant facts from the terrorism news archive, which can be used further
for deep analysis and decision making. The methods for extracting information include
sentence segmentation, tokenization, part of speech tagging, named entity recognition,
and relation recognition. This proposed method used Python and Natural Language
Toolkit (NLTK) to process the documents. NLTK is a collection of modules and
corpora, which is used to classify words into part of speech and label them.
Precision and recall were used to evaluate the performance of the system by comparing
with GATE (General Architecture for Text Engineering). GATE includes an
information extraction system, which is used to provide basic information extraction
and to provide a startin point for more specific tasks. The comparison found the
difference in precision and recall between GATE and the present system. This is
because GATE used database to find location and date entity, resulting in more
precision and recall.
Abstract:
โครงงานนี้มีจุดประสงค์เพื่อสร้างระบบแยกข้อมูลข่าวสารจากข่าวการก่อการร้าย เพื่อแยกข้อเท็จจริง
ที่เกี่ยวข้องจากเอกสารข่าวการก่อการร้าย ซึ่งสามารถนำไปใช้สนับสนุนการตัดสินใจและวิเคราะห์
เชิงลึก วิธีการแยกข้อมูลประกอบด้วยการทำ segmentation, tokenization, part of speech
tagging, named entity recognition และ relation extraction วิธีการที่นำเสนอนี้ใช้ภาษา Python
และ Natural Language Toolkit (NLTK) เพื่อประมวลผลเอกสาร NLTK มีโมดูลและ
คลังข้อมูลคำ เพื่อใช้แบ่งประเภทของคำและทำเครื่องหมาย
ในการประเมินความสามารถของระบบใช้ค่าความแม่นยำและค่าความระลึกโดยเปรียบเทียบกับ
GATE (General Architecture for Text Engineering) ซึ่งมีระบบแยกข้อมูลข่าวสารที่ใช้
พื้นฐานของการแยกข้อมูลข่าวสาร และใช้เป็นจุดเริ่มต้นสำหรับงานที่เฉพาะเจาะจง จากผลการ
เปรียบเทียบพบว่าค่า Precision และ recall มีความแตกต่าง โดย GATE ใช้ฐานข้อมูลในการค้นหา
สถานที่ และวันที่ ทำให้มีค่า precision และ recall มากกว่า
King Mongkut's University of Technology Thonburi. KMUTT Library