แจ้งเอกสารไม่ครบถ้วน, ไม่ตรงกับชื่อเรื่อง หรือมีข้อผิดพลาดเกี่ยวกับเอกสาร ติดต่อที่นี่ ==>
หากไม่มีอีเมลผู้รับให้กรอก thailis-noc@uni.net.th ติดต่อเจ้าหน้าที่เจ้าของเอกสาร กรณีเอกสารไม่ครบหรือไม่ตรง

Enhance web page classification by using a topic model and

Organization : King Mongkut’s University of Technology North Bangkok. Faculty of Information Technology.
Email : swongkot@gmail.com

Organization : King Mongkut’s University of Technology North Bangkok. Faculty of Technical Education.
Email : pym@kmutnb.ac.th

Organization : National Electronics and Computer Technology Center (NECTEC). Human Language Technology Laboratory (HLT)
keyword: Web Page Classification
; Bag of Words
; Topic Model
Abstract: บทความนี้นำเสนอแนวคิดการแทนเอกสารด้วยวิธี สร้างแบบจำลองหัวข้อ (Topic Model) ให้กับเอกสาร สำหรับการเรียนรู้โมเดลในการจำแนกประเภทเว็บเพจ โดยประยุกต์ใช้อัลกอริธึม Latent Dirichlet Allocation (LDA) เพื่อสร้างแบบจำลองความน่าจะเป็นในการจัด กลุ่มของหัวข้อที่ซ่อนอยู่ในเอกสาร ซึ่งคำที่ถูกกำหนด ให้อยู่ในหัวข้อเดียวกันจะมีความหมายที่สัมพันธ์กัน นอกจากนี้ยังได้นำเสนอวิธีในการเพิ่มคุณลักษณะของคำ (Term Feature) จากหน้าเว็บข้างเคียง (Neighboring Pages) มาใช้เพื่อปรับปรุงประสิทธิภาพของโมเดลในการ จำแนก ในการทดลองมีการประเมินผลการแทนเอกสาร ด้วยสามวิธีได้แก่ (1) การแทนเอกสารด้วยวิธี Bag of Words (BOW) (2) การแทนเอกสารด้วยการสร้างแบบ จำลองหัวข้อให้กับเอกสาร และ (3) การแทนเอกสารด้วย การสร้างแบบจำลองหัวข้อรวมกับหน้าเว็บข้างเคียง จาก ผลการทดลองพบว่าวิธีการนำหน้าเว็บข้างเคียงมารวม เข้ากับการแทนเอกสารด้วยแบบจำลองหัวข้อให้ ประสิทธิภาพสูงที่สุดโดยมีค่า F1 เท่ากับ 85.01เปอรฺ์เซ็นต์ ซึ่ง เพิ่มขึ้นคิดเป็น 23.81 เปอรฺ์เซ็นต์ เมื่อเปรียบเทียบกับการแทน เอกสารด้วยวิธี BOW"
Abstract: This paper applies a topic model to represent the feature space for learning the web page classification model. Latent Dirichlet Allocation (LDA) algorithm is applied to generate a probabilistic topic model consisting of term features clustered into a set of latent topics. Words assigned into the same topic are semantically related. In addition, we propose a method to integrate the additional term features obtained from the neighboring pages (i.e., parent, child and sibling pages) to further improve the performance of the classification model. In the experiments, we evaluated among three different feature representations: (1) applying the simple bag of words (BOW) model, (2) applying the topic model on current page, and (3) integrating the neighboring pages via the topic model. From the experimental results, the approach of integrating current page with the neighboring pages via the topic model yielded the best performance with the F1 measure of 85.01 percent; an improvement of 23.81 percent over the BOW model."
King Mongkut's University of Technology North Bangkok. Central Library
Address: Bangkok
Email: library@kmutnb.ac.th
Created: 2010
Modified: 2024-04-14
Issued: 2011-02-28
บทความ/Article
application/pdf
BibliograpyCitation : วารสารวิชาการพระจอมเกล้าพระนครเหนือ. ปีที่ 20, ฉบับที่ 2 (พ.ค.- ส.ค. 2553), หน้า 204-214
eng
©copyrights King Mongkut's University of Technology North Bangkok
RightsAccess:
ลำดับที่.ชื่อแฟ้มข้อมูล ขนาดแฟ้มข้อมูลจำนวนเข้าถึง วัน-เวลาเข้าถึงล่าสุด
1 atc_53_200204.pdf 1.6 MB53 2022-01-14 19:15:49
ใช้เวลา
0.030538 วินาที

Wongkot Sriurai
Title Contributor Type
Enhance web page classification by using a topic model and
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Wongkot Sriurai;Phayung Meesad;Choochart Haruechaiyasak

บทความ/Article
Phayung Meesad
Title Contributor Type
Adaptive approach and seasonal technique for universal data forecasting
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Phayung Meesad;Tong Srikhacha

บทความ/Article
Applied neuro-fuzzy using support vector approximation for stock prediction
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Tong Srikhacha;Phayung Meesad

บทความ/Article
Tree-based model for automatic assignment of IT service desk outsourcing
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Padej Phomasakha Na Sakolnakorn ;Phayung Meesad

บทความ/Article
Scanner-Based Optical Mark Recognition
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Chatree Saengtongsrikamon;Phayung Meesad;Sunantha Sodsee

บทความ/Article
Enhance web page classification by using a topic model and
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Wongkot Sriurai;Phayung Meesad;Choochart Haruechaiyasak

บทความ/Article
A review of optimization and intelligence approaches for traffic engineering in IP network
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Pongsarun Boonyopakorn;Phayung Meesad

บทความ/Article
Fuzzy rule based generation by a hybrid heuristic algorithm and applications for classification
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Adisak Sangsongfa;Phayung Meesad

บทความ/Article
A new feature selection method for gene expression data
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Patharawut Saengsiri;Sageemas Na Wichian;Phayung Meesad

บทความ/Article
Choochart Haruechaiyasak
Title Contributor Type
Enhance web page classification by using a topic model and
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Wongkot Sriurai;Phayung Meesad;Choochart Haruechaiyasak

บทความ/Article
Opinion detection in Thai political news columns based on subjectivity analysis
มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าพระนครเหนือ
Khampol Sukhum;Supot Nitsuwat;Choochart Haruechaiyasak

บทความ/Article
Copyright 2000 - 2026 ThaiLIS Digital Collection Working Group. All rights reserved.
ThaiLIS is Thailand Library Integrated System
สนับสนุนโดย สำนักงานบริหารเทคโนโลยีสารสนเทศเพื่อพัฒนาการศึกษา
กระทรวงการอุดมศึกษา วิทยาศาสตร์ วิจัยและนวัตกรรม
328 ถ.ศรีอยุธยา แขวง ทุ่งพญาไท เขต ราชเทวี กรุงเทพ 10400 โทร. โทร. 02-232-4000
Database server :
Version 2.5 Last update 1-06-2018
Power By SUSE PHP MySQL IndexData Mambo Bootstrap
มีปัญหาในการใช้งานติดต่อผ่านระบบ UniNetHelp


Server : 8.199.134
Client : Not ThaiLIS Member
From IP : 216.73.216.42