Abstract:
การวิจัยในครั้งนี้มีวัตถุประสงค์ เพื่อนำเสนอแนวทางการสร้างกรอบมโนทัศน์ภาษาไทยจากคลังข้อมูลด้านการเกษตรเพื่อการประมวลผลภาษาด้วยคอมพิวเตอร์ โดยอาศัยการกของ ฟิลล์มอร์(1974) และลาร์สัน (1984) ในทฤษฎีความหมายเชิงโครงสร้าง (frame semantics) เพื่อแสดงความสัมพันธ์ของคำที่ปรากฏร่วมกันในประโยคข้อมูลที่นำมาใช้ประกอบด้วยจำนวนประโยคภาษาไทยที่มีการตัดคำอัตโนมัติ กำกับข้อมูลสารสนเทศแบบอัตโนมัติ และกำกับโครงสร้างระดับวลีพร้อมด้วยบทบาททางความหมายของคำด้วยมือ จำนวน 5,784 ประโยค โดยประโยคทั้งหมดคัดเลือกมาจากประโยคที่มีคำกริยาปรากฏในความถี่สูงสุด 106 คำ จากนั้นจึงสกัดกรอบการกพร้อมความสัมพันธ์ทางความหมายออกมาเป็นกรอบมโนทัศน์โดยใช้ โปรแกรมดึงและจัดระเบียบข้อมูลอัตโนมัติ ผลการศึกษาสามารถสกัดกรอบมโนทัศน์ออกมาได้ ทั้งหมด 962 กรอบ พร้อมกับเขียนข้อกำหนดการเกิดร่วมกันของคำตามโครงสร้างไวยากรณ์ และความหมายให้กับประโยคทั้งหมดเพื่อประยุกต์ใช้ในการประมวลผลด้วยคอมพิวเตอร์ได้อย่างสะดวก ง่ายดาย
The objectives of this study is to present a construction of Thai concept frames applied in language processing for agricultural domain. Fillmores (1974) and Larsons (1984) frame elements are cherry-picked to represent necessary scenarios in the domain. The source data comprised of 5,784 Thai sentences are preprocessed with automatic word segmentation, automatic POS tagging, manual shallow parsing, and manual semantic role labeling. Top-106 frequently used verbs are chosen out of them for observation. Frame elements and syntactic-semantic relations for each for them are then constructed from the source data using an Automatic Capturing tool. As a result, 962 case frames are constructed, while 5,784 annotated sentences are formulated as Syntactic-Semantic constraints for easily applicable to language processing.