Please use this identifier to cite or link to this item:
http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1077
Title: | GENDER CLASSIFICATION FROM TEXT DATA IN SOCIAL NETWORK การจำแนกเพศจากข้อความบนโซเชียลเน็ตเวิร์ก |
Authors: | EKKAPOB POONSAWAT เอกภพ พูลสวัสดิ์ Werayuth Charoenruengkit วีรยุทธ เจริญเรืองกิจ Srinakharinwirot University. Faculty of Science |
Keywords: | การจำแนกเพศ การประมวลผลภาษาธรรมชาติ การสกัดคุณลักษณะ การเรียนรู้ของเครื่อง ข้อความแสดงความคิดเห็นในภาษาไทย Gender classification Natural Language Processing Feature extraction Machine learning Thai comment texts |
Issue Date: | 14 |
Publisher: | Srinakharinwirot University |
Abstract: | Data collection from various channels on the internet, especially social networks, is becoming an increasingly common practice amongst businesses. Companies conducting any form of marketing research will find valuable insights and gain a deeper understanding of their consumers through collecting data. Any company able to collect and effectively analyze the most consumer data will therefore gain a significant competitive advantage. There are a variety of factors that affect consumer behavior. One of the most important factors is gender, which is a key determinant of consumer behavior. In the collection of gender data from social networks in Thailand, a popular method of distinguishing gender of different texts can be done through analysis of suffixes such as "Krub" for males or "Ka" for females, or from pronouns such as "Phom" for males or "Di-Chan" for females. From the research, it was found that only 30% of the studied texts contained gender-related suffixes or pronouns. It stands to reason that if the remaining 70% of texts that do not use contemporary gender-related suffixes or pronouns could be adequately analyzed, it presents an attractive opportunity to gain a competitive advantage in consumer-targeted marketing. This research proposes that the gender classification method of Thai comment texts, through the application of natural language processing techniques and supplemented with machine learning models, with an accuracy of 79.04%. ในปัจจุบันการเก็บข้อมูลจากช่องทางต่างๆ บนอินเตอร์เน็ต โดยเฉพาะโซเชียลเน็ตเวิร์กนั้นกำลังเป็นที่แพร่หลาย โดยเฉพาะอย่างยิ่งการเก็บข้อมูลเพื่อใช้สำหรับวิจัยทางด้านการตลาด ซึ่งจะทำให้สามารถเข้าใจผู้บริโภคได้มากยิ่งขึ้น บริษัทใดที่สามารถเก็บข้อมูลผู้บริโภคได้มากจะทำให้มีความสามารถในการแข่งขันในตลาดได้มากกว่าบริษัทที่เก็บข้อมูลได้น้อย ซึ่งข้อมูลผู้บริโภคนั้นก็มีหลากหลายปัจจัยที่ส่งผลให้เกิดพฤติกรรมการบริโภคที่แตกต่างกันในแต่ละบุคคล หนึ่งในนั้นคือเพศ ซึ่งเป็นปัจจัยที่สำคัญปัจจัยหนึ่งที่ส่งผลโดยตรงต่อพฤติกรรมของผู้บริโภค สำหรับการเก็บข้อมูลเพศของผู้บริโภคในไทยนั้น ส่วนใหญ่มักใช้วิธีการระบุเพศจากข้อความต่างๆ ที่ผู้บริโภคเผยแพร่โดยใช้วิธีการระบุจากคำลงท้าย เช่น ครับ ค่ะ หรือคำสรรพนามแทนตัว เช่น ผม ดิฉัน ในการระบุเพศ สำหรับข้อความแสดงความคิดเห็นบนโซเชียลเน็ตเวิร์ก ผู้วิจัยพบว่ามีข้อความเพียง 30% เท่านั้นที่มีคำที่สามารถระบุเพศได้ ซึ่งถ้าหากสามารถระบุเพศจากข้อความในส่วนที่ไม่มีคำเหล่านี้อีก 70% ได้ จะทำให้สามารถนำข้อมูลที่ได้ไปใช้ได้อย่างถูกต้องและมีประสิทธิภาพ ทำให้เกิดความได้เปรียบในด้านการตลาด ในงานวิจัยนี้ได้นำเสนอวิธีการจำแนกเพศของผู้เขียนข้อความแสดงความคิดเห็นสำหรับข้อความภาษาไทยบนโซเชียลเน็ตเวิร์ก โดยการประยุกต์ใช้เทคนิคการประมวลผลภาษาธรรมชาติกับการสกัดคุณลักษณะ ร่วมกับการสร้างแบบจำลองการเรียนรู้ของเครื่อง ให้ค่าความแม่นยำในการจำแนกเพศ 79.04% |
Description: | MASTER OF SCIENCE (M.Sc.) วิทยาศาสตรมหาบัณฑิต (วท.ม.) |
URI: | http://ir-ithesis.swu.ac.th/dspace/handle/123456789/1077 |
Appears in Collections: | Faculty of Science |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
gs601130182.pdf | 4.02 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.