GENDER CLASSIFICATION FROM TEXT DATA IN SOCIAL NETWORK
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Srinakharinwirot University
Abstract
Data collection from various channels on the internet, especially social networks, is becoming an increasingly common practice amongst businesses. Companies conducting any form of marketing research will find valuable insights and gain a deeper understanding of their consumers through collecting data. Any company able to collect and effectively analyze the most consumer data will therefore gain a significant competitive advantage. There are a variety of factors that affect consumer behavior. One of the most important factors is gender, which is a key determinant of consumer behavior. In the collection of gender data from social networks in Thailand, a popular method of distinguishing gender of different texts can be done through analysis of suffixes such as "Krub" for males or "Ka" for females, or from pronouns such as "Phom" for males or "Di-Chan" for females. From the research, it was found that only 30% of the studied texts contained gender-related suffixes or pronouns. It stands to reason that if the remaining 70% of texts that do not use contemporary gender-related suffixes or pronouns could be adequately analyzed, it presents an attractive opportunity to gain a competitive advantage in consumer-targeted marketing. This research proposes that the gender classification method of Thai comment texts, through the application of natural language processing techniques and supplemented with machine learning models, with an accuracy of 79.04%.
ในปัจจุบันการเก็บข้อมูลจากช่องทางต่างๆ บนอินเตอร์เน็ต โดยเฉพาะโซเชียลเน็ตเวิร์กนั้นกำลังเป็นที่แพร่หลาย โดยเฉพาะอย่างยิ่งการเก็บข้อมูลเพื่อใช้สำหรับวิจัยทางด้านการตลาด ซึ่งจะทำให้สามารถเข้าใจผู้บริโภคได้มากยิ่งขึ้น บริษัทใดที่สามารถเก็บข้อมูลผู้บริโภคได้มากจะทำให้มีความสามารถในการแข่งขันในตลาดได้มากกว่าบริษัทที่เก็บข้อมูลได้น้อย ซึ่งข้อมูลผู้บริโภคนั้นก็มีหลากหลายปัจจัยที่ส่งผลให้เกิดพฤติกรรมการบริโภคที่แตกต่างกันในแต่ละบุคคล หนึ่งในนั้นคือเพศ ซึ่งเป็นปัจจัยที่สำคัญปัจจัยหนึ่งที่ส่งผลโดยตรงต่อพฤติกรรมของผู้บริโภค สำหรับการเก็บข้อมูลเพศของผู้บริโภคในไทยนั้น ส่วนใหญ่มักใช้วิธีการระบุเพศจากข้อความต่างๆ ที่ผู้บริโภคเผยแพร่โดยใช้วิธีการระบุจากคำลงท้าย เช่น ครับ ค่ะ หรือคำสรรพนามแทนตัว เช่น ผม ดิฉัน ในการระบุเพศ สำหรับข้อความแสดงความคิดเห็นบนโซเชียลเน็ตเวิร์ก ผู้วิจัยพบว่ามีข้อความเพียง 30% เท่านั้นที่มีคำที่สามารถระบุเพศได้ ซึ่งถ้าหากสามารถระบุเพศจากข้อความในส่วนที่ไม่มีคำเหล่านี้อีก 70% ได้ จะทำให้สามารถนำข้อมูลที่ได้ไปใช้ได้อย่างถูกต้องและมีประสิทธิภาพ ทำให้เกิดความได้เปรียบในด้านการตลาด ในงานวิจัยนี้ได้นำเสนอวิธีการจำแนกเพศของผู้เขียนข้อความแสดงความคิดเห็นสำหรับข้อความภาษาไทยบนโซเชียลเน็ตเวิร์ก โดยการประยุกต์ใช้เทคนิคการประมวลผลภาษาธรรมชาติกับการสกัดคุณลักษณะ ร่วมกับการสร้างแบบจำลองการเรียนรู้ของเครื่อง ให้ค่าความแม่นยำในการจำแนกเพศ 79.04%
ในปัจจุบันการเก็บข้อมูลจากช่องทางต่างๆ บนอินเตอร์เน็ต โดยเฉพาะโซเชียลเน็ตเวิร์กนั้นกำลังเป็นที่แพร่หลาย โดยเฉพาะอย่างยิ่งการเก็บข้อมูลเพื่อใช้สำหรับวิจัยทางด้านการตลาด ซึ่งจะทำให้สามารถเข้าใจผู้บริโภคได้มากยิ่งขึ้น บริษัทใดที่สามารถเก็บข้อมูลผู้บริโภคได้มากจะทำให้มีความสามารถในการแข่งขันในตลาดได้มากกว่าบริษัทที่เก็บข้อมูลได้น้อย ซึ่งข้อมูลผู้บริโภคนั้นก็มีหลากหลายปัจจัยที่ส่งผลให้เกิดพฤติกรรมการบริโภคที่แตกต่างกันในแต่ละบุคคล หนึ่งในนั้นคือเพศ ซึ่งเป็นปัจจัยที่สำคัญปัจจัยหนึ่งที่ส่งผลโดยตรงต่อพฤติกรรมของผู้บริโภค สำหรับการเก็บข้อมูลเพศของผู้บริโภคในไทยนั้น ส่วนใหญ่มักใช้วิธีการระบุเพศจากข้อความต่างๆ ที่ผู้บริโภคเผยแพร่โดยใช้วิธีการระบุจากคำลงท้าย เช่น ครับ ค่ะ หรือคำสรรพนามแทนตัว เช่น ผม ดิฉัน ในการระบุเพศ สำหรับข้อความแสดงความคิดเห็นบนโซเชียลเน็ตเวิร์ก ผู้วิจัยพบว่ามีข้อความเพียง 30% เท่านั้นที่มีคำที่สามารถระบุเพศได้ ซึ่งถ้าหากสามารถระบุเพศจากข้อความในส่วนที่ไม่มีคำเหล่านี้อีก 70% ได้ จะทำให้สามารถนำข้อมูลที่ได้ไปใช้ได้อย่างถูกต้องและมีประสิทธิภาพ ทำให้เกิดความได้เปรียบในด้านการตลาด ในงานวิจัยนี้ได้นำเสนอวิธีการจำแนกเพศของผู้เขียนข้อความแสดงความคิดเห็นสำหรับข้อความภาษาไทยบนโซเชียลเน็ตเวิร์ก โดยการประยุกต์ใช้เทคนิคการประมวลผลภาษาธรรมชาติกับการสกัดคุณลักษณะ ร่วมกับการสร้างแบบจำลองการเรียนรู้ของเครื่อง ให้ค่าความแม่นยำในการจำแนกเพศ 79.04%
Description
MASTER OF SCIENCE (M.Sc.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)
วิทยาศาสตรมหาบัณฑิต (วท.ม.)