HomeMALAYvol. 27 no. 2 (2015)

Paggamit ng Natural Language Processing bilang Gabay sa Pagtuklas at Pagsiyasat ng Tema sa mga Tweet tuwing Halalan / Using Natural Language Processing in the Discovery and Analysis of Themes of Tweets during Elections

Rachel Edita Roxas | Nathaniel Oco | Charibeth K. Cheng | Ma. Divina Gracia Z. Roldan | Zelinna Cynthia Pablo

Discipline: Mass Communication

 

Abstract:

Itinuturing na mina ng ginto ang mga social networking site o SNS at isa sa mga kilala rito ang Twitter. Binibigyan nito ang mga gumagamit o user ng lugar upang maipahayag ang damdamin at saloobin sa mga bagay-bagay; mga karanasang pantao, usaping politikal, kultural na mga pangyayari, at iba pa. Nagiging kilala at sikat na lugar ng pag-uusap din ang mga SNS lalo na sa panahon ng halalan. Gayunpaman, maraming oras ang gugugulin kung susuriin nang mano-mano ang mga tweet. Sa pag-aaral na ito, nais ipakita ang paggamit ng natural language processing o NLP bilang gabay sa pagtuklas at pagsiyasat ng tema sa mga tweet na may kinalaman sa isang partikular na paksa: ang halalan. Pinadadali nito ang paghanap sa mga umiiral na tema gamit ang mga awtomatikong pamamaraan. Para sa pag-aaral na ito, pinagtuunang pansin ang halalang ginanap noong Mayo 2013. Sinimulan ang proseso sa [1] pagkalap ng 19,821 tweet mula Mayo 01-14 gamit ang isang computer program; [2] ginawan ng mga topic model gamit ang Stanford Modeling toolkit at nagmungkahi ng mga tema; [3] bumuo ng mga language model gamit ang Stanford Research Institute Language Modeling toolkit; [4] at nagbigay-linaw sa mga nakitang tema gamit ang mga language model bilang gabay. Mahahati sa siyam ang mga temang nakita: [1] katatapos bumoto, [2] pagtatanong at pagpapaliwanag, [3] paghihikayat at pangangampanya, [4] pangalan ng kandidato, [5] proseso ng pagboto, [6] pagpapatawa, [7] mga pagpapantasya, [8] mga organisasyon, at [9] pagpuna sa pisikal na anyo. Maaaring maipaliwanag sa mas detalyadong paraan ang mga temang ito sa pamamagitan ng pagsusuri sa sosyo-kultural na aspekto, gaya na lang ng paggamit ng discourse at content analysis.

 

Social Networking Sites or SNS are considered as gold mines of data, and one famous SNS is Twitter. It gives users a venue to express their feelings and thoughts on things; these include personal experiences, political topics, cultural events, etc. SNS increasingly are becoming famous mediums for communication especially during the time of election. However, manual analyses of tweets are time-consuming. In this study, we propose the use of natural language processing or NLP as guide in the discovery and analysis of themes in tweets concerning one particular topic: the election. Using automatic means, it reduces the amount of time needed to look for emerging themes. As testbed, we focused on the general midterm election of May 2013. In this study, we [1] collected 19,821 tweets from May 01 to 14 using a computer program; [2] generated topic models using the Stanford Modeling toolkit and proposed themes; [3] generated language models using the Stanford Research Institute Language Modeling toolkit; and [4] provided additional insights on the themes using the language models as guide. Themes can be categorized into nine: [1] experience after voting; [2] question and explanations; [3] encouragement and campaign; [4] names of candidates; [5] voting process; [6] humor; [7] fantasies; [8] organizations; and [9] criticisms on physical appearance. Further analysis, for instance with the use of discourse and content analysis, could be done by analyzing the socio-cultural aspect of the tweets.