Sms Spam Detection in Turkish Language

dc.contributor.advisor Koç, Utku
dc.contributor.author Gürkan, Cem Kaya
dc.date.accessioned 2019-11-12T13:42:01Z
dc.date.available 2019-11-12T13:42:01Z
dc.date.issued 2018
dc.department Lisansüstü Eğitim Enstitüsü, Büyük Veri Analitiği Yüksek Lisans Programı en_US
dc.description.abstract Short message (SMS) is one of the most common communication methods. The growth of mobile phone users has led to a dramatic increase in using short messages. With the increasing number of mobile phone users, mobile phone users have started receiving unsolicited text messages. The use of SMS as a spam tool after the e-mail is due to a direct access to customer and high reversion to the users. These unsolicited short messages are disturbing the users even content intended for deceiving or defrauding (phishing). Up to date, all of the research carried out on SMS Spam detection was focused on the English language. In this study, Turkish datasets tagged with spam information is introduced and existing methods for English are applied to these datasets. The SMS dataset used in this study is gathered from different people and all messages are tagged according to whether they are spam or not. Naïve Bayes, Logistic Regression, SGD, SVM and Random Forest classification algorithms are tested with three feature extraction methods and a number of performance measures are evaluated. The evaluation resulted in a f-measure of 96.4% for SVM classification algorithm with TF-IDF (Term Frequency-Inverse Document Frequency) extraction method. en_US
dc.description.abstract SMS en çok kullanılan iletişim yöntemlerimden biridir. Mobil telefon kullanımı artmasıyla kısa mesaj kullanımını da artmıştır. Mobil telefon kullanımın artmasıyla mobil kullanıcılar da izinsiz olarak kısa mesaj (reklam, kumar vs.) almaya başlamışlardır. Epostadan sonra kısa mesajın da izinsiz iletişim yöntemi olarak kullanılmasının amacı kullanıcılara direk erişim ve geri dönüşün yüksek olmasıdır. İzinsiz gönderilen kısa mesajlar kullanıcıları rahatsız etmekte hatta kandırmaya veya dolandırmaya yönelik içerik barındırmaktadır. Günümüze kadar izinsiz SMS algılama yöntemleri, genelde İngilizce üzerine yoğunlaşmıştır. Bu çalışma kapsamında izinsiz SMS algılama için Türkçe veri seti oluşturulmuş ve daha önce İngilizce’ de yapılmış çalışmalarda denenen yöntemlerin Türkçe’ de gösterdikleri başarılar incelenmiştir. Çalışmada kullanılan SMS veri seti için gönüllü kişilerden gönderilen veya alınan mesajlar toplanmış ve mesajlar istenmeyen olup olmadığına göre işaretlenmiştir. Naïve Bayes, Logistic Regression, SGD, SVM ve Random Forest sınıflandırma algoritmaları 3 farklı özellik çıkarma yöntemiyle test edilmiş ve farklı performans ölçümleme skorları çıkarılmıştır. Sonuçta en iyi performans %96,4 F1-skoru ile TF-IDF özellik çıkarma metoduyla SVM sınıflandırma algoritması kullanıldığında ölçümlenmiştir. en_US
dc.identifier.citation Gürkan, CK. (2018). Sms spam detection in Turkish language, MEF Üniversitesi Fen Bilimleri Enstitüsü, İstanbul, Türkiye en_US
dc.identifier.scopusquality N/A
dc.identifier.uri https://hdl.handle.net/20.500.11779/1177
dc.identifier.wosquality N/A
dc.institutionauthor Gürkan, Cem Kaya
dc.language.iso en en_US
dc.publisher MEF Üniversitesi, Fen Bilimleri Enstitüsü en_US
dc.relation.publicationcategory YL-Bitirme Projesi en_US
dc.rights info:eu-repo/semantics/openAccess en_US
dc.subject SMS Spam Filtering en_US
dc.subject Text Classification en_US
dc.subject Turkish SMS en_US
dc.subject Naïve Bayes en_US
dc.subject Logistic Regression en_US
dc.subject SGD en_US
dc.subject SVM en_US
dc.subject Random Forest en_US
dc.subject Kısa Mesaj en_US
dc.subject İzinsiz Mesaj Filtreleme en_US
dc.subject Türkçe Metin Sınıflandırma en_US
dc.subject Türkçe SMS en_US
dc.title Sms Spam Detection in Turkish Language en_US
dc.type Master's Degree Project en_US

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
CemKayaGürkan.pdf
Size:
3 MB
Format:
Adobe Portable Document Format
Description:
orgınal

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
0 B
Format:
Item-specific license agreed upon to submission
Description: