基于机器学习的诈骗信息识别系统设计与实现开题报告

 2023-09-11 10:00:34

1. 研究目的与意义

一、研究现状以及发展趋势:

随着手机用户数的不断增加,网络环境中的垃圾短信数量也是越发泛滥,相关的互联网公司也采取了手机用户实名制的方法来解决垃圾短信带给用户的困扰,但是这远远不够的。 目前为止,对于垃圾短信的处理主要还是依靠有效的技术手段。国内外垃圾短信的识别研究主要有两个大方向,一是基于文本特征的垃圾短信过滤方法,二是基于文本内容来对垃圾短信和正常短信进行分类。

基于文本特征的垃圾短信识别方法主要有流量控制、黑白名单过滤等。流量控制的工作方式:在一个时间段内发送方发送的短信数量过大,超过了提前设置的阈值,那么根据提前规定的标准我们可以认为发送方发送的是垃圾短信,我们就可以监控发送方,限制发送方再次发送短信。但是在我们的生活中,也存在需要发送大量短信的情况,例如高校需要对进入考研复试的学生发送多条复试通知,这时我们不能认为该短信是垃圾短信。黑白名单的方法则是当用户收到短信时,就将发送方的信息在黑名单数据库中进行查找匹配,若匹配成功则认为是垃圾短信。但黑白名单的内容需要手动添加,数据库的存储空间也很有限,若发送方更换身份信息,黑白名单也就失效了。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究内容和问题

一、基本内容

无论是在国内还是国外,垃圾短信分类处理一直是一个让国内外学者感到棘手的问题,垃圾短信的处理所涉及几个难题怎样构建出合理的短信语料库、对于短信内容我们如何进行正确分词、这些短信内容又该如何预处理、怎样提取出其中最具统计意义和最具代表性的特征以及如何建立一个分类效果科学高效的垃圾短信过滤模型。

二、预计解决的难题

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 设计方案和技术路线

一、研究方法和技术路线

由于传统垃圾短信识别方法的局限性和不高的识别率,目前对于垃圾短信的分类研究主要集中在对文本内容的研究上。要对文本进行有效分类那么也就离不开对文本的分析,从纵向来看,文本分析通过一系列的技术手段,从相对大量的自然语言中挖掘出潜在的、有用的、可理解的数据信息。文本分析的主要过程从文本获取开始,一般经过分词、文本特征提取与表示、特征选择、知识或信息挖掘和具体应用等步骤。基于文本内容的垃圾短信过滤方法是以文本分类技术为基础。文本分类的基本思想是:对文本进行预处理,将预处理的文本转化为更容易处理的向量,再通过一系列的降为处理,最后使用分类函数进行有效分类。目前比较有名的分类算法主要有神经网络、朴素贝叶斯、k最近邻算法和支持向量机等。随着文本分类技术的不断更新。

python-scikit-learn、jieba相关机器学习包,pyqt5与qtdesigner的gui设计。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 研究的条件和基础

(1)windows10

(2)jetbrains pycharm 2022.3.7 x64

(3)python3.8

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。