游戏反垃圾聊天系统

Presenter Notes

Outline

  1. 整体流程
  2. 向量映射
    1. 分词
    2. 特征选择
    3. 特征选择方法对比
  3. 分类和聚类
    1. 分类算法
    2. 算法优劣度量
    3. 分类算法比较

Presenter Notes

整体流程

Presenter Notes

向量映射

分词

  • 交集型歧义

    • 已取得文凭的和尚未取得文凭的干部

      • 已取得文凭的和尚/未取得文凭的干部
      • 已取得文凭的和/尚未取得文凭的干部
    • 他说的确实在理

      • 他/说/的/确实/在理
      • 他/说/的确/实/在理
      • 他/说/的确/实在/理

Presenter Notes

向量映射

  • 组合型歧义

    • 这扇门的把手
    • 把手抬起来
  • 未登录词

    • 人名
      • 邓颖"超生"前使用过的物品
    • 地名
    • 缩略语
    • 网络新词

source ref

Presenter Notes

分词系统/软件/算法

  • SCWS

    • 词典
    • 专有名称,人名,地名,数字年代等规则
  • ICTCLAS

    • 最好
    • 收费的
  • FundanNLP

    • 无字典
  • MMSEG4J

  • 盘古分词

Presenter Notes

向量映射

  • 一条聊天记录映射为一个向量

  • 向量的元素为某个词是否出现

  • 如何选择这些词?

Presenter Notes

特征选择

  • 特征选择(feature selection)是从训练集合出现的词项中选出一部分子集的过程。在文本 分类过程也仅仅使用这个子集作为特征。

  • 特征选择有两个主要目的:

    1. 通过减少有效的词汇空间来提高分类器训练和应用的效率。
    2. 特征选择能够去除噪音特征

Presenter Notes

特征选择

  • 期望互信息 (expected mutual information)

    当文档包含词t, 则et=1, 否则et=0

    当文档属于类别c, 则ec=1, 否则ec=0

    设Nxy表示x=et, y=ec所对应的文档数目

    I越大,表示这个词越能代表这个类别

13-17

calc-emi

Presenter Notes

  • 卡方统计量 (Chi-squared)

    在统计学中,χ 2统计量常常用于检测两个事件的独立性。

    两个事件A 和B 独立,是指两个事件A、B 的概率满足 P(AB)=P(A)P(B)或者P(A|B)=P(A)且P(B|A)=P(B)。

    在特征选择中,两个事件分别是指词项的出现和类别的出现。

13-18

  • 卡方统计量 度量的是期望值E和观察值N的偏离程度。值大则意味着独立性假设不成立

Presenter Notes

特征选择方法对比

feature_compare

结论:暂时没有一种显著更优的特征选择方法

Presenter Notes

Presenter Notes

Presenter Notes

分类和聚类

  • 分类(Classification)

给定一系列类别,分类是指将给定对象归入一个或者多个类别的过程

  • 聚类(Cluster)

Cluster

pic link

Presenter Notes

分类算法

weka

Presenter Notes

分类算法

  • Bayes系列

  • SVM (Support Vector Machines)

    link: libsvm

  • libLINEAR

    C.-H. Ho and C.-J. Lin. Large-scale Linear Support Vector Regression

    • 没有核函数的SVM

Presenter Notes

分类算法优劣度量

  • 耗时

  • F-measure

f1_score

  • precision 准确率

  • recall 召回率

precision_recall

Presenter Notes

alg-time alg-prec

Presenter Notes

alg-recall alg-f-measure

Presenter Notes