交集型歧义
已取得文凭的和尚未取得文凭的干部
他说的确实在理
组合型歧义
未登录词
SCWS
ICTCLAS
FundanNLP
MMSEG4J
一条聊天记录映射为一个向量
向量的元素为某个词是否出现
如何选择这些词?
特征选择(feature selection)是从训练集合出现的词项中选出一部分子集的过程。在文本 分类过程也仅仅使用这个子集作为特征。
特征选择有两个主要目的:
期望互信息 (expected mutual information)
当文档包含词t, 则et=1, 否则et=0
当文档属于类别c, 则ec=1, 否则ec=0
设Nxy表示x=et, y=ec所对应的文档数目
I越大,表示这个词越能代表这个类别
卡方统计量 (Chi-squared)
在统计学中,χ 2统计量常常用于检测两个事件的独立性。
两个事件A 和B 独立,是指两个事件A、B 的概率满足 P(AB)=P(A)P(B)或者P(A|B)=P(A)且P(B|A)=P(B)。
在特征选择中,两个事件分别是指词项的出现和类别的出现。
卡方统计量 度量的是期望值E和观察值N的偏离程度。值大则意味着独立性假设不成立
结论:暂时没有一种显著更优的特征选择方法
给定一系列类别,分类是指将给定对象归入一个或者多个类别的过程
Bayes系列
SVM (Support Vector Machines)
link: libsvm
libLINEAR
C.-H. Ho and C.-J. Lin. Large-scale Linear Support Vector Regression
耗时
F-measure
precision 准确率
recall 召回率
游戏反垃圾聊天系统 | 1 |
---|---|
Outline | 2 |
整体流程 | 3 |
向量映射 | 4 |
向量映射 | 5 |
分词系统/软件/算法 | 6 |
向量映射 | 7 |
特征选择 | 8 |
特征选择 | 9 |
- | 10 |
特征选择方法对比 | 11 |
- | 12 |
- | 13 |
分类和聚类 | 14 |
分类算法 | 15 |
分类算法 | 16 |
分类算法优劣度量 | 17 |
- | 18 |
- | 19 |
Table of Contents | t |
---|---|
Exposé | ESC |
Full screen slides | e |
Presenter View | p |
Source Files | s |
Slide Numbers | n |
Toggle screen blanking | b |
Show/hide slide context | c |
Notes | 2 |
Help | h |