更具新闻影响力网站
欢迎投稿本网站
主页 > 情感 >

1. 文本情感分析模型评测算法详细介绍 AI

发布时间:2022-08-26 14:15   来源:    作者:

1. 文本情感分析模型评测算法详细介绍

平台已集成的文本情感分析模型评测(以下简称文本评测)算法及简要说明如下所示(使用算法缩写字典序排序)。评测依据主要是模型抵抗文本攻击的能力。

1.1. 名词解释

余弦距离

对于两个相同维数的非零向量 \(\mathbf {A}\)\(\mathbf {B}\) ,他们的余弦相似度定义为

\[{\displaystyle {\operatorname{CosSim}(\mathbf {A}, \mathbf {B})}={\mathbf {A} \cdot \mathbf {B} \over \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits_{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits_{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}}}\]

分词

分词是中文文本自然语言处理相较于英文文本自然语言处理需要额外进行的预处理工作。因为没有像空格那样的分隔符,当需要进行词级别的操作的时候,需要对中文文本进行分词的操作,例如“我爱北京天安门”应被被分词器分为“我”“爱”“北京”“天安门”。

停用词(stop words)

停用词一般指的是语言中出现频率极高的词,这些词包括并无实际意义的功能词,例如“了”,“呢”;或是泛用性很强的词,例如“然后”。文本自然语言处理很多时候需要在预处理的时候把这类词去掉。

词性(part-of-speech)

词性,又称词类是一个语言学术语,是一种语言中词的语法分类,是以语法特征(包括句法功能和形态变化)为主要依据、兼顾词汇意义对词进行划分的结果,例如名词,动词,形容词,副词等。这些划分还可以进行进一步细化分类,例如名词可以进一步细分为普通名词,方位名词,处所名词,人名,地名等。以下是比较有代表性的 pythonjiebapaddle 模式下的词性(POS)和专名类别(NER, name entity recognition)标签集合

python包jieba在paddle模式下的词性和专名类别标签集合

标签

含义

标签

含义

标签

含义

标签

含义


n

 

普通名词

 

f

 

方位名词

 

s

 

处所名词

 

t

 

时间

 

nr

 

人名

 

ns

 

地名

 

nt

 

机构名

 

nw

 

作品名

 

nz

 

其他专名

 

v

 

普通动词

 

vd

 

动副词

 

vn

 

名动词

 

a

 

形容词

 

ad

 

副形词

 

an

 

名形词

 

d

 

副词

 

m

 

数量词

 

q

 

量词

 

r

 

代词

 

p

 

介词

 

c

 

连词

 

u

 

助词

 

xc

 

其他虚词

 

w

 

标点符号

 

PER

 

人名

 

LOC

 

地名

 

ORG

 

机构名

 

TIME

 

时间

 

文本攻击方法(黑白盒)

白盒攻击

项目的部分攻击算法是白盒的攻击方式,需要完整的知道model的结构和对应的梯度等信息。

黑盒攻击

项目的部分攻击算法是黑盒的攻击方式,不需要完整的知道model的结构和对应的梯度等信息,只需要知道经过该模型的预测结果,用于作为评测的数据输入。

文本攻击方法(目标/非目标)

目标攻击

目标攻击是指将原始样本通过攻击后,指定攻击后的结果类别

非目标攻击

非目标攻击是指将原始样本通过攻击后,结果类别与原有的模型类别不同即可

1.2. 文本攻击粒度

字符(字母)级别攻击

字符(字母)级别攻击方式包括相邻字符交换,添加、删除、替换字符以及对某些字符进行重复等方式。

单词级别攻击

单词级别攻击方式包括同义词替换,添加单词,删除单词等方式。

句子级别攻击

句子级别攻击方式包括添加句子,调换句子的位置,或者改写(paraphrasing)等方式。

1.3. 文本攻击限制条件

上一篇:快手情感语录句子
下一篇:情感天空

分享到:
0
最新资讯
阅读排行