新智元报导
来历:greatlearning
修改:向学
【新智元导读】自然言语处理对社会的影响越来越广泛,但它又是人工智能中最难的子范畴之一;因而现在许多公司都在四处寻找许多专业人才!为了协助应聘者愈加从容应对自然言语处理面试,咱们特别引荐了面试中最常见的38个问题与答案。戳右边链接上新智元小程序了解更多!
自然言语处理(Natural Language Processing,NLP)是指协助机器了解和剖析自然言语;它是运用机器学习算法从数据中提取所需信息的一个自动化的进程。
自然言语处理尽管仅仅人工智能的一个子范畴,但它对咱们日常日子与学习的影响日渐深远。自然言语处理也是人工智能中难度最大的子范畴之一,也正是这样的应战给咱们我们带来了更多时机;现在许多公司都在自然言语处理上发力,职业急需许多专业人才!
在申请与自然言语处理相关的作业职位时,应聘者往往不清楚面试官或许会问什么样的问题。应聘者除了学习NLP的基础知识外,专门为面试做准备也是很重要的。以下是NLP面试中常见的问题和答案的列表,并对其作了解说,期望能对应聘者成功拿到好的offer起到协助。
1.下列哪些技能能被用于要害词归一化(keyword normalization),即把要害词转化为其根本形式?
A. 词形复原(Lemmatization)
B. 勘探法(Soundex)
C. 余弦类似度(Cosine Similarity)
D. N-grams
答案:A
词形复原有助于得到一个词的根本形式,例如:playing -> play, eating -> eat等;其他选项的技能都有其他运用目的。
2.下列哪些技能能被用于核算两个词向量之间的间隔?
A. 词形复原(Lemmatization)
B. 欧氏间隔(Euclidean Distance)
C. 余弦类似度(Cosine Similarity)
D. N-grams
答案:B与C
两个词向量之间的间隔能够用余弦类似度和欧氏间隔来核算。余弦类似度在两个词的向量之间树立一个余弦角,两个词向量之间的余弦角挨近表明词类似,反之亦然。例如,与“Football”、“NewDelhi”这2个词比较,“Football”、“Cricket” 这两个词之间的余弦角将更挨近于1。一般,文档类似度是经过文档中的内容(或单词)在语义上的挨近程度来衡量的;当它们挨近时,类似度指数挨近于1,不然挨近于0。两点之间的欧氏间隔是衔接这两点的最短途径的长度。一般用毕达哥拉斯定理核算三角形。
3.文本语料库的或许特征是什么?
A. 文本中词计数
B. 词的向量标示
C.词性标示(Part of Speech Tag)
D. 根本依存语法
E. 以上一切
答案:E
以上一切这些都可当作文本语料库的特征。
4.你在20K文档的输入数据上为机器学习模型创建了文档-词矩阵(document-term matrix)。以下哪项可用于削减数据维度?
(1)要害词归一化(Keyword Normalization)
(2)潜在语义索引(Latent Semantic Indexing)
(3)隐狄利克雷散布(Latent Dirichlet Allocation)
A. 只要(1)
B. (2)、(3)
C. (1)、(3)
D. (1)、(2)、(3)
答案:D
5.哪些文本剖析技能可被用于名词短语检测、动词短语检测、主语检测和宾语检测?
A. 词性标示(Part of Speech Tagging)
B. Skip Gram 和N-Gram 提取
C. 连续性词袋(Bag of Words)
D. 依存句法剖析(Dependency Parsing)和成分句法剖析(Constituency Parsing)
答案:D
6.用余弦类似度表明的词之间的差异将明显高于0.5
A. 正确
B. 过错
答案:A
7.下列哪项是要害词归一化技能?
A. 词干提取(Stemming)
B. 词性标示(Part of Speech)
C. 命名实体辨认(Named Entity Recognition)
D. 词形复原(Lemmatization)
答案:A与 D
词性标示(POS)与命名实体辨认(NER)不是要害词归一化技能。
8.下面哪个是NLP用例?
从图画中检测物体
面部辨认
语音生物辨认
文本摘要
答案:D
A和B是核算机视觉运用事例,C是语音运用事例。
9.在包括N个文档的语料库中,随机挑选的一个文档一共包括T个词条,词条“hello”呈现 K 次。假如词条“hello”呈现在悉数文档的数量挨近三分之一,则TF(词频)和 IDF(逆文档频率)的乘积的正确值是多少?
A. KT * Log(3)
B. T * Log(3) / K
C. K * Log(3) / T
D. Log(3) / KT
答案:C
10. 下列算法中削减了常用词的权重,增加了文档调集中不常用词的权重的是?
A. 词频(TF)
B. 逆文档频率(IDF)
C. Word2Vec
D. 隐狄利克雷散布(Latent Dirichlet Allocation)
答案:B
11.从语句中删去“and”、“is”、“a”、“an”、“the” 这样的词的进程被称为?
A. 词干提取(Stemming)
b. 词形复原(Lemmatization)
C. 停用词(Stop Words)
D. 以上一切
答案:C
12.将语句或阶段转换为tokens的进程称为词干提取(Stemming)
A. 正确
B. 过错
答案:B
这是分词(tokenization),而不是词干提取。
13.在给到任何神经网络之前,Tokens都会被转换成数字
A. 正确
B. 过错
答案:A
在自然言语处理中,一切的词在输入到神经网络之前都被转换成数字。
14.找出其间的异类
A. nltk
B. scikit learn
C. SpaCy
D. BERT
答案:D
除了BERT是一个词嵌入办法以外,其它都是NLP库。
15.TF-IDF帮你树立
A. 文档中呈现频率最高的词
B. 文档中最重要的词
答案:B
TF-IDF有助于确认特定词在文档语料库中的重要性。TF-IDF考虑了该词在文档中呈现的次数,并被呈现在语料库中的文档数所抵消。
16.从给定的语句、阶段中辨认人名、安排名的进程称为?
A. 词干提取(Stemming)
B. 词形复原(Lemmatization)
C. 停用词消除(Stop Word Removal)
D. 命名实体辨认(Named Entity Recognition)
答案:D
17.下列哪一项不是预处理技能?
A. 词干提取和词形复原(Stemming and Lemmatization)
B. 转换成小写(Converting to Lowercase)
C. 删去标点符号(Remove Punctuation)
D. 删去停用词(Removal of Stop Words)
E. 心情剖析(Sentiment Analysis)
答案:E
心情剖析不是一种预处理技能。它是在预处理之后完结的,是一个NLP用例。一切其他列出的都用作语句预处理的一部分。
18.在文本发掘中,能够正常的运用以下哪项指令完结将文本转换为tokens,然后将其转换为整数或浮点向量的操作?
A. CountVectorizer
B. TF-IDF
C. 词袋模型(Bag of Words)
D. NERs
答案:A
CountVectorizer可协助完结上述操作,而其他办法则不适用。
19.将词表明成向量被称为神经词嵌入(Neural Word Embeddings)?
正确
过错
答案:A
20.下列哪种词嵌入支撑上下文建模(Context Modeling)?
A. Word2Vec
B. GloVe
C. BERT
D. 以上一切
答案:C
只要BERT(Bidirectional Encoder Representations from Transformer)支撑上下文建模。
21.下列哪种嵌入方法支撑双向上下文(Bidirectional Context)?
Word2Vec
BERT
GloVe
以上一切
答案:B
只要BERT支撑双向上下文。Word2Vec和GloVe是词嵌入,它们不供给任何上下文。
22.下列哪种词嵌入能够自定义练习特定主题?
A. Word2Vec
B. BERT
C. GloVe
D. 以上一切
答案:B
23.词嵌入捕获多维数据,并表明为向量?
正确
过错
答案:A
24.词嵌入向量有助于确认2个tokens之间的间隔?
正确
过错
答案:A
能够正常的运用余弦类似度来确认经过词嵌入来表明的两个向量之间的间隔。
25.言语成见是由词嵌入练习中运用的历史数据引进的,下面哪项不是成见的示例?
新德里之于印度,北京之于我国
男人之于电脑,女性之于家庭主妇
答案:A
陈说B是一种成见,由于它把女性变成了家庭主妇,而陈说A不是一种成见。
26. 以下哪项是处理NLP用例(如语义类似性、阅览了解和常识推理)的更好挑选?
A. ELMo
B. Open AI’s GPT
C. ULMFit
答案:B
Open AI的GPT能够经过运用Transformer模型的留意力机制(Attention Mechanism)来学习数据中的杂乱形式,因而更适合于比如语义类似性、阅览了解和常识推理之类的杂乱用例。
27. Transformer架构首先是由下列哪项引进的?
A. GloVe
B. BERT
C. Open AI’s GPT
D. ULMFit
答案:C
ULMFit具有根据LSTM的言语建模架构;这之后被Open AI的GPT的Transformer架构所替代。
28. 以下哪种架构能够更快地练习,且需求更少的练习数据?
A. 根据LSTM的言语建模
b. Transformer架构
答案:B
从GPT开端,Transformer架构就得到了支撑,并且练习速度更快,所需的数据量也更少。
29. 相同的词能够终究靠___________来完结多个词嵌入?
GloVe
Word2Vec
ELMo
Nltk
答案:C
ELMo(Embeddings from Language Models)词嵌入支撑同一个词的多个嵌入,这有助于在不同的上下文中运用同一个词,然后捕获上下文而不仅仅是词的意思,这与GloVe、Word2Vec不同。Nltk不是词嵌入。
30. 关于一个给定的token,其输入表明为它的token嵌入、段嵌入(Segment Embedding)、方位嵌入(Position Embedding)的总和
A. ELMo
B. GPT
C. BERT
D. ULMFit
答案:C
BERT运用token嵌入、段嵌入(Segment Embedding)、方位嵌入(Position Embedding)。
31. 从左到右和从右到左练习两个独立的LSTM言语模型,并将它们简略地衔接起来
A. GPT
B. BERT
C. ULMFit
D. ELMo
答案:D
ELMo测验练习两个独立的LSTM言语模型(从左到右和从右到左),并将成果衔接起来以产生词嵌入。
32.用于产生词嵌入的单向言语模型
BERT
GPT
ELMo
Word2Vec
答案:B
33. 在这种架构中,对语句中一切词之间的联系进行建模,而与它们的方位无关。这是哪种架构?
A. OpenAI GPT
B. ELMo
C. BERT
D. ULMFit
答案:C
BERT Transformer架构将语句中每个词和一切其他词之间的联系建模,以生成留意力分数。这些留意力分数随后被用作一切词表明的加权平均值的权重,它们被输入到彻底衔接的网络中以生成新的表明。
34.列出10个运用NLP技能处理的用例
心情剖析(Sentiment Analysis)
言语翻译(英语到德语、中文到英语等等)
文档摘要(document Summarization)
问题答复
语句完结
特色提取(从文档中提取要害信息)
谈天机器人交互
主题分类(Topic Classification)
目的提取(Intent Extraction)
语法或语句更正
图画描绘生成(Image Captioning)
文档排名(document Ranking)
自然言语推理
35. Transformer模型重视语句中最重要的词
A. 正确
B. 过错
答案:A
Transformer模型中的留意机制用于建模一切词之间的联系,并为最重要的词供给权重。
36.以下哪种NLP模型的准确性最高?
A. BERT
B. XLNET
C. GPT-2
D. ELMo
答案:B. XLNET
XLNET在一切模型中都给出了最好的准确性。它在20个使命上都优于BERT,在情感剖析、问答、自然言语推理等18个使命上都取得了顶尖的成果。
37.摆放言语模型(Permutation Language Models)是下列哪项的特色?
A. BERT
B. EMMo
C. GPT
D. XLNET
答案:D
XLNET供给了根据摆放的言语模型,这是与BERT的一个要害差异。
38. Transformer XL运用相对方位嵌入
A. 正确
B. 过错
答案:A
Transformer XL运用嵌入来编码词之间的相对间隔,而不是有必要表明词的肯定方位。这个嵌入用于核算恣意两个词之间的留意力得分,这两个词之间能够在之前或之后被n个词分离隔。
这样,你就有了一切或许的NLP面试问题。现在就去尽你最大的尽力吧!
参考资料:
https://www.greatlearning.in/blog/nlp-interview-questions/