A. 正确。直接计算任意语句在真实语料中出现的概率确实非常困难,因为自然语言的组合是无限的,导致绝大多数可能的语句在训练数据中从未出现过(即“数据稀疏”),其概率会变为0,这不符合实际情况。
B. 正确。为了解决上述问题,语言模型通常采用“从单词构成语句的角度”进行定义,即将语句的概率分解为其中一系列词出现的条件概率的乘积。这是构建统计语言模型(如n-gram模型)的核心思路,比直接枚举所有语句更合理可行。
C. 错误。这正是本题的答案。采用单词角度的分解方法(如n-gram模型)并不能完全消除数据稀疏问题,只是将其从“语句级”转移到了“词序列级”。例如,一个较长的词序列(如5个词的组合)在训练语料中可能依然从未出现。因此,数据稀疏性问题会以不同的形式(如高阶n-gram的稀疏)继续存在,需要通过平滑等技术来处理。
D. 正确。从单词角度构建语言模型(尤其是高阶n-gram模型)会面临计算代价高的问题。因为随着n的增大,模型需要存储和计算的唯一n-gram组合数量会呈指数级增长,对存储空间和计算能力的要求非常高。
简单来说,选项C的说法过于绝对。语言模型的核心思想正是通过分解来缓解直接计算语句概率的困难,但数据稀疏性是一个根本性挑战,会伴随模型始终,需要一系列工程技术来应对。
希望这个解释对你有帮助!如果你对n-gram、神经语言模型或平滑技术等具体概念感兴趣,我们可以继续探讨。