请解释什么是大模型?它与传统AI模型有什么区别?为什么会涌现?大模型为什么需要那么大的算力?什么是Transformer?为什么它这么重要?自注意力机制是怎么工作的?为什么要用多头注意力?什么是Prompt?什么是In-context learning?Zero-shot, one-shot, few-shot有什么区别?什么是模型的参数?参数越多越好吗?有没有参数不是最多的但效果很好的模型?比如MoE架构?什么是Token?如何计算Token?中文和英文在Token计数上有什么区别?为什么英文单词通常被分成多个子词?什么是温度(Temperature)?它对生成有什么影响?在什么场景下用高温?什么场景下用低温?请解释一下什么是大模型的“幻觉”?什么是RAG?为什么要用RAG?