非要找个理由的话：decoder-only采用的是因果注意力机制，causal