别的不懂,但是从Andrew的deeplearning的第五课第一章第三个作业中抽取点个人感受。 你把编曲想成简单的one-to-many的sequence model,预测下一个词,那么我们使用简单单层的RNN+LSTM(假定你理解RNN和LSTM的原理)就可以像做sequence predicting一样预测下一个可能出现的音符或者音阶。那再来说你的贴图,贴图是深层的RNN+LSTM的一个时间片结构,这里多层是因为对于一个输入,假定输入是embedding或是one-hot的形式,那么决定这个输入的下一个音符或者音阶的softmax对于输入可能不是线性的,这和普通的深层神经网络原理类似,比如,输入猫的图片,决策是不是猫的概率是隐层叠出来的非线性特征所决定的一样。那么综合起来看,我们采用RNN+LSTM的结构是因为不同音符之间有很强的联系,采用深层网络是想学到非线性特征。 比如一个歌手的风格是情歌,那么他的曲风可能偏向R&B、乡村、或者蓝调等,根据他的曲库,我们可以使用这种结构学到一种可能比较柔情的pattern。但是当哪天过气了,想要来个rap炸一炸,可能这种网络效果就不会好了,他都过气了,别说那个当年适合他的网络了。。。。。。
点赞 2

相关推荐

每晚夜里独自颤抖:要求太多的没必要理
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务