旋律序列的主题模型
作者
Athina Spiliopoulou A.SPILIOPOULOU@ED.AC.UK
Amos Storkey A.STORKEY@ED.AC.UK
爱丁堡大学信息学院
摘要
我们考虑直接从属于相同流派的音乐序列中学习旋律的概率模型问题。这是一个具有挑战性的任务,因为我们不仅需要捕捉在音乐中明显的富含大量的时间结构,而且我们也要计算不同音乐组件之间的复杂的相关性。为了解决这个问题,我们介绍了Variable-gram 主题模型,Variable-gram 主题模型将潜在主题以一个上下文信息的系统模型的形式联系起来。我们对模型下一步的预测进行评估。此外,我们提出了一个新的模型评估方法,我们利用字符串核的最大均值差异的方法对模型样本与数据序列进行直接比较,得到模型分布与数据分布的接近程度。我们通过在相同的评估标准下比较LDA,Bigram主题模型和有关联的非主题模型表明该模型体现了最好的性能。
1. 介绍
对于机器学习而言,模拟真实世界音乐的复杂性是一个很有意思的问题。在西方音乐中,pieces 是通过系统的音乐机制演绎作为音乐基础的音乐结构的一种典型的组合。然而,描述这种结构却尤为困难,因为它不仅取决于实现几个音乐元素,例如音阶,节奏,拍子,而且关系到单个时间和交叉时间元素之间的关系。这导致即使pieces来自通常根据单一的曲式构建的相同的音乐流派,可能的变化的情况还是无穷多。
为了解决旋律建模问题,我们提出了Variable-gram 主题模型,模型采用了Dirichlet可变长度马尔可夫模型(Dirichlet-VMM)进行词的主题分布。Dirichlet-VMM模型通过学习表示未来的可变长度的上下文建立时间结构。与此同时,隐含的主题代表了不同的音乐组织方法,从而允许我们能够在音乐中建立不同的风格,调性和力度。该模型没有做任何明确的音乐假设,但是该模型特别适合应用于音乐的上下文,因为该模型可以对大而复杂的时序依赖性进行建模而不强制一个平稳的数据假设。每个序列被建模为潜在的成分(主题)的混合集,并且根据分配出的数据的统计结果每一个成分对不同命令下的马尔可夫相关性进行建模。
为了评估模型的性能,我们使用两个指标对相关模型进行比较分析。第一个是基于每一个模型的测试序列下一步预测(next-step prediction)的对数似然估计的平均值。第二个是字符串核的最大均值差异对样本模型和测试数据序列进行计算。在这两种评价体系中,我们发现虽然使用主题提高了性能,但是它无法克服以一个系统对时间模型的需要。在相同的评价目标中,联合了这两个策略的Variable-gram主题模型具有最好的性能。
本文的主要贡献有:
(a) 我们介绍了Variable-gram主题模型,通过考虑相当复杂的上下文信息模型的条件分布扩充了主题模型的建模方法。
(b) 我们介绍了关于评价离散数据的生成模型的一种全新的方法。这里采用了字符串核的最大均值差异法直接对模型样本和数据序列进行比较。
2. 背景
已经有许多机器学习和统计方法应用于音乐相关的问题。这里我们讨论作为输入的离散的音乐序列的方法并且尝试对旋律结构进行建模。Lavrenko & Pickens (2003)为了对复调音乐建模提出了随机字段的马尔可夫模型(MRFs). 这个模型非常一般,但是为了保持易于处理,很多信息被遗弃,因此这个模型并不适合实际音乐。Weiland等人(2005)提出了音高的分层隐藏马尔可夫模型(HHMM)。该模型根据被调查的音乐流派的结构预定了三个内部状态。Eck & Lapalme (2008)为了对旋律建模提出了一个长短时记忆循环神经元网络。该网络以和弦和某些之前几次setp作为条件根据测量边界进行选取。(The network is conditioned on the chord and certain previous time-steps, chosen according to the metrical boundaries.)Paiement et al. (2009)提出了一种有趣的方法,这种方法将音乐知识并入了旋律建模任务中。他们为旋律给定和弦,节奏和一个从受限于节奏的输入输出的隐马尔可夫模型(Input-Output HMM)中提取出的Narmour特征的序列从而定义了一个图解模型。
一个非常成功的研究路线检索的方法从统计语言建模和文本压缩的领域到音乐建模。Dubnov et al. (2003)提出了两个机遇字典基础的预测方法,Incremental Parsing (IP)和Prediction Sux Trees (PSTs),用于可变程度的马尔可夫模型的旋律建模。尽管该模型相当简单自然,但是VMM模型能够同时获取大小型马尔可夫依然性并且生成了不错的音乐后代。Begleiter et al. (2004)研究6种不同的训练VMM的算法。这些算法的不同在于他们处理事件的计数方式,关于未观测的事件和可变长度建模的平滑化处理。Spiliopoulou & Storkey (2011)为解决旋律模型问题提出了基于贝叶斯的VMM,Dirichlet-VMM模型。该模型显著优于使用PST算法训练VMM。最后是一个有趣的基于字典的音乐上下文预测在Pearce & Wiggins (2004)中被提及。他们描述了一个多视点系统,其中包括一个通过部分匹配模型(PPM)的交叉预测。
3. The Variable-gram Topic Model
在这个部分,我们介绍Variable-gram主题模型,我们在之后会应用于旋律序列。在音乐模型的上下文中,文档相当于音乐的pieces,词相当于音节(notes)。Variable-gram主题模型是通过使用Dirichlet-VMM模型处理基于词的主题分布参数对隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)的一种沿拓。下面我们开始描述Dirchlet-VMM模型。
3.1 The Dirichlet-VMM
Dirichlet-VMM是定义基于一个有限的字母表的一个分离有序数据的贝叶斯分层模型。该模型在给定上下文的条件下给出下一个符号的条件概率分布,其中上下文的长度变化是根据我们实际的观察。在预测期间会使用在数据中经常发生的长的上下文,而对于那些不频繁的上下文,他们更短的副本(counterparts)将会被使用。
类似于VMM, 模型是通过后缀树来表现,后缀树在根节点开始将上下文作为路径储存;在树中节点越深相应的上下文越长。树深度的上限为L,即最大允许上下文的长度。树并不是一个完整树,只有在数据中出现频率足够多或者运输了对预测下一个符号有用的信息的上下文才会被存储。更多关于概率后缀树算法构筑VMM树的详情见Ron等人(1994).
注:由于本人通读完改论文之后并不能完成代码实现功能,如果有哪位大神实现了,求联系。本着学习的态度,遇见不会的又跑回去学习去了,所以这篇文章翻译的会比较慢,点击文章中的人名链接均可以下载相应文献或者跳转到比较优秀的博客上。