我拿乐谱训了个语言模型!

转载自 | 夕小瑶的卖萌屋

文 | 花椒


最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》,来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型后,看到这篇文章时便觉得眼前一亮。激发了花椒的好奇心。都说学习音乐可以让大脑更加聪明。难道语言模型也一样?从音乐中获得了“灵感”,变“聪明”了?于是乎带着脑洞继续往下读。

论文题目
Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models

论文链接
https://www.aclweb.org/anthology/2020.emnlp-main.554.pdf    

Github
https://github.com/toizzy/tilt-transfer

本文主要探究什么问题?

本文的主要假设是对于有结构性的语言,比如乐谱和代码,他们的潜在结构能被神经网络所编码,且有助于自然语言的学习。在此假设上,本文主要研究问题是:

当存在两种语言L1和L2时, 语言模型可以在多大程度上学习并迁移L1中的潜在结构到L2中,以帮助L2的学习?

文中对于语言的定义是比较宽泛的,包括我们日常用的自然语言,音乐,代码等。因为每一种语言有着不同的潜在结构,为探究不同L1对L2的影响,本文主要围绕3个方面对L1发问:

  • 当L1是non-linguistic语言时(比如music, Java code),语言模型是否可以学习其潜在结构,并迁移到自然语言中?
  • 是否是L1中的递归结构对语言模型的学习和迁移有帮助?
  • 当L1是与L2不同的自然语言时,语言模型是否可以学习并迁移其中的句法结构?

为了回答这3个问题,作者提出了一种叫做TILT (Test for Inductive Bias via Language Model Transfer)的测试方法。核心思想是,先用L1语言预训练一个LSTM语言模型,然后固定其参数,直接在L2语言上测试其困惑度。通过改变L1固定L2,来对比不同潜在结构对于自然语言学习的影响。结合文中的流程图更好理解(如下):

看图说话:

Q1: 怎么用语言模型训练Music数据呢?A1: 关键是将乐谱转换为线性序列。文中使用了MAESTRO数据集,包含了172个小时的经典的钢琴演奏曲。该数据集采用MIDI格式的音乐数据,每个MIDI文件,对应一个序列的音符的标注信息。因此一首曲子就可转换一个线性的序列,这样子乐谱就可以愉快的和LSTM玩耍了~比如对于下面的mid文件[1]:(哈哈,点不了哦~)

会被标注为音符'3/4 c4 d8 f g16 a g f#', 然后传递给模型。

Q2: 为什么②中LSTM的参数是固定的呢?A2: 这是为了保留使用不同L1训练时所捕捉的潜在结构呀~固定LSTM的参数可以防止L2的自身结构信息被编码。因为最终是在同一个L2上进行测试的,所以可以公平比较使用不同L1进行预训练对L2测试结果的影响啦。文中一个核心的观点是将不同L1中的潜在结构当成inductive bias, 并探究其是否可以被语言模型捕捉并迁移到L2上。

Q3: 乐谱的词表和西班牙语的词表都不一样,我要怎么在西语上测试呢?A3: 这还不简单,在测试前,使用西语语料对embedding层进行fine-tune就可以了嘛(上图③的功能)。

乐谱到底有没有用呢?

有没有用,还得看怎么对比了~哈哈~先看看文中使用了4组不同的L1语言的例子:

那他们各自的实验结果如何呢?首先来个直观的对比(横轴是不同的L1语言预训练,纵轴是在L2上测试的结果)。

  • music所在一列就是使用乐谱训练的结果啦。与左边的baseline相比,提升十分显著,困惑度几乎降低了一半。最左边两个草绿色的baseline,是在西语上随机采样的词汇语料(没有任何结构信息)预训练得到的结果。但是music的效果并不如Jave code以及别的自然语言(橙色)。

  • 为了探究到底是music和Java code中的什么潜在结构提升了L2的性能呢?作者猜测会不会是其中的层级递归结构呢?但是在music和code上又不好直接验证。于是有了第三组实验来探究层级递归结构对L2的影响。作者伪造了两个括号数据(配对的整数数据),一个具有层级递归结构(Nesting parents),一个没有递归结构但是有配对的标记对的信息(Flat Parens)。可以看到他们俩给L2带来的性能提升几乎持平。那这是不是说明层级递归对L2没有多大用呢?是的,至少这篇文中的实验室设置下是的。但是作者说这也说明标记对的匹配预训练LSTM语言模型是有帮助的。他们甚至表现比用music的还好,你说神奇不神奇。

  • 第四组实验使用不同的自然语言数据进行预训练,可以看到他们的性能其实还是远远高于non-linguistic data的。(所以说,其实标题或多或少有些噱头啦,哈哈。)同时也可以看到,日语、英语、葡萄牙语对于西语的帮助差别也是比较大的, 那这又是为什么呢?作者认为是句法结构类型的差异性所导致的。因此为了探究不同自然语言L1对L2的影响,作者使用句法特征,将每种语言转化为句法特征向量,从而计算各个语言之间的WALS-syntax distance,即下图中的横轴。然后对比用不同语言预训练后在西语上测试得到的ppl,下图纵轴。图中可以明显看到句法距离越相小的语言之间的句法结构迁移的效果更好。

最后,花椒还有个好奇的点。虽然文中的实验结果证明代码或者乐谱中的潜在对于LSTM语言模型的预训练是有帮助的,但是他们的帮助还是没有在自然语言(英语,意大利语)带来的收益大,那么如果我们用sequencial的pre-training 或者组合在每个L1上训练的语言模型会给L2带来更大的提升吗?🤔

总结

论文读完啦,咱们回答下开头的问题:

  • Non-linguistic数据中的潜在结构对于L2的学习有帮助嘛?有帮助,但没有不同自然语言L1带来的收益大。不过虽然music的帮助是所有实验中的L1中最小的,不过本文对于不同模态语言的潜在结构的迁移的探索是个不错的方向。
  • 递归结构对于L2学习影响大嘛?不大,但是标记之间的配对结构对L2影响比较大。
  • 当L1是自然语言时,语言模型可以编码并迁移其中的句法结构嘛?可以,而且其与L2的句法距离越接近,句法结构的迁移性越好。

这是一篇故事讲得很好且文笔十分好的文章,感兴趣的小伙伴可以去读一读原文,感受一下作者清晰而自洽的论述过程,一步步发问,一步步深入,是一个非常享受的过程~

[1] What is music21? http://web.mit.edu/music21/doc/about/what.html

(0)

相关推荐

  • 把语法给你盘盘透 ——《句法结构》│ 书海遨游 No.21023

    书海遨游 No.21023 推荐指数:☆☆☆☆    把语法给你盘盘透    --<句法结构> 原书阅读:183分钟 本文字数:1,517 本文阅读:6分钟 虽然是一本书的形式,但其实这就 ...

  • 节律与对联

    [作者简介]王国仲  1955年生于黑龙江拜泉.曾工作于大庆油田公司.中国楹联学会.黑龙江省作家协会.中石油作家协会会员.从事对联创评研编多年,著有<平仄斋两行集><联理探析> ...

  • 地理结构思维的模型

    地理 教育 学术 资源 有逻辑 有思想 有方向 有权威 地理结构思维是按照要素逻辑与数量关系.空间联系与格局.时间过程与变化.层级和尺度等标准进行分类,在头脑中形成的一种思维方式,包括地理要素逻辑结构 ...

  • 语言加工的神经计算模型

    在Bill Watterson 1993年写的一篇报纸漫画中(Calvin and Hobbes),男孩Calvin对他的朋友Hobbes说:"奇怪的语言(Verbing weirds la ...

  • 顶部,潜在模型,卖在顶部

    顶部,潜在模型,卖在顶部

  • BCC语料库

    北京语言大学汉语句法结构树库 1.0 数据申领使用协议 甲方:北京语言大学 乙方:数据下载人(单位) 为加强数据管理,促进学术交流,北京语言大学语言智能研究院制定本协议. 一.乙方为北京语言大学汉语句 ...

  • 中文自然语言处理的关键技术有哪些?

    目前随着人工智能技术的飞速发展,机器学习以及自然语言处理技术也在随之进步,这也开启了人与人工智能进行语音交互的可能.那么中文自然语言处理的关键技术有哪些? 1.词法分析:词法分析包括词形和词汇两个方面 ...

  • 实训课在职业教育中究竟有多重要?

    "实训是职业教育的重要育人环节,学生进入或模拟或真实的工作现场,使课本知识与实践知识相结合,使专业教育与职业工作相结合,培养学生的岗位做事能力:更重要的是学生将体验和经历真正的工作氛围,感受 ...

  • 幽默段子:训妻法

    喝 酒 第一次出国谈生意,他分明感到对方代表的不友善. 公司的情况越来越糟,急需这笔订单,对方的冷嘲热讽,他都默默忍了下来.经过多日周旋,他终于拿下了这份救命的合同.签署协议的当晚,对方在别具风味的小 ...

  • 富不过三代是魔咒?有个家族靠一条祖训,繁荣了几百年

    艺述史官方原创 孟子他老人家有这么一句话"君子之泽,五世而斩",什么意思呢,大概就和我们常说的"富不过三代,红不过三代",别看祖上有多阔绰,后代子孙不一定能像父 ...

  • 【教研活动】花儿朵朵传薪火 红色记忆润童年|记江北新区四月小学德育研训活动

    花儿朵朵传薪火 红色记忆润童年--记江北新区四月小学德育研训活动 2021年是中国共产党成立100周年,为切实增强师生的历史责任感和使命感,继承发扬党的光荣传统和优良作风,4月30日下午,江北新区教育 ...

  • 施天涛:公司法应该如何规训关联交易?|好文

    作者:施天涛,清华大学法学院教授 来源:<法律适用>2021年第4期(为方便阅读,已省略原文注释) 摘要 虽然我国公司法对关联交易给予了高度重视,但却也存在着体系上的结构性紊乱和制度构造上 ...

  • 跳空阴拉拐战法及替领战法精要(T34特训班讲义)

    花落不语 学习量学,共同进步 关注 山野幽居 王俊雄 - 书香音乐世纪典藏系列之一·云水 跳空阴拉拐战法及替领战法精要 (完)

  • 为什么要加入科技特训营?这里有8个理由!

    为什么要加入科技特训营?这里有8个理由!

  • 孙禄堂前辈留下的珍贵拳训

    内家拳本意 内家拳之为者.本以柔胜刚之谓也.则虽赤手空拳.而无刚不摧.敌虽有大力.无不披靡. 精研斯术.不仅为备非常.应急变.更以强健身心.益寿延年.为人生切身学问.日久神而明之.则存乎其人也. 胜强 ...

  • 北京游资大佬揭露“T 0双倍法则”,已被列入机构操盘手内训课程,看懂没一个穷人!

    我见到过很多成功的投资人,他们尽管风格各异,但有一点却是共同的,那就是,他们都具备"每逢大事有静气"和"进退有据"的心理特质.或许,在资本市场成功,与在别的领域 ...