人 工 智 能 作 曲
识 别 比 赛

人工智能作曲
逐步兴起,越来越多的人工智能作曲技术被引入商业领域应用, 由此也引发了一系列潜在的知识产权纠纷以及关于知识产权侵权行为认定标准及事实认定程序的思考, 比如:对于人工智能作曲算法的盗用,甚至将乐曲旋律的人为侵权行为归结为人工智能作曲系统的算法缺陷, 自然人的主观判断的客观程度,诉讼程序对专业鉴定的依赖程度等。为了应对这些潜在的知识产权挑战, 我们需要一种客观化的音乐旋律描述方法和判断标准,以在出现相关知识产权纠纷时, 完成有关人工智能自动作曲系统的数字取证工作,并完成侵权行为及其程度的判断与认定工作。

数据赛介绍

本次挑战赛的目的是对人工智能生成的单旋律音乐进行识别。比赛提供一个由若干种算法生成的,包含两种不同音乐风格的旋律数据库,供参赛者进行算法开发。比赛的最终成绩,由参赛者所开发算法对于验证集中旋律来源的判断准确率决定。

本次比赛没有报名流程,最终按期提交比赛结果者即视为报名参赛。比赛首先公布一个开发数据集,供参赛者开发算法;一个月后公布一个验证数据集。参赛者使用所开发算法,对验证数据集中的旋律进行判断,使用csv文件将验证数据集中旋律来源(算法生成或人工写成)标记好后,通过CSMT会议论文提交系统(https://cmt3.research.microsoft.com/CSMT2020)将含有标签的csv文件和描述所开发算法的技术报告副本提交完毕后,即视为参赛成功。

提交的技术报告应当遵守第八届全国声音与音乐技术会议的投稿要求(中英文均可),并在比赛截止日期前提交至arXiv上,投稿要求请详见本站相关页面。提交结果时请注意提交系统中的Track选择为“Data Challenge”。

组委会保留要求参赛者提交源代码用于系统验证的权利(必要时可以签署源代码保密协议)。 参赛者如在组委会要求时拒绝提供源代码,则其参赛资格自动取消。 代码需要实现读取评估数据集,计算,生成系统输出的功能,并且说明使用到的第三方库。

参赛者禁止对验证集数据进行主观判断和标注。如若使用,一经发现则其参赛资格自动取消。

开发数据集

开发数据集只含人工智能算法生成的音乐,包含了6000个MIDI文件,每个文件为单旋律音乐,曲速为120bpm, 每首旋律长度为8小节,不包含完整的乐句结构。需要注意的是, 开发数据集中的旋律由两个音乐风格完全不同的数据库分别训练若干种不同音乐生成模型后,由算法生成。开发集中的MIDI文件以下面的方式命名。

development-id.mid

评估数据集

评估数据集包含2000个MIDI文件,除以下两点外,所有设置均与训练集相同。1)加入了一定量的作曲家的作品,其中一些为已经发表的作品, 而另外一些为未发表的作品,这些作品的风格,经音乐学家鉴定,与训练算法使用的两个数据库的音乐风格分别相同。 2)评估集中存在一些由与开发集中稍微不同的算法所生成的旋律。评估集中的MIDI文件以下面的方式命名。

evaluation-id.mid

数据下载

开发集数据将于2020年7月15日发布。

外源数据

本次比赛可以使用外源数据,但必须符合以下要求。

• 外源数据必须为开源数据,并且可以被引用。

• 外源数据可以是公开的数据集或者预训练好的模型,这些数据必须在2020年8月15日前公开并免费提供。

• 参赛者需要在技术报告中将使用过的外源数据详细列出。

提交

参赛者需要提交一个打包的zip文件,该zip包括:

• 系统的输出文件(*.csv)

• 对系统作出详细解释的技术报告(*.pdf)

• 可以运行的完整系统(放在单独的文件夹中)

系统输出文件应为单个文件(CSV格式,带有标题行),其中包含评估数据集中 每一个MIDI文件的分类结果,并且结果需要包含每个标签的输出概率值(浮点数类型),以及两种风格的标签(字符串类型)。如下表所示。

                        file name               style(str)               Human(float)                  AI(float)
                        0.mid                   A                          0.8                            0.2
                        1.mid                   A                          0.75                           0.25
                        2.mid                   B                          0.6                            0.4
                        3.mid                   B                          0.1                            0.9
                    

为了避免参赛者提交的文件重名,请使用以下规则来命名提交的文件。

[first name]_[last name]_[Abbreviation of institute of the corresponding author]

如下面的例子所示。

Hua_Li_BUPT

Michael_Jordan_UNC

确保提交的zip文件遵循以下的目录结构。zip包示例可以这里下载。

                        Hua_Li_BUPT.zip                                Zip-package root, Task submissions
                        │
                        │   Hua_Li_BUPT_technical_report.pdf           Technical report
                        │   Hua_Li_BUPT_output.csv                     Task System output
                        │
                        └───Hua_Li_BUPT_code                           Task System code
                                  code.py

基线识别系统

基线识别系统将于训练集数据发布时,同时发布。

联系我们

井音吉,赛事协调员,北京邮电大学,联系邮箱jyj@bupt.edu.cn

赛程安排

2020 年 7 月 15 日

发布开发集数据

8 月 15 日

发布测试集数据

9 月 15 日

提交比赛所需文件

9 月 15 日 — 10 月 15 日

验证提交系统的性能

10 月 1 日— 10 月 20 日

技术报告审稿

10 月 20 日

公布技术报告接收结果

11 月 4 日(会期)

公布结果及报告展示

组织委员会

张茹

北京邮电大学教授

George Fazekas

英国伦敦大学玛丽女王学院高级讲师

李子晋

中国音乐学院副教授

朱亦丹

北京声学会秘书长

周唯

北京市中闻律师事务所创始合伙人

李圣辰

北京邮电大学讲师