技术文章和通讯

创建计算机视觉和机器学习算法,可以分析艺术作品

作者:Ahmed Elgammal,罗格斯大学


当你研究一幅画时,你很有可能对它做出一些推断。例如,除了理解主题之外,你还可以根据时期、风格和艺术家对它进行分类。计算机算法能“理解”一幅画,像人类一样轻松地执行这些分类任务吗?

我和罗格斯大学艺术与人工智能实验室的同事们用MATLAB研究了这个问题®、统计和机器学习工具箱™,以及过去六个世纪数千幅画作的数据库。我们还讨论了关于AI算法的能力和局限性的另外两个有趣的问题:它们是否能够识别哪些画作对后来的艺术家产生了最大的影响,以及它们是否能够仅通过视觉特征来衡量一幅画的创造力。

绘画分类中的视觉特征提取

我们希望开发能够根据风格(例如,立体派、印象派、抽象表现主义或巴洛克)、流派(例如,风景画、肖像画或静物画)和艺术家对大量绘画进行分类的算法。这种分类的一个要求是能够识别颜色、组成、纹理、透视、主题和其他视觉特征。第二个是选择那些视觉特征的能力,最能表明绘画之间的相似之处。

利用MATLAB和Image Processing Toolbox™,我们开发了提取绘画视觉特征的算法。特征提取算法是计算机视觉中较为常见的一种算法,且易于实现。更有挑战性的任务是找到最好的机器学习技术。我们开始测试支持向量机(svm)和统计和机器学习工具箱中的其他分类算法,以识别在风格分类中有用的视觉特征。在MATLAB中,我们应用距离度量学习技术对特征进行加权,从而提高算法对画作的分类能力。

我们开发的算法对数据库中的绘画风格进行了分类,准确率为60%,而偶然表现的准确率约为2%。虽然艺术史学家在执行这项任务时的准确率远远超过60%,但该算法的表现超过了典型的非专业人士。

使用机器学习来揭示艺术影响

一旦我们有了能够可靠地识别画作之间相似性的算法,我们就准备好应对下一个挑战:使用机器学习来揭示艺术影响。我们的假设是,对风格分类(一个监督学习问题)有用的视觉特征也可以用来确定影响(一个非监督问题)。

艺术史学家根据艺术家们如何工作、旅行或与同时代人一起接受训练来发展艺术影响力的理论。我们基于MATLAB的机器学习算法只使用视觉元素和合成日期。我们假设,考虑到画中的物体和符号的算法将比依赖于诸如颜色和纹理等底层特征的算法更有效。考虑到这一点,我们使用在谷歌图像上训练的分类算法来识别特定的对象。

我们对来自66位不同艺术家的1700多幅画作进行了算法测试,这些作品的创作时间跨度为550年。该算法很容易识别出迭戈·委拉斯开兹的《教皇英诺森特十世画像》对弗朗西斯·培根的《研究委拉斯开兹的教皇英诺森特十世画像》的影响(图1)。

图1。左:迭戈Velázquez的《英诺森特十世教皇肖像》。右:弗朗西斯·培根的《Velázquez英诺森特十世教皇肖像后的研究》。
图1。左:迭戈Velázquez的《英诺森特十世教皇肖像》。右:弗朗西斯·培根的《Velázquez英诺森特十世教皇肖像后的研究》。

这两幅画在构图和题材上的相似之处,即使是外行也很容易发现,但算法产生的结果也让我们合作的艺术史学家感到惊讶。例如,我们的算法识别出“Bazille’s Studio;法国印象派画家弗雷德里克·巴齐耶(Frederic Bazille)于1870年创作的《孔达米纳街9号》(9 rue de la Condamine),被认为可能影响了诺曼·洛克威尔(Norman Rockwell)的《沙弗顿理发店》(Shuffleton’s Barbershop),该作品于80年后完成(图2)。虽然这两幅画乍一看可能不太相似,但仔细观察会发现,在构图和主题上都有相似之处,包括每幅作品右下方的加热器,中间的三个男人,以及左下方的椅子和三角形空间。

图2。左:弗雷德里克·巴齐耶的“巴齐耶工作室”;孔达米纳街9号。”右图:诺曼·洛克威尔的《沙弗顿理发店》。黄圈表示相似的物体,红线表示相似的组成,蓝色矩形表示相似的结构元素。

图2。左:弗雷德里克·巴齐耶的“巴齐耶工作室”;孔达米纳街9号。”右图:诺曼·洛克威尔的《沙弗顿理发店》。黄圈表示相似的物体,红线表示相似的组成,蓝色矩形表示相似的结构元素。

在我们的数据集中,算法正确地识别了艺术史学家认可的55种影响中的60%,这表明视觉相似性本身就为算法(可能也为人类)确定许多影响提供了足够的信息。

通过解决网络中心性问题来衡量创造力

最近,我们的研究集中在开发衡量艺术创造力的算法上。我们基于一个广泛使用的定义来确定一个对象是创造性的,如果它既新颖又有影响力。在这些术语中,一幅创造性的绘画将不同于它之前的绘画(新颖),但与它之后的绘画(有影响力)相似。

在解决这个问题时,我们再次看到了一个机会,可以应用我们的MATLAB算法来识别绘画之间的相似性。在MATLAB中,我们创建了一个网络,其中的顶点是绘画,每条边代表其顶点上两幅画之间的相似性。通过在该网络上的一系列变换,我们发现从这样的图中推断创造力是一个网络中心性问题,利用MATLAB可以有效地解决这个问题。

我们在包含62,000多幅画作的两个数据集上测试了我们的创造力算法。该算法给几幅被艺术史学家认为既新颖又有影响力的作品打了高分,包括图3中所示的一些作品。在同一时期,比毕加索的《阿维尼翁的年轻女子》(1907年)排名更高的是卡兹米尔·马列维奇的几幅画作。这个结果一开始让我很惊讶,因为我对马列维奇的工作知之甚少。后来我了解到,他是抽象艺术最早发展之一的至上主义运动的创始人。

图3。计算创造力得分(y轴)为绘画从1400年到2000年(x轴),显示选定的最高得分的绘画在个别时期。

图3。计算创造力得分(y轴)为绘画从1400年到2000年(x轴),显示选定的最高得分的绘画在个别时期。

为了对我们的算法进行基本验证,我们更改了特定艺术品的日期,有效地在时间上向前或向后移动它们。在这些“时间机器”实验中,我们看到印象派艺术回到17世纪的创造力得分显著上升,而巴洛克绘画向前推进到20世纪的创造力得分显著下降。这些算法正确地感知到,300年前有创意的东西在今天已经没有创意了,而现在有创意的东西如果在很久以前就被引入,就会更有创意。

为艺术领域的持续研究提供一个可扩展的框架

人类拥有对艺术进行分类的天生感知技能,他们擅长识别成对画作的相似性,但他们缺乏时间和耐心,将这些技能客观地应用于数千或数百万幅画作。处理如此规模的任务正是计算机发挥作用的地方。通过开发具有类似人类感知能力的机器学习算法,我们的目标是为艺术史学家提供工具,以浏览庞大的图像数据库。

我们在MATLAB中开发的用于识别相似性和衡量创造力的框架并不局限于艺术领域。它可以应用于文学、音乐或几乎任何其他创作领域,只要个别作品可以以一种算法可访问的方式编码。

然而,目前我们的重点仍然是视觉艺术。我们不仅对确保机器学习算法产生良好结果感兴趣,而且对它们如何得到这些结果感兴趣。在这方面,MATLAB也具有巨大的优势,因为它提供了许多快速、容易地可视化结果的方法。这些可视化使我们能够理解结果,并利用它们为正在进行的人工智能研究提供信息。

文章刊登在MathWorks新闻与笔记

关于作者

Ahmed Elgammal博士是新泽西州立大学罗格斯大学计算机科学系的副教授。他的研究兴趣包括计算机视觉、视觉学习、数据科学、数字人文和人体运动分析。

发布于2016 - 92967v00

查看相关功能的文章

Baidu
map