主页 ›
学科分类 ›
艺术学论文
艺术学
视觉语言模型
艺术风格分类
零样本学习
多模态学习
文章首次系统评估了四种大型视觉语言模型(CLIP、LLaVA、OpenFlamingo、GPT-4o)在艺术史属性分类任务中的表现,包括艺术风格、作者和时期预测。通过WikiArt和JenAesthetics基准数据集及自建挑战集ArTest的分析表明,GPT-4o在风格分类上表现最佳(ArTest准确率65.31%),但仍显著低于专用模型的71.24%。研究发现模型对印象派、巴洛克等流行风格识别较好,但对立体主义分支等复杂风格存在混淆。添加作者和年代信息可提升LLaVA性能20%,但模型仍会犯艺术史专家不可接受的错误,强调该领域仍需专家监督。
数字艺术史
多模态模型
CLIP模型
视觉文化分析
文章重新审视Johanna Drucker提出的'是否存在数字艺术史'之问,通过分析基于Transformer的多模态视觉模型(如CLIP)的认知与方法论意义,论证数字艺术史新范式的诞生。研究揭示:1)大规模视觉模型通过编码非摄影图像(绘画/数字艺术),首次实现非透视、非具象视觉逻辑的自动化提取;2)模型训练数据与艺术史研究语料形成认知纠缠,需建立'模型批判'新方法。两个案例佐证此变革:CLIP-MAP工具量化巴黎城市意象的空间分布,揭示模型内化的旅游凝视;2D-CLIP工具解析芝加哥艺术学院藏品的'naked/nude'概念谱系,暴露性别化视觉意识形态。文章主张数字艺术史必须融合媒体研究与文学计算的方法,将模型本身纳入批判对象。
美学理论
认知科学
跨文化研究
文章提出了通信优化美学理论(COTA),这是一个跨学科的统一框架,用于解释审美体验的普遍性。该理论将审美价值定义为在三个核心维度上的优化通信:普遍性(U)、时间稳定性(T)和存在共鸣(E),同时最小化噪声(N)、文化特异性(C)和认知负荷(L)。COTA不仅整合了神经科学、进化心理学和信息理论的见解,还提供了23个可实证检验的预测,为理解数学、音乐和艺术等领域的审美体验提供了新的视角。
艺术史
几何学
文艺复兴
文章对阿尔布雷希特·杜勒1514年版画《忧郁I》中的神秘多面体提出了新的几何解释。通过分析版画中的4x4幻方,研究发现幻方内部隐藏着34:21的比例关系,这一比例被证明是构建多面体的关键几何常数。基于这一发现,文章提出了一个可复现的几何构造方法,使用圆规和直尺即可精确重建杜勒多面体。这一研究不仅揭示了文艺复兴时期艺术与数学的深刻联系,还展示了该多面体可能具有的分形几何特性,为理解杜勒的数学意图提供了新视角。