통합 검색
통합 검색
Visual Similarity Assessment for Product Aesthetic Properties Using Single Reference Training
This study begins with the recognition that aesthetic evaluation of products traditionally requires large amounts of labeled preference data, which limits scalability and cost efficiency. To address this issue, the research team proposed a new method called single reference training, which enables the evaluation of aesthetic attributes without extensive labeling across many products. In this approach, participants’ most preferred product is selected as a reference, and visual similarities between that reference and other products are calculated using deep learning models to infer correlations with preference. In essence, the method analyzes how the visual features of a single reference product relate to other products, and then identifies patterns that explain the relationship between visual similarity and aesthetic preference.
The experiment was conducted with images of 30 home audio speakers. Forty-four participants evaluated the products’ aesthetic preference and novelty on a 7-point Likert scale. Both design majors and non-majors were included, but no statistically significant differences were observed between the two groups, allowing the dataset to be integrated. The two highest-rated products were selected as reference products, and four deep learning approaches were applied: pretrained CNN, autoencoder, Siamese network, and triplet network. Each model computed the similarity between the reference and other products and generated outputs for analysis.
The results showed that the triplet network and pretrained CNN were especially effective, demonstrating meaningful correlations with participants’ preferences. The triplet network achieved r = 0.448 (p = 0.013), while the pretrained CNN achieved r = 0.478 (p = 0.008), confirming that similarity to the reference product was indeed connected to participants’ aesthetic ratings. When products with high variance in preference and novelty scores—those with polarized opinions—were excluded, the correlation coefficient rose significantly to r = 0.738 (p < 0.001). This demonstrated that filtering out noisy data greatly enhanced the reliability of the single reference approach, showing that a single reference product can encapsulate multiple aesthetic attributes and effectively predict preference through similarity alone.
The research team also performed principal component analysis (PCA) on the embedding vectors generated by each model to explore their relationship with aesthetic attributes. Specific principal components were found to correlate significantly with attributes such as novelty, harmony, dynamism, and complexity. For example, in the CNN model based on product #13, PC2 showed a strong correlation with novelty, suggesting that it captured features representing widely recognized novelty. Conversely, product #5 revealed a unique component reflecting relatively low novelty, indicating that novelty is expressed differently depending on the product. These results highlight that aesthetic attributes cannot be explained by a single dimension but emerge from the combination of multiple factors.
Interestingly, individual principal components did not directly correlate strongly with preference, but interactions between two or more components significantly improved explanatory power. For instance, certain component combinations explained up to R² = 0.4065 of preference variance, underscoring that aesthetic preference is shaped by complex, nonlinear interactions rather than by one or two simple visual features. Based on these findings, the study emphasized the need for multidimensional, nonlinear approaches to understanding aesthetic evaluation.
Additional analysis included attributes such as harmony, balance, unity, dynamism, and complexity. Some principal components showed meaningful relationships with these attributes, with dynamism and novelty often explained by the same component. This suggests that users perceive interconnected attributes simultaneously when evaluating products. Visualization of inter-attribute correlations further revealed that complexity and dynamism had a strong positive correlation, while balance and dynamism were negatively correlated. These results demonstrated that aesthetic attributes interact with one another rather than functioning independently, shaping overall preference structures.
In conclusion, this study showed that the proposed single reference training method provides interpretable results with far less labeled data compared to conventional preference-labeling approaches. This approach has the potential to reduce cost and time in design engineering practice while enabling efficient evaluation of new product aesthetics. Limitations include the relatively small sample size, restriction to a single product category (home audio speakers), and the possibility of bias in reference product selection. Nevertheless, the method offers a promising avenue for applying data-driven aesthetic evaluation across diverse product domains and opens up new opportunities for scalable and efficient design assessment.
본 연구는 제품의 심미적 평가가 전통적으로 많은 수의 선호도 라벨링 데이터를 필요로 하며 이로 인해 확장성과 비용 효율성에 한계가 있다는 문제의식에서 출발하였다. 연구진은 이를 해결하기 위해, 다수의 제품에 대한 라벨링 없이도 심미적 속성을 평가할 수 있는 새로운 방법으로서 단일 참조 학습(single reference training) 접근법을 제안하였다. 이 방법은 참가자들이 가장 선호한 제품 하나를 기준으로 삼고, 다른 제품들과의 시각적 유사성을 딥러닝 기반 모델을 통해 계산하여, 선호도와의 상관성을 추론하는 방식이다. 즉, 한 개의 참조 제품이 가진 시각적 특징을 중심으로 다른 제품들과의 유사도를 분석하고, 그 결과로 도출된 패턴이 미적 선호와 어떤 관계를 갖는지 규명하는 것이 핵심이다.
실험은 30종의 홈 오디오 스피커 이미지를 대상으로 진행되었다. 연구에 참여한 44명의 피험자는 7점 리커트 척도로 제품의 심미적 선호도와 참신성을 평가하였다. 참여자 집단에는 디자인 전공자와 비전공자가 모두 포함되었으나, 분석 결과 두 집단 간 평가 경향에는 통계적으로 유의한 차이가 없어 전체 데이터를 통합하여 분석에 활용할 수 있었다. 선호도 점수에서 가장 높은 평가를 받은 두 제품이 참조 제품으로 선정되었으며, 이후 이들을 기준으로 네 가지 딥러닝 접근법이 적용되었다. 구체적으로는 사전학습된 CNN, 오토인코더, 시암 네트워크, 트리플릿 네트워크가 사용되었으며, 각 모델은 참조 제품과 다른 제품 간의 유사도를 계산하여 결과를 산출하였다.
분석 결과, 트리플릿 네트워크와 사전학습 CNN이 특히 유의미한 상관관계를 보여주었다. 트리플릿 네트워크는 상관계수 r=0.448(p=0.013), 사전학습 CNN은 r=0.478(p=0.008)을 기록하여 참조 제품과의 유사성이 참가자들의 선호도 평가와 실제로 연결됨을 확인하였다. 더욱이 선호도나 참신성 평가에서 분산이 큰, 즉 응답자 간 의견이 극단적으로 갈린 제품들을 제거하고 분석했을 때 상관계수는 r=0.738(p<0.001)까지 상승하여, 노이즈를 제거하면 참조 기반 접근의 신뢰성이 크게 강화됨을 보여주었다. 이는 단일 참조 제품이 여러 심미적 속성을 내포하고 있으며, 그 유사성만으로도 다른 제품들의 선호를 효과적으로 추정할 수 있음을 의미한다.
또한 연구진은 각 모델의 임베딩 벡터를 주성분 분석(PCA)하여 심미적 속성과의 관계를 탐색하였다. 분석 결과, 특정 주성분이 참신성, 조화, 역동성, 복잡성 등과 유의한 상관을 보였다. 예를 들어, 제품 #13을 기반으로 한 CNN 모델의 PC2는 참신성과 높은 상관을 보여 해당 주성분이 ‘보편적으로 인식되는 참신성’을 설명하는 특징을 담고 있음을 확인하였다. 반면, 제품 #5의 경우는 상대적으로 낮은 참신성을 반영하는 고유한 주성분이 나타나, 참신성이 제품마다 다르게 표현될 수 있음을 시사하였다. 이는 심미적 속성이 단일한 차원에서 설명되지 않고, 다양한 요인과 결합하여 형성된다는 점을 강조한다.
흥미롭게도 개별 주성분은 선호도와 직접적으로 뚜렷한 상관을 보이지 않았지만, 두 개 이상의 주성분이 상호작용하는 경우 설명력이 크게 향상되었다. 예컨대, 특정 주성분 조합은 R²=0.4065까지 선호도를 설명하는 능력을 보여주었다. 이는 미적 선호가 단순히 한두 가지 시각적 특징에 의해 결정되는 것이 아니라, 여러 심미적 속성의 복합적 상호작용 속에서 형성된다는 점을 보여준다. 연구는 이러한 결과를 바탕으로, 심미적 평가가 단순 선형적 접근이 아니라 다차원적, 비선형적 관계의 이해를 필요로 한다는 점을 제안하였다.
추가적으로 연구는 조화(harmony), 균형(balance), 통일성(unity), 역동성(dynamics), 복잡성(complexity) 같은 속성들도 분석에 포함시켰다. 일부 주성분이 이들 속성과 의미 있는 연관성을 보여주었고, 특히 역동성과 참신성은 동일한 주성분에 의해 설명되는 경우가 많았다. 이는 사용자가 제품을 평가할 때 서로 밀접하게 연결된 속성들을 함께 인식한다는 사실을 보여준다. 또한 속성 간의 상관 관계를 시각화한 결과, 예컨대 복잡성과 역동성은 높은 정적 상관을, 균형과 역동성은 부적 상관을 가지는 등 속성들이 단순히 독립적으로 작동하지 않고 상호작용하며 선호도를 형성하는 구조임이 드러났다.
결론적으로 본 연구는 단일 참조 학습을 기반으로 한 새로운 심미적 평가 방법이 기존의 데이터 라벨링 중심 방식보다 훨씬 적은 데이터로도 해석 가능한 결과를 제공할 수 있음을 보여주었다. 이는 디자인 엔지니어링 실무에서 비용과 시간을 절감하면서도, 새로운 제품 디자인의 심미성을 효율적으로 평가할 수 있는 가능성을 열어준다. 다만 연구는 소규모 참가자와 특정 제품군(홈 오디오 스피커)에 한정되어 있어 일반화 가능성에 한계가 있으며, 참조 제품 선택의 편향이 결과에 영향을 줄 수 있다는 점도 한계로 지적된다. 그럼에도 불구하고 이 방법론은 향후 다양한 제품군에 적용되어 데이터 기반 디자인 평가의 새로운 가능성을 열 수 있는 유망한 접근으로 평가된다.
댓글 0