성과
2025 ICCAD 학회 참가보고서/포항공과대학교/최문규/20251025-20251031
전시회명 : ICCAD(International Conference on Computer-Aided Design)
전시장소 : Munich, Germany
참가일자 : 2025/10/27
참가자 : 포항공과대학교 통합과정 전자전기공학과 최문규 (지도교수 강석형)
전시품명 : GradMap: A Gradient-Descent Approach to Simultaneous Technology Mapping, Buffer Insertion, and Gate Sizing
참관내용 : 해당 논문은 시스템 반도체 설계의 핵심인 Logic Synthesis 단계에서 발생하는 고질적인 문제점을 해결하는 연구임.주요 기술적 진전으로는 기존에 개별적으로 수행되던 Technology Mapping, Buffer Insertion, Gate Sizing을 하나의 differentiable 최적화 문제로 통합한 것임.이로써 GPU 가속에 친화적인 Gradient-Descent 알고리즘을 적용하여, 세 가지 주요 작업을 순차적이 아니라 동시에 최적화할 수 있게 하였음.시스템 반도체 관점에서 이는 칩의 성능(PPA)을 결정하는 합성 과정에서 발생하는 local optima 문제를 극복하는 핵심 기술임.각 단계의 상호 의존성을 통합적으로 고려함으로써 칩의 논리/연산 기능을 더 우수한 성능과 전력 효율을 갖춘 회로로 구현할 수 있음.개선점으로는 PPA 메트릭을 미분 가능한 함수로 표준화하여 AI 기반 최적화 기법을 도입했으며, 이를 통해 기존 순차 방식 대비 더 뛰어난 global optima의 PPA 결과를 달성할 수 있는 새로운 방법론을 제시함.
전시회명 : ICCAD(International Conference on Computer-Aided Design)
전시장소 : Munich, Germany
참가일자 : 2025/10/28
참가자 : 포항공과대학교 통합과정 전자전기공학과 최문규 (지도교수 강석형)
전시품명 : 3D-MoE: Accelerating Multi-Expert Activated LLMs on 3D In_Near-Memory Computing Architecture via Hybrid Parallelism
참관내용 : 해당 논문은 MoE(Mixture-of-Experts) 기반 LLM의 막대한 memory storage 부담과 dynamic expert routing으로 인한 메모리 병목 현상을 해결하기 위한 차세대 AI 가속기 하드웨어 아키텍처에 관한 연구임.해당 연구는 Hybrid bonding 기반의 3D stacked 아키텍처를 제안하여 메모리 용량과 대역폭을 극대화하고, 6T-SRAM 기반 디지털 Computiong-in-Memory 매크로를 연산 유닛으로 활용해 폰 노이만 병목을 근본적으로 해결함.시스템 반도체 관점에서 이는 AI 모델을 구동하기 위한 전용 하드웨어 아키텍쳐를 개발하였으며, 3D 적층과 In-Memory 연산을 결합해 대규모 AI 모델의 시스템 레벨 병목 현상을 해결함.개선점으로는 Greedy-Swap Expert Grouping이라는 hibrid 병렬 처리 방식을 제안하여 3D 아키텍처 내 tile 간의 가중치 배치를 균형 있게 조절하고 하드웨어 활용률을 높여 시스템 전체 성능을 향상시켰으며, 엣지 디바이스에서도 고성능 MoE 모델 배포 가능성을 보여주었음.
전시회명 : ICCAD(International Conference on Computer-Aided Design)
전시장소 : Munich, Germany
참가일자 : 2025/10/29
참가자 : 포항공과대학교 통합과정 전자전기공학과 최문규 (지도교수 강석형)
전시품명 : IncreGPUSTA: GPU-Accelerated Incremental Static Timing Analysis for Iterative Design Flows
참관내용 : 해당 논문은 시스템 반도체 설계 과정에 반복적으로 수행되어 병목점이 되는 Incremental STA의 런타임 문제 해결에 관한 연구임.기존 CPU 기반의 순차적 타이밍 계산 방식의 한계를 극복하기 위해, timing graph propagation 및 업데이트 과정을 GPU의 대규모 병렬 아키텍처에 맞게 재설계함.구체적으로, 병렬 BFS을 통해 수정된 net의 영향이 미치는 범위를 빠르게 식별하고 , 본질적으로 순차적이던 타이밍 전파 문제를 level-based parallel propagation 알고리즘으로 해결함.또한 Parallel Scan 연산을 도입하여 각 레벨 내의 slew 및 delay 계산을 가속화하였으며, 이 모든 과정을 3단계 파이프라인으로 구현하여 GPU 연산을 극대화함.시스템 반도체 관점에서 이는 칩의 성능(타이밍)을 검증하는 핵심 Sign-off 단계의 속도와 직결됨.엔지니어는 배치/배선 검증 및 수정 후 매번 수 시간씩 걸리던 STA 작업을 수 분 내로 단축하여 설계 반복 및 전체 개발 기간을 획기적으로 줄일 수 있음.개선점으로는 CPU 대비 수십 배의 압도적인 속도 향상을 달성했으며, 이는 향후 모든 EDA 툴에 GPU 가속이 필수적임을 보여주는 대표적인 사례임.
