AI Platform Engineer (KR)
핵심어 #Backend, #GPU, #LLM Infrastructure
신약개발 초기 단계(Discovery)는 여전히 경험과 감각에 크게 의존하는 탐색 문제로 남아있습니다. 수십만~수백만 개의 후보물질, 수천 편의 논문과 특허, 끊임없이 업데이트되는 실험 결과 속에서 연구자는 매 순간 어떤 가설을 세우고, 무엇을 먼저 검증할지 결정해야 합니다.
GAIA-BT는 이 의사결정 자체를 수행하는 AI-Agent를 만듭니다.
www.gaia-bt.com
GAIA-BT에서 이 역할이 왜 중요한가요?
GAIA-BT의 AI-Agent는
수백 개의 실험을 병렬로 실행하고
대형 LLM과 도메인 모델을 넘나들며
대규모 화합물·문헌 데이터를 지속적으로 읽고 씁니다.
이 시스템은 “잘 돌아가는 서버”가 아니라, 실험을 망치지 않는 인프라를 필요로 합니다.
“이런 실험을 해보고 싶다”라고 말했을 때, 이 포지션은 “그럼 이 구조로 가면 안전하고 빠르게 됩니다”라고 답할 수 있는 사람입니다.
신청 마감일: 채용 완료시
당신이 맡게 될 역할
GAIA-BT의 AI Platform Engineer는 LLM·GPU·스토리지 중심의 연구 인프라 전체를 설계하고 운영합니다.
1. LLM & AI-Agent 실행을 위한 백엔드 시스템 구축
AI-Agent 및 실험 워크플로우를 위한 Backend API 설계
비동기·병렬 작업 처리 시스템 구축
장시간 실행되는 에이전트 작업의 상태 관리 및 재시도 설계
실험 재현성을 고려한 실행 환경 관리
2. GPU 서버 & 연산 자원 운영
온프레미스 GPU 서버 또는 클라우드 GPU 인프라 운영
CUDA, NVIDIA Driver, Docker 기반 GPU 환경 구성
실험 우선순위 및 자원 할당 전략 설계
LLM inference / fine-tuning 워크로드 최적화
3. NAS / 대용량 데이터 스토리지 설계
화합물 데이터, 모델 아티팩트, 실험 로그 저장 구조 설계
NAS / Object Storage 기반 데이터 관리
대규모 파일 I/O 성능 최적화
데이터 버저닝 및 백업 전략 수립
4. 연구 친화적인 DevOps / MLOps 환경 구축
모델, 프롬프트, 에이전트 버전 관리
실험 로그 및 메트릭 수집
실패해도 다시 돌아올 수 있는 실험 환경 설계
보안과 접근 제어를 고려한 내부 연구 인프라 구축
5. AI Agent Engineer와의 밀접한 협업
실험 설계 단계부터 인프라 관점의 피드백 제공
“이 실험은 비용이 너무 큼 / 이건 구조를 바꾸면 됨” 같은 현실적 제안
새로운 모델·프레임워크 도입 시 기술 검증(PoC) 주도
Backend
o Python (FastAPI, Flask) 또는 Node.js 기반 API 서버
o 비동기 처리: Celery, Redis, RabbitMQ, Ray, Temporal
o 장시간 작업 관리 및 Job Queue 설계 경험
GPU / Compute
o NVIDIA GPU 서버 운영 경험 (A100, H100, RTX 등)
o CUDA, cuDNN, NCCL 개념 이해
o Docker + NVIDIA Container Toolkit
o PyTorch / JAX / TensorFlow 실행 환경 구성
Storage / Data
o NAS, NFS, Ceph, MinIO, S3 호환 스토리지
o 대용량 파일 관리 및 I/O 병목 해결 경험
o 데이터 백업, 스냅샷, 버저닝 전략
DevOps / Infra
o Linux 기반 서버 운영
o Docker, Docker Compose, Kubernetes(우대)
CI/CD 파이프라인 구성
o 모니터링 (Prometheus, Grafana 등)
MLOps / LLMOps
o 모델 서빙, 버전 관리
o 실험 추적 (MLflow, Weights & Biases 등)
o LLM inference 비용 최적화 경험
o 프롬프트 및 에이전트 버저닝 관리
“GPU 서버는 그냥 꽂아두면 되는 거 아님?”이라는 말에 피식 웃는 분
연구자가 밤새 돌린 실험이 아침에 살아있어야 한다는 압박을 아는 분
비용·성능·안정성 사이에서 균형 잡는 걸 즐기는 분
DevOps지만 연구 맥락을 이해하려 노력하는 엔지니어
논문보다 실험 로그를 더 많이 읽어본 분
AI-Agent 연구의 실제 병목을 가장 깊이 이해하는 엔지니어 경험
단순 운영이 아닌 아키텍처 결정권
빠른 실험과 잦은 실패를 전제로 한 진짜 연구 인프라 구축 경험
[채용 절차] 서류 접수 > 서류 전형 > 기술 평가 및 대표이사 인터뷰 (평판 조회 병행) > 최종 합격 및 처우 협의
인터뷰는 대면 진행을 원칙으로 합니다.
기술 평가 단계에서는 과거 업무 경험과 프로젝트에 대한 10분 분량의 PPT 발표가 포함됩니다.
최종 합격 시 3개월의 수습 기간이 있으며, 수습 기간 동안 급여나 처우에 차이는 없습니다.
합격자에 한하여, 이메일로 개별 안내 드립니다.
유의사항
본 채용은 상시 채용으로 합격자 발생 시 별도의 안내 없이 마감될 수 있습니다.
해외여행에 결격사유가 없으며, 당사 내규에 따른 채용 결격사유에 해당하지 않는 분에 한해 지원이 가능합니다.
입사 시, 사전 통보 없이 영리 활동이나 이중 취업(회사 직무와 관련 없는 업무)을 할 경우, 채용이 취소될 수 있습니다.
청탁 또는 기타 부정한 행위를 통해 합격한 사실이 발견될 경우, 합격 및 채용이 무효 처리됩니다.
지원서 내용에 대한 증빙 서류 제출을 요구하거나 관계 기관에 사실 여부를 확인할 수 있으며, 내용 중 허위사실 기재, 위조, 변조 등이 발견될 경우 불합격 및 채용이 취소될 수 있습니다.
근무지위치: (13453) 경기도 성남시 수정구 금토로 52, E동 714호 (경기스타트업브릿지)
기타 문의: 가이아비티 / 백예지 대리 (mbaek@gaia-bt.com)