[Kubernetes] PyTorch 학습 시 Pod의 빠른 종료를 위한 yaml 설계 방법

[새로운 방법 발견!] 아래 방법을 계속 사용하다가, yaml에 직접 넣어서 사용할 수 있는 구문을 찾았습니다. 해당 구문을 이용하여 Pod delete시 바로 중단 및 삭제되도록 할 수 있습니다. 기존 방법으로는 kubectl delete 시 –force –grace-period=0 옵션을 주어야만 강제 종료되고, 학습 process에 실제로 Ctrl+C를 주는 것과 동일하게 SIGTERM 을 보낼 수는 없었습니다. 이러한 문제점은 학습 프로세스의 종료시 callback들 (wandb 등)이 정상 작동하지 않는다는 …

[DSM 7.0] Synology DSM Docker에서 Docker-in-Docker (dind) 실행하기

서론 Docker-in-Docker는 이미 존재하는 Docker Daemon에서 새로운 Container를 구동하고, 그 안에서 새로운 Daemon을 구동하는 기법이다. 기존에는 docker:dind 이미지와 –privileged 플래그를 이용하여 새로운 컨테이너를 생성하면 바로 가능한 간단한 문제였으나, Synology DSM 7.0에서는 기본 docker의 storage-driver가 aufs로 설정되어 있고 overlay2 드라이버를 지원하지 않으므로 이러한 기본적인 접근방식은 불가능하였다. 해결 방법 기존에는 아래와 같이 dind 컨테이너를 생성하였다. 위 명령어는 …

[해결됨] WSL2 CUDA undefined symbol: devicesetgpcclkvfoffset 문제 해결하기

[추가] 현재는 Fix된 이슈임 Windows 11 Insider Preview Build 22000.51이 나온 뒤에는 해결된 문제입니다. 아래 환경에서 테스트하였으니 apt 패키지와 드라이버를 업데이트 해보시기 바랍니다. OS: Windows 11 Insider Preview Build 22000.51 Driver: NVIDIA 470.76 APT Package Version List Inst libnvidia-container1 (1.4.0-1 NVIDIA CORPORATION [email protected]:1.0/bionic [amd64]) Inst libnvidia-container-tools (1.4.0-1 NVIDIA CORPORATION [email protected]:1.0/bionic [amd64]) Inst nvidia-container-toolkit (1.5.1-1 NVIDIA …

[튜토리얼] Docker로 apt-mirror 미러서버를 구축해보자

결과 확인해보기: https://mirror.limenas.ml 미러 서버는 , 데비안 계열 리눅스에서(Debian, Ubuntu),시스템에 설치할 수 있는 deb 패키지들을 가지고 있는 서버이며,이 서버에 빠르게 접근할 수 있도록 서버를 통째로 복제해둔 로컬 서버입니다. Raspberry Pi나 Jetson Nano와 같은 SBC(Single Board Computer)를 사용하다 보면, 같은 Ubuntu/Debian 계열 Linux임에도 불구하고, CPU 아키텍쳐가 ARM이라는 이유로 카카오에서 제공하는 빠른 미러서버를 사용하기 어려워집니다.(이 미러서버에는 ARM …

[Tutorial] Building lastest raspberry pi kernel for 64-bit Ubuntu (20.10)

Original post (Raspberry Pi forum): https://www.raspberrypi.org/forums/viewtopic.php?t=284556 Original poster: sjevtic One of the great parts about running Ubuntu is that just about all the Ubuntu-isms you’ve learned for other platforms work here too. Start with these links: https://wiki.ubuntu.com/Kernel/BuildYourOwnKernelhttps://wiki.ubuntu.com/KernelTeam/ARMK … ossCompilehttps://wiki.ubuntu.com/KernelTeam/Kern … k_failureshttps://askubuntu.com/questions/500095/ … er-versionhttps://bugs.launchpad.net/ubuntu/+sour … ug/1701756 What follows isn’t very polished, since came out of my …

[TEST] Tensorflow 2.4.0-rc0 on RTX 3000 series (3070/3080/3090)

Tensorflow on RTX 3000 series (RTX 3070, RTX 3080, RTX 3090) 빌드 환경 (Build environment) OS: Windows 10 Education (Build 19042.608)Architecture: x86_64 (amd64)Git branch: v2.4.0-rc0Python: 3.7 (anaconda)Target CUDA and CUDNN: CUDA 11.1 Update 1, CUDNN v8.0.5 (Novemvber 9th, 2020) (requires login)Target arch: CC 8.6, 6.1 → Must be also usable on GTX 1000 series!Numpy: 1.19.4 …