问题一:
使用deepspeed的时候报错"ImportError: /root/.cache/torch_extensions/py310_cu118/fused_adam/fused_adam.so: cannot open shared object file: No such file or directory
,使用网上的各种方法不成功,最终重新新建了conda环境,解决。
至今找不到具体原因
问题二:
安装deepspeed时候报错找不到nvcc,原因是deepspeed不能使用torch自带的nvcc,需要重新安装,并在配置文件中指定路径:
1.使用命令conda install -c nvidia cuda-toolkit,=xx
安装和torch自带cuda适配的cuda-toolkit
2.使用命令which nvcc
查看nvcc所在路径,使用vim在 ~/.bashrc 文件中配置CUDA_HOME路径为nvcc所在路径 bin 文件夹的上一级