liyang005

centos 8.2需要安装nvadia 2080 Ti的驱动程序

centos8.2下,conda 虚拟环境中安装 opencv, tensorflow=2.2.0,以及matplotlib的安装利用conda安装了python3.6.8的虚拟环境,但如果先conda install opencv python=3.6.8

则再安装conda install tensorflow-gpu=2.2.0 python=3.6.8
 则会出现一些依赖的包之间的依赖性问题而无法继续安装,从而让opencv,tensorflow-gpu=2.2.0,以及matplotlib等同时安装,就可以协调这三待安装包之间的依赖包的自洽问题(协调poencv,matplotlib等的版本以相互可以自洽安装)

conda install opencv tensorflow=2.2.0 matplotlib python=3.6.8

这样安装好了tf以后,通过tf.test.is_gpu_available()会发现GUP False
 这说明centos 8.2需要安装nvadia 2080 Ti的驱动程序。
 安装方法是:
 主要参考了:https://blog.csdn.net/tiantianfly00/article/details/109541259#t3
1、禁用nouveau
 %新建一个配置文件
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
 %在该配置文件中输入i,写入以下内容
blacklist nouveau
options nouveau modeset=0
 %保存并退出
 然后备份当前的镜像 (为什么要备份不清楚)
sudo mv /boot/initramfs-$(uname−r).img  /boot/initramfs−$(uname-r).img.bak
 %建立新的镜像
sudo dracut /boot/initramfs-$(uname-r).img $(uname-r)
 %重启
sudo reboot
 %最后验证,没有任何显示即为禁用成功
lsmod | grep nouveau
2安装显卡驱动
 查看显卡的类型 lspci | grep -i nvidia
 我的为显卡的类型为GeForce GTX 2080Ti
 而centos8.2为linux 86-bit类型的系统,且我的CPU 为EM64T
 选择一个稍微高点的版本安装即可
 %执行之前先让 .run 文件有可执行权限:
chmod u+x NVIDIA-Linux-x86_64-450.57.run
 %执行安装脚本#kernel所在的目录的.x86_64名前面那些数据等依据各系统而不同,比如我的centos 8.2就与这个不一样。
sudo ./NVIDIA-Linux-x86_64-450.57.run --kernel-source-path=/usr/src/kernels/4.18.0-193.el8.x86_64

我一开始是在conda init bash下安装,即base下。但发现有错误,“Cannot generate ORC metadata for config_unwinder_ocr=y, Please install libelf-dev, libelf-devel or elfutils-libelf-devel”.STOP.
 这已经提示需要安装东西,网上搜了一下,centos 安装or后一个
 即
sudo dnf install elfutils-libelf-devel
 然后,如果继续再用base下安装,会报错,但原因不如上面的明显
 后来就退出base,在原始bash下进行安装,会发现一切顺利,有关yes,no等可以依据自己选择,我都是选择默认的
 然后可以通过tf测试发现GPU True,则成功安装了。

后记:但基于显卡驱动的计算平台cuda,深度学习平台cudnn,是否需要安装还不确定:

其中conda install tensorflow==2.2.0是在虚拟/usr/local/py368下安装的:

在 (base)下$conda list

(base) [root@tjac liy]# conda list
# packages in environment at /usr/local/anaconda3:
#
# Name                    Version                   Build  Channel
经过  查询没有cuda,cudnn,

但没有查询/usr/local/py368虚拟环境是否安装cuda,cudnn,

在虚拟环境下安装了pytorch,发现找不到cuda,于是runfile(local)安装了cuda10.1,updated 2。经过添加安装路径到环境路径/etc/profile得到pytorch可找到cuda.

查询(/usr/local/py368) [root@tjac liy]# conda list
# packages in environment at /usr/local/py368:
#
# Name                    Version                   Build  Channel
cudatoolkit               10.1.243             h6bb024c_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
cudnn                     7.6.5                cuda10.1_0    https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main

这两个包记得是tensorflow-gpu=2.2.0时conda自动安装的。

不知道pytorch能用cudnn不?

 
再后记:花了三个小时修改这个后记,但天煞的lofter却卡在提交状态,不得不关闭而没有什么留下。垃圾网易


评论