Getting Started on Linux
ここではData Science Software Stackの最初のセットアップとコア機能について説明します。
はじめのセットアップ
インストール後に行うセットアップはそれほど多くありません。 Conda環境を使用する前に、ユーザーが実行する必要があるのは1つのステップだけです。 Condaを使用できるように初期化するには、ターミナル CTRL+ALT+T
を開き、次のコマンドを実行します。
conda init
次に、ターミナルを閉じてから再度開く必要があります。これにより、Condaの初期化プロセスによって調整された環境変数がロードされます。これを行う必要があるのは1回だけです。これでOKです。
Conda
Data Science Software Stackは、Minicondaといくつかの主要な環境を提供します。
Conda環境一覧表示
次のコマンドを実行すると、現在システム上にある環境を確認できます。
conda env list
Conda環境をアクティブにする
アクティベートすることで、環境内のPythonライブラリにアクセスできます。使用する環境を決定し、activationCondaコマンドを実行してアクティブ化します。
conda activate <env name>
deactivationコマンドを実行すると、環境を終了できます。
conda deactivate
Conda環境の変更
Data Science Software Stackで提供されるConda環境は、テンプレートまたは基本環境であると考えるのが便利です。あなたの特定のプロジェクトに必要な追加のライブラリをインストールしたいと思うかもしれません。提供された環境はシステム上にグローバルにインストールされ、変更するにはroot権限が必要です - これはデザインによるものです。環境を変更する前に、まず環境のクローンを作成することをお勧めします。最初にクローンを作成すると、多くの利点があります。
- システム上のユーザーは、基本環境にアクセスできます。
- 変更しても、その環境を使用する他のユーザーには影響しません。作成したクローンはホームディレクトリに保存されます。
- 別のライブラリをインストールしたり、変更をロールバックしたりする場合は、基本環境のクローンを再度作成するだけです。
conda create --name <new env name> --clone <existing env name>
クローンが作成されると、通常のcondaまたはpipの場合と同じようにPythonパッケージをインストールできるようになります。
conda activate <your cloned env>
conda install <package name>
conda activate <your cloned env>
python3 -m pip install <package name>
注意
パッケージを環境にインストールするために conda install と pip install を混在させると、 問題が発生する可能性があります! 問題を回避するには、conda の後に pip を使用するようにしてください。そして、一度 pip install を使ったら、同じ環境では conda install を使わないでください。
Docker
Data Science Software Stackには、NVIDIA GPUを搭載したシステム上でコンテナのGPU演算を可能にするDockerデーモンと関連パッケージが含まれています。
Dockerイメージのリスト
現在システム上にあるイメージを確認するには、次のコマンドを使用してイメージをリストアップします。
sudo docker images
Dockerイメージの実行
この例では、RAPIDSのdockerイメージを実行します。
sudo docker run -it --gpus all -p 8888:8888 -p 8787:8787 -p 8786:8786 nvcr.io/nvidia/rapidsai/rapidsai:0.19-cuda11.2-runtime-ubuntu20.04
これでWebブラウザを開き、localhost:8888
を指定してJupyterLabにアクセスできるようになります。
この例では、オプションフラグが何を意味するのかを説明します。
--gpus all
は、実行中のコンテナにシステム内の利用可能なすべてのGPUSへのアクセスを許可します。-p
実行中のコンテナにネットワークポートを公開します。- 8888 JupyterLabノートブックサーバー
- 8786 Daskスケジューラー
- 8787 Dask診断用Webサーバー
ローカルデータにアクセスできるように、実行中のコンテナにボリュームをマウントしたい場合があります。そのためには、docker runコマンドに-vオプションを追加してください。
-v </host/path/>:</container/path/>
IDEと開発ツール
Data Science Software Stackには、すぐにコーディングを開始できるように、一般的な開発ツールが多数含まれています。
Visual Studio Code
VSCodeが含まれています。Windowsキーを押して、Visual Studio Code
を検索して起動します。または、ターミナル(CTL+ALT+T)を立ち上げ、code
コマンドを実行します。
PyCharm
PyCharm コミュニティ版は Stack に含まれています。ターミナルで pycharm-community
を実行して起動してください。
Git
バージョン管理クライアントであるGitも含まれています。リポジトリのクローンを作成します。
git clone <URL to your repo>
スタックのアップデート方法
Data Science Software Stackは、Ubuntuオペレーティングシステムと同じメカニズムで更新され、更新されたパッケージはAptがシステムを更新したときにインストールされます。デフォルトではUbuntuは定期的に新しいパッケージのバージョンをチェックし、それらをアップグレードするかどうかを尋ねます。手動でアップデートを確認し、インストールしたい場合は、ターミナルでAptを使って行うことができます。
sudo apt-get update
sudo apt-get upgrade