• Z by HP
  • OMEN
  • Hyper X

Getting Started on Linux

Getting Started on Linux

ここではData Science Software Stackの最初のセットアップとコア機能について説明します。

はじめのセットアップ

インストール後に行うセットアップはそれほど多くありません。 Conda環境を使用する前に、ユーザーが実行する必要があるのは1つのステップだけです。 Condaを使用できるように初期化するには、ターミナル CTRL+ALT+T を開き、次のコマンドを実行します。

Condaを初期化する
conda init

次に、ターミナルを閉じてから再度開く必要があります。これにより、Condaの初期化プロセスによって調整された環境変数がロードされます。これを行う必要があるのは1回だけです。これでOKです。

Conda

Data Science Software Stackは、Minicondaといくつかの主要な環境を提供します。

Conda環境一覧表示

次のコマンドを実行すると、現在システム上にある環境を確認できます。

Conda環境を一覧表示
conda env list

Conda環境をアクティブにする

アクティベートすることで、環境内のPythonライブラリにアクセスできます。使用する環境を決定し、activationCondaコマンドを実行してアクティブ化します。

CondaEnvをアクティブ化する
conda activate <env name>

deactivationコマンドを実行すると、環境を終了できます。

CondaEnvを非アクティブ化
conda deactivate

Conda環境の変更

Data Science Software Stackで提供されるConda環境は、テンプレートまたは基本環境であると考えるのが便利です。あなたの特定のプロジェクトに必要な追加のライブラリをインストールしたいと思うかもしれません。提供された環境はシステム上にグローバルにインストールされ、変更するにはroot権限が必要です - これはデザインによるものです。環境を変更する前に、まず環境のクローンを作成することをお勧めします。最初にクローンを作成すると、多くの利点があります。

  1. システム上のユーザーは、基本環境にアクセスできます。
  2. 変更しても、その環境を使用する他のユーザーには影響しません。作成したクローンはホームディレクトリに保存されます。
  3. 別のライブラリをインストールしたり、変更をロールバックしたりする場合は、基本環境のクローンを再度作成するだけです。
変更前のクローン環境
conda create --name <new env name> --clone <existing env name>

クローンが作成されると、通常のcondaまたはpipの場合と同じようにPythonパッケージをインストールできるようになります。

Condaでクローン環境を変更する
conda activate <your cloned env>
conda install <package name>
クローン環境をPIPで変更する
conda activate <your cloned env>
python3 -m pip install <package name>
注意

パッケージを環境にインストールするために conda install と pip install を混在させると、 問題が発生する可能性があります! 問題を回避するには、conda の後に pip を使用するようにしてください。そして、一度 pip install を使ったら、同じ環境では conda install を使わないでください。

Docker

Data Science Software Stackには、NVIDIA GPUを搭載したシステム上でコンテナのGPU演算を可能にするDockerデーモンと関連パッケージが含まれています。

Dockerイメージのリスト

現在システム上にあるイメージを確認するには、次のコマンドを使用してイメージをリストアップします。

Dockerイメージを一覧表示する
sudo docker images

Dockerイメージの実行

この例では、RAPIDSのdockerイメージを実行します。

RAPIDSイメージを実行する
sudo docker run -it --gpus all -p 8888:8888 -p 8787:8787 -p 8786:8786 nvcr.io/nvidia/rapidsai/rapidsai:0.19-cuda11.2-runtime-ubuntu20.04

これでWebブラウザを開き、localhost:8888 を指定してJupyterLabにアクセスできるようになります。

この例では、オプションフラグが何を意味するのかを説明します。

  • --gpus all は、実行中のコンテナにシステム内の利用可能なすべてのGPUSへのアクセスを許可します。
  • -p 実行中のコンテナにネットワークポートを公開します。
    • 8888 JupyterLabノートブックサーバー
    • 8786 Daskスケジューラー
    • 8787 Dask診断用Webサーバー

ローカルデータにアクセスできるように、実行中のコンテナにボリュームをマウントしたい場合があります。そのためには、docker runコマンドに-vオプションを追加してください。

Moundをボリュームにバインドする
-v </host/path/>:</container/path/>

IDEと開発ツール

Data Science Software Stackには、すぐにコーディングを開始できるように、一般的な開発ツールが多数含まれています。

Visual Studio Code

VSCodeが含まれています。Windowsキーを押して、Visual Studio Code を検索して起動します。または、ターミナル(CTL+ALT+T)を立ち上げ、code コマンドを実行します。

PyCharm

PyCharm コミュニティ版は Stack に含まれています。ターミナルで pycharm-community を実行して起動してください。

Git

バージョン管理クライアントであるGitも含まれています。リポジトリのクローンを作成します。

クローンGit リポジトリ
git clone <URL to your repo>

スタックのアップデート方法

Data Science Software Stackは、Ubuntuオペレーティングシステムと同じメカニズムで更新され、更新されたパッケージはAptがシステムを更新したときにインストールされます。デフォルトではUbuntuは定期的に新しいパッケージのバージョンをチェックし、それらをアップグレードするかどうかを尋ねます。手動でアップデートを確認し、インストールしたい場合は、ターミナルでAptを使って行うことができます。

システムをアップグレードする
sudo apt-get update
sudo apt-get upgrade