最終更新日:2021/8/26

array(配列)について簡単に説明します。arrayを、今後は「ary」と書く場合があります。
本HPで用いる記号を改めて整理しておきます。

li = List(リスト)
se = Series(シリーズ)
df = DataFrame(データフレーム)
ary = array(配列)

【説明すること】

1. array(配列)とは

array(配列)はnumpyというライブラリーを使う際に用いる、行と列で構成されたハコです。
DataFrame(df)と似ているのですが、numpyは数学計算を行うので、arrayは数値を入れるのが基本です。勿論、文字列も格納可能で、機械学習を行う上で、そうしなければならない場合もあります。

何に使うのか、というと数学の行列(Matrix)の計算を用いる際に多用します。データ分析など、本格的なデータ・サイエンスや、画像解析でも用います。つまり、いわゆるAIの開発に使います。

2. DataFrameとの違い

(1) numpyを使う
arrayはnumpyというライブラリーの中で使います。一方、dfはpandasというライブラリーで使います。
ですので、arrayを使う際は、import numpy as np(普通「np」と省略します)と書かなければなりません。

(2) ラベルがない
DataFrame(df)には、index(縦のラベル)、カラム名(横のラベル)がありますが、arrayにはこれがありません。
ただし、arrayには行番号と列番号があるので、各要素はこの番号で指定します。

(3) dfより見た目の理解が難しい
dfは、書いたコードと結果の出力が同じでわかりやすいのですが、arrayは見た目が、それほど直観的ではありません。
例えば、df上の見た目が縦に抽出したものが、arrayでは結果が横に出力されたりします。

(4) 文字列の扱いに注意が必要
もともと数値計算を行うライブラリーなので、文字列の扱いには注意が必要です。特に、数値と文字列が混在すると、欲しい結果が得られなかったり、エラーになることがあります。

(5) 機械学習の際はarrayへの変換が必要
機械学習を行うライブラリーは、arrayの形式でデータを入れる必要があります。例えば、dfで作成したデータをarrayに変換する必要があります。

尚、行を選択などarrayの操作は、dfに近いです。例えば、スライスなどは「:」を使います。