らくがき入門

環境と研究テーマが大幅に変わりました。だいたい何かに入門しています。

pandasを用いてフラグがついている列が先頭になるように行ごとにシフトする

やりたい処理は、すべての行でフラグ1が先頭にくるようにシフトしたい。

うまいやり方かどうかわからないけど、一応うまくいっているような気がする。

サンプルコード

import numpy as np
from numpy import nan
import pandas as pd
import warnings 
warnings.filterwarnings("ignore") # 実行に関係のない警告を非表示
# 左からゼロパディング
columns_list = ["a_{0:02d}".format(i) for i in range(0, 12)]
value_arr = np.array([[nan, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 
                      [nan, nan, 1, 0, 0, nan, nan, nan, nan, nan, nan, nan], 
                      [nan, nan, nan, 1, 0, 0, 0, nan, nan, nan, nan, nan] 
                     ])

時系列のデータを想定したDataFrameを作成。

フラグが1になるカラムが行ごとにバラバラなので、すべての行で先頭のカラムが1になるようにシフトしたい。

df = pd.DataFrame(value_arr, columns=columns_list)
df
a_00 a_01 a_02 a_03 a_04 a_05 a_06 a_07 a_08 a_09 a_10 a_11
0 NaN 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
1 NaN NaN 1.0 0.0 0.0 NaN NaN NaN NaN NaN NaN NaN
2 NaN NaN NaN 1.0 0.0 0.0 0.0 NaN NaN NaN NaN NaN

行ごとに処理を行う。

  1. 各行ごとにフラグ1がくるインデックスを取得して、その分だけ左方向にシフトする(作成されるのはSeries)

  2. 作成されたseriesを行方向に結合する

  3. 結合してできたDataFrameをtransposeして元のDataframeと形を揃える。

se_concat = pd.concat([df.ix[i].shift(val) for i, val 
                       in enumerate([-np.where(value_arr == 1)[1][j] 
                                     for j in range(len(df))])], axis=1)
se_concat.T
a_00 a_01 a_02 a_03 a_04 a_05 a_06 a_07 a_08 a_09 a_10 a_11
0 1.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 NaN
1 1.0 0.0 0.0 NaN NaN NaN NaN NaN NaN NaN NaN NaN
2 1.0 0.0 0.0 0.0 NaN NaN NaN NaN NaN NaN NaN NaN

参考にした書籍・サイト

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

<Python, pandas> 縦にずらす。

numpyのarrayで複数の要素が配列内に存在するか判定する

numpy.arrayで複数の要素をリストで渡して、真偽値行列を作成してみる。

使うのは、numpy.in1dで、 指定したarray-likeな要素がある配列内に存在するかどうかを判定して、1次元の真偽値行列を返してくれる。

配列の形を合わせたいなら、reshape(arr.shape)で形を合わせることができる。

In [1]: import numpy as np

In [2]: arr = np.array([[1, 3, 5], [2, 3, 4], [2, 3, 3]])

In [3]: np.in1d(arr, [1, 3, 5])
Out[3]: array([ True,  True,  True, False,  True, False, False,  True,  True])

In [4]: np.in1d(arr, [1, 3, 5]).reshape(arr.shape)
Out[4]: 
array([[ True,  True,  True],
       [False,  True, False],
       [False,  True,  True]])

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

LightGBMをインストールする

LightGBMをubuntu18.04にインストールします。

LightGBMとは

Microsoftが開発した勾配ブースティング(Gradient Boosting)のフレームワーク。勾配ブースティングのフレームワークには、他にXGBoostとかも割と有名なのは知っていましたが、LightGBMは知りませんでした。知ったきっかけは、Kaggleで適当に興味あるコンペのKernelを読み漁っているとよく登場してたため調べてみる気になりました。

勾配ブースティング

そもそもブースティングは、複数の弱学習器を用意して、それぞれの学習器を直列接続するイメージの手法。前の弱学習器で学習した内容を現在の弱学習器に継承しながら学習を進めていきます。

勾配ブースティングは、各ステップごとの弱学習器のでの損失関数の最小化問題に対して勾配降下法を用いるのが由来です。

勾配ブースティングの弱学習器では、決定木が採用されることが多いです。

LightGBMのインストール

LightGBMの公式の通りインストールしていくだけですが、一応手順を示します。 下準備としてsetuptoolsは準備しておきましょう。 今回は、Github経由でのインストールを採用しました。

Cmakeのインストール

Cmakeはソフトウェアのビルド自動化ツールで、Windows,mac, linuxとクロスプラットホームで使えます。 LightGBMのインストール時に必要なのでインストールします。

$ cd ~/Downloads
$  wget https://cmake.org/files/v3.12/cmake-3.12.2.tar.gz
$ tar xvf cmake-3.12.2.tar.gz
$ cd cmake-3.12.2
$ ./configure
$ make
$ sudo make install 
# インストールできているか確認
$ cmake
Usage

  cmake [options] <path-to-source>
  cmake [options] <path-to-existing-build>

Specify a source directory to (re-)generate a build system for it in the
current working directory.  Specify an existing build directory to
re-generate its build system.

Run 'cmake --help' for more information.

cmakeして上の表示がされていれば、インストールできています。 うまく行かない場合は、C++コンパイラがない可能性があるのでgccとかを入れる必要があるかも?

LightGBMのインストール

$ git clone --recursive https://github.com/Microsoft/LightGBM.git
$ LightGBM/python-package
$ python setup.py install
# grepしてインストールできているか確認
$ pip list --format=columns | grep -i lightgbm
lightgbm                           2.2.1 

上のように、lightgbm 2.2.1 のようにversion表示されていればインストール成功です。

参考にしたサイト

qiita.com

blog.amedama.jp

はじめてのパターン認識

はじめてのパターン認識

2つのnumpy arrayからDataFrameを作る

2つの同じ長さのnumpy arrayを用いてそれらを列に持つpandasのDataFrameを作成します。

In [1]: import numpy as np

In [2]: import pandas as pd

In [3]: arr1 = np.array(["a", "b", "c", "d"])

In [4]: arr2 = np.array([1, 2, 3, 4])

In [5]: dict_ = dict(zip(arr1, arr2))

In [6]: df = pd.DataFrame(list(dict_.items()), columns=["col1", "col2"])

In [7]: df
Out[7]: 
  col1  col2
0    a     1
1    b     2
2    c     3
3    d     4

手順は、

  1. 1つのarrayをkey、もう一つのarrayをvalueとする辞書を作成
  2. 作成した辞書をlist.items()でkeyとvalueのarrayのタプルを1つの値ごとに格納したリストに変換
  3. 2.で作成したリストをDataFrameに変換

という流れです。

参考にしたサイトは以下のサイトです。

stackoverflow.com

PandasのDataFrameから特定の値を持つ行を削除する

言われてみたら簡単なんだけど、意外に思いつかなかった。

DataFrameの特定の行に含まれている値を指定して、それ以外を抽出するイメージ。

In [1]: import pandas as pd

In [2]: df = pd.DataFrame([[1, 2], [2, 3], [3, 4]], columns=["a", "b"])

In [3]: df
Out[3]: 
   a  b
0  1  2
1  2  3
2  3  4

In [4]: df[df.a != 2]
Out[4]: 
   a  b
0  1  2
2  3  4

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理

pythonで地図上の2時点間の位置関係を求める;

2時点間の緯度、経度、高度が与えられたときに簡易的に2時点間のローカルな位置関係を求めます。 緯度・経度・高度といった情報ではローカルな2時点間の関係性が分かりづらく扱いづらいので、変換します。 具体的には、2時点間の距離とある時点からもう一時点を見たときの方位角、仰角を求めることを目標とします。

以下、国土地理院のサイトと独立行政法人電子航法研究所の資料を参考に作成しています。

https://www.enri.go.jp/~fks442/K_MUSEN/1st/1st060428rev2.pdf

地球上の2時点間の距離

高校などで扱った平面世界での2時点間の距離は、簡単に求めることができたと思いますが、地球上の2時点間ではそれほど簡単には求めることができません。 なぜなら、地球が球体であり、局面上にある2時点間の距離を求めることになるからです。

ジオイドとは

地球は、時点による遠心力の影響で、赤道方向が少し膨らんだ楕円体のような形をしています。 測地学では、世界の界面の平均位置に最も近い「重力の等ポテンシャル面」を「ジオイド」と定めて、これを地球の形状ということにしています。標高はジオイドを基準として定められており、標高はジオイドから測った高さになります。

GPSを用いて標高を求めるには

現在広く活用されているGPSでは、緯度・経度・高度といった幾何学的な位置を求めることができますが、重力を考慮した設計になっていないため標高を直接求めることができません。GPSを用いて標高を求めるためには、ジオイド高がj必要になります。

標高 = 楕円体高 ー ジオイド

ジオイド高は国土地理院が提供している計算サイトで計算することができます。

ジオイド計算

WGS84

WGS84とは、GPSの基準座標系で、直交座標系です。これはECEFと呼ばれ、地球の重心を原点として地球の自転軸の北極方向をZ軸、Z軸に垂直にグリニッジ子午線の方向をX軸として、これらの軸と直行するように右手系でY軸とした直交座標系です。

ECEFから東をX, 北をY、上空をZとした地平直交座標(ENU)に変換します。 ECEFからENUへの変換は、行列による回転と原点移動で実現できます。詳しくは上記で示した電子航法研究所の資料をご確認ください。

githubにサンプルコードを提示してあります。coordinate_test.pyの9, 10行目で取り扱いたい2時点の緯度・経度・ジオイド高のサンプルデータを与えています。結果表示では、2時点間の距離およびある時点(コードではRx)からみたもう1時点(コードではSat)の方位角、仰角を求めることができます。

github.com

atom上でterminalを使う

atomプラグインであるPlatformio Ide Terminalを起動して、paneとの間を移動できるようにしました。 ほぼほぼ自分のメモ用です。

環境

ubuntu18.04

Platformio Ide Terminal

atomでターミナルを起動するプラグインです。atom上でterminalを起動するのはTerminal-Plusが一般的なようですが、私の環境ではうまく動作しなかったのでPlatformio Ide Terminalにしました。

apm install platformio-ide-terminal

でインストールできます。
ショートカットキーはctrl + ` で起動することができます。

paneとterminalとの間の移動はctrl + alt + fで移動することができます。

atom上でterminalもbashrcの内容が反映されるので使い心地は変わらないような気がします。

参考にしたサイト

全面的にこちらのサイトを参考にしました。色々なプラグインを比較されていてわかりやすかったです。

jump-up.info