らくがき入門

機械学習を始めとしたコンピュータサイエンスを主に扱っています。

python

情報検索における潜在意味解析

情報検索や推薦システムで使用される潜在的意味解析について説明します。また潜在的意味解析の一手法である特異値分解をPythonで実装します。

ユーザーベース協調フィルタリングを実装してみた

amazonやNetflixのレコメンドに用いられている推薦システムのうちユーザーの類以度を用いてレコメンドする手法であるユーザーベースの協調フィルタリングについて説明します。

pandasを用いてフラグがついている列が先頭になるように行ごとにシフトする

pandasにおいてすべての行でフラグ1が戦闘に来るようにシフトしたい。

numpyのarrayで複数の要素が配列内に存在するか判定する

numpyのarrayで複数の要素が配列内に存在するかを判定する。これを実現するために、numpy.arrayで複数の要素をリスクで渡して、真偽値行列を作成する。

LightGBMをインストールする

勾配ブースティングのライブラリであるLightGBMをubuntu18.04にインストールします。LightGBMとはMicrosoftが開発したライブラリで、Kaggleの上位にもよく食い込んでいます。

2つのnumpy arrayからDataFrameを作る

2つの同じ長さのnumpy.arrayを用いてそれらを列に持つpandasのDataFrameを作成します。

PandasのDataFrameから特定の値を持つ行を削除する

PandasのDataFrameから特定の値を持つ行を削除する。DataFrameの特定の行に含まれている値を指定して、それ以外を抽出する方法で実現します。

pythonで地図上の2時点間の位置関係を求める;

2時点間の緯度、経度、高度が与えられたときに簡易的に2時点間のローカルな位置関係を求めます。 緯度・経度・高度といった情報ではローカルな2時点間の関係性が分かりづらく扱いづらいので、変換します。 具体的には、2時点間の距離とある時点からもう…

時系列分析における処理フロー(定常過程と単位根過程)

与えられた時系列データが何かによってデータの取り扱いが変わります。定常過程と単位根過程の違いを明らかにして、単位根過程の検定でよく用いられる拡張Dickey-Fullar(augmented DicKey-Fullar test; ADF test)を取り上げます。

時系列分析における系列変換

沖本本のアウトプットを共有目的と自分用のメモ目的で書きます。 時系列分析の目的 時系列分析の目的は、複雑な観測データが持つ多様な特徴のうち 分析者にとって重要な特徴のみを簡単に表現できるモデルを構築することです。 このように作成したモデルを基…

python+SeleniumでWebページのデータを自動取得する

pythonとSeleniumを用いてWebページのデータを自動で取得する方法を紹介します。SeleniumはWebブラウザの自動操作ライブラリです。Seleniumを用いることで人間がWebブラウザ上で行う作業を自動化することができます。