読者です 読者をやめる 読者になる 読者になる

verilog書く人

自称ASIC設計者です。どなたかkaggle一緒に出ましょう。

【PFIセミナーまとめ】chainerMNはなぜ速いのか、今後の提供は?

f:id:segafreder:20170203235939p:plain

 

先日このグラフで世界を驚かせたchainerMNの中身の話をchainerMNによる分散学習 - YouTubeでやっています。

chainerは分散ディープラーニングフレームワークとして現在世界最速だそうです。

視聴したのでメモ。おもしろかったです。

語り手はchainerMNの作者秋葉さん(iwiwi)
Top coderで四位、数々のプログラミングコンテストで受賞歴を持つすごい人。

 

動画を見る限り今までchainerで作っていたモデルをchainerMNに移し替えるのも簡単そうです。

続きを読む

numpyやchainerでのベクトル、行列、テンソルの積関連演算まとめ

Python

年末年始にテンソル積と格闘しわけがわからなくなったのでメモ。

 

numpyのいわゆる積と呼ばれるAPIには、

numpy.multiply, numpy.dotnumpy.vdotnumpy.innernumpy.crossnumpy.outernumpy.matmulnumpy.tensordotnumpy.einsumとまあ結構たくさんあります

特にnumpyについてまとめますが、chainerやtensorflowで同名のAPIが存在する場合、numpyと同じインターフェイスで設計されていますのでほぼ同じ計算をします(はずです)。

 

続きを読む

C++からPythonを叩きつつ、boost.numpyを使ってC++とPython間でndarrayをやりとりする

Python C++

C++メインで作られているシステムからchainerだったり、scikit-learnだったりを使って機械学習をしているPythonモジュールを呼び出しとデータをやりとりさせたいとします。

 

すると、C++の入力データ(n次元array)をnumpyに変換してPythonに渡し、Pythonからnumpyで返ってくるデータを解釈する必要があります。

 

続きを読む

物体検出用の画像アノテーション正解データ生成に便利なツール

機械学習

RCNN (Regional Convolutional newral networks)などの機械学習モデルを使って画像から物体検出するには、"どこ"に"なにが"あるのか、すなわちバウンディングボックスの四角の座標(x, y)および正解ラベルが画像とセットで必要となります。

10000枚単位の画像が欲しい場合、自力で集めるのは大変なので、Pascal VOCのようなコンペで公開されている過去のトレーニング用データセットを流用しますが、それだけでは足りなかったり、自分が検出したい物体がなかったりします。 

続きを読む

scikit-learn 0.20からクロスバリデーションの使い方が変更される模様

機械学習

機械学習をやるときに結構良く使うところだなと思っていた、クロスバリデーションのスプリッター系モジュールのインターフェースが変わることに気づいたのでメモ。

 

scikit-learnの従来のクロスバリデーション関係のモジュール(sklearn.cross_vlidation)は、scikit-learn 0.18で既にDeprecationWarningが表示されるようになっており、ver0.20で完全に廃止されると宣言されています。

 

詳しくはこちら↓

Release history — scikit-learn 0.18 documentation

 

続きを読む

Kaggle KernelでRegularized Greedy Forestがサポートされました

機械学習

以前

【機械学習】Regularized Greedy Forest(RGF)で多クラス分類を試してみました - verilog書く人

の記事で紹介させていただいたRegularized Greedy Forest及びそのwrapperであるrgf_pythonがKaggle Kernel (旧Kaggle Scripts)でサポートされました。

Kaggle Kernel上ではインストール作業などなしで、importすれば使うことが出来ます。

 

試しに作成してみたKaggle Kernelはコチラ↓

https://www.kaggle.com/fukatani/d/uciml/iris/classification-by-regularized-greedy-forest

動いてます。安定のiris。

 

 

というわけでぜひぜひお試しあれ。

 

P.S.

Kaggleのサポートチームにちょっと「RGFどうですか?」と頼んだら、気前よくスピーディにサポートしてくださいました。感謝。

Microsoft Azureでサインアップしてからkaggleデータで機械学習するまでのメモ

機械学習

kaggleの本番コンペはデータが大きくて、AzureやAWSなどのクラウドサービスで、メモリ数十GBのモンスターマシンの力を借りたくなることがあります。

この前参加したデータ分析ハッカソンなどで、Azureの使い方をおぼえて来たのでメモ。

 

Azureは本家のチュートリアルがかなり分かりやすくできていますので、主にリンク集です。

 

※基本的に無料試用版で試したので、自分から無料制限をはずさない限りここで書いてある内容はお金をかけずに試せるはずですが、課金に関する最新の正確な情報は本家サイトでよくお確かめください。

 

続きを読む