Juliaで行こう! 〜データ準備編〜
前口上
何故かビット演算の話からということになっていますけれども。読んでいて、ナカナカ面白そうだったというのが大きくて。
そろそろ新しい言語を、ということを考えてもいたので、Julia。
Pythonっぽい(後に違うとわかる)ので、少しいじってみたら、これは、と思ったので。不定期で書いていこうかと思っている次第です。
Benchmarkを見ると、演算に関しては、速いのですよ。Fortranよりは遅いのだけど、Cよりちょいと遅いって感じで。(少し誇張)
Pythonが全方位で汎用的なのに対して、Juliaは赤いカラーリングが施された専用機(演算特化型)という違いなのかな、と。そんな感じがしています。
下準備(データどうしよう編)
いつも悩むところなのです。お試しデータをどうするか?というところで。 以下に、注意を払っていて、
- 100行から500行ぐらいまでの適量なData(列方向は20列程度まで)
- csv的なFormatで、Data欠損がない
- Data自体は中立的
というものです。国や地域になるべく依存してないDataを、ということです。
これを考えていくと、植物や動物のData(図や写真無し)がよいのでしょうか、と、OpenでFreeなものを日々探しているのですが、これは!というものをナカナカ見つけられずにいて、その時点で、作業が始まらないというジレンマに陥ってるということになっています。(本末転倒という)
jsonだと、階層的でもあり、いいのですが、初歩においては、限りなくcsvに近いものを扱うのがよいと考えて、準備を開始します。
下準備(データこうしよう編)
先にも書きましたが、Formatは以下のようなものを準備します。
- csv的なFormatベース
- header行の有無は適宜
- 各要素にData欠損無し
- デリミタはカンマ
- 各要素にカンマは含まない、スペースは含んでよい
- 任意行の1文字目がシャープの場合、コメント行
これを網羅したDataをどうするか。現時点で用意したのは、元素周期表のDataとなりました。
各元素の全Dataではないのですが、ひとまずこれで進めてみようということにしました。
読み込ませてみるっていうもので、ガツガツと演算をというものではないですが、読み込んで、配列等に格納するという意味ではいいかな、と思ってたりするもので。
ただ、よいデータを探す旅は続くんだろうな(笑)
下準備(データ作成したよ編)
csv的に元素周期表を準備するのにおいて、以下の項目を選択しました。
- 元素名 (Name)
- 元素記号 (Symbol)
- 元素番号 (Atomic Number)
- 族 (Group)
- 周期 (Period)
- CAS登録番号 (CAS Number)
上記に基づいて、作成したDataが以下。
このDataを用いて、Scriptを少し記述してみます。ようやく本編(笑)
コメント
コメントを投稿