こういうときに便利 非ASCII文字を含むオブジェクトをファイルに書き込んだり、他のプログラムに渡したりするときに、ascii関数を使って文字列に変換すると便利です。例えば、以下のように書くことができます。 s='こんにちは'withopen('test.txt','w')asf:f.write(ascii(s))# test.txtに...
数字系や、動詞の活用的なところも除外する必要あり(品詞判定がよさそう) 良くわからない単語や、英単語なども多い。 従属関係にある単語は「出現頻度」の差が大きいことに注目 例えば、「アメリカ合衆国」と「アメリカ合衆国陸軍」の間には、 出現頻度(常識度)としいて、数百倍の違いが出てい...
16,900,026コーパス、290,811ワード、胸が高鳴る数字です。 公式通り「vector_size=200(gensim4.1.2版)」指定で作ると、約170MBのモデルが完成しました。先ほどの「なんちゃってモデル」は100KBちょっとだったので雲泥の差です! test_w2v.py from gensim.models import word2vec model = word2ve...
Windowクラスの実装では、まず定数Piを6つの有効数字で宣言します。 const float Pi = 3.14159f; 次に、コンストラクタで、さまざまなpainter pathを定義し、対応するRenderAreaウィジェットを作成します。このウィジェットはグラフィカルshapeをレンダリングします: Window::Window() { QPaint...
乗客の名前に「Mr.」を含むレコードに絞る name.str.contains('Mr.') ここまで、フィルタリングする際のクエリの一例を紹介しました。 他にもフィルタリングするためのクエリ表現はありますので必要時に調べてみて下さい。 なお、フィルタリングした状態でファイル出力したい場合は、Panda...
この結果を元に数字を決めて、画数でのフィルタリング処理を実装した。 (結果はあえて省略) なお、ついでに、「音読み」での読み方を元に、 MTSH除外(明治大正昭和平成と同じアルファベットにならないように) という簡易的なチェックも実装できた。 フィルタリング②他で使われている言葉を除...
GUIでの操作になるので詳細は割愛しますが、KibanaのようにDashboard上にPanelと呼ばれるパーツを配置していく形で可視化していきます。PanelにはGraphのほか、最新の値だけを数字で大きく表示させたりできるSingle stat、Markdown等で文章が書けるTextといったものもあり、自由度は高いです。