MeCabを使ってブログの本文を形態素解析してみた。
”自分のブログで形態素解析してみるか。”
今回は日本語形態素解析ツールMeCab、nattoというGEMパッケージ、言語はRubyで解析しました。
</>test-natto-02.rb
- open-uriライブラリを使ってこのブログからhtmlデータを取得しています。
- 極力本文以外の余計なテキストは取り除くために、<scriptから</script>までをgsubメソッドで空値に置き換えて、削除しています。(それでも不完全ですが)
- タグに関しては、正規表現 /<.*?>/ にマッチする部分は空値に置換して削除しています。
- natto.parse{ }内で形態素解析+ハッシュの作成を行っています。
- ハッシュの初期化の際、
word_hash = Hash.new(0)
としているので、単語の出現回数の初期値は0になっています。 - if文で今まで出現していたかを判定し、出現していないなら、.store(n.surface,1)でハッシュに単語を登録し、出現していれば、.store(n.surface,count+1)でハッシュを更新しています。
- 最後に、sort_byメソッドで出現回数が多い順にソートして表示しています。
結果は以下のようになりました。
["、", 76]
[".", 65]
["の", 49]
["\r \r", 49]
["_", 48]
["を", 42]
["て", 41]
[",", 40]
["。", 38]
["-", 38]
["に", 37]
["”", 36]
["た", 36]
["が", 35]
[" ", 33]
["は", 30]
["(", 29]
[":", 28]
["'", 27]
["',", 25]
["で", 25]
["=", 23]
["と", 22]
["x", 19]
["\\", 18]
["です", 18]
["hatenadfp", 18]
["27", 18]
["!", 16]
[")", 14]
["し", 14]
["/", 14]
["2016", 13]
["user", 13]
["google", 13]
["・", 12]
[";", 12]
["('", 12]
["い", 12]
["afc", 12]
["か", 12]
["0", 12]
["02", 11]
["2", 10]
["ga", 10]
["まし", 10]
["1", 10]
["[", 10]
["\r", 10]
["container", 9]
["adUnits", 9]
["div", 9]
["こと", 9]
["な", 9]
["{", 9]
["ブログ", 9]
["読者", 8]
["#", 8]
["意馬心猿", 7]
["r", 7]
["i", 7]
["TSUTAYA", 7]
["\r \r\r \r", 7]
["js", 7]
["santamalia", 7]
["');", 7]
["目", 7]
["\"", 7]
["ない", 6]
["||", 6]
["ので", 6]
["}", 6]
["も", 6]
["':", 6]
["01", 6]
["なー", 6]
["もっと", 6]
["という", 6]
["〜", 6]
["ます", 6]
["する", 6]
["s", 6]
["読む", 5]
["a", 5]
["書く", 5]
["なっ", 5]
["解析", 5]
["ん", 5]
["コメント", 5]
[");", 5]
["野球", 5]
["id", 5]
["Tweet", 5]
["list", 5]
["そして", 5]
["プログラミング", 5]
["はてな", 4]
["ヘッダー", 4]
["13", 4]
["ば", 4]
["でし", 4]
["真田", 4]
["document", 4]
["実行", 4]
["install", 4]
["3", 4]
["インストール", 4]
["MeCab", 4]
["み", 4]
["d", 4]
["形態素", 4]
["引用", 4]
["ー", 4]
["09", 4]
["なる", 4]
["m", 4]
["行く", 4]
["push", 4]
["表示", 4]
["用", 4]
["var", 4]
["今日", 4]
["らしい", 4]
["みる", 4]
["から", 4]
["25", 4]
["また", 4]
まだ記事の数が少ないので、あまりいいデータではありませんが、単語に分解し、出現回数を数えることには成功しました。
もっと記事が増えてきたら、またやってみようと思います。
TSUTAYAのレジがセルフになっていた!
”レンタル有効期限更新のお知らせ”
”T-ポイントカード更新かー、しゃーない、PC用メガネ買いに行くついでに、久々にTSUTAYAに行くかー”
そんな成り行きで、TSUTAYAに行くことに。
そして、ミッションインポッシブル・ローグネイション、ターミネーター・ジェネシス、イミテーションゲーム、ST赤と白の捜査ファイル、バンクーバーの朝日の5つを借りて、いざ会計へ!
そこには以前とは違ったTSUTAYAの姿が・・・。
”セルフレジ・・・?”
そうなんです、すべてお客さん自分で会計をしなくてはならなくなっていたのです!
そして、これがまたややこしいこと極まりないのです。
操作はタッチパネルで、バーコードリーダーにかざしていくのですが、まずパッと見てどこが読み取り箇所なのかがわかりづらい。
そして、かざしたのはいいものの、しきりと”鍵のおとり忘れはありませんか?”というアナウンスが。
”?”
”なんや、鍵って”
と、その時、ピーピーピーという警報音が入り口のところから聞こえてきた。
みると、若いお兄さんがいて、どうやら盗難防止用のチップのようなものをとり忘れていたらしい。
”なるほどな〜、あれが鍵か〜”
とはいえ、次は取り外し方がわからない。と、そこへ、カワイイ女の店員さんが。
(店員)”そこに引っ掛けて引っ張っていただければ・・・。”
”あー、そういうことかー ありがとうございます!”
で、なんとか借りることができました。
皆さんもTSUTAYAに初めて行く際は気をつけてくださいね!
ミッション:インポッシブル/ローグ・ネイション【Blu-ray】 [ サイモン・ペッグ ] 価格:4,452円 |
イミテーション・ゲーム/エニグマと天才数学者の秘密 コレクターズ・エディション 【初回限定生産】アウタースリーブ付 [ ベネディクト・カンバーバッチ ] 価格:3,332円 |
日本語形態素解析器MeCabをインストール
”そういや、もうすぐ研究室配属やん”
〜研究室のサイトをボーッと見る〜
”ウェブマイニングか、VRか迷うなー”
で研究で使用するソフトウェアで気になったのが、”MeCab"
形態素解析ができるソフトでHomebrewでインストールできるらしいので、早速入れてみました.
1.brew install mecab
を実行.
2.brew install mecab-ipadic --charset=utf8
を実行.
3.gem install natto
を実行.
するとここで
ERROR: While executing gem ... (Gem::FilePermissionError)
You don't have write permissions for the /Library/Ruby/Gems/2.0.0 directory.
の文字が.
どうやら、権限がないらしいので、sudoをつけて
sudo gem install natto
で実行。
ようやく成功.
試しに解析してみることに.
</>test-natto.rb
成功しました.
意馬心猿
"あー。ブログタイトル何にしよっかなあー。"
"和風がええなー。"
"そや、ブログの顔ヘッダー画像を作ってから考えよ”
イラレ、フォトショを駆使し、真田丸と信長協奏曲の風情をモチーフにしたヘッダー画像が完成!
今年はサル年ということで、真田REDをまとった馬に武装した猿を乗せたらオモロそうやなーと思って作りました。
でもなんかヘッダーのピンクとマッチしないなーってことになり、最終的に
に決まりました。
ちなみに、はてなブログのヘッダー画像のサイズは1000x200pxです。
で、今さっき”猿 馬 四字熟語”でググってみると、”意馬心猿”がヒットしたわけです。
ちなみに意馬心猿とは
欲情がどうにも抑えにくいこと。
らしいです。
偶然にも、今まさに”テスト期間中で早く試験から解放されたい!”という欲望まみれの、私にぴったりの言葉でした。
そして、今日は日曜日。
日曜日と言ったら、真田丸!
今日はついに信長が討たれ、徳川家康が堺から脱出を図る、というのがメインテーマでした。
内野聖陽演じる徳川家康はビビりな時もあれば、キリッと決める時もあり、見ていて面白いです。
今日はテストに備えてもう寝ます!
船出
"なんかいいブログないかな〜。"
そんな、ノリで見つけたのがこのはてなブログ。
今までアメブロで少しブログを書いていましたが、カスタマイズ性がなかったので、
カスタマイズ性の高い、このはてブにやってきたわけです。
そして、わたくしサンタマリアと申します。今日は自己紹介をしようと思いまっす。
大阪在住の大学生で、プロ野球、高校野球、とにかく野球が好きです。
東京D・京セラD・甲子園・マツダスタジアム・ほっともっと は行ったので、ゆくゆくは、日本のプロ野球の球場全制覇してやろうと野心を燃やしているのです。
そんなわたくしはアルバイトで塾講師をやらせて頂いてます。
また、理系人間のわたくし、大学ではプログラミングを学んでいて、C言語は少し使えるのですが、最近はRubyにどハマりしているので、Ruby関連の記事を書いていくつもりです!
他にも、大学のサークル活動でWEBサイトを制作・運営しているのでWEBについても書いていこうと思います!
それでは、また次回!
私は試験と戦って参ります...。