Twitterのツイートを形態素解析できるモデルをチマチマチマチマとアノテーションして作りました。
とりあえず1000ツイートで学習させてみた結果↓
#!/usr/bin/env perl
use strict;
use warnings;
use Text::KyTea;
my $kytea = Text::KyTea->new(
model => 'twitter.mod',
tagmax => 1,
);
while(<>)
{
chomp;
my $results = $kytea->parse($_);
for my $result (@{$results})
{
print $result->{surface};
for my $tags (@{$result->{tags}})
{
for my $tag (@{$tags})
{
print " ", $tag->{feature}, "/", $tag->{score};
}
}
print "\n";
}
}
おっぱいにも反応する…だとっ⁈\(^o^)/ぷるんぷるん!
おっぱい 名詞/1.58335520873588 おっぱい/100
に 助詞/0.582811764656452 に/100
も 助詞/2.56389603440279 も/100
反応 名詞/2.34565862532488 はんのう/100
する 動詞/3.24311969207749 する/100
… 補助記号/2.40081284738731 ・・・/2.61874614767905
だ 助動詞/3.14589428692411 だ/1.16998970505133
と 助詞/3.72388497325535 と/100
っ 語尾/1.57412493707867 っ/1.67440946485952
⁈ 補助記号/2.15166862072831 UNK/0
\(^o^)/ 顔文字/1.05802739830047 UNK/100
ぷるん 副詞/0.280931170551133 ぷるん/100
ぷるん 名詞/0.626540476457221 ぷるん/100
! 補助記号/3.33701371125112 !/100
(゚∀゚)o彡°おっぱい!おっぱい!
(゚∀゚)o彡 名詞/0.517448128267009 UNK/0
° 補助記号/2.32375812800788 UNK/0
おっぱい 名詞/1.80126948031546 おっぱい/100
! 補助記号/1.75798222256127 !/100
おっぱい 名詞/0.852339326477309 おっぱい/100
! 補助記号/2.51003707544082 !/100
ゴキブリもキライ(>_<)蚊も〜!!でも最大級は蛇。イヤ〜(ノ><)ノ
ゴキブリ 名詞/2.34331903441433 ごきぶり/100
も 助詞/4.05532730969976 も/100
キライ 名詞/1.43248054361402 きらい/100
(>_<) 顔文字/0.581317302582793 UNK/0
蚊 名詞/1.8817667808525 か/100
も 助詞/3.86853083949933 も/100
〜 補助記号/3.13874484501798 〜/100
! 補助記号/2.11586427709402 !/100
! 補助記号/1.90916550259136 !/100
で 助詞/2.33454157212243 で/100
も 助詞/3.10415455201607 も/100
最大 名詞/3.13286800717966 さいだい/100
級 接尾辞/2.22219138387336 きゅう/100
は 助詞/3.93302389402384 は/100
蛇 名詞/1.39660588253989 へび/100
。 補助記号/2.97742575533521 。/100
イヤ 名詞/0.457700740181369 いや/100
〜 補助記号/2.64583994777037 〜/100
(ノ><)ノ 名詞/0.171666624852277 UNK/0
もう少し鍛えれば顔文字抽出器としても使えそうです。
それにしてもLIBLINEAR速いですな。