今年もIM飲み会に参加しました!
鹿野です。
毎年恒例となっている IM飲み会 に今年も参加してきました。
今年に至っては、小町先生も森先生も不在というなかなか珍しい回(?)となりましたが、なんとか時間を押しながらも(??)無事に全発表が聞けてよかったです。私はもともと自然言語界隈の人間ではない人間ですので、こういう機会があるととても新鮮で楽しいですね。(と同時に自分ももっと勉強しなくてはとなるわけですが)
『Egoistic Lily』の発表もしました
どんな発表があったかは・・・私の話をまとめるより他のどなたかがまとめてくださると・・・という気分ですが、私はというと例によってコリもせず(?)、『Egoistic Lily』の発表を行いました。
www.slideshare.net
OSSかな漢字変換の課題
Mozcの開発が停止!? 『令和』も変換できないよ〜!!
などという問題がありますが、とは言うものの『え、令和の一単語くらいならなんとかなるでしょ!』というご指摘ももちろんそのとおりで、
- 本当に追加しなくてはいけない単語が何年にどれくらい存在するのか?
- それに見合った対応策のコストとは?
という話も当然あると思います。
ただし、それとは逆に、『え、それでいいんだっけ?』という話もあるにはあって、せっかくOSSとして開発しているのに、辞書が最低限しか更新されないとなると、なんだかなぁ〜……という話にもなる気がしているんです。
問題は、それを見合ったコストで開発を継続すること。
『継続は力なり!』って簡単に片付けられる話とは違うかもしれませんが、辞書の更新等、どうにか継続できる仕組み(誰か一人が頑張るとかではなくて)を作っておいて、そこから皆で共有できると、それはOSSのかな漢字変換を使ってる人に限らず、より多くの人が幸せになれるのかなという気がします。
……え〜っと、話が脱線している気もしますが、、、まぁいっか(^^)
ところでかな漢字にAutoEncoderって結局どうなのよ?
え、学習速度が速いからそれでいいのでは? ←何か違うぞ鹿野!!
冗談はさておき、今回のスライドで書いたとおり、あくまで『Egoistic Lily』は、Mozcのコスト最小法と単語bi-gramによるかな漢字変換の間の子みたいな感じに現状はなってます。言ってしまえば特に新しくもない、割と枯れた技術を使っていますよね。←鹿野、あんたが言うなw
ただ、この後にBERTの技術を流用して〜となると、一気に話が変わってくるような気がします。
現在の段階では『ただDNNを使用しているだけ』感が否めないのは百も承知ですが、それ以上に今後の発展の可能性も秘めているのではという気がしています。それがBERTなのか、それ以外なのかはわかりませんが、他の新しい技術と組み合わせると、もっと面白くなるのではと思うのが今回の『Egoistic Lily』なわけです。
ただし、指摘も頂戴しましたが(ありがとうございます!)、今の現状の『Egoistic Lily』のモデルが『何を解くためのモデルなのか?』がやや曖昧になってしまってるのも事実です。このあたりもう少し見直ししないとだめですね!
まとめ
来年は OSC大阪 から。
来年も『おーぷん万葉』、及び『Egoistic Lily』をよろしくお願いいたします!