動機づけ
ふと、最近自然言語処理なんてやってないし何か良いテーマはないだろうか、と考えてみたところ、 このブログを始めるにあたって、「最も面倒くさい課題」について取り組んでみてはどうだろうと思いついた。
「タグ」を考えるのがだるいのである。僕はこの記事を書くにあたっても、ハテこの記事に適したタグはなんであろう、と考えるのが嫌なのである。 記事の検索や分類において「タグ」は極めて有用だと感じているが、いざこれを「つける」側に回ってみると、何も嬉しくない。
そこで、この「タグ付け」を自動でやれないか、と思い立った。
理想的な未来:
- タグなんて考えなくていい
- CIでデプロイする際に自動でつけてくれる
- さらにいい感じのタグからアイキャッチ画像も見つけてきたりして
手法
検索観点での「単語の重み付け」は色々な手法がある。 自然言語処理だのなんだのなんて縁遠い世界にいた僕ですら、TF-IDFくらいは小耳に挟んだこともある。 TF-IDFがどうやら「今ひとつ」だという話も耳にしたので、その改良版というBM25でも取り組んで見ようかと思う。
イマドキは自然言語処理といえばPython、という程でもなくなりつつあるが、思いつきで突っ走りたい気持ちもあり、枯れたPythonにお世話になろうと思う。
採用したい手法:
- Python
- Okapi BM25
- MeCab / Neologd
一通り動機も手法も決まったので、ボチボチ作業していきたい