Posts

May 14

自動タグ付け機能でも作ってみる - 10: 動かしてみる

動かしてみる 一通り役者は揃ったので、全部つなぎこんでみる。 [core.py](https://github.com/kyoh86/gen-tags/blob/master/gen_tags/core.py] [main.py](https://github.com/kyoh86/gen-tags/blob/master/gen_tags/__main__.py] で、実際Wikipediaのテキストデータから単語の出現頻度データをとって、d
May 13 / tech

自動タグ付け機能でも作ってみる - 9: Markdownをパースする

MarkdownParser を作る MarkdownParser については、MarkdownをAST的に扱えるライブラリとして、 mistletoe を使う。 mistletoe は、Markdownのレンダリングライブラリだけれど、
May 07 / tech

自動タグ付け機能でも作ってみる - 8: Dump/Restoreを実装する

再構成 学習データ(?)としてWikipediaの解析に時間がかかるので、 Wikipediaの解析結果を保存しておいて、キーワードの選定時には
May 06 / tech

自動タグ付け機能でも作ってみる - 7: BM25の実装

前提 先の構成図 参照。 本丸、 KeywordRanker を実装していく。 Okapi BM25を分解する Okapi BM25 による、文書d、単語wの重み付け (Combined Weight: CW) は、次のような式で表される。 $$ CW(w,d) =
May 05 / tech

自動タグ付け機能でも作ってみる - 6: Wikipediaの出力を形態素解析してみる

前提 先の構成図 参照。 MorphoAnalyzerはできたので、Wikipediaの記事をパースしてみる。 準備 WikiExtractor を使うと、 Wikipediaか