仕事用のめもとか。

メディア等気になることを適当に。

ブログ通信簿@goo

通信簿によると「影の支配者」らしい - ガ島通信
んで、
ブログ通信簿 - goo ラボ

直近10エントリーから更新頻度&話題&文体で、年齢性別その他を推定するちゅうもの。
話題文体の年齢階層&性別判別はどうやってるのか謎です。gooはブログ持ってるし、登録情報があるわけですから、自前のブログのエントリ解析して傾向とか見てるのかしら。
んでちょっくらココのURLを突っ込んでみたのですが、ええ...29歳男性と出ました....頑張ってサンダル作ったばっかなのにー!
ちくしょー、明日からゆるふわえびフィレオモテブログ目指しちゃるけんの!!

とりあえずネタとして公開されていますが、マーケティングでブログを調査しようとするなら、こういう技術がある程度精度上がってくると、やっぱり強みデカいかなーという気持ち。
どうせ公開するなら、実際の年齢性別データを試した人に貰えばいいのに、と思わないこともない。

=08/07/29追記=
「ブログ通信簿」 by gooラボ : チミンモラスイ?
解析法詳細&実験など。

◆文書属性推定技術
 ブログ記事から「かしら?」などの「女性」らしい表現や「20代」のブログで多い「就職活動」など、性別や年齢層ごとに特徴的な言葉を抽出し、性別や年代を推定する技術

◆評判情報インデクシング技術
 ブログ記事から「楽しい」、「うれしい」などの評判を表す表現を抽出するとともに、それらの表現が肯定的か/否定的かを判別する技術

◆記事タグ推定技術
 ブログ記事に含まれる特徴的な単語の統計量を抽出し、それをもとに任意のテキストに対して高い精度で自動的にタグ(話題を表すキーワード)を付与する技術

◆EigenRumor
 ブログへのリンク数、記事掲載数、注目度の高いブロガーからのリンクの有無からブロガーの持つ影響度を数値化する技術

日を替えてチェックした実験では59歳〜38歳と幅があった模様。
やはり年齢層ごとに特徴的な言葉〜が謎。うちとか最近SL話多いから、ほんとだったらシニア層判定されてもおかしくないんですよねー。