仕事用のめもとか。

メディア等気になることを適当に。

犯行予告自動検知システムがわからない...

予告inのしゃちょーによる解題。
Blogger Alliance | 404 Not Found

予告inでいろいろなマスコミの方からご連絡をいただき、取材を受けたりしたのですが、どうしても観点が
総務省は数億といったが個人で2時間で出来る」→無駄づかいだ!
という流れになりがちですが、僕たちはあまりそこは関係ないんじゃないかと思っています。
単に、出来ることの違いだと思っています。

総務省が言ってることは、例えば

総務省は12日、インターネットでの犯行予告などを自動的に検知できる新技術の開発を行う方針を明らかにした。東京・秋葉原での殺傷事件を受け、増田寛也総務大臣が指示した。
総務省によると、現在のフィルタリング技術では、「殺人」「殺します」といった言葉に反応する方式になっている。この方式だと検知数が膨大なものになってしまい、どれが本当に危険なものかを見抜くのは難しいのが現状。
新しく開発する技術は、情報通信研究機構などで開発されている「自然言語処理技術」を応用。単語に関わる文脈や時間的変遷を解析することで、「どの情報が本当に危険なものかを検知することができる」(総務省)という。

本当に危険な「ネット犯行予告」を検知できるか? - 総務省が技術開発へ 6月12日20時5分配信 マイコミジャーナル@ヤフーニュース
ということなので、どこまでやるんかわかりませんが、恐らく形態素解析とかも含めたシステムになるんではないかと。
で、この形態素解析、結局辞書が勝負なのでその部分にひっじょーに金がかかります。特にネット上のやりとりって次々当て字とかなんとか生まれてくるわけで、それをフォローしようとするなら、結局のところは目視でほにゃららしないと追いつく気がしない。
野村総研の「TRUE TELLER」がこのへん商用だと一番有名だと思うです。
顧客の声・ナレッジ活用のためのテキストマイニングソリューション|TRUE TELLER
導入が最小システムで数百万、トレーニングとかなんじゃかんじゃの年間維持がなんぼかかるんやったっけ...まあ、日本語で書かれた掲示板、ブログ、その他もろもろではき出されてくるデータを延々解析しつづけるよーなシステム組むとかなったらそりゃ億いきますよ。てか、本来の意図を実現しようとするなら、億でもきかんかもしれん。レポートが出るのが10日後とかじゃ意味ないんで、リアルタイムでやんないとダメくぽですし。
以前ほにゃららなところのほにゃららなシステムについてお話伺ったことがほにゃほにゃとあるのですが、有効4桁くらいの一般的なアンケート調査分の解析するなら、データを整形してシステムに突っ込んで一晩寝かせて翌朝上がってくるとかなんとか。そこはハードにそんなお金かけてもらえないところだったので、もちょいなんとかなるとは思うのですが、なにしろ分析対象の量が半端ないですし...

にしても。
予告inもカバーできる範囲は2ちゃんとテクノラティなのですが、数億っていってる総務省はどんくらいカバーするつもりなんだろう。予告outはまあ対象外だと思うですけど。
恐らく、超高速で自然言語処理が出来るシステム自体は、ゴリ押しで作れないことはないと思うんですよ。技術も金の計算もわからんので信じないで欲しいですが。総務省が妄想してるほどの精度にはならないと思いますが。
問題はクローラーですよねー。どう考えても。
2ちゃんねるだけ見るんだったらいいんですが、秋葉原連続殺傷事件は携帯専用の比較的マイナーな掲示板で予告されてるわけです。で、掲示板サービスなんざ、さくらでも借りてスクリプト設置しちゃえばおサルにでも開設できるもんですから、どこのサイトを見て回ればいいかもヨクワカラナイ。必ず漏れが出るのはもう仕方ないと。
それを防ぐとしたら、CGMサービスを開設する時は有償無償問わずお上への届け出必須にして、届け出ないところは速攻潰すくらいの気合いでやるとか、CGMサービスでなんか書き込みがあったら自動的に総務省にコピー送られるとか凄いことをやらないと無理なので、とりあえずは抜け上等ということでシステムを回すにしても、予告されてそれを検知して関係機関に連絡して、実行までにある程度警備を増強して対応することを目標とするなら、少なくとも数時間前には検知してないとどうしようもない。犯行が起った翌朝にレポートみてみたら、10日前に予告が書き込まれてた!!とかじゃ意味なさすぎだし。数時間前だと、通常体制の現場に「なんかきょーはヘンなのが来るかもって予告入って来てるから締まっていこー♪」くらいの連絡が出来るかどうかじゃないかという悪寒もしますが。
やぱフツーに、24時間体制で通報受ける部署を設置して、そこが予告inとか各種掲示板とかチェックしながら連絡&対応に当たるのが一番精度が高く、かつローコストで出来る予感...