日程:2011年1月28日 (金)
会場:NHK放送技術研究所 講堂 (研究所 1F)
〒157-8510 東京都世田谷区砧1-10-11
(成城学園前駅、用賀駅、二子玉川駅、渋谷駅からバス、
「NHK技術研究所前」下車)
http://www.nhk.or.jp/strl/aboutstrl/map.html
照会先:
*会場に関する問い合わせ先:
熊野 正(NHK放送技術研究所)
E-mail: kumano.t-eq (at) nhk.or.jp
*研究会に関する問い合わせ先:
自然言語処理研究会幹事
船越孝太郎(ホンダ・リサーチ・インスティチュート・ジャパン)
E-mail: funakoshi (at) jp.honda-ri.com
情報基礎とアクセス技術研究会幹事
小林 義行(日立製作所中央研究所)
E-mail: yoshiyuki.kobayashi.gp (at) hitachi.com
プログラム:
——————————————————————–
NL200 & IFAT101 合同研究会(発表件数7件)
1月28日(金) 9:30 ~ 16:15
[09:30-10:30] NL-1(2件)
[10:40-11:40] テーマセッション「インタラクション」(2件:NL 1件,IFAT 1件)
[13:00-14:30] パネルセッション
[14:45-15:45] NL-2(2件)
[15:45-16:15] IFAT(1件)
——————————————————————–
NL&IFAT合同研究会 1月28日(金) 9:30 ~ 16:15
[09:30-10:30] NL-1(2件)
座長:相澤彰子(国立情報学研究所)
1.デジタルな言語記憶に関する仮説
○得丸公明(衛星システムエンジニア)
ヒト話し言葉はデジタルである。脳内で言語記憶が構築される
メカニズムはまだまったく解明されていない。どのような可能性
がありえるかについて考えてみた。
Q. 今回は脳と言語の関係を追求されたようだが,今後掘り下げる予定はあるか? 遺伝子,哲学等
A. 分子レベルの記憶の研究は60年代にあったが最近は少ない.ネットワークと分子の関係性を調べたい.
2.点予測と系列予測の2段階化による品詞推定の精度向上
○中田陽介,NEUBIG Graham,森信介,河原達也(京都大学)
対象とその周辺の文字列情報(入力情報)のみを参照する点予測
を用いた形態素解析結果に、系列予測を用い再度品詞推定を行う
ことでより高い解析精度を実現する。
Q. 概念的にはHMMと同じような感じに見えたがこの理解は正しいか?
A. 違う
Q. 複数の品詞候補を考えるというのは辞書を使っているということでは?
A. コーパスの情報のみ
Q. ベースラインで辞書を充実すればどうなる?
A. UniDicを使うとMeCabの方が精度が高くなる.
Q. 分野適用の方法としては辞書を充実させるのが効果的?
A. それはそうだが,辞書がないことを想定.
Q. 分野適用に必要な品詞はほとんど名詞部分なので,品詞の情報はさほど重要ではないのでは?
A. それはそう.記述スタイルの学習には効果がある.
Q. セグメンテーションの誤りの割合は?
A. 分野適用では境界認定を間違うことが多い
[10:30-10:40] 休憩
[10:40-11:40] テーマセッション「インタラクション」:(2件:NL 1件,IFAT 1件)
座長:江口浩二(神戸大学)
3.発話を意識した文推薦システムの構築と評価(NL)
○冨坂亮太(東京大学),鈴木崇史(東洋大学),
相澤彰子(国立情報学研究所/東京大学)
ユーザーの興味と話題性のモデルの獲得法について述べ、これら
に基づく発話文選択の手法を提案する
Q. 話題を提供するというが,どういう発話が生成されるのか?それをつかってどういうことをしたいのか?ようするにrelevance feedbackをやっている?
A. マシンから会話をきりだすところがポイント.ユーザから話してもらわないとスタートしないという状況を打開したい.適用としては,ユーザが面白いと思ったものを宣伝するシステム.
Q. 最初にユーザに選択させているようだが,それは実験のため?
A. ユーザのモデルを作成するため.会話を始めるときには選択させているのではない.
Q. 最初のモデルはどうやってつくるのか?
A. ユーザモデルは既存であるという前提. 先に興味のある記事をいくつか選んでもらったりしている.
Q. 今の記事を使っていると,ユーザのモデルと話題性のモデルが近くなりすぎているのではないか?
A. 古い記事を使ったモデルで実験を計画している
Q. ユーザモデルをどんどん更新すれば,話題モデルはいらないようにも思うが,一度作ったらしばらく使うという前提?
A. 常にユーザモデルを最新にすることは難しいと思う
Q. ユーザモデルの更新はコストが高いのでは?
A. ツイッターみたいなリアルタイム性のあるところから情報を収集するのは有益
Q. 話題提供に関して,会話ならではのおもしろさというのはないか?
A. 今後は文章を会話っぽくしていきたい.
Q. 協調フィルタリングのような仕組みを入れることはないか?
A. 会話をしているときに同じ興味を持っている人を見つけるのは難しいので,考えていない.
4.Linked Dataから得られるリソース間関係に着目した情報拡張手法の提案(IFAT)
○大西可奈子、小林一郎(お茶の水女子大学大学院)
本研究では、Linked Dataを用いて、ユーザが興味を持つ文章の内容を
最もよく表わしている二語間の関係を説明する情報をユーザに提示し、
その関係と同じ関係を持つ新たな情報を取得、提示する情報拡張手法
を提案する。
Q. 利用イメージがよくわかなかったのだが,どこが本質的な所?狙っているところは?
A. webページを開いたら,関係する情報が,検索することもリンクをクリックすることなく出てくる.Linked Dataの活用のコンセプト提案でもある.
Q. プロパティに曖昧性があって関係ないものがでてくることはないのか?
A. かなり曖昧性がある.ただ,Linked Dataの情報に偏りがあるほうが問題.変なものがでてくるよりも,いつも同じマンネリな結果しかでない傾向がある
Q. 内容語というのはドキュメントの主題と思うが,それはDBPediaやWikipediaのタイトルそのものではないのか?
A. Wikipediaだとたしかにそうなのだが,ニュース記事やブログ等,タイトルそのものでないこともある.
Q. 人名等は代名詞化されるとページに幅広くでなくなると思うが,そういうことはないのか?
A. 可能性はあるが,今回試したデータでは,以外と大丈夫だった.
Q. 結果の分析,評価はどうやるのか?
A. いま思案中.アイデアがあったら教えていただきたい.
[11:40-13:00] 昼休み
[13:00-14:30] NL&IFAT 合同パネル討論
「言語処理のこれまでとこれから ー情報アクセス技術との歩みー」
パネリスト:松本裕治(奈良先端科学技術大学院大学)
自然言語処理研究会 元主査(98.4-02.3)
島津 明(北陸先端科学技術大学院大学)
自然言語処理研究会 元主査(02.4-06.3)
中川裕志(東京大学)
自然言語処理研究会 元主査(06.4-09.3)
岸田和明(慶應義塾大学)
情報学基礎研究会 元主査(07.4-09.3)
モデレータ:徳永健伸(東京工業大学)
自然言語処理研究会 現主査(10.4-)
自然言語処理研究会は今回で200回目という節目を迎えます.そこで,
過去3代の主査を御招きして,この10年の言語処理研究を振り返り,
今後の研究課題,研究の方向性,展望について議論するパネル討論を
開催します.また,情報検索を中心とした情報アクセス技術は,
World Wide Webの爆発的かつ多様な発展により,以前にも増して言語
処理研究と密接な関係を持つようになっています.そこで,情報学基
礎とアクセス技術研究会からも前主査をパネリストとして御招きし,
情報アクセスの観点から議論していただきます.
※ パネル討論の様子は,下記URLより録画をご覧下さい(研究会登録会員のIDとパスワードが必要です)
http://ucgi.nl-ipsj.or.jp/cgi-bin/gate_NL200Panel/gate.cgi
ーーーーーフロア Q&Aーーーーー
Q. 自然言語処理はミクロ,情報検索はマクロ,情報抽出はうまくその間をつないだ.情報処理の難しさは,大規模,動的,ヘテロにあると思う.とくにヘテロというところに,自然言語処理としてどう対応して行くのか,教えてほしい
松本
最近は応用を意識している研究者も多いので改善していくのではないか
中川
データの収集がネックか? 応用指向についてはNL研が外部との連携の場となるべきでは.宣伝とコミュニケーション.外部からの要求は多いが,あまり知られていない.宣伝が必要.
Q. 外から意味を扱いたいとたずねられると,我々は答えをもっていない.なんて答えたら良いか? 向こうは「一般的にNLがなにかできるか」を知りたい.
松本
何に使いたいかをはっきりさせることが必要ではないか
徳永
両者のコミュニケーションが必要.ニーズを聞きながらすすめるしかない
中川
データの形式化は,コミュニケーションをすることでよく達成できると思う.技術的に提供できることとしては,ノンパラメトリックな手法や,系列処理などがあるだろう.他にもRandom Projectionなどいろいろとストックを持っておくとよいでしょう.
島津
弱い願望でもいいから,聞き出すしか無い
Q. 産業用の日本語処理への対処
中川
全部を明確に書くことが必要かどうかを考えて,必要な所を規格化していくのがいいと思う.オーサリングツール
Q. 研究会にどういう人に来て欲しいと思っているか. 今後のNL研をどうしたいか.
松本
日本の研究が1通り聞ける場にしたいと思っていた.
自分の任期には発表申し込みが多くて,独自企画をやろうとは思ったが発表を優先させると,企画のための時間的余裕がなかった.
島津
先生方がなかなかいない.みんながくるといい
中川
発表申し込みが減って,参加者も減って来た.言語処理学会の年次大会なら1年の総まとめ的な情報が得られるが,NL研では,トピックもスパースで参加者も少ないので,そういったメリットがない.関連分野の参加者を呼び込むために共催を積極的におこなってきた.こちらから出て行くほうがいいのではないか
徳永
参加者を増やし,研究会を活性化するために新しい試みを始めた.ひとつは,QAのサマリのWeb掲載.これは諸刃の剣であるが,呼び水となることを期待している.また,座長をあらかじめアサインし,プログラムに載せるようにしている.座長には議論を盛りあげるよう依頼している.また,研究会主催のシンポジウムやそれをベースにした研究会論文誌についても議論している.今後も協力よろしくお願いします.
ーーーーー
[14:30-14:45] 休憩
[14:45-15:45] NL-2(2件)
座長:中川裕志(東京大学)
5.競合事物間における比較関係認識
○山崎義隆(奈良先端科学技術大学院大学),乾健太郎(東北大学),
松本裕治(奈良先端科学技術大学院大学)
本研究では文集合から比較文を同定し,比較文に含まれる基準と
比較対象の関係を認識することを目的とする。
Q. 正解データをつくるのはどれくらい難しいのか? あのテータ間の一致率は?
A. 判断の揺れる例はあるが,1人でしかやっていないので,わからない
Q. 関係のクラスとして「特徴」を設けた理由は?
A. 特徴も結構あるので除外するのは問題だと思った
Q. BACTは規則を出力するのか?
A. 部分木のパターンが数値付きで出力される
Q. 人が見ていい規則が得られたか?
A. ドメイン依存のものもあった
Q. 語彙依存しそうだが,データスパースネスについてはどうか?
A. 判別に役立つ語彙の位置の情報が使えるかもしれない
C. 語彙よりも抽象化するといいのでは.
Q. 「Aは50でBは100」は比較?
A. これは「特徴」として扱っている
C. それを比較と捉えるのはどうか? 対比ではないか? 対比という観点から整理してはどうか
6.小規模なコーパスを用いた仮名漢字混じり文と仮名文の対応づけ
○山口文彦(東京理科大学)
平仮名と漢字が混ざった文と片仮名のみの文がそれぞれ複数与え
られたとき, 仮名漢字混じり文の読みを表す仮名文を対応づける
方法について考察する.
Q. 統計的機械翻訳のMoseをつかってやるとどうなる?
A. やっていない.
Q. syllable単位でやるとどうなる?
A. 対応付けはいくつか取れる
C. 16000文程度のデータにして,句読点はなしにして,読みをローマ字にしたみてらどうか?そうするとより現実的ではないか?
Q. 仮に対応付けが出来たとして,その後解読はどうするのか?
A. 古謡のほうはタヒチ語に近いので,そこから手掛かりが得られるのではないか
Q. 古謡のほうにはポーズ情報などはないのか?
A. CDがあるので,使えるかもしれない.延ばしたり,繰り返しなどがあるので,そこはヒントになるのではないかと思う
[15:45-16:15] IFAT(1件)
座長:吉田 稔(東京大学)
7.カテゴリ階層構造を考慮した確率的トピックモデルとその応用
○林 幸記(神戸大学),江口浩二(神戸大学,国立情報学研究所),
高須淳宏(国立情報学研究所)
既知のカテゴリ階層構造と、それに割り当てられた文書集合を対
象とした確率的トピックモデルの定式化を行い、そのモデルパラ
メータを推定する。さらに、提案モデルの階層的テキスト分類へ
の応用について述べる。
Q. Medlineの中間ノードの文書は本当に中間ノードの概念の文書か?
A. そうです
Q. 木構造ではなく,なくネットワークになっている場合も適用できるのか?
A. できない
Q. これをつかう長所と短所があれば教えて欲しい.階層型のベイズなどにくらべて良い点
A. はっきりとは判らない.
Q. ボトムアップなところが面白いと思ったが,そこに至った経緯は?素直に思いついただけなのか?
A. 動機から自然にここへ至った
Q. 階層ディリクレプロセスとは違うのか?
A. ちがう
Q. どうちがうのか?
A. 階層ディリクレプロセスをよく知らないので,答えられない
C. 類似の手法で同じ効果を狙ったものがたくさんあるはずなので,比較をきちっとしていただきたい
Q. 提案手法は少ないトピック数が最適になる性質があるのか? 最適トピック数は手法によって違うのか?
A. 今回は示していないが,トピック数が増えたほうが良くなる傾向はあるが,収束の面で安定しない.
——————————————————————-
★ 研究会ホームページ
最新情報は各研究会ホームページに掲載予定です.
自然言語処理処理研究会:
http://www.nl-ipsj.or.jp/
情報基礎とアクセス技術研究会:
http://www.ipsj.or.jp/katsudou/sig/sighp/fi/
★ 研究報告のペーパーレス化
研究会はペーパーレスでの開催となり、印刷した研究報告の配布を行い
ません.また、特許出願の公知日(研究報告の公開日)が従来より1週
間早まりますので、ご留意ください.
[研究会にご登録されている方]
研究会発表の研究報告が研究会当日1週間前よりBookPark:
http://www.bookpark.ne.jp/ipsj/
で閲覧できます。事前に研究報告PDFをご自分のPCにダウンロードし
研究会にご持参ください。あるいは印刷してご持参ください。
※BookParkのご利用にはBookPark上でのユーザ登録(無料)が必要
です。登録まで最大3日かかりますのでご留意ください。
[研究会にご登録のない方]
当日研究会にUSBメモリの読めるPCをご持参ください.研究会会場に
て、USBメモリからコピーすることで研究報告PDFを閲覧することが
できます.