情報処理学会 第199回自然言語処理研究会

◎ 日程: 2010年11月18日(木), 19日(金)

◎ 会場: 広島市立大学 講堂小ホール
   広島市安佐南区大塚東3-4-1
   交通アクセス情報:http://www.hiroshima-cu.ac.jp/guide/index.html

◎ ホームページ

http://www.nl-ipsj.or.jp/

◎ 照会先:

* 研究会に関する問い合わせ先:
宮尾 祐介 (国立情報学研究所)
E-mail: yusuke (at) nii.ac.jp

* 会場に関する問い合わせ先:
難波 英嗣 (広島市立大学)
E-mail: nanba (at) hiroshima-cu.ac.jp

======================================================================

プログラム(発表件数20件)

11月18日(木) 13:00~18:00
[13:00~15:00] 語彙・知識獲得(1) [4件]
[15:15~16:45] 解析 [3件]
[17:00~18:00] 検索 [2件]

11月19日(金) 10:00~17:00
[10:00~11:00] 応用 [2件]
[11:15~12:45] 語彙・知識獲得(2) [3件]
[13:45~15:15] 言語分析 [3件]
[15:30~17:00] コーパス [3件]

======================================================================
 
11月18日(木) 13:00~18:00

■ 13:00~15:00 語彙・知識獲得(1) (4件) ■

座長:柴田知秀(京都大)

(1) 係り受け木を利用した単語類似度計算方法とそのシソーラス拡張への応用

○鈴木郁美,原一夫,新保仁,松本裕治(奈良先端大)

注目する2つの単語がそれぞれ出現する2つの文の係り受け木において,各々
の単語を出発点とするランダムウォークを並行して行い,ウォークの類似
度の総和として単語の類似度を計算する.

Q. 前置詞も含めているが,それを抜くと精度が上がらないか?
A. ストップワードは使っていない.それもやるべきと思っている.

Q. 文の長さによって最適な L が変わるのでは?
A. わからない.

Q. それぞれの単語については5回しか考慮しない?
A. はい.

Q. 普通はコーパス全体でベクトルを作るが,それとの比較は?
A. 単語によって頻度が全然違う.

Q. 評価した単語は名詞?
A. MeSH に登録されているものなので,名詞がほとんどだと思う.

Q. 曖昧性はないのか?
A. 曖昧性のない 234 語を選んだ.

Q. 計算量は?
A. 今回の実験では2日半かかった.結構かかる.

Q. エッジの方向があわないエッジがあれば類似度が0になる?
A. 可能なパスを全部列挙するのでどこかで類似度が出るかと思ってやった.

Q. エッジが同一方向じゃないとだめという制約を使えば,効率のいいアルゴ
リズムがあるのでは?あと,0にならないようにするとどうなるのか見てみた
い.
A. やってみます.

C. 係り受け木をたどる時に,各単語の周辺単語も見られるようにすると面白
いのでは.

(2) 構文構造を利用した英語論文からの表現の自動獲得

○葛原和也,加藤芳秀,松原茂樹(名古屋大)

英文を構成する単語間の構文的関係、および、統計情報を利用して英文作
成に有用な表現を獲得する手法を提案する。

Q. 汎化がよくわからなかった.汎化せずに抽出して,抽出後に節や名詞句の
情報をつければよいので?
A. 汎化しないと取得される表現が多すぎる.抽出する際に同時に汎化しよう
としてこうしている.例えば節で propose 以外にいろいろな単語が使われて
いると,頻度が低い単語が使われている木が使われなくなってしまう.

Q. CL まで含めて有用かどうか判定したのか.
A. はい.

Q. スコアの計算で,一個先を見るときは全てのものを見て,一番スコアが高
いものを取るのか.
A. はい.

(3) 文脈類似度を用いた、項の異なる事態間関係の自動獲得

○隅田飛鳥,服部元,小野智弘(KDDI研究所)

本稿では、文脈類似度を元にクラスタリングを行うことにより、 項の異な
る事態間関係を自動獲得する手法を提案する.

Q. 具体例は?
A. 載せてない.

Q. 最初のモチベーションにあったものは獲得できたのか?
A. ウコンと二日酔いはできたが,それがクラスタとしてまとまらなかった.

Q. AのBなどのパターンにマッチしないものはでてこない?
A. そうです.今のところそういう制約を入れないと精度が落ちる.

Q. 上位・下位のような関係と言っても,同じ事態を言い換えているものがと
れるだけなのか?
A. そちらにひきづられてそういう傾向にある

Q. 予稿の表の定義は,今回の研究で行ったものか.
A. 先行研究のものを使っている.

Q. 含意関係と因果関係の違いがよくわからない.成立と発生は同じでは?
A. ちがうと思うが,はっきりわからない.

C. 事態間関係の定義がしっかりしていないと,何をやっているのかが伝わり
にくい.事態のモダリティ,意図なのか,結果なのかが区別されていないので
よくわからない.

Q. ステップ3の特徴が述語でなく項で代表されているのはどういうことか?

Q. 今回項が違う場合を対象にしているが,格助詞が変わっている例もあると
思うが,格助詞は同じとして実験するなど,少し制限をかけてやってみた方が
よいのでは.
A. 参考にする.

Q. 実験結果で格助詞が変わるような事例はあるか.
A. 今持っていないので後で.

(4) 検索クエリログとクリックスルーログを用いた略語の展開候補獲得

○内海慶(ヤフー),小町守(奈良先端大),町永圭吾,前澤敏之,
佐藤敏紀,小林義徳(ヤフー)

我々はグラフを用いたラベル伝播手法による略語の展開候補獲得の手法を
提案し, その有効性を確かめた.

Q. 考察4で,略語は多義語のことが多いが,多義語を入れるとどうなるのか.
A. 多義語を全部取ってきてしまう.

Q. tx の例で,url は wikipedia のトップにリンクされているが,ラベル伝
搬法のパターン側の単位はページ?サイト?
A. ページが単位.そういう url はいろんな単語とつながるので低くなる.

Q. クリックスルーデータを使う動機は.
A. 同義語への展開は,頻出クエリとの文字列マッチングではできないので,
正解を見つけるためにクリックスルーデータを使っている.

Q. 言語モデルのところで文字 ngram を使っているが,文字列レベルの言語モ
デルだけでなく単語レベルのものを使ったら複合語にもいいのでは?
A. そのとおり.今回は実験が間に合わなかった.

C. 同義語の場合はクエリ訂正というよりクエリ拡張と言った方がよい.

■ 15:15~16:45 解析 (3件) ■

座長:横野光(東京工業大)

(5) Markov Logicによる日本語述語項構造解析

○吉川克正,浅原正幸,松本裕治(奈良先端大)

本研究では日本語の述語項構造をMarkov Logicによる集合的手法により解
析し従来研究との比較を行う.

Q. 表層格が現れているものも評価対象に入っている?「は」や連体修飾など
に限っていない?
A. 特に分けていない.

Q. 文内ゼロ照応は入っているか?
A. 文内は入っている.文内はある程度解けているので,後半は文間を別に処
理している.

Q. 既存研究を簡単に教えてほしい.
A. どちらも確率モデル.平らの手法は,文内・文外関係なく述語からたどって
いき,最適な項を取ってくる.事態性名詞にも同じことをやっている.今村ら
はセンタリング素性に近いものを使っている.言語モデルを使っている.

Q. 素性として本質的に違うものは?
A. 平の手法をベースにして,大域素性を入れている.今村らとは違って,セ
ンタリングや言語モデルを使っていない.

Q. グローバルとローカルの差がだいぶあるが,どの大域的制約が効いたのか?
意味があるような評価はできるか?
A. やっていない.一つずつ見ていくことはできる.

Q. 他動詞,自動詞の区別などの制約はいれていないのか?
A. はまっているものなら選択制限などが入れられるが,用言辞書はカバー率
は高くない.大規模データから自動獲得した辞書を利用したい.

Q. isArg はどれだけ最終的な結果に効いているのか?
A. 日本語では分析していないが,英語では3つ述語を用意しておくと,簡単な
ものから当てられるので,1ポイント程度精度が上がるという報告がある.

(6) 代表・派生関係を利用した日本語機能表現の解析

○鈴木敬文,宇津呂武仁(筑波大),松吉俊(奈良先端大),
土屋雅稔(豊橋技科大)

大規模日本語機能表現辞書に収録されている機能表現を対象として,機能
表現の集約的検出方式を提案する.

Q. 用例を作ればいいということが,どれくらい作ればいいのか.
A. 1882用例で実験したところ,全体の12%なので,それほど大きくないと考え
られる.ウェブなどを使えばもっと用例が得られる可能性がある.

(7) 文間の弱い対立関係の認識

○大木環美(奈良先端大),村上浩司(楽天技術研究所),
松吉俊(奈良先端大),水野淳太,乾健太郎(東北大学),
松本裕治(奈良先端大)

命題が成立する範囲・程度の制限や条件の追加によって表される二文間の
弱い対立関係を新たに定義し、認識実験を行った。

Q. 検索ユーザにとってどういう効用を与えてくれるのか?
A. ウェブから検索したときにユーザは上位の文しかみない.上位の文には賛
成の文しかない場合とかがある.ユーザはそれを信じてしまう傾向がある.実
際にはそうじゃない情報もあるので,まとめて俯瞰して見せることができる.

Q. 付加情報の判定で,使用に関する動詞は付加情報でないとしていたが,他
のタイプの述語を考慮した方がいいような場合はあるか?
A. 現状では使用だけを対象としているが,省きたい表現は多様であり難しい.
説明を表すような文などがある.

Q. キシリトールは食べるものというのが分かっていれば,その情報が使える
のでは.
A. 例えば「バイオエタノールを燃やすと排出します」という文があり,それ
も取りたくない.

■ 17:00~18:00 検索 (2件) ■

座長:田中英輝(NHK放送技術研究所)

(8) 情報検索における圧縮距離の適用に関する考察

○相澤彰子(国立情報学研究所)

テキストを対象とした「圧縮距離」の近年の研究を概観するとともに,情
報検索への適用法を新たに提案して有効性を調べる.

Q. 今回の手法は可変長ngramを使うものであるが,比較手法は固定長か?
A. 他クラス問題で可変長を使う機械学習器で適当なものがなかった.2クラス
問題では比較している.

Q. 多クラス問題に適用したということは,多クラスでない問題は得意でない
のか?
A. そう思う.もっとクラス数が多い(数百万とか)を考えている.数千万文
書の情報検索と少クラス分類の間くらいを狙っている.

Q. 英語と日本語で傾向が違ったが,使ったngramは文字ngramか?
A. 最初の実験は単語ngramを使っている.文字ngramだと,英語は性能が落ち
るが,日本語は性能が落ちなかった.

Q. どの手法が教師あり学習で,どれが教師なし学習?
A. 全て教師あり学習.提案手法も分割や確率推定にデータを使っているので,
教師あり学習.

(9) 言い換えを用いた技術マニュアルの類似文検索

○矢舖将隆,難波英嗣,竹澤寿幸(広島市立大)

言い換えを考慮して,翻訳メモリ上から類似用例文を網羅的に検索し翻訳
支援を行う手法を提案する.

Q. コーパスは一文対応か?短い文が多いのか?
A. 一文対応で,短いのも長いのもある.

Q. 翻訳者はどういうところに困っている?
A. 専門用語の登録にコストがかかることと,人によって表現が違うことが多
いのが困る.

Q. 訳語の統一は既存システムでできるのでは?
A. 自分が翻訳したい文を検索したいとき,異表記があると検索できないとい
う問題がある.

Q. 類似性を判定するときに述語や名詞で一致基準を分けた方がいいのではな
いか?
A. 今後やってみたい.

======================================================================

11月19日(金) 10:00~17:00

■ 10:00~11:00 応用 (2件) ■

座長:小町守(奈良先端大)

(10) 口コミ分析による日経225先物の相場変動予測

○セーヨー サンティ,榊剛史,内山幸樹(ホットリンク)

ソーシャルメディアを介した情報伝搬が活発になる中で、多くの人々の
私生活や心理状態を把握しやすくなりつつある。 本研究は大量の口コミ
分析によって得られた市場心理と日経225先物の推移を機械学習させ、
売買予測モデルを確立した。取引シミュレーションの検証結果は日経2
25先物の動向予測において、口コミ分析が有効であることを示してい
る。

Q. 具体的にどのようにワードを選んだのか?単語列を使っているのか,係り
受けを使っているのか?
A. 単語単位だが,キーワードと否定表現を抜き出している.

Q. 口コミデータを分析すると,品詞や単語区切りが間違うこともあると思う
が,そういう問題はなかったか.
A. 検証してみる.

Q. 手数料を入れると精度はどれくらいあればいいのか?どんな指標が妥当か?
期待値?
A. 1トレードあたり200円を越えないと利益が無いので,経験的には53%ほしい.

(11) やさしい日本語によるニュースの書き換え実験

○田中英輝,美野秀弥(NHK放送技術研究所)

日本語学習者向けに平易な日本語によるニュースの提供を検討している.
この実現に向けたさまざまな課題を,人手によるニュースの平易化実験
結果を基に整理する.

Q. 日本人も外国人も対象にしているのか?
A. はい.

Q. 多チャンネル化を考えると,うまく分ければいいのでは.例えば,今は内
容は書き換えていないが,「22年ぶりに」とかは外国人には不要.内容には不
要なもの,提示しても意味のないものがある.内容についても取捨選択するこ
とを考えると,日本人向けと外国人向けを分けた方がよい.
A. そのような可能性もあるが,日本人と同じように情報を取りたい外国人も
いるし,障害を持つ人への対応もあり,本当に同じ情報がほしいという要望も
ある.今後検討していきたい.

Q. 難しい言葉を絵や絵文字にしたらどうか?
A. 表にしたほうがいい情報,絵にした方がいい情報はある.ただ,テキストに
どう埋め込むかはわからない.例えば,「飛行機が飛ばなくなる」という情報
は飛行機の絵に×を描くとか.辞書の中にそういう絵を入れるということを考え
ている.NHKのニュースはそんなに多くの語彙6000語で90%カバーできる.そう
いうものを公開して,それを勉強すればニュースが分かる,というふうにする
のも考えられる.絵と共に,そういう辞書を整備することも考えられる.

Q. もともとの2級,3級などの語彙がよくないということはないか?
A. そういうことはある.日本語教育では会話から入るので,ニュースを理解
する語彙とは異なる.語彙リストがいいのか,というのは考える必要がある.
ニュースの語彙リストを公開することを考えている.

■ 11:15~12:45 語彙・知識獲得(2) (3件) ■

座長:二宮崇(愛媛大)

(12) トピックと属性を用いたブートストラップ法に基づく語彙獲得

○貞光九月,齋藤邦子,今村賢治,菊井玄一郎(NTT)

語彙獲得タスクにおいて,トピックと属性を用いることでセマンティッ
クドリフトを軽減し,精度が向上することを示す.

Q. スコア関数は属性とエンティティで対称だが,実際のインスタンスの量は
からなずしもバランスしていないのでは?PMIを使ったりしたらどうか.多く
のパラメータがあるので,それらの調整が大変そう.
A. 今後やりたい.

Q. Generic pattern や generic instance を対立するカテゴリと見て負例と
するやりかたもあると思う.大域的なトピックを入れるのとどういう関係にあ
るのか?
A. EMNLP の論文で負例にはいろいろなトピックがあるので入れるのは難しい
という話があった.今持っているトピック以外が負例として与えるのは一つの
手ではないかと思う.

Q. 属性とエンティティを取るとき,制約はなにかあるのか?ウィンドウの中
に出てきている単語か?
A. エンティティ側は固有表現のみ.企業については,organization のみを対
象としている.属性は,名詞のみという制約がある.

Q. 周辺語を素性にする手法との差分は何か?
A. 識別対象が変わること.エンティティと属性をペアにして識別対象にする
ことで,個々のインスタンスの識別と全体をまとめた識別との間くらいになっ
ている.

Q. QAなどで使うときには属性やトピックも与えるのか?
A. アプリケーションへの応用にはもう一段ある.直接使うのではなく,一段
間に挟むことになると思う.今後考えていきたい.

(13) 文脈に依存した述語の同義関係獲得

○柴田知秀,黒橋禎夫(京都大)

「(景気が)冷え込む」と「(景気が)悪化する」のように,述語単体
では同義でないが文脈に依存して同義関係となる述語ペアを,係り受け
関係にある述語を素性とした分布類似度を計算することによって獲得す
る.

Q. preとpostは位置の前後関係だけ?
A. 係り受けの位置関係だけ.関係を入れるとスパースになるので入れなかった.

Q. preとpostが逆だけど同じ意味のものがあるのでは?
A. はい.

Q. 動詞の種類によってどの格が効くのかといったことは?
A. 格を固定して述語が違うものを扱っているので,「が」と「を」が変わる
ものは対象外.

Q. 格は全部つかっている?
A. そうです.

Q. 提案手法はスパースネスがシビアだが,ACL の話ではその点で有利では.
比較は?
A. 今後やりたい.

Q. データを増やせば上がりそうな感じだが,その理由は表記で評価している
からなのでは?システムをよくするには素性を改良すべきなのか,データを増
やすだけでいいのか.
A. 係り受け関係にあるのでもともとスパース.周りの単語を入れるというこ
とも考えられるが,precision が下がると考えられる.格のクラスタリングも
効きそうだが,データを増やせばまだ上がりそう.

Q. compositional に同義性がとれるものがかなりあるとおもうが,そのよう
なものと phrase にしてなるものとの比率があれば教えてほしい.
A. 比率は分からないが,検索で利用する時は述語単体のものもインデックス
しているので,問題はない.

Q. preの方がF値が高い理由は?
A. 理由ははっきりわからないが,後ろの方が一般的な表現が多い.詳細は今
後検討する.

Q. BOW は使っていない?
A. ちゃんと比較はしていないが,precisionが下がってrecallが上がり,
f-scoreがちょっと下がる.

(14) ハブを作らないグラフ構築法を用いた半教師あり語義曖昧性解消

○小嵜耕平,新保仁,小町守,松本裕治(奈良先端大)

頂点次数に上限を与える効率的なグラフ構築法を提案し, その有効性を
語義曖昧性解消タスクにおいて検証した.

Q. k-近傍と比べて提案手法でどういうエッジが切られるのか?違う語義を連
結してしまうエッジがうまく切れているということについて何か分析はあるか?
A. ハブがどのようなデータかは少しみた.特徴ベクトルのノルムが小さいも
の,周辺文脈が少ないものが,ハブになりがちだった.そういうものが切れて
いるという傾向が見られた.

Q. 論文では,senseval の結果でケースバイケースだが,どういうときに良く
なってどういうときに悪くなるのか?
A. まだ詳細な分析はないが,senseval のデータセットだと,各名詞のデータ
セットが小さく,特徴ベクトルの次元が小さい.そういう場合だと,全体的に
ハブを作りづらい条件になっているのではないかと考えている.

Q. ラベル伝搬手法はそれ以外の手法と比べてどういう特徴があるのか?
A. 既存研究では,ブートストラッピングを用いる方法や,co-training や
transductive SVM を使うとか.それぞれかなり似ている方法.SVM などと比べ
ると,クラスラベルの偏りに対してラベル伝搬法が強い.ただ,エッジ数が大
きいグラフだと同様の問題が発生するが,グラフをスパースにすることによっ
てそのような問題がなくなる.

Q. 語義の数は動詞とか名詞によって変わるが,今回のテストセットではどの
くらいの語義数?
A. 3~7.

Q. 辞書だと100くらいの語義がある語もあるが,そういうのだと難しいのか?
A. データ作成の問題もある.語義の粒度の設定がいろいろあるが,今回は荒
い粒度で実験をしている.クラスラベルが多い時については考察していないの
でちょっと分からない.

Q. Jebaraと同じ実験セットを使った実験はないか?既存研究ではどういう分
野のデータで実験をしていたのか?
A. 彼らは文書分類と画像認識をやっていた.データセットが小さいので,そ
のデータセットでの比較ややっていない.

Q. senseval だと他の手法の結果もあるので,それらの比較は?
A. 他の方法との比較は厳密にはやっていないが,良い結果が出ていると思わ
れる.

■ 13:45~15:15 言語分析 (3件) ■

座長:松本裕治(奈良先端大)

(15) 専門用語の分野基礎性を判定する基準に関する一考察

○内山清子(国立情報学研究所)

論文中の専門用語が、分野を知るために必須の基礎的用語であるのか、
専門性が高い語かを判定するための尺度について、考察を行う。

Q. 抄録と本文の出現傾向の比較はできないか?
A. やりたいがデータが無くてできていない.データを入手することが必要.

Q. 分野基礎性の定義が,再帰的定義になっているのでは.
A. 分かりました.

Q. ニュースの基本用語の研究をしているが,ここでいう基礎性の高いものに
相当すると思う.経年変化については今後どうなるかという予想をしているこ
とと同じように思える.
A. 例えば固有表現は8年しか出てないが頻度が高かった.今でも重要な概念で
あるから,今後の推移が重要なのは確か.廃れる・廃れないの予測は重要であ
ると思う.

Q. 言語とか分野には依存しないのでは.英語の方が文献が取りやすいので,英
語でも試みて,その知見を日本語に適用するというのはどうか.
A. やってみたいと思う.

(16) 接続節における要求表現:連体節と副詞節

○大森晃(東京理科大)

最終的には日本語ウェブページからの要求抽出を目指している.本研究
では,それに向けて,文から要求を抽出するための言語学的基礎論を整
えていく一環として,複文における接続節(特に連体節と副詞節)にお
ける要求表現の可否や,要求を表現し得る接続節はど のような場合に要
求を表現するかに関する言語学的知識を明らかにする.

Q. 要求表現であるかがクリアに○か×かに分かれていたが,そんなにクリアに
なるのかが不明.条件の場合は factual の場合と counter factual の場合が
ある.例えば「大学にうかりたいなら勉強しなさい」というのは「大学にうか
る」要求を含んでいるのでは?
A. ここでは語用論的な推論は排除している.語用論的なところまで含めて判断
する場合には,際限なく曖昧さが出てしまう.よって,意味論の世界で議論し
ている.

Q. まったく語用論的解釈は入れないというのはやりすぎだと思う.
A. 語用論的解釈を入れるのはやりすぎだと思う.

Q. 語用論の範囲の問題もあるが,条件と言った場合,言語の条件と論理の条件
は違う.言語の場合,「AならばB」はほとんどの場合論理的条件を表さない.
「試験に受かりたければ勉強しなさい」の「試験に受かりたければ」は?論理
的には受かりたいのか受かりたくないのかは分からない.
A. 背景にあるものまで要求に入れると大変.

Q. 条件文において,factualな場合と,counter-factualな場合で違うのでは
ないか?
A. 条件文は事実ではない.

Q. それなら,それぞれの表現を論理式で書けばよりクリアになるのでは.
A. かけるのかよくわからない.最初の分析の段階だからそこまでフォーマル
にやることにはあまり意味がないと思う.

Q. 形式を決めて分類するということか.それと我々が直感的に感じる要求と
は一致しないかもしれない.
A. 要求を記述することが可能か不可を判定した.

Q. 可の場合はそうならないこともあるということか.不可の場合はあらゆる
場合を排除するということか.
A. そういうこと.

(17) テキストの断片に対する局所的一貫性モデル

○横野光,奥村学(東京工業大)

本論文では,テキスト中の文について,その先行文脈に対する局所的一
貫性を評価するモデルを提案する.

Q. ×がついたらウィンドウからのぞくということだが,先行文脈がなくなる
ケースがある?
A. 1文しかないという状況になる.1つ前と2つ前の関係が×なら,2つ前は除
くので,必ず直前の文は文脈にのこる.

Q. S1からS2にいくところが×だとどうなるか.
A. 同じくS3だけ見るということになる.

Q. テストデータとしては削除したものを使っているが,元の文書を入力した
らどうなるのか.false positive が起きる可能性があるが,どんなことが起
きているのか興味がある.
A. 実験していない.もう少しグローバルな情報をいれれば,トピック分割に
使えるかもしれない.

Q. テストデータの作り方で,2か所を自動的に削除しているが,提案手法は2
つ削除したということは使っていないと思うが,出しすぎとか出さなすぎとい
うことはあるか.
A. どちらかというと出しすぎ.

Q. それをコントロールする方法はあるのか.
A. 今のところ思いつかない.もっと分析したら改良する余地があると考えら
れる.

Q. 応用を考えると,調節できるとうれしい.
A. ありがとうございます.

Q. 一貫性が悪い理由として,接続詞がたりないとかあったとして,接続詞を
入れれば○になるとか,suggestion をするようなシステムができないか?
A. それができればよいのだが,分析がまだ不十分.どういう場合に一貫性が
わるいかしっかり分析してからやりたい.

Q. 接続詞は入っている?
A. 接続詞は直接は入っていないが,順接,逆接などを考慮している.

Q. 接続関係は2種類だけ?
A. 3種類使っている.

■ 15:30~17:00 コーパス (3件) ■

座長:相澤彰子(国立情報学研究所)

(18) 形態素・係り受け解析済みコーパス管理・検索ツール「茶器」

○松本裕治,浅原正幸,岩立将和(奈良先端大),森田敏生(総和技研)

文科省特定研究「日本語コーパス」の一環として構築しているコーパス
管理ツールの機能と目的について紹介する

Q. unidicで形態素解析したものをcabochaで解析できるのか?
A. まだダウンロードできる状態ではないが最近出来るようになった.学習デー
タがまだできてないので,京大コーパスの1万文程度で学習したもの.

Q. 箇条書きがある場合にどういうふうに区切られるのか?
A. 箇条書きが次につながっているときは全部で一文としている.今は句点があ
るかと空行があるかなどしか見ていない.引用中に複数文ある場合もある.ブ
ログなどでは文区切りがよく分からない場合も多い.白書では箇条書きが多い.

Q. 構造的な検索がどれくらいできるのか.依存構造の複雑な検索とかできる
のか?
A. 箱を作っていくと条件を追加できて,一応なんでも書ける.ただ,語順に
ついてはちょっと書きにくい.2項間の順序は書けるが,3つ以上になると全体
の順序は書ききれない.

Q. 構造検索を複雑にすると検索時間がかかるのでは?
A. 単語が指定してあると予め絞り込まれるが,品詞だけだとかなり時間がか
かる可能性がある.

Q. 見つかった順に表示するとかどうか?ストリーム的な検索は?
A. 複数コーパスを順番に検索・出力していくので,コーパスを区切っておけば,
擬似的に順次出力はできる.基本的にデータベース任せなのでストリーム検索
はできない.

Q. メンテナンスは?学生だと引き継ぎが大変だが.
A. 茶器は外注で1人の人にやってもらっている.

Q. 言語は?
A. C++ .NET.Windows限定.

(19) 汎用アノテーションツールSlate

○徳永健伸,Dain Kaplan,飯田龍(東京工業大)

ユーザの定義により種々のアノテーションをおこなえるWebアプリケーショ
ンSlateの設計方針,機能について紹介する.

Q. 茶器との関係は?
A. データベーススキーマのレベルで互換性がある.茶器のDBをダンプして,
slateで使えるはず.茶器は形態素と係り受けに特化しているので特殊な情報を
使って高速化するなどしている.

Q. アノテーションの作業は独立?
A. 用途が違うので独立.Slateで係り受けをアノテーションして茶器に持って
いけるが,自動付与したものを修正した方が効率がよい.Slate はスクラッチ
からの作業を想定している.

Q. データは文字単位で管理?
A. スタンドオフアノテーションを考えているので,元データへのオフセット
で管理している.リンクはセグメントのIDのペアを持っている.

Q. 元のデータを修正した時は何が起きる?
A. アノテーションはスタンドオフの方がいい.元のデータは修正しないとい
う立場.

Q. 検索機能は?
A. 今のところ実装は考えていない.アノテーションだけ.

Q. アノテーション中に過去のアノテーションを見たくなるのでは?
A. 日本語コーパスのプロジェクトの中ではできないが,将来的には欲しいと
思っている.

Q. 同じ位置に同じアノテーションが来たときはタグの上下関係はどう管理す
るのか?
A. 全く同じ位置だと上下がなく同じスパンにつくようになる.表示幅の調整や
リスト表示で識別できる工夫はしてる.右の方にセグメントの情報が出るよう
になっている.

Q. かっこの始まりが異なり終わりが同じ場合とか,同じ位置で上下関係を管
理する必要がある.
A. リンク付けして区別するなどが必要.

Q. 一貫性として全く同じパターンが出てくる場合など,自動処理できないか.
A. 固有表現なで要望はあるがまだない.NHKが1回出てきてアノテートしたら他
の出現を自動アノテートするなどやりたい.バッチ処理を考えているが,具体
的な実装はしていない.

(20) 視線情報を含むマルチモーダル協調作業対話コーパスの構築と利用

○安原正晃,石川真也,飯田龍,徳永健伸(東京工業大)

協調作業対話コーパスを作成し,話者の発話・視線・行動の関係を分析
し,その結果を参照解析に利用する予備実験を行なった.

Q. タスクがあって2人の被験者が協調作業するという設定だが,人間にとって
も分かりにくい参照表現もあるので,タスクの達成率と解析精度に関係がある
のでは.
A. コーパスの表現を見ていると,人間でも理解するのが難しい表現もある.
基準を設定するのが難しかったので今回の実験では区別していない.

Q. 計測率とは何か?
A. 視線が有効に取れた割合.視線を記録する際に,計測が有効に行われてい
るかを表す validity code が出るので,それを使っている.

Q. 被験者の個人差はあるか?指示のうまさとか,学習の程度とか.何か気付
いたことがあれば教えて欲しい.
A. もっとも大きい個人差は,視線計測のできぐあい.使う表現でも多少個人
差があり,個人差を考慮した解析も研究している.

======================================================================

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いませ
ん.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まります
ので,ご留意ください.

[自然言語処理研究会に登録されている方]
研究報告は研究発表会の一週間前に電子図書館と当日閲覧用サイトで公開しま
す.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウン
ロードの上,PCをご持参ください.

■本会電子図書館
※ご利用にはBookPark上でユーザ登録(無料)が必要です.
http://www.bookpark.ne.jp/ipsj/
研究会 自然言語処理(NL)をチェックしてください.
登録まで最大3日かかりますのでご留意ください.

■NII電子図書館(現在試行運用中です)
※ご利用にはユーザ登録が必要です.
http://ipsj.ixsq.nii.ac.jp/ej/

■当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

[自然言語処理研究会に登録されていない方]
当日受付で当研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノー
トPC等をご持参ください.尚,当研究会にご登録いただくことで当研究会の資
料のバックナンバーも含めてすべて電子図書館でご購読いただけます.登録さ
れていない方は,是非この機会に自然言語処理研究会に登録してください.
(登録まで最大3日かかりますのでご留意ください)