情報処理学会 第198回自然言語処理研究会

◎ 日程: 2010年9月16日(木), 17日(金)

※ 16日はNLP若手の会 第5回シンポジウムとの合同開催です.

◎ 会場: 国立情報学研究所12階会議室 (東京都千代田区)
交通アクセス情報:http://www.nii.ac.jp/access/

◎ ホームページ
http://www.nl-ipsj.or.jp/

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いませ
ん.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まります
ので,ご留意ください.

[自然言語処理研究会にご登録されている方]
研究会発表の研究報告が研究会当日1週間前より電子図書館で閲覧できます.事
前に研究報告PDFをご自分のPCにダウンロードし研究会にご持参ください.ある
いは印刷してご持参ください.

■本会電子図書館
※ご利用にはBookPark上でユーザ登録(無料)が必要です.
http://www.bookpark.ne.jp/ipsj/
研究会 自然言語処理(NL)をチェックしてください.
登録まで最大3日かかりますのでご留意ください.

■NII電子図書館(現在試行運用中です)
※ご利用にはユーザ登録が必要です.
http://ipsj.ixsq.nii.ac.jp/ej/

[自然言語処理研究会にご登録のない方]
当日研究会にUSBメモリの読めるPCをご持参ください.研究会会場にて,USBメ
モリからコピーすることで研究報告PDFを閲覧することができます.または,
無線LANを利用して研究報告PDFをダウンロードすることができます.

◎ プログラム (発表件数10件)

9月16日(木) 10:30~17:00
[10:30~12:00] NLP若手の会シンポジウム: 招待講演
[13:30~15:00] 語彙・オントロジー・知識獲得 [3件]
[15:15~16:30] NLP若手の会シンポジウム: ポスターセッション
[16:45~17:00] NLP若手の会シンポジウム: ポクロージング

9月17日(金) 10:30~15:00
[10:30-12:00] 学習・応用 [3件]
[13:30-15:00] 解析 [3件]

※若手の会シンポジウムのプログラムについては
http://yans.anlp.jp/modules/menu/main.php?page_id=92&op=change_page#program
をご参照ください.
————————————————————

9月16日(木) 13:00-15:00

[13:00-15:00] 語彙・オントロジー・知識獲得 (4件)

座長: 小町守(NAIST)

(1) 日本語用言を見つめ直す

○山本和英,中山匠(長岡技術科学大学 電気系)

通常使用している品詞分類、特に日本語の用言分類が本当に言語処理にとっ
て有益なのかについて議論する。

Q: 英語の形容詞が「名詞+の」になる場合もある.今回は用言に限定しているようだが,このような例は対象としないのか?
A: 想定していなかったので今後検討する.

Q: 動詞の原型+名詞はどうする? (例: よく冷えるエアコン)
A: 原型にして判定する.

Q: 表現の長さは限定するのか?
A: 短かい表現から始める.まずは種を人手で作る.

Q: まず連体表現を集めてそれを分類するというアプローチか?
A: そうです.

Q: 形容詞でも形容表現でないものもあるのか?
A: たぶんない.

Q: 動詞を中心に分析しているようだが「違いがある」のように動詞ではなく名詞に形容性がある場合もあるのでは?
A: まず「ある」をひろって分類.

Q: 形容動詞と副詞の扱いは?
A: 形容動詞は形容詞扱い.副詞は対象外.

(2) HMMを用いて分野適応する仮名漢字変換

○ 黒崎弘光,山口和紀(東京大学総合文化研究科広域科学専攻広域システム科学系)

変換対象の分野に応じた辞書を使うと、仮名漢字変換の精度が向上する。その
ためには変換対象の分野を推定する必要がある。文章全体で分野が一定ではな
いので単語ごとに推定するが、単語間には関連性があり、それをマルコフモデ
ルの構造を工夫することで表現した。その結果、適応分野における変換精度が
向上した。

Q: SKKのように最後に確定した変換結果を保持するモデルと比較するとどうか?
A: 今後検討する.

Q: 実際どれくらい分野が切り替わるものか?
A: 細かい分析はしていない.

Q: 分野を選択する時の変換結果は最終結果とどれくらい違うのか?
A: 定量的には分析してない.

Q: 音声と違いかな漢字変換ではユーザのフィードバックが得られるので,その情報を使うことができるのでそのあたりを研究すれば面白いのでは?
A: 分野別のリソースがあるので必要なら提供する.

Q: 後ろの文節の情報は使えないので,現実的ではないのでは?
A: 分野推定の有効性を調べるためにやった実験である.

Q: 分野を与えて評価してはどうか?
A: 検討する.

(3) Wikipediaからの大規模な人オントロジー構築

○ 柴木優美(長岡技術科学大学 電気系),永田昌明(NTTコミュニケーション科学基礎研究所),山本和英(長岡技術科学大学 電気系)

Wikipediaのカテゴリ階層と記事を利用し,大規模で網羅的なis-a関係の人オ
ントロジーを構築する.

Q: 末尾文字列の一致はどれくらい効果があるのか?
A: 0.5%くらい改善される
C: カタカナ語の末尾文字列も効果があるのでは?
C: 分布類似度も素性として利用できるのでは?

Q: 構築したオントロジーのis-a関係の精度は?
A: 1000件のランダムサンプリングで98.3%

Q: うまくいかなかった例は?
A: 周辺分布単語が誤りの原因になっているようだ.

————————————————————

9月17日(金) 10:30-15:00

[10:30-12:00] 学習・応用 (3件)

座長: 鍜治伸裕 (東大)

(4) Active Learning with Partially Annotated Sequences

○ Dittaya Wanvarie (東京工業大学 総合理工学研究科 知能システム科学専攻),Hiroya Takamura,Manabu Okumura (東京工業大学 精密工学研究所)

We propose an active learning framework which requires human
annotation only in the ambiguous parts of the sequence. In each
iteration of active learning, a set of tokens from the ambiguous
parts are manually labeled while the other tokens are left
unannotated. Our proposed method is superior to the method where
unambiguous tokens are automatically labeled. We evaluate our
proposed framework on chunking and named entity recognition data
provided by CoNLL. Experimental results show that we succeed in
obtaining the supervised F1 only with 9.14%, and 11.99% of tokens
being annotated, respectively.

Q: POSタグはすべて付いているのが前提か?

Q: Fig.8のsharp dropの理由は何か?
A: わからない

Q: 英語だからもっとデータをたくさんとれるのでは?

Q: ドメインアダプテーションに使えないか?

Q: CRFを何でかいたのか?
A: C言語

(5) 語義曖昧性解消のための領域適応手法の自動選択
○ 古宮嘉那子(東京農工大学 工学研究院),奥村学(東京工業大学 精密工学研究所)

ソース/ターゲットデータの性質によって、最も効果を上げる領域適応手法は
異なる。これを自動的に選択することで、WSDの正解率が有意に向上した。

Q: どういう単語でaddingとtarget onlyで差があったか?
A: 今すぐには示せない.

Q: アノテーションが一異なり語につき10件の根拠は? 語義数によって変えるべきではないか?
A: そうかもしれないが,今回は平均の傾向を見るためにそうした

Q: BCCWJに語義がついてるのか?
A: 奥村研でつけた.

Q: MaxEntなどをつかって,ソースとターゲットの量に重みをつけてはどうか?
A: 検討したい.

Q: Target onlyかAddingかを選んでいるだけか?
A: はい.
Q: そうであるなら,ソースとターゲットの雰囲気が似てるかどうかだけで人間が決めるのでも十分ではないか?
A: 検討したい.

(6) エッセイコーパスを用いた日本語テキストの著者推定

○ 石田将吾,佐藤理史(名古屋大学大学院工学研究科電子情報システム専攻)

編纂したコーパスを用いて,著者数及び推定用テキストのサイズと作成法が,
著者推定精度にどのように影響するかを調べた.

Q: 既存の手法はどんなものか?
A: 句読点の前の文字の頻度,形態素解析した語の頻度,などいろいろある.

C: 文字バイグラムにすることによって,トピックの影響が下がるなどあると面白いと思う

C: 数字,記号は,なしとするより,なにか代表文字で置き換えるとしたほうがいいのではないか?

Q: trigramにはしないのか?
A: 小さいデータで動かしたいのでbigramを利用した.

Q: 電子化するときはどうしているのか?
A: OCRで取り込み,修正は簡単にやっている.
C: 修正しないでやったほうが実際的ではないか? そっちも試してみてはどうか?

Q: 推定してなににつかうのか?
A: 真贋判定,犯罪捜査などを考えている.
Q: その場合母数はいくつくらいか? 何万とかになるのか?
A: 詳しくはわからない.

Q: JIS第一に限った理由は?
A: 特にない.

Q: パッセージをつくるときに,2つのエッセイにまたがったりしていないのか?
A: あるかもしれない.
C: 1つのエッセイの中から文字を増やすのと,エッセイの数が増えるのとで違うかもしれない.

[13:30-15:00] 解析 (3件)

座長: 阿辺川武(NII)

(7) 決定的な解析と相対的な比較による解析の二側面を持つ日本語係り受け解析

○ 山本悠二,増山繁(豊橋技術科学大学 大学院工学研究科)

文節対の係りやすさを求める識別モデルが負の値を取る事例について相対的
な係りやすさを学習することで,相対的な係りやすさを考慮した上で決定的
な係り受け解析を行う日本語係り受け解析を提案する.

Q: 計算量は?
A: 決定的な解析は線形,相対的な解析は2乗.

Q: 解析困難なパタンと相対的な解析にまわされた箇所はほぼ一致しているのか?
A: すべてではないが,対応関係がある場合もある.たとえば,提題助詞を含む文節は相対的な解析にまわされている.

Q: 決定的な解析で,颯々野法との違いは文節列の最後のreduceを保留するということか?
A: そのとおり.

Q: 決定的な係り受けと相対的な係り受けの数の比率は?
A: 9:1.

(8) 点予測による形態素解析

○ 中田陽介,NEUBIG Graham(京都大学 情報学研究科),森信介,河原達也(京都大学 学術情報メディアセンター)

形態素解析の問題を単語分割と品詞推定に分解し、それぞれを、周辺の文字
列のみを参照し、それらに対する単語境界や品詞の推定値を参照しない点予
測を用いて解く。

Q: 既存手法の未知語処理はどのようにしているか?
A: 文字種の情報を使っている

Q: 提案手法がよくなっている例は? 未知語と既知語の精度に違いは分析したか?
A: いいえ.

Q: 品詞付与も単語境界と同時に点推定すると精度があがるのでは?
A: 検討する.

Q: 文字種の少ない言語にでも適用可能か?
A: 原則はできるが文字種が多い方が素性を選ぶ上では有利.

Q: うまくいかない場合があるか?
A: 辞書には出現しているが訓練データ中の頻度が少ない場合.

Q: 分割精度と品詞付与の精度は別に計算しているか? どちらが改善されている?
A: 直感的にはほぼ同じくらいの割合で改善に貢献している.

Q: 素性の数はどれくらいか?
A: 数百万程度.

Q: 正則化はしているか?
A: L1正則化で精度を保ったまま素性の数を数千に落せる.

Q: 訓練データの量と精度の関係は見たか?
A: 見てない.文字種も使っているので文字列をすべて網羅しないといけないわけではない.

(9) 小規模タグ付きコーパスと自動獲得した大規模語彙知識を用いた識別モデルに基づくゼロ照応解析

○ 笹野遼平,黒橋禎夫(京都大学)

構造的手掛かりを比較的小規模のタグ付きコーパスから、語彙的手掛かりを
大規模なタグなしコーパスから獲得し利用した識別モデルに基づくゼロ照応
解析モデルを提案する。

Q: inter-annotator agreementはどれくらいか?
A: 7割くらい.

Q: 現時点の性能で使えそうな応用はあるか?
A: text entailmentには少し使えるかも.

Q: アノテーションの指示書を作っているのか?
A: アノテーションしながら更新している.

Q: 「息子がいたずら.手を焼く.」 息子に手を焼くのか,いたずらに手を焼くのか,指示書をかけるか?
A: どちらにもとれるものはどうしても5%くらいある.

Q: クラスタリングの意味クラスの評価関数は?
A: 尤度最大.

Q: 前段階の誤りを含めた解析の精度はあるか?
A: 今のところない.

Q: ゼロ代名詞の同定と先行詞の同定の一致度は?
A: ゼロ代名詞の同定については調べていない.