情報処理学会 第213回自然言語処理研究会

◎ 日程: 2013年9月12日(木), 13日(金)

◎ 会場: 山梨大学 甲府キャンパス Y号館 Y-15室
交通アクセス: http://www.yamanashi.ac.jp/modules/footer_menu/index.php?content_id=5
キャンパスマップ: http://www.yamanashi.ac.jp/modules/footer_menu/index.php?content_id=6

◎ 研究会ホームページ:

http://www.nl-ipsj.or.jp/

◎ 照会先:

* 研究会に関する問い合わせ先:
飯田 龍 (東京工業大学)
E-mail: ryu-i (at) cl.cs.titech.ac.jp

* 会場に関する問い合わせ先:
松吉 俊 (山梨大学)
E-mail: sugurum (at) yamanashi.ac.jp

======================================================================
プログラム (発表件数 11件)

9月12日 (木) 11:00~16:45
[11:00 – 12:00] アノテーション (2件)
[13:30 – 15:00] 知識表現・含意関係認識 (3件)
[15:15 – 16:45] 分析・応用 (3件)

9月13日 (金) 9:30~12:30
[ 9:30 – 11:00] 形態素・学習 (3件)
[11:15 – 12:30] 招待講演 (西川仁氏)
======================================================================

9月12日 (木) 11:00~16:45

・11:00 – 12:00 アノテーション (2件)

座長: 松吉 俊 (山梨大)

(1) アノテーション時の作業者の振舞いの収集とその分析
○飯田 龍, 光田 航, 徳永 健伸 (東工大)

テキストアノテーション時の作業者の振舞いは作業者が文章を理解するため
の認知的な処理を反映していると考えられるため,この振舞いを分析するこ
とで深い理解が必要となる言語処理に役立つ情報を明らかにできる可能性が
ある.そこで本研究では,この分析の一例として,日本語の述語項構造アノ
テーション時の作業者の振舞いを収集したデータをいくつかの観点から分析
する.この結果,人間のアノテーションの振舞いを分析することで得られる
知見が機械学習に基づく手法で用いる素性を検討する際に役立つことを示す.

(2) 視線情報を利用した欠損アノテーションの検出
○光田 航, 飯田 龍, 徳永 健伸 (東工大)

本稿では,複数人が行った述語項構造アノテーション作業の不一致を検出す
る問題について議論する.特に,文章中のある述語-項関係に対して二人の作
業者のうち一方の作業者がアノテーションしないというアノテーションの不
一致(アノテーション欠損)を検出する問題を考える.アノテーション欠損
を検出するために,言語的な情報に加えて,アノテーション作業者の視線情
報を利用する.具体的には,アノテーション対象となる述語に関して収集し
た注視の系列から高頻度の視線のパタンを抽出し,それをアノテーション欠
損を検出するための素性として利用する.これまでに収集した視線情報を含
むアノテーション結果を用いて評価実験を行い,各素性の有効性を調査した.
この結果,視線情報と言語的情報がともにアノテーション欠損検出に有効で
あり,また,特定の視線パタンが欠損検出の良い指標になることについて報
告する.

・13:30 – 15:00 知識表現・含意関係認識 (3件)

座長: 宮尾 祐介 (NII)

(3) 生成語彙論における共構成のモデル化と意味の合成性を内在する単語ベクトルの教師なし学習
○椿 真史, Kevin Duh, 新保 仁, 松本 裕治 (NAIST)

本稿で我々はまず,生成語彙論における共構成を,単語ベクトル空間内にお
ける行列演算としてモデル化する手法を提案する.共構成とは,述語と項の
相互の影響が各々の単語の潜在的な意味を変化させる生成的な演算のことで
ある.このモデルにより,単語を合成する際に生じる語の意味の変化をより
正確に捉えることが可能となる.さらに我々は,単語の意味の構成性と共構
成性を内在させた単語ベクトルを,教師なしで学習する手法を提案する.本
稿では動詞の語義曖昧性解消タスクを用いてこれらの手法を評価し,これま
での既存研究と比較して高い性能が得られることを確認した.

(4) 大域的情報を使った文章中の動詞の予測
○Joseph Irwin, 松本 裕治 (NAIST)

教師なしで学習可能なnarrative schemaという知識表現は情報抽出や共参照
解析など複数のタスクにおいて有効であることが証明されている.その学習
手法を改善する研究も少ないながら存在するが,基準となる評価手法がまだ
提案されていない.本発表ではnarrative schemaのような知識表現の
intrinsicな評価手法を提案する.文書の中のイベントについての談話レベル
の知識の表現の開発の最初の取り組みとして単純なベクター空間モデルを考
案し,これを上記の評価手法で評価する.

(5) 11: Learning approaches for recognizing textual entailment and
finding contradiction in texts
○Minh Le Nguyen (JAIST), Minh Quang Pham (NICT), Akira Shimazu (JAIST)

Recognizing Textual Entailment (RTE) and finding contradiction in
texts are fundamental tasks in Natural Language Understanding. We
conduct an empirical study of recognizing textual entailment in
Japanese texts, in which we adopt a machine learning-based approach
to the task. Experimental results achieved on benchmark data sets
show that our machine learning-based RTE system outperforms the
baseline methods based on lexical matching and syntactic
matching. The second part of this paper focuses on introducing the
task of finding contradiction text. In contrast to previous work, we
combine shallow semantic representations derived from semantic role
labeling with binary relations extracted from sentences in a
rule-based framework. Experimental results on the benchmark data set
showed that our framework is very promising.

・15:15 – 16:45 分析・応用 (3件)

座長: 持橋 大地 (統数研)

(6) テキストの難易度と語の分布
○佐藤 理史 (名古屋大)

現代日本語書き言葉均衡コーパスの書籍レジスタの固定長サンプルに対して
実施した、テキストの難易度と語の分布に関する一連の調査の結果について
報告する。

(7) Web掲示板における皮肉の分類および自動検出
○磯野 史弥, 松吉 俊, 福本 文代 (山梨大)

本研究では,Web掲示板に存在する皮肉や誹謗中傷などの不適切な表現を自動
的に検出する手法を提案する.我々は,Web掲示板における皮肉を人手で体系
的に分類した.そして,この分類体系に基づき,前後文の評価極性を考慮す
るパターンを用いて皮肉文を検出するシステムを構築した.

(8) Random Forestを用いた類似レビュアーの推薦手法の検討
○徳田 祐貴, 梅澤 猛, 大澤 範高 (千葉大)

Web上の商品レビューは、多様な好みや感覚を持ったレビュアーによって書か
れている。そのため、ユーザーは多くのレビューに目を通すことで自らが興
味のある情報を探し出さなければならない。そこで本研究では、ユーザー自
身もレビューを書いていることを前提とし、ユーザーと類似したレビュアー
を推薦することでレビュー閲覧の負荷軽減を図る手法を提案する。ユーザー
とレビュアーのレビュー群に出現する単語のtf-idf値、文章の長さや文字種
の割合などを素性とするRandom Forestを用いてユーザーとレビュアーの類似
度を求め、それに基づいた推薦をする。そして、推薦されたレビュアーが適
切なものであるかを被験者実験により評価する。

9月13日 (金) 9:30~12:30

座長: 西川 仁 (NTT MD研)

・9:30 – 11:00 形態素・学習 (3件)

(9) NVSG形態表記のための日本手話語彙分類法
○寺内 美奈 (職業能力開発総合大学校), 渡辺 桂子 (工学院大), 渡辺 久子 (株式会社 World Medish), 長嶋 祐二 (工学院大)

日本手話の記述方法として、我々が提案している階層的形態素記述モデル
NVSGがある。このNVSGモデルにおいて、手話語彙の分類方法に曖昧性が存在
する。そこで、本報告では手話の類辞(CL:Classifier)に着目し、日本手
話単語のCL分類法について検討を行ったので、その結果について報告する。

(10) ベイズ階層言語モデルと Semi-Markov SHDCRF の協調学習による教師なし形態素解析
○内海 慶, 塚原 裕史 (デンソーアイティーラボラトリ)

近年,ブログやSNS,Twitter等の,話し言葉と書き言葉が混同されて用いら
れるCGMが増えている.これまでの形態素解析では学習のために正解データを
必要としたが,話し言葉では変化が早く,常に新語に対応し続けるのは難し
い.そこで,本論文では口語体の単語分割と品詞推定の同時推定を教師なし
で行う方法を提案する.

(11) ガウス過程に基づく連続空間トピックモデル
○持橋 大地 (統数研), 吉井 和佳, 後藤 真孝 (産総研)

単語に潜在空間における座標を明示的に与え、その上でのガウス過程を考え
ることで、通常の混合モデルに基づくトピックモデルより高精度なテキスト
モデルが得られることを示す。本研究は潜在層が二値ではなく、ガウス分布
に従うRBMの生成モデルともみることができ、MCMCにより単語の潜在座標を学
習することは他の多くの応用や可視化にも自然に繋がる。

・11:15 – 12:30 招待講演

(12) 自動要約技術の研究動向:これまでとこれから
○西川 仁 (NTT MD研)

本講演では近年の自動要約技術の研究動向について述べる.まず,自動要約
技術をいくつかの観点から分類し,整理する.次に,これまで提案されてき
た自動要約の具体的な手法について概観する.最後に,これまでの研究の成
果を踏まえ,今後取り組むべき研究課題について議論する.

======================================================================

★ 研究報告のペーパーレス化

本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いませ
ん.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まります
ので,ご留意ください.

[自然言語処理研究会に登録されている方]
研究報告は研究発表会の一週間前に電子図書館と当日閲覧用サイトで公開しま
す.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウン
ロードの上PCをご持参ください.

■情報処理学会電子図書館(情報学広場)
※ご利用にはユーザ登録が必要です.
https://ipsj.ixsq.nii.ac.jp/ej/

■当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

[自然言語処理研究会に登録されていない方]
当日受付で当研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノー
トPC等をご持参ください.尚,当研究会にご登録いただくことで当研究会の資
料のバックナンバーも含めてすべて電子図書館でご購読いただけます.登録さ
れていない方は,是非この機会に研究会に登録してください.
(登録まで最大3日かかりますのでご留意ください)