第232回自然言語処理研究会 参加募集

開催概要

●日程: 2017年7月19日(水),20日(木)

●会場: 首都大学東京日野キャンパス 2号館(B講義室)
〒191-0065 東京都日野市旭が丘6-6
https://www.tmu.ac.jp/university/campus_guide/access.html#maphino
(1. JR中央線「豊田」駅(北口)から徒歩約20分。または京王バス「平山
工業団地循環」乗車、「旭が丘中央公園」下車徒歩約5分
2. JR中央線「八王子」駅(北口)、京王線「京王八王子」駅(西口)から
京王バス「日野駅行き」または「豊田駅北口行き」乗車、「大和田坂上」
下車徒歩約10分
3. JR八高線「北八王子」駅から徒歩約15分)

●ニコニコ生放送:
http://live.nicovideo.jp/watch/lv303013850 (初日)
http://live.nicovideo.jp/watch/lv303013896 (2日目)

============================
照会先

小町守(首都大学東京)
E-mail: komachi (at) tmu.ac.jp

============================
プログラム(発表件数13件)

7月19日(水)13:30-16:50
[13:30-15:00] コミュニティQA・言語理解 [3件]
[15:00-15:20] 休憩
[15:20-16:50] 深層学習 [3件]

7月20日(木)10:30-16:30
[10:30-12:00] 多言語処理と言語学習支援 [3件]
[12:00-13:30] 休憩
[13:30-14:30] 招待講演 [1件]
[14:30-14:45] 休憩
[14:45-16:15] 対話と生成 [3件]
[16:15-16:30] クロージング

7月19日(水)

[13:30-15:00] コミュニティQA・言語理解 [3件]
座長:進藤 裕之(奈良先端科学技術大学院大学)

(01)
法律相談SNSにおけるユーザー投稿文書を用いた著者役割推定
塩田 健人, 小町 守(首都大学東京), 瀬戸口 光宏, 市橋 立(弁護士ドットコム株式会社)

近年インターネット上に様々なQA サイトが存在しており,その中でも法律相談に特化した弁護士ドットコムというQAサイトが注目を集めている.このサイトの特徴は,ユーザーが法律に抵触するような問題の被害者もしくは加害者となり得る立場で相談文書を投稿するという点である.解決するべき課題として,ある問題の被害者または加害者と思われるユーザーごとに相談文書を分ける必要がある.なぜなら,ユーザーとしては被害者は加害者の相談内容を,加害者は被害者の相談内容を見たくないと考えられるからである.本研究では,法律相談文書が被害者または加害者どちらの立場で書かれているかを自動で判別するタスクを提案した.そして,法律相談文書をアノテーションすることでデータセットを構築し,それぞれの立場を分類する上での特徴を分析した.

(02)
Modelling Relations between Objects for Referring Expression Comprehension
WENSHENG RAN, RAN TIAN, Naoaki Okazaki, Kentaro Inui (Tohoku University)

Referring Expression Comprehension by explicitly aligning relations between mentions in the language expression to pairs of objects placed in specific relative positions in the image. Evaluation on the RefGoogle dataset shows that our model outperforms previous work; we also find that, quite surprisingly, the image features extracted from a pre-trained convolution neural network as used by previous research are not as efficient to Referring Expression Comprehension as automatically recognized category labels.

(03)
「長文質問」のための抽出型及び生成型要約
石垣 達也, 高村 大也, 奥村 学(東京工業大学)

コミュニティQAや学会等での質疑応答において用いられる質問は、核となる質問の他に補足的な情報も付加され、ときに複数の文で構成されることもある。このような「長文質問」は、質問の受け手にとって、要旨の把握が難しい。 そこで、本研究では「長文質問」を端的に表現する1文に要約する課題を提案する。また、コミュニティQAの質問本文、タイトルのペアを「長文質問」と要約の対とみなし、抽出型及び生成型の要約モデルを学習する。

[15:00-15:20] 休憩

[15:20-16:50] 深層学習 [3件]
座長:高村 大也(東京工業大学)

(04)
順方向多層 LSTM と分散表現を用いた教師あり学習による語義曖昧性解消
新納 浩幸, 古宮 嘉那子, 佐々木 稔(茨城大学)

教師あり学習による語義曖昧性解消では、対象単語の周辺文脈をどのようにベクトル化するかが重要な問題である。近年、単語の周辺文脈を双方向の LSTM を用いてベクトル化することが提案され、語義曖昧性解消を含む様々なタスクにおいて有効であることが示された。ただし語義曖昧性解消に限れば、対象単語の語義の選択が、かなり離れた後方位置の単語により影響を受けるとは考えづらい。そこで本論文は逆方向の LSTM は用いずに、後方の文脈は直後数語の分散表現だけを利用する形でベクトル化することを提案する。実験では SemEval-2 の日本語辞書タスクを利用して提案手法の有効性を示す。また本手法において利用する分散表現や LSTM モデルの品質が、どの程度語義曖昧性解消の精度に影響するかを考察する。

(05)
ニューラルネットワークに基づく並列句表現の学習と構造解析
寺西 裕紀, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)

並列句解析の主たるタスクは複数の並列する句の範囲を同定することである。並列構造は文の構文・意味の解析において有用な特徴となるが、並列構造の曖昧性を解消する決定的な手法は現在においても確立されておらず、構文解析の誤りの主要な原因となっている。本論文では、近年自然言語解析に広く使用されているリカレントニューラルネットワークを用いて、並列句の候補の表現を学習し、並列構造の範囲を予測する手法を提案する。

(06)
シークエンス推定における説明変数の重要度の計算
大北 剛, 井上 創造(九州工業大学)

ランダムフォレスト(Breiman, 2001)や勾配ブースティング法(Mason et al.,1999)において用いられる重要度は簡便なツールで, 分類を終えた後に説明変数の重要さの指標を副産物として得る. 本論文では, このような重要度をシークエンス推定(シークエンスプレディクション)の設定においても得ることのできる学習法であるアンサンブルRNNを導入する. このアンサンブルRNNは, 分類後に説明変数の重要度を得ることを可能とする. なお, 各説明変数は語そのもの(サーフェイス型)では成り立ちづらいため, POS/形態素などのクラスによりクラス化したサーフェイス型のクラスを用いる. 深層ディシジョンフォレスト(Kontschieder, 2015)において重要度を得るやり方を応用する.

7月20日(木)

[10:30-12:00] 多言語処理と言語学習支援 [3件]
座長:土田 正明(株式会社ディー・エヌ・エー)

(07)
構文に着目した日中機械翻訳候補文の自動修正
張 文玉(東京都市大学/大連交通大学), 町田 翔(東京都市大学), 孟 愛林(大連交通大学), 延澤 志保(東京都市大学)

近年、国際文化交流などにより、中国語を学ぼうとする人々の数が増えている。しかしながら、機械翻訳で翻訳された文は直訳とよばれる訳文が多く、翻訳機によって精度が十分に高いとはいえない。本研究では、日本語会話文を複数の翻訳機で翻訳した文の中から適切な文を選択し、修正するシステムを提案する。翻訳文同士を、形態素解析の共通する割合、文毎語同士の結びつき、語順の誤った文に着目した3段階で比較し、修正することで、自然な中国語会話文の候補文を提示する。

(08)
アラビア語の高粒度な品詞タグ付けのための辞書情報を活用した形態統語的カテゴリの同時予測
井上 剛, 進藤 裕之, 松本 裕治(奈良先端科学技術大学院大学)

アラビア語などの形態的に豊かな言語の品詞タグ付けは,英語など形態的に乏しい言語の品詞タグ付けに比べ,タグセットが膨大になるため,困難な問題とされる.これは,言語固有の情報を反映した高粒度な品詞タグが,各形態統語的カテゴリごとに定義されたタグの組み合わせによって構成されるためである.既存のアラビア語品詞タグ付けでは,各形態統語的カテゴリを独立に予測しており,各カテゴリを予測する上で有益な情報をタスク間で共有できていなかった。本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを同時に予測する手法を提案する.また,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込むことで,さらなる性能向上が得られることを示す.Penn Arabic Treebankを用いた評価実験の結果,これまでに報告されている最高性能の品詞タガーの正解率を上回ることを確認した.

(09)
日本語スピーキングテストSJ-CATの開発
石塚 賢吉(株式会社ドワンゴ), 菊地 賢一(東邦大学), 篠崎 隆宏(東京工業大学), 西村 竜一(和歌山大学), 山田 武志, 今井 新悟(筑波大学)

本論文では、日本語学習者の日本語スピーキング能力の測定をインターネット上で実施できる適応型テストシステム SJ-CAT の開発について述べる。SJ-CAT のテスト問題は、日本語教員が作成した (1)文読み上げ問題、(2) 選択肢読み上げ問題、(3) 文生成問題、(4) 自由発話問題の 4 種類の問題で構成されており、音声の特徴量(キーワード、韻律、音響尤度、スピーキングレートなど)と得点との対応関係を表現するモデルを使用して採点を行う。そして、項目応答理論に基づく段階反応モデルで受験者の総合的な日本語スピーキング能力を測定する。本論文では、訓練された人間が評定を行う日本語スピーキングテストの結果と SJ-CAT の結果を比較する被験者実験を行う。被験者実験の結果、両者にある程度の相関があり、SJ-CAT により受験者の日本語スピーキング能力を測定できることを確認した。

[12:00-13:30] 休憩

[13:30-14:30] 招待講演 [1件]
座長:小町守(首都大学東京)

(10)
大規模発話ログデータを活用した音声対話処理
鍜治伸裕(ヤフー株式会社)

近年、SiriやAmazon Echoといった音声対話サービス(機器)が次々と現れるなど、音声対話技術は実用化のフェーズに入りつつある。そのため研究開発の現場においては、大勢のユーザを持つ音声対話サービスを運用しながら発話ログの収集を行い、その発話ログデータの分析によって音声対話技術を高度化させ、その結果として更に多くのユーザの獲得につなげる、という好循環が回り始めている。本講演では、ヤフー株式会社におけるそうした取り組みとして、対話型エージェントアプリ「Yahoo! 音声アシスト」の大規模発話ログデータを用いた音声対話処理の研究事例を紹介する。

[14:30-14:45] 休憩

[14:45-16:15] 対話と生成 [3件]
座長:荒瀬 由紀(大阪大学)

(11)
Test Collections and Measures for Evaluating Customer-Helpdesk Dialogues
Zhaohao Zeng (Waseda University), Cheng Luo (Tsinghua University), Lifeng Shang, Hang Li (The Noah’s Ark Lab, Huawei), 酒井 哲也(早稲田大学)

We address the problem of evaluating textual, task-oriented dialogues between the customer and the helpdesk, such as those that take the form of online chats. As an initial step towards evaluating automatic helpdesk dialogue systems, we have constructed a test collection comprising 3,700 real Customer-Helpdesk multi-turn dialogues by mining Weibo, a major Chinese social media. We have annotated each dialogue with multiple subjective quality annotations and nugget annotations. In addition, 10% of the dialogues have been manually translated into English. Our test collection, DCH-1, will be made publicly available for research purposes. We also propose a simple nugget-based evaluation measure for task-oriented dialogue evaluation, which we call UCH, and explore its usefulness and limitations.

(12)
対話返答生成における個性の追加反映
濱田 晃一, 藤川 和樹(株式会社 ディー・エヌ・エー), 小林 颯介, 菊池 悠太, 海野 裕也(株式会社 Preferred Networks), 土田 正明(株式会社 ディー・エヌ・エー)

個性を反映した返答生成は,様々な個性のキャラクタを用意することで多様な返答を可能にしたり応答の一貫性を確保できる点で近年注目されている.一方で,それぞれの返答個性を学習させるための対話例の準備が高コストであるという問題がある.
本研究では,深層学習を用いた返答文生成モデルに対して,特定の返答個性を追加反映する手法の提案及び比較評価を行う.さらに,返答文生成に用いる個性表現ベクトルの演算による生成文の変化について分析を行う.

(13)
伝達内容を考慮して言語化するニューラル言語生成の検討
生田 和也, 品川 政太朗, 吉野 幸一郎, 鈴木 優, 中村 哲(奈良先端科学技術大学院大学)

自然言語による情報提示は情報案内システムなどでユーザビリティを高めることが期待されている。これまでの言語生成は、伝えたい情報をあらかじめ用意した文章のテンプレートに埋め込んで行われてきたが、表現の多様性がテンプレート数に依存するという問題があった。この問題点に対し、近年注目されているニューラル言語モデルは、提示すべき情報を損なわずに生成文の自然性を改善することができるという報告がなされている。本研究では、伝達内容をコンテンツベクトルとして与えた上で、このコンテンツベクトルの入力に応じた言語生成を可能とするシステムの構築を目指す。本稿では先行研究のモデルを参考に、提示すべき情報を損なわずに生成文が実際に生成可能かどうかの検討を行った。

—————————-

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.
当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

============================
研究会幹事団
主査:
乾健太郎 (東北大学)
幹事:
荒瀬由紀 (大阪大学)
岡崎直観 (東北大学)
木村俊也 (株式会社ミクシィ)
小町守  (首都大学東京)
西川仁  (東京工業大学)
運営委員:
浅原正幸 (国立国語研究所)
荒牧英治 (奈良先端科学技術大学院大学)
石野亜耶 (広島経済大学)
金丸敏幸 (京都大学)
小林隼人 (ヤフー株式会社)
古宮嘉那子(茨城大学)
貞光九月 (フューチャーアーキテクト株式会社)
佐藤敏紀 (LINE株式会社)
新里圭司 (株式会社楽天)
鈴木祥子 (日本アイ・ビー・エム株式会社)
数原良彦 (Recruit Institute of Technology)
高村大也 (東京工業大学)
土田正明 (株式会社ディー・エヌ・エー)
堂坂浩二 (秋田県立大学)
徳永拓之 (スマートニュース株式会社)
二宮崇  (愛媛大学)
橋本力  (ヤフー株式会社)
藤田早苗 (日本電信電話株式会社)
牧野貴樹 (グーグル株式会社)
牧野拓哉 (株式会社富士通研究所)
松崎拓也 (名古屋大学)
ミハウ・プタシンスキ(北見工業大学)
村脇有吾 (京都大学)
若木裕美 (株式会社東芝)
Kevin Duh (Johns Hopkins University)

============================