第242回自然言語処理研究会 発表募集

情報処理学会 第242回自然言語処理研究会 発表募集
https://nl-ipsj.or.jp

●日程: 2019年10月25日(金),26日(土)

●会場: 奈良先端科学技術大学院大学 情報科学棟 L2講義室
(〒630-0192 奈良県生駒市高山町8916−5)
http://www.naist.jp/accessmap/

●発表申込締切: 2019年9月25日(水)
●原稿締切: 2019年10月2日(水) ※厳守

●原稿ページ数:2ページ以上
電子化にともないページ数に上限はありません.
※ただし20ページを越える場合は事前にご連絡ください.

●発表時間予定: 一般講演形式 1件30分 (発表20分、質疑10分)

※ 発表時間の調整について
従来の一般講演形式(発表20分,質疑10分)に加えてショート形式(発表10分,質疑10分),討議形式(発表10分,質疑討論20分)など,発表者からの要望に応じて発表の合計時間を調整します.アイデアレベルの研究の紹介や,研究の詳細まで話したいので時間がほしい,などの要求を発表申込の備考欄にご記入いただければ,それらを考慮してプログラムを作成します.ぜひご活用ください.

●優秀研究賞
研究会に投稿された予稿の中から特に優れたものを優秀研究賞として表彰する予定です.
●若手奨励賞
筆頭著者で発表をした方が下記の基準を満たしている発表者に対して,研究会参加者による投票とします.
選考基準: その年の年度頭に30歳未満または(社会人博士も含む)学生に対して,5〜10発表に1件を目処として授与する予定です.

●発表申込先:
下記専用サイトよりお申込みください.
https://ipsj1.i-product.biz/ipsjsig/NL/(研究会ホームページからもアクセスできます)

●問い合わせ先:
進藤裕之(奈良先端科学技術大学院大学)
E-mail: shindo (at) is.naist.jp

●今後の予定
第243回研究会 2019年12月予定

★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いません.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開します.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウンロードのうえ,ご持参ください.
情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,本研究会の資料をバックナンバーも含めて電子図書館で購読できます.登録されていない方は,是非この機会に研究会に登録してください(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)お得になります.研究会登録は以下のウェブサイトから行えます.http://www.ipsj.or.jp/kenkyukai/toroku.html

★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合,次回の研究会にまわって頂くようお願いする場合があります.なるべく早めにお申し込み下さい.

★締め切り後の発表キャンセルは原則としてできません
発表申し込み後にキャンセルの必要が生じた場合は,至急ご連絡ください.発表申込後,原稿提出締め切りまでに原稿が到着しない場合には,幹事団の判断により発表を取り消しさせていただくこともあります.

★論文提出締切後の原稿差し替えはできません
論文提出締切後は,訂正版のアップロードやウェブ上での配布などの原稿差し替えは一切できませんので,予めご留意ください.※正誤表の掲載が可能な場合がありますのでご相談ください.

★研究会幹事団
主査:
 関根聡  (理化学研究所)
幹事:
 木村泰知 (小樽商科大学)
 笹野遼平 (名古屋大学)
 進藤裕之 (奈良先端科学技術大学院大学)
 中澤敏明 (東京大学)
 西川仁  (東京工業大学)
 桝井文人 (北見工業大学)
 横野光  (株式会社富士通研究所)
運営委員:
 内海慶  (株式会社デンソーアイティーラボラトリ)
 内田ゆず (北海学園大学)
 江原遥  (静岡理工科大学)
 大内啓樹 (理化学研究所/東北大学)
 亀甲博貴 (京都大学)
 小林暁雄 (理化学研究所)
 斉藤いつみ(日本電信電話株式会社)
 佐々木稔 (茨城大学)
 貞光九月 (フューチャー株式会社)
 佐藤敏紀 (Linne株式会社)
 須藤克仁 (奈良先端科学技術大学院大学)
 土田正明 (株式会社コトバデザイン)
 成松宏美 (日本電信電話株式会社)
 西田京介 (日本電信電話株式会社)
 羽鳥潤  (株式会社 Preferred Networks)
 牧野拓哉 (株式会社富士通研究所)
 増村亮  (日本電信電話株式会社)
 馬緤美穂 (ヤフー株式会社)
 松林優一郎(東北大学)
 三輪誠  (豊田工業大学)
 森田一  (株式会社富士通研究所)
 谷中瞳  (理化学研究所)
 吉川克正 (株式会社コトバデザイン)

第241回自然言語処理研究会 参加募集

情報処理学会 第241回自然言語処理研究会 参加募集
https://nl-ipsj.or.jp

●日程: 2019年8月29日(木),30日(金)

●会場: 小樽商科大学 5号館 470号室
(〒047-8501 北海道小樽市緑3丁目5-21)
アクセス https://www.otaru-uc.ac.jp/access/
キャンパスマップ https://www.otaru-uc.ac.jp/summary/campus_map/
小樽駅から小樽商科大学まで4人でタクシーに乗ることをお勧めします. 小樽駅から「小樽商科大学の正門」までの料金は760円なので1人200円程度です.

===========
●問い合わせ先:
木村泰知(小樽商科大学)
E-mail: kimura (at) res.otaru-uc.ac.jp

8月29日(木) 発表15件
[10:00-11:40] 翻訳・意味・知識獲得 (4件)
[11:40-13:10] 昼休み
[13:10-14:25] 情報抽出 (3件)
[14:25-14:40] 休憩
[14:40-15:55] 分散表現・意味 (3件)
[15:55-16:10] 休憩
[16:10-17:25] 生成・解析 (3件)
[17:25-17:40] 休憩
[17:40-18:30] 知識獲得 (2件)

8月30日(金) 発表13件
[09:00-10:15] 機械翻訳 (3件)
[10:15-10:30] 休憩
[10:30-11:45] 機械翻訳 (3件)
[11:45-13:15] 昼休み
[13:15-14:55] 言語処理応用(4件)
[14:55-15:10] 休憩
[15:10-16:25] 言語処理応用 (3件)
[16:25-16:40] 休憩 (集計)
[16:40-16:55] クロージング

※若手奨励賞の対象者には著者名の前に「〇」を付けています.
※NL241は発表件数が多いため,発表20分,質疑5分としています.

8月29日(木) 発表15件
[10:00-11:40] 翻訳・意味・知識獲得 (4件)
(1) 事前訓練済みBERTエンコーダーを再利用したニューラル機械翻訳

今村賢治(国立研究開発法人 情報通信研究機構), 隅田英一郎(国立研究開発法人 情報通信研究機構)

本稿では,事前訓練済みのBERT (Bidirectional Encoder Representations from Transformer)モデルをTransformerベースのニューラル機械翻訳(NMT)に適用する.単言語のタスクと異なり,NMTの場合,BERTのモデルパラメータ(訓練済み)に比べ,デコーダー(未学習)のパラメータ数が多い.そこで,まずBERTエンコーダーのパラメータを固定して,未学習パラメータのみを訓練し,その後,全体を微調整する2段階最適化を行う.実験では,直接微調整したときにはBLEUスコアが極めて低くなったのに対して,2段階最適化では訓練が成功した.その結果,Transformerの基本モデルや,モデル構造が同じ事前訓練なしのTransformerに比べてもBLEUスコアが向上することが確認された.また,少資源設定で,より効果が高いことが確認された.

(2) 共起情報を利用した不具合事象の同義表現獲得

川村晋太郎(株式会社リコー)

製造業の品質保証業務において,不具合の原因究明,対策内容検討や再発防止に活用する為,コールログ,保守記録,保守ナレッジ共有サイトなどの多様な情報から解決の糸口になりそうな過去の情報を活用している.数百万件規模の多様なデータから所望のデータを検索する際に,その検索精度を向上させる為,対象製品の部品名,箇所名や不具合現象などの同義(言い換え)表現を得る必要がある.同義表現については,コーパス全体から分布仮説に基づいた類似性指標(コサイン類似度など)で獲得する手法がよく知られているが,同じ単語の同義表現であっても,実際に文書内で使用される言い回しや表現方法は,不具合事例により異なることも多い.本稿はこのような同義表現獲得の問題点に鑑み,ある単一の用語に対する同義表現を獲得するのではなく,不具合やトラブルを表す”事象”の表現が「箇所名+現象名」で成り立つことに着目し,それらをセットにした際の互いの関連度・共起度によって,「箇所名」及び「現象名」の同義表現を同時に獲得していく手法の開発を試みた.

(3) 対話システムが積極的な情報提供をするための推薦知識獲得

福原裕一(情報通信研究機構 データ駆動知能システム研究センター), 水野淳太(情報通信研究機構 データ駆動知能システム研究センター), 門脇一真(情報通信研究機構 データ駆動知能システム研究センター,株式会社日本総合研究所), 飯田龍(情報通信研究機構 データ駆動知能システム研究センター,奈良先端科学技術大学院大学 先端科学技術研究科), 鳥澤健太郎(情報通信研究機構 データ駆動知能システム研究センター,奈良先端科学技術大学院大学 先端科学技術研究科)

対話システムで「ステーキをおいしく焼くにはお肉は常温に戻しておくことをお勧めします」や「ウール素材のお手入れにはブラシをまめに行うことを勧めます」といったユーザに役立つ情報を提供するためには,このような推薦対象(例「ステーキをおいしく焼く」)と推薦情報(例「お肉は常温に戻す」)から成る推薦知識を大規模に獲得することが重要となる.本研究では,まずWeb文書から推薦知識の候補として抽出した最大2文を対象に,推薦対象とその対象に関する推薦情報が含まれるか否かをBERTを用いて分類する手法を開発した.さらに,この手法で得られた推薦知識を含む文を対話システムを通じてコンパクトにユーザに提示するために,推薦知識を要約する手法をpointer-generator networkを用いて開発した.これらの手法を学習・評価するために,推薦知識分類のためのデータとして58,978件,推薦知識要約のためのデータとして19,647件を人手でアノテーションして作成した.評価実験の結果,推薦知識分類の性能として精度約72%,推薦知識要約の性能としてROUGE-2 F値で約76%を得た.

(4) NPCMJに対する述語項構造シソーラスの意味役割と概念フレームの付与

竹内孔一(岡山大学), BatlerAlastair(弘前大学), 長崎郁(名古屋大学), PardeshiPrashant(国立国語研究所)

ダウンロード可能な形で,日本語のテキストに対して構文木を付与しているNPCMJに対して,述語項構造シソーラスの意味役割と概念フレームを付与するプロジェクトをスタートした.本発表では,アノテーションの枠組と体制,意味役割および概念フレーム付与における問題点を整理しつつ,今後の見通しについて説明する.

[13:10-14:25] 情報抽出 (3件)
(5) 議会会議録に含まれる法律名の表記揺れ問題解決に向けたエンティティリンキングの試み

〇桧森拓真(北海道大学大学院情報科学院), 木村泰知(小樽商科大学), 荒木健治(北海道大学大学院情報科学研究院)

国会では,委員会や本会議において法律案に関する議論が行われている.数多くの議員が法律案の名称を何度も発言することから,法律案の名称は,省略されることや異なる表現で呼ばれることがあり,同一の法律案を示しているのかを判断することが困難な場合がある.例えば,「働き方改革法案」には「働き方改革関連法」「働き方改革一括法」などの表記揺れが存在する.そこで,本研究では,議会会議録に含まれる法律名の表記揺れの問題を解決するために,エンティティリンキングを行う.実験では,辞書ベース,Wikipedia2Vecをベースラインとし,提案手法との比較を行う.提案手法では,ベースラインであるWikipedia2Vecに加え,メンションの各候補エンティティと、メンションを含む一文の分散表現とのコサイン類似度,メンションとエンティティの文字列の差分のLenghScore,メンションとエンティティの間で一致している文字数に応じたPenaltyに基づきスコアを算出し,最もスコアの高いエンティティを出力する.実験の結果,国会データでは,提案手法がF値において0.713を示し,0.198ポイントベースラインを上回り,地方議会会議録データでは,F値において0.719を示し,0.030ポイントベースラインを上回る結果となった.

(6) トピック間の階層構造を考慮したGaussian LDAの構成

〇吉田崇裕(東京大学大学院情報理工学系研究科), 久野遼平(東京大学大学院情報理工学系研究科), 大西立顕(東京大学大学院情報理工学系研究科)

トピックモデルは自然言語処理を始めとして多くの分野で用いられる手法である.トピックモデルの基本形であるLatent Dirichlet Allocation(LDA)の提唱後,様々なLDAの改良モデルが提案されてきた.例えばCorrelated Topic Model(CTM)はLDAが文書中のトピック間の相関を十分に考慮できない点に注目したモデルであり,汎化性能が向上すると報告されている.Gaussian LDAはLDAが単語間の意味的な近さを十分に考慮できない点に注目したモデルであり,トピックの意味一貫性が向上すると報告されている.両者を組み合わせたCorrelated Gaussian Topic Model(CGTM)と呼ばれるモデルは上記二つの欠点を同時に補うのみならず,単語の埋め込み空間上でトピックの相関構造を可視化することができ革新的である.しかし,文書内におけるトピックの関係性は,CGTMが対象とする単純な相関構造だけで表現できるものではない.実際日常生活においても,例えば「経済」-「金融政策」-「出口戦略」のように話題の階層性を意識し会話をすることは多々ある.そこで本稿では階層的トピックモデルとして最も単純なPAM(Pachinko Allocation Model)とGaussian LDAを組み合わせたモデルを提案することで,トピックの階層構造を単語埋め込みベクトル空間上で分析する一歩としたい.

(7) 辞書を用いたコーパス拡張による,化学ドメインのDistantly Supervised固有表現認識

〇辰巳守祐(奈良先端科学技術大学院大学), 後藤啓介(理化学研究所 革新知能統合研究センター), 進藤裕之(奈良先端科学技術大学院大学), 松本裕治(奈良先端科学技術大学院大学 / 理化学研究所 革新知能統合研究センター)

化学ドメイン固有表現抽出では,学習データのアノテーションコストが極めて高く,学習データ確保が課題である.この問題の打開策として,人手を介さずにアノテーションする,Distantly Supervised固有表現抽出の研究が注目されている.ただ,当手法では,自動生成コーパスが全ての化学物質名を網羅するのが困難な為,未知語問題が生じる.そこで,本研究では辞書を用いたコーパス拡張を提案する.人手アノテーションコーパスであるChemdNERでの評価実験の結果,提案データによる学習モデルがベースラインを上回った.

[14:40-15:55] 分散表現・意味 (3件)
(8) グラフニューラルネットワークを用いた半教師あり語義曖昧性解消

〇谷田部梨恵(茨城大学大学院理工学研究科情報工学専攻), 佐々木稔(茨城大学工学部情報工学科)

単語の語義曖昧性解消は,今日に至るまで様々な研究が行われており,教師あり学習を用いることで高い精度を出している.先行研究では,このアプローチにおける識別誤りの主要な要因として学習用のデータ不足を挙げている.そのため,精度を向上するためにはさらに多くの用例文の追加が求められている.しかし,学習用のデータを新たに追加することは,語義識別に精通した専門家による正解ラベル付与が必要となるためコストがかかるという問題がある.そこで,本研究ではグラフニューラルネットワークを用いた半教師あり語義曖昧性解消手法を提案し,提案手法が語義識別精度の改善に有効であることを目指す.

(9) 鏡映変換に基づく埋め込み空間上の単語属性変換

〇石橋陽一(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

本研究では鏡映変換に基づく埋め込み空間上の単語の属性変換を提案する。自己相互情報量(PMI)に基づく単語埋め込みは、“king – man + woman = queen” といったアナロジーが成立することが知られている。このアナロジーを用いて入力単語xをmanからwomanに、またwomanからmanに変換することが可能である。一方、アナロジーによる変換はxが男性か女性かどうかで演算が変わるため、xの属性に関する知識が必要となるが、そのような知識は無数にあるため全て付与することは不可能である。そこで本研究では、属性知識を用いず単語属性を変換するため、理想的な性質を持つ写像である鏡映変換を導入する。鏡映変換は同じ写像でベクトルの位置を相互に反転させる変換であるため、入力単語ベクトルが目的の属性を持つかどうかにかかわらず変換できる。性別属性を変換する実験の結果、提案手法は属性の知識を用いることなく、性別単語を45.8%の精度で相互に変換できることが示された。また性別属性を持たない単語に鏡映変換を適用した結果、最大で99.9%が変換されず、鏡映変換は目的属性を持つ単語のみを変化させる非常に高い安定性を持つことが示唆された。

(10) Long Short-Term Memory に基づくRecurrent Auto-Encoder を用いた文の分散表現獲得手法に対する Attention 機構の導入

〇飯倉陸(大阪府立大学), 岡田真(大阪府立大学), 森直樹(大阪府立大学)

近年,計算機の著しい発達に伴い,言葉や画像といった離散的な記号概念の分散表現を獲得する研究が盛んになされている.得られた分散表現は人工知能研究におけるさまざまなタスクに対して適用されるが,その精度は分散表現の性能に大きく依存する.それゆえに,分散表現の性能向上は人工知能研究の発展のために極めて重要な事項であるといえる.自然言語処理の分野においては現状として,単語の分散表現獲得手法については Word2Vec のような複数のタスクに対して高い性能が認められている優れた手法が開発されている.その応用として,文の分散表現の獲得手法に関するいくつかの先行研究が存在するが,いまだに決定的な手段は確立されているとは言い難い.本研究では,既存の文の分散表現獲得手法の改良を目的として,Long Short-Term Memory に基づく Recurrent Auto-Encoder を用いたモデルに対してAttention 機構を導入した.そして獲得した分散表現を用いた文の連続性識別の実験を通して,それらの性能を Attention 機構の有無の観点から相対的に評価した.その結果,文章の連続性を考慮するという観点から,分散表現の性能向上を確認することができ,Attention 機構を導入することの有効性を示せた.

[16:10-17:25] 生成・解析 (3件)
(11) 与えた外部情報の再予測モデルを組み込んだニューラル文生成モデルの検討

〇隆辻秀和(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

言語生成は、与えられた外部情報のセットに対して、自然言語文をドメインに適当な形で生成するタスクである。近年、言語生成に用いられるニューラルネットワークを用いた手法は、より自然で柔軟な応答生成が実現できることが知られている。一方で、入力となる外部情報に対応する文生成を単語予測のモデルで行うため、モデルがどの情報を利用し文を生成したかを説明することが難しい。そこで本研究では、与えた外部情報を生成文に反映することを保証するため、与えた外部情報を再予測するモデルと再予測の結果に対する損失を利用した。アノテーション済みのコーパスを用いた実験を行い、生成された文の評価と、生成文に含まれる情報の精度評価を行った。

(12) 因果関係と事態分散表現を用いた雑談対話応答のリランキングにおける傾向分析

〇田中翔平(奈良先端科学技術大学院大学), 吉野幸一郎(奈良先端科学技術大学院大学/科学技術振興機構さきがけ), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

本論文では,対話履歴に対し一貫した多様な応答を選択する手法を提案する.提案手法では対話履歴に対する一貫性を保つため,対話モデルより生成された応答候補を,対話履歴と応答候補の間に存在する因果関係(ストレスが溜まる → 発散する,など)を用いてリランキングする.この際,因果関係の認定には統計的に獲得された因果関係ペアを用いるが,対話中に存在する全ての因果関係を被覆するような辞書を用意することは難しい.そこで,Role Factored Tensor Model を用いて事態を分散表現に変換することで,因果関係知識のカバレージを向上させ,因果関係知識と対話中の因果関係の頑強なマッチングを実現した.自動評価,人手評価の結果,提案手法は応答の一貫性や対話継続性を向上させることが確認できた.一方で,事態の過汎化に由来する応答の自然性低下が見られる場合もあった.これらの問題についても例示し,解決の方向性について論じる.

(13) モダリティ表現認識・事象の事実性解析の同時学習

〇友利涼(京都大学 大学院情報学研究科), 村脇有吾(京都大学 大学院情報学研究科), 松吉俊(電気通信大学 大学院情報理工学研究科), 亀甲博貴(京都大学 学術情報メディアセンター), 森信介(京都大学 学術情報メディアセンター)

モダリティ表現や事象の事実性などを正確に認識・解析することは、否定や推量などが含まれるテキストの言語理解や文生成を行ううえで重要である。本研究では、モダリティ表現認識器・事象の事実性解析器などをマルチタスク学習の枠組みを用いて同時学習する。これらのタスクは相互に関連しており、マルチタスク学習を用いてその関係性を自動的に学習することを目指す。実験では、同時学習による手法が単純な手法による精度を上回った。また、生コーパスを用いて事前学習することにより、さらなる精度向上を示した。

[17:40-18:30] 知識獲得 (2件)
(14) A Simple Reranking Method for Knowledge Graph Completion

〇LuYuxun(Nara Institute of Science and Technology), ShigetoYutaro(Chiba Institute of Technology), HayashiKatsuhiko(Osaka University), ShimboMasashi(Nara Institute of Science and Technology)

A recent report indicates that learning type embeddings of entities in addition to normal embedding helps improve the performance of knowledge graph completion. We argue that the type of arguments individual relations take is inherent in the normal embedding of entities, and this information can be exploited with the help of training data. A simple reranking method is proposed that solely relies on training data and learned entity and relation embeddings. This method requires only four parameters per relation to be tuned on the validation data. Experimental results show that its performance is close to the approach based on type embeddings, although it does not require retraining of embeddings.

(15) クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張

〇鈴木正敏(東北大学), 松田耕史(理化学研究所/東北大学), 大内啓樹(理化学研究所/東北大学), 鈴木潤(東北大学/理化学研究所), 乾健太郎(東北大学/理化学研究所)

Quizbowlは、複数の文からなるクイズ問題の入力に対して、正解となるエンティティを予測する質問応答タスクである。Quizbowlは超多クラス(数万クラス以上)の分類問題と見なすことができるが、その場合、訓練データの規模が限定的であるためにfew-shot学習の問題が生じる。すなわち、訓練データにわずかな回数しか出現しないエンティティであっても、テスト時には正しく答えなければならない。この問題に対処するため、本研究では、1) 大規模コーパスで事前訓練された言語モデルの利用と、2) Wikipediaを利用したデータ拡張を組み合わせたクイズ解答の手法を提案する。具体的には、1) 汎用言語モデルBERTの複数の層が出力する分散表現を用いて、クイズ問題から正解エンティティへのマッピングを学習する。さらに、2) Wikipediaの記事の性質を利用して、テキスト-エンティティ対のデータを大量に生成し、擬似クイズ問題として訓練データに追加する。これらモデルとデータ両方向の拡張により、Quizbowlのクイズ解答の性能が大幅に向上することを実験的に示す。

8月30日(金) 発表13件
[09:00-10:15] 機械翻訳 (3件)
(16) スタイル変換のための折り返し翻訳に基づく事前訓練

〇梶原智之(大阪大学データビリティフロンティア機構), 三浦びわ(株式会社 AI Samurai), 荒瀬由紀(大阪大学大学院情報科学研究科)

本研究では、スタイル変換における少資源問題に取り組む。同一言語内の翻訳問題であるスタイル変換は、機械翻訳とは異なり訓練用のパラレルコーパスを大規模に収集することが難しい。この問題に対して、先行研究ではルールベースのデータ拡張や目的とするスタイルの機械翻訳とのマルチタスク学習が提案されているが、人手や特定のコーパスに依存するため他のスタイルへの拡張が困難であった。そこで我々は、任意のスタイルに適用可能な生コーパスに基づく転移学習のフレームワークを提案する。まず事前訓練では、生コーパスを折り返し翻訳した疑似言い換えコーパスを用いて、スタイルを考慮しない言い換え生成器を訓練する。続いて再訓練では、小規模なパラレルコーパスを用いて、言い換え生成器を目的とするスタイルへのスタイル変換に特化させる。GYAFCデータセットにおける評価実験の結果、提案手法がスタイル・ドメイン・モデル構造のいずれにも依存せず、常にスタイル変換の性能を大幅に改善することを確認した。さらに詳細な分析の結果、高品質な折り返し翻訳を利用できない設定やターゲットドメインの生コーパスを利用できない設定でも提案手法は有効に機能し、再訓練のためのパラレルコーパスが1,000文対と非常に少ない設定でさえ高品質なスタイル変換を実現できることがわかった。

(17) 機械翻訳の前処理のための言い換え辞書自動作成手法の提案

〇胡尤佳(大阪府立大学工学域), 岡田真(大阪府立大学工学研究科), 森直樹(大阪府立大学工学研究科)

近年,ニューラルネットワークを用いる手法が自然言語処理の多くのタスクで成果を上げている.機械翻訳の分野でも,ニューラル機械翻訳が登場し,これまでのフレーズベース機械翻訳や統計的機械翻訳と比べて翻訳の質が飛躍的に上がり,流暢性の高い翻訳もできるようになった.しかし,低頻度語や未知語が存在することにより,翻訳の際に意味が通じなくなるという問題が依然存在している.通常の機械翻訳の場合,出力層における語彙数が制限されているため,低頻度語は未知語(OOV)と見なされ,意味繋がりが中断され,翻訳精度が悪くなる.このような低頻度語や未知語の問題を解決するために,翻訳に前処理をするアプローチがある.先行研究では,学習データの目的言語文に存在する低頻度語を大規模パラフレーズ辞書を用いて高頻度語に言い換えてから翻訳する手法が提案されている.ここでは,目的言語文に低頻度語が存在する場合,その単語またはその単語を含むフレーズを高頻度な単語またはフレーズに言い換えることで,言い換え前後の意味を保持したまま翻訳結果の未知語の削減を求める.ここでは,追加で大規模パラフレーズ辞書が必要となり,パラフレーズ辞書によって言い換えた学習データからの翻訳モデルの作り直しが必要となる.そこで本研究では,作成した機械翻訳のモデルを直接用いて,モデル作成時に用いた学習データからそのままパラフレーズ辞書を自動作成する手法を提案する.その後,その辞書を用いた低頻度語の高頻度語への言い換えを入力文の前処理として施すことにより,意味を保持したまま翻訳精度を向上できると考える.本稿では提案手法の有効性を実験により検証し,考察した.

(18) Double Attention-based Multimodal Neural Machine Translation with Semantic Image Region

〇ZhaoYuting(Tokyo Metropolitan University), KomachiMamoru(Tokyo Metropolitan University), KajiwaraTomoyuki(Osaka University), ChuChenhui(Osaka University)

Current work on multimodal neural machine translation (MNMT) has mostly paid attention to the effect of combining visual and textual modalities in improving translation performance. However, it has been suggested that the visual modality is only marginally beneficial. As conventional visual attention mechanisms are used to select visual features from grids of equal size in an image generated by convolutional neural net, the feature of a grid that is not related to image content may arise slight effects in aligning visual concepts associated with the textual object. In contrast, we propose to apply semantic image regions for MNMT with integrating visual and textual features by means of two separate attention mechanisms (double attention) in order to improve predictive token generation. Our approach on the Multi30k dataset achieves 0.5 and 0.9 BLEU point improvement on English–German and English–French translation tasks compared with the baseline double attention-based MNMT.

[10:30-11:45] 機械翻訳 (3件)
(19) 言語横断な言語モデルによる原言語情報を活用した自動機械翻訳評価

〇髙橋洸丞(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

本研究では原言語文と参照訳文から翻訳文がどれだけ正しいかを推定する自動評価手法を検討する. 既存の自動翻訳評価手法では, 1 対 1 の参照訳文と翻訳文のペアから翻訳文を評価する手法が主流だが, 1 対 1 ペアの比較では, 翻訳文が参照訳文と一見異なるが正しい訳文である際に評価性能が下がりやすい. こ の問題は, マルチリファレンスと呼ばれる参照訳文を複数用意することで解決可能だが, 各原言語文に対し て参照訳文を複数作成する必要がありコストが高い. そこで本研究では, 原言語文も参照訳文の一つとみな して, 原言語文を評価に用いることで前述の問題に対処する. 言語横断な言語モデルを用いて入力文を分散 表現とし, 最終的な評価値を多層パーセプトロンを通して出力する回帰モデルによる評価手法を検討した.

(20) 英日同時翻訳のためのConnectionist Temporal Classificationを用いたニューラル機械翻訳

〇帖佐克己(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

同時翻訳は文の入力が終了する前にその文の翻訳を開始するタスクである.このタスクでは翻訳精度と訳出までの遅延時間がトレードオフの関係にあり,システムを構築する際には翻訳を行うタイミングを適切に決定する必要がある.本研究では,ニューラル機械翻訳においてこの訳出タイミングを適当的に決定する方法を提案する.提案手法では目的言語側の語彙に訳出を行わない代わりに出力するためのメタトークン ‘’ を追加し,損失関数としてConnectionist Temporal Classification(CTC)と呼ばれるアルゴリズムを目的関数に導入する.CTCによって 縮約すると正解系列と一致するような‘’を含む系列全て に対して最適化を行うことで翻訳モデルと訳出タイミング制御を同時に最適化することができ,さらに訳出タイミングを適応的に決定することも可能となる.また,このモデルを英語から日本語への同時翻訳タスクに対して適用し,その翻訳結果の精度や問題点について検討する.

(21) スタイル変換技術による対訳コーパスから英日同時通訳コーパスへの拡張

〇二又航介(奈良先端科学技術大学院大学), 須藤克仁(奈良先端科学技術大学院大学), 中村 哲(奈良先端科学技術大学院大学)

同時通訳とは,入力文章が完結する前に目的言語の部分的な翻訳結果を訳出するタスクである.同時通訳システムを介したコミュニケーションでは,翻訳の遅延が円滑なコミュニケーションの大きな障害となるため,遅延を最小限にしつつ正確に部分訳出をする必要がある.特に英語と日本語のように語順が大きく異なる言語間の同時通訳では,訳出開始までの遅延が大きな問題となる.一方で,原言語の語順に近い形で訳出を行うことができれば,遅延を少なくすることができる.同時通訳システムの学習には通常,機械翻訳システムと同様に対訳コーパスが用いられる.同時通訳コーパスは,機械翻訳システムの学習に用いられる対訳コーパスと異なり,入力文が完結する前に目的言語の部分訳出を行った文から構成される対訳コーパスである.したがって,同時通訳システムの学習に用いられる対訳コーパスとして,同時通訳コーパスを用いることができれば,入力文を小さな部位に区切り逐次訳出できるため,訳出を終えるまでの遅延が少なくなる.しかし,現在利用可能な同時通訳コーパスの量は非常に少ないため,このような問題設定は現実的ではない.そこで本稿では,機械翻訳に用いられる対訳コーパスから,同時通訳コーパスへと拡張する手法について提案する.提案手法ではスタイル変換を用いることで,機械翻訳のスタイルから同時通訳へのスタイルへと変換を行う.また,スタイル変換により生成された疑似同時通訳文について現状での問題点について検討する.

[13:15-14:55] 言語処理応用(4件)
(22) BERTを用いたテレビドラマに関する関心動向・感想のウェブマイニング

〇川口輝太(筑波大学), 久保遼馬(筑波大学), 藤田拓也(筑波大学), 前田竜冶(筑波大学), 宇津呂武仁(筑波大学), 小林彰夫(筑波技術大学), 西崎博光(山梨大学), 河田容英(ログワークス)

本論文では,テレビドラマ視聴者がドラマ視聴後にウェブ上で行うドラマ関連関心動向・感想・レビュー類の情報探索過程を支援することを目的として,ブログ・ドラマ関連サイト等のウェブページからの情報収集・集約を行うウェブマイニング技術を提案する.提案手法においては,BERTおよびWikipediaを用いて,文単位での当該ドラマ関連判定および主観情報判定を行うとともに,文単位での判定結果に基づいて,ウェブページ単位での当該ドラマ関連判定および主観情報判定を行う手法,および,その評価結果について述べる.

(23) 評価者バイアスを考慮した小論文自動採点手法

〇岡野将士(電気通信大学), 宇都雅輝(電気通信大学)

近年、深層学習モデルを利用した小論文自動採点手法が注目されている。このような自動採点手法では、採点済み小論文コーパスからモデルを学習する。しかし、小論文の採点では、各評点が評価者の特性(甘さ/厳しさなど)に依存することが多く、このような場合、学習される自動採点モデルが評価者特性の影響を受け、得点予測の性能が低下する問題がある。他方で、評価者の影響を考慮してスコアを推定できる数理モデルが近年多数提案されている。本研究では、この数理モデルで得られるスコアを予測するように自動採点モデルを学習する手法を提案する。提案手法を利用することで、コーパスを採点する評価者の特性に依存せず、自動採点モデルを学習できる。本論文では、実データ実験により提案モデルの有効性を示す。

(24) Automated Essay Rewriting (AER): Grammatical Error Correction, Fluency Edits, and Beyond

〇MitaMasato(RIKEN AIP/Tohoku University), HagiwaraMasato(Octanove Labs), SakaguchiKeisuke(Allen Institute for Artificial Intelligence), MizumotoTomoya(Future Corporation), SuzukiJun(Tohoku University/RIKEN AIP), InuiKentaro(Tohoku University/RIKEN AIP)

We propose the Automated Essay Rewriting (AER) task, where computer systems make automatic edits to argumentative essays to improve their quality. AER subsumes types of edits beyond single sentences such as coherence, cohesion, and style, which are not within the scope of traditional tasks such as grammatical error correction (GEC) and fluency edits. The quantitative and qualitative analyses of a corpus specifically designed for AER reveal that these edits account for almost half of edits made by professional proofreaders. We also discuss the challenges, issues, and future direction of AER by comparing with other tasks.

(25) 文符号化器のマルチタスク学習によるテキスト分類モデルの頑健化

〇大橋空(大阪大学大学院情報科学研究科), 高山隼矢(大阪大学大学院情報科学研究科), 梶原智之(大阪大学データビリティフロンティア機構), ChenhuiChu(大阪大学データビリティフロンティア機構), 荒瀬由紀(大阪大学大学院情報科学研究科)

一般的なニューラルテキスト分類モデルは、文をベクトル化する文符号化器と、文ベクトルを基に分類先の各ラベルが付与される確率を計算する分類器からなる。このようなモデルは、特定の単語が出現する文に対し、文意に関わらずその単語との共起頻度が高いラベルに分類しやすくなり過学習しやすい。これは、文符号化器が分類に強く寄与する単語を過度に反映した文ベクトルを生成するためであると考えられる。この課題に対し本研究では、同じ(異なる)ラベルを持つ文同士のベクトルはベクトル空間で近傍(遠方)に位置すべき,という直感に基づくマルチタスク学習手法を提案する。具体的には、共通のラベルを持つ文同士の文ベクトルが類似するように、文符号化器を通常のテキスト分類タスクおよび同一ラベル判別タスクのマルチタスク学習によって訓練する。同一ラベル判別タスクでは、 コーパスからサンプリングした複数の文のうち、どれが入力文と同一のラベルを持つかを判別できるように文符号化器を訓練する。これにより、文符号化に特定の単語が過度に影響するのを抑制し、テキスト分類の性能を改善するような文ベクトルが得られると期待できる。提案手法の有効性を検証するため、単一ラベル分類のデータセット6つ、複数ラベル分類のデータセット3つそれぞれについて、2種類の文符号化器を用いて実験を行い、文書の複数ラベル分類のデータセットについて、1種類の文符号化器を用いて実験を行った。結果より、6つのデータセットについて全ての文符号化器で提案手法がベースラインを上回る精度を達成し、提案手法の有効性が示された。

[15:10-16:25] 言語処理応用 (3件)
(26) 機械学習を用いた漫画のオブジェクト順位推定

〇元山直輝(大阪府立大学 工学域), 岡田真(大阪府立大学 工学研究科), 森直樹(大阪府立大学 工学研究科)

近年, 深層学習をはじめとする機械学習技術の発展を背景に, 画像処理と言語処理が密接に結びついたマルチモーダルな分野として漫画に関する研究が注目されている. 漫画は画像データで提供されることから, 画像処理に基づいた研究は数多くなされてきたが, 対話理解にまで踏み込んだ研究はなされてこなかった. 本研究の目的は文脈に基づき会話の連続性を正しく認識することである. コマや台詞の読み順などの読者が物語の文脈を踏まえて解釈する内容に踏み込んだ漫画のストーリー理解に関する研究のためには, 漫画におけるコマや台詞といったオブジェクトの順番についてのアノテーションデータが必要不可欠である. そこで, コマと台詞に順位をつけるアノテーションツールを開発し, 既存の漫画データセットの拡張をした. そして, 文脈を踏まえた漫画の理解の準備として, 座標情報を用いた機械学習によるコマと台詞の順位推定手法を提案する. さらに, 漫画内の文書の言語的特徴について調査し, 自然言語処理の活用の可能性について考察する.

(27) 入力音声に続く文章の予測

〇恒松和輝(奈良先端科学技術大学院大学), サクリアニサクティ(奈良先端科学技術大学院大学), 中村哲(奈良先端科学技術大学院大学)

近年の技術の進歩により、音声認識は人間に近い非常に高い性能を示しています。しかし、それらは与えられた音声をただ文字に起こすだけです。人間同士の対話では、発せられた言葉からその後に続く言葉を予測できることがあります。本研究では、深層学習を用いてそのようなタスクを実行できるシステムの構築を目指しています。

(28) 生成型文要約のための抽出性に着目したデータ選択

〇長谷川駿(東京工業大学 工学院), 上垣外英剛(東京工業大学 科学技術創成研究院), 奥村学(東京工業大学 科学技術創成研究院)

生成型文要約は必ずしも原文の語句を抽出する必要がなく,入力に対して極めて柔軟な要約文を生成することが可能である.しかし,我々の事前調査で,最高精度に近い性能を達成している文要約器の出力では,原文から借用した単語が生成文の約8割を占めていることが判明した.一方で,その要約器の学習に用いた訓練データでは,参照文における原文から借用可能な単語は約6割にとどまっている.我々は,これらの調査結果における実際の生成文と訓練データの抽出率の乖離から,既存の生成型文要約器が抽出的な要約を得意としており,抽出率の低いデータ対が学習時のノイズとなっているという仮定を置いた.本研究ではこの仮定に基づき,訓練データから抽出率の低いデータ対を除去する, 容易で効果的なデータ選択手法を提案する.実験の結果,提案手法を用いた場合,全データで学習した場合の約半分のデータ量・学習時間で同等の要約精度を達成できることを確認した.また,訓練データの抽出性・生成性を変化させて学習・比較を行うことで,それらの訓練データの性質が文要約器に与える影響の分析も行った.

[16:25-16:40] 休憩 (集計)
[16:40-16:55] クロージング

=============================
●研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いません.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開します.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,本研究会の資料をバックナンバーも含めて電子図書館で購読できます.登録されていない方は,是非この機会に研究会に登録してください(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

●研究会幹事団
主査:
 関根聡  (理化学研究所)
幹事:
 木村泰知 (小樽商科大学)
 笹野遼平 (名古屋大学)
 進藤裕之 (奈良先端科学技術大学院大学)
 中澤敏明 (東京大学)
 西川仁  (東京工業大学)
 桝井文人 (北見工業大学)
 横野光  (株式会社富士通研究所)
運営委員:
 内海慶  (株式会社デンソーアイティーラボラトリ)
 内田ゆず (北海学園大学)
 江原遥  (静岡理工科大学)
 大内啓樹 (理化学研究所/東北大学)
 亀甲博貴 (京都大学)
 小林暁雄 (理化学研究所)
 斉藤いつみ(日本電信電話株式会社)
 佐々木稔 (茨城大学)
 貞光九月 (フューチャー株式会社)
 佐藤敏紀 (LINE株式会社)
 須藤克仁 (奈良先端科学技術大学院大学)
 土田正明 (株式会社コトバデザイン)
 成松宏美 (日本電信電話株式会社)
 西田京介 (日本電信電話株式会社)
 羽鳥潤  (株式会社 Preferred Networks)
 牧野拓哉 (株式会社富士通研究所)
 増村亮  (日本電信電話株式会社)
 馬緤美穂 (ヤフー株式会社)
 松林優一郎(東北大学)
 三輪誠  (豊田工業大学)
 森田一  (株式会社富士通研究所)
 谷中瞳  (理化学研究所)

第240回自然言語処理研究会 参加募集

●日程: 2019年6月13日(木),14日(金)

●会場: 遠野市民センター 市民会館 講義室
(〒028-0524 岩手県遠野市新町1番10号)

●懇親会:
6/13に会場周辺にて懇親会を開催する予定です.
参加を希望される方は6月5日(水)までに下記フォームにご回答ください.

https://forms.gle/pXnw4XfTGm8AaSwJ6

●問い合わせ先:
横野 光 (富士通研究所)
yokono.hikaru -at- fujitsu.com

===============================
プログラム

6月13日(木)
[10:30-12:00] 要約(3件)
[12:00-13:30] 昼休み
[13:30-14:30] 招待講演
[14:30-14:45] 休憩
[14:45-16:45] 言語処理応用(4件)
[16:45-17:00] 休憩
[17:00-18:00] 生成(2件)

6月14日(金)
[10:30-11:30] 対話(2件)
[11:30-13:00] 昼休み
[13:00-14:30] 翻訳(3件)
[14:30-14:45] 休憩
[14:45-15:45] 分散表現(2件)
[15:45-16:00] クロージング

6月13日(木)
[10:30-12:00] 要約(3件)

(1) 含意関係に基づく見出し生成タスクの見直し

松丸 和樹 (東京工業大学), 高瀬 翔 (東京工業大学), 岡崎 直観 (東京工業大学)

見出し生成タスクでは,エンコーダ・デコーダモデルの高い性能が報告される一方で,記事内容から逸脱した見出しを生成してしまう問題が指摘されている.この原因のひとつとして,訓練データ中の記事に含まれる情報が不足しているため,記事中に書かれていない内容を無理に見出しに出力するような学習が行われていることが考えられる.そこで我々は,JApanese MUlti-Length Headline Corpus (JAMUL) の記事の先頭3文と記事全文それぞれが正解見出しを含意しているか調べた.その結果,先頭3文では42%,全文でも11.1%の事例で記事が見出しを含意していないことがわかった.続いて,Japanese News Corpus (JNC) の記事先頭3文で学習したエンコーダ・デコーダが出力した見出し文候補に対し,クラウドソーシングを用いて含意関係を付与し,およそ51,000件の含意関係データセットを作成した.構築したデータセットで含意関係認識器を学習し,その含意関係認識器で生成器が出力した見出しの含意割合を判定したところ,生成された見出しの多くは含意と判定されないことがわかった,さらに,含意関係認識器で訓練データをフィルタリングし,見出し生成器を学習する実験を行った.フィルタリングしない訓練データで学習した場合との比較により,訓練時の記事の情報不足が見出し生成器に悪影響を及ぼし,含意しない見出しを生成する一因になっていることが分かった.

(2) 確信度に基づく退院時サマリの分析

安道 健一郎 (首都大学東京/理化学研究所 革新知能統合研究センター), 奥村 貴史 (北見工業大学/理化学研究所 革新知能統合研究センター), 小町 守 (首都大学東京), 松本 裕治 (奈良先端科学技術大学院大学/理化学研究所 革新知能統合研究センター)

医療現場において,医師は極めて多忙であると言われている.その要因の一つに,各種の医療文書の作成に要する業務負担が挙げられる.適切な文書作成支援技術による業務負担の軽減は,医師の勤務負担の軽減を通じて我が国の医療の発展に大きく貢献することができる.そこで本研究では,医師が入院患者を退院させる際に作成する医療文書である「退院時サマリ」に着目した.この書類は,医師が記載する「入院カルテ」より要約されて作成される文書であり,一般に入院に至るまでの経緯に関する記載と,入院後に生じた経過の記載から成り立つ.退院時サマリを観察すると,「入院前の記載」は入院に至る経緯について書かれており,事実に基づく記述が多い.一方,「入院中の記載」は診断や治療など,医師による推論を通した非事実に関する記述が多く含まれる.もしこの観測が正しければ,退院サマリにおける「入院前の記載」の大部分は入院カルテから抽出型要約により作成できる可能性がある.そこで,退院時サマリの自動作成へ向けた調査として,確信度の観点から入院カルテが退院時サマリへといかに要約されているかの分析を試みた.確信度とは,文が言及する事象が確定的な事実についてのものか,そうでないかを評価したものである.本研究では「入院前の記載」と「入院中の記載」について,この確信度と、抽出文であるか否かとの関係を分析した.また,サマリにおける各文の確信度と文書中の位置関係を考察した.これらの結果は,今後,退院サマリを自動生成するための手法を検討するうえで,基礎的な知見となることが期待される.

(3) コピー機構を用いたクエリ指向ニューラル生成型要約

石垣 達也 (東京工業大学), 黃 瀚萱 (国立台湾大学), 陳 信希 (国立台湾大学), 高村 大也 (産業総合技術研究所/東京工業大学), 奥村 学 (東京工業大学)

本研究では,原文書に加えクエリを入力として受け取るクエリ指向要約課題を扱う.
ニューラルネットワークが本課題に適用される以前の要約器においては,原文書とクエリでの重複語を要約により含めることで,性能が向上することが報告されている.
本研究では,コピー機構を用いて原文書とクエリでの重複語をより要約に含めやすくする仕組みをニューラルネットワークに基づく生成型要約器において実現する.
クエリ指向設定に適用可能なコピー機構として,原文書からコピーするモデル,原文書とクエリの重複語をコピーするモデル,重複語とその周辺語をコピーするモデルを提案する.
実験より,重複語とその周辺語をより要約に含めるよう設計したコピー機構が良い性能を示したことを報告する.
この結果はニューラルネットワーク以前の要約器において,効果的であった重複語を含める方策が,ニューラルネットワークに基づく要約器においても有効であることを示すものである.

[13:30-14:30] 招待講演
(4) ニューラル言語モデルの研究動向

高瀬 翔 (東京工業大学)

言語モデルは与えられた系列の尤もらしさを計算するモデルであり、機械翻訳や音声認識など、応用範囲は多岐にわたる。とりわけ、近年のニューラル言語モデルの発展は目覚ましく、ベンチマークとして用いられることの多いPenn Treebankコーパスにおいて、劇的な性能向上が報告されている。本講演では、これら最新のニューラル言語モデルの研究動向を概観する。特に、トップスコアを達成したと謳う研究では、どの要因が性能向上に寄与したか判然としないものもあるため、力の及ぶ限りで整理を行いたい。さらに、ニューラル言語モデルの発展として、ELMoやBERTのような埋込表現にもふれた上で、今後の方向性について議論を行う

[14:45-16:45] 言語処理応用(4件)
(5) Clustering of Text Documents using Features from Latent Semantic Analysis

曾 恕慈 (岩手県立大学), 呂 侑靜 (岩手県立大学), チャクラボルティ ゴウタム (岩手県立大学), 陳 隆昇 (朝陽科技大学)

Text documents could be classified using words as features. As the number of words in the vocabulary is large, the dimension of the document space will be very high. In that case, the feature vector for a document is too long, and clustering and classification algorithms fail. In this work, we used Latent Semantic Analysis, which is actuated by Singular Value Decomposition (SVD). After SVD, we have a compact representation of the documents, which are clustered. The ground truth is verified manually. In this work, we used tourists’ comments as documents. In this work, we first cluster the comments into two, and investigate the factors behind these two classes. It is verified, that the documents are automatically separated into groups of positive comments and negative comments. Our final goal is to extract factors that lead to positive comments and those leading to negative comments. and help promoting tourist business by focusing on the factors that really matters for the customers.

(6) レビュー文章集合を用いたマイクロドメインのための概念階層オントロジー構築

谷江 博昭 (株式会社リクルート), 三澤 賢祐 (株式会社リクルート), 大内 啓樹 (理化学研究所 AIP センター/東北大学)

本稿では,あるエンティティに関するテキスト集合から効率的に知識ベースを構築することを目指す.より具体的には,施設の評判などを記述したレビュー文章集合から,その施設にある設備やサービスを抽出し,それらの情報を体系化する.構築した知識ベースは,検索システムやQAシステムへ活用する.提案手法では,レビュー文章集合から,知識ベースに必要なドメイン個別のオントロジーを構築する.特に,解析したいテキストで学習した単語埋め込みを利用することによって,解析対象のドメインに適したオントロジーを得る.本稿では,オントロジー の質の定量的・定性的分析を行い,単語埋め込みの違いによる効果を検証する.

(7) Sim2RealQA:ニューラル質問応答モデルの仮想世界から現実世界への転移

宮西 大樹 (国際電気通信基礎技術研究所), 前川 卓也 (大阪大学大学院 情報科学研究科), 川鍋 一晃 (国際電気通信基礎技術研究所)

日常生活で起きた出来事に対して質問応答できるようになれば、人間の記憶支援・忘れ物や落とし物の検索・人の監視や見守りといった実世界に根ざしたシステムが実現できるようになる。従来の実世界質問応答では、近年数多くの質問応答の課題で高い性能を示すニューラルネットワークで構成した質問応答モデルが用いられてきた。しかし、実世界のデータをラベリングする作業はプライバシーの問題を引き起こすため、実世界の質問応答データセットを作成することは困難である。その一方で、ニューラルネットワークを用いた質問応答モデルは、その能力を発揮するために大量の学習データが必要になる。本論文では、この制限を克服するためSimulation to Real QAという新たな枠組みを提案する。本手法では、プライバシーを侵害することなく十分な量の学習データを作るため、人の日常生活を模倣するシミュレータを使用する。そして、現実世界の質問応答の問題を高精度に解くため、仮想世界の日常生活行動のデータをもとに作成した大量の質問応答データセットを用いてニューラル質問応答モデルを訓練する。Simulation to Real QAの枠組みを評価するため、我々は実際の家屋とライフシミュレーションゲーム内の日常生活行動のログデータをもとに仮想・現実双方の質問応答データセットを作成した。このデータセットを用いて、実世界の解答ラベルがない場合、仮想世界のデータが実世界の質問応答に役立つことを実証する。

(8) 単語の難易度を考慮したテキストの難易度制御

西原 大貴 (大阪大学大学院情報科学研究科), 梶原 智之 (大阪大学データビリディフロンティア機構), 荒瀬 由紀 (大阪大学大学院情報科学研究科)

本稿では言語学習アプリケーションでの使用を目的として,特定の学年に合わせたテキストの難易度制御を行う.提案手法は,文および単語の両方の難易度を考慮することで,入力文を目標の難易度の文へ言い換える.まず,文の難易度はテキスト平易化モデルの入力として目標の難易度を加えることで考慮される.また,単語の難易度は目標の難易度に応じて各単語の損失を重み付けすることで考慮される.既存手法は文の難易度のみを考慮しており,文長制御など構文的な平易化には長けるが,難解な単語を出力してしまう可能性がある.一方,提案手法では構文と単語の両方の難易度制御に成功する.実験の結果,提案手法がBLEUおよびSARIの両方を改善することが明らかになった.

[17:00-18:00] 生成(2件)
(9) 指示文・説明文とロボット動作の対応学習

吉野 幸一郎 (奈良先端科学技術大学院大学), 脇本 宏平 (奈良先端科学技術大学院大学), 中村 哲 (奈良先端科学技術大学院大学)

ロボットが生活の中に入ってくるにつれて、ロボットの動作系列と自然言語による指示文・説明文を結びつける重要性が高まっている。本研究では、ロボットの動作系列と自然言語による指示文・説明文の対応を直接学習することを指向して、ロボットが持つアクチュエータの動作系列やカメラ情報から、行った行動を説明する自然言語文を生成するEnd-to-Endのモデルを構築した。ロボットの動作系列は非常に多くのサンプル系列を持つため、少量の学習データから対応を学習することは難しい。この問題を解決するため、ロボット動作の教師なし分節化、および注意機構を導入して対応学習を行った。実験の結果、提案するモデルは分節化を行わないモデルよりも適切な動作説明文を生成できることが示された。

(10) Captioning Events in Tourist Spots by Neural Language Generation

グエン マイ (奈良先端科学技術大学院大学), 吉野 幸一郎 (奈良先端科学技術大学院大学), 鈴木 優 (奈良先端科学技術大学院大学), 中村 哲 (奈良先端科学技術大学院大学)

We present an application that captions events in tourist attractions by summarizing various information sources in natural language descriptions.
The system is divided into two parts: what-to-say, which summaries information into structured data, and how-to-say, which produces natural language captions from input meaning representation.
In what-to-say, information from several information sources, such as infrared sensors and social media, are extracted into a semantic frame.
In how-to-say, we utilized semantically-conditioned long short-term memory neural networks to generate natural language captions for giving information to users in an understandable way.
An empirical evaluation of the system shows the quality of generated text across five automated metrics.
The generated sentences are used in the application system for helping visitors.
The subjective evaluation shows the usefulness of the proposed system.

6月14日(金)
[10:30-11:30] 対話(2件)
(11) 高齢者発話予測システムの検討

魏 琪 (Hmcomm株式会社), 若山 龍太 (Hmcomm株式会社)

高齢者介護の現場において、人材不足、外国人労働者参入などに伴い高齢者とのコミュニケーションの重要性が高まっている。近年のディープラーニング技術の進化により音声認識システムの音声認識性能は大幅な向上を見せているものの、高齢者音声に対する音声認識精度については、青年層や壮年層に対する音声認識精度と比較するとより低いという現実がある。本研究は、高齢者音声認識精度を高めることを目標とし、音声認識結果から発話予測を行うシステムを開発する。Word2vecモデルを使い、音声認識の結果、平仮名などの組み合わせから、音声認識結果に基づく発話予測を行う。

(12) 説得対話システムにおける感情表現を反映させた応答生成モデルの構築

浅井 沙良 (奈良先端科学技術大学院大学), 品川 政太朗 (奈良先端科学技術大学院大学), 吉野 幸一郎 (奈良先端科学技術大学院大学), サクリアニ サクティ (奈良先端科学技術大学院大学), 中村 哲 (奈良先端科学技術大学院大学)

感情表現が説得成功率の向上に寄与することが知られており、感情表現を用いた説得対話システムの研究が行われていた。こうした説得を目的とするシステムは、説得のために最適化された感情状態と文脈に応じた自然な発話を行う必要がある。条件付き文生成の研究では、条件ラベルを言語モデル、デコーダに入力することが行われてきたが、与えた条件が必ずしも反映されないという問題があった。この問題に対して本研究では、文生成を行う際のデコーダで入力された感情ラベルを予測することで、指定された感情状態を反映させた応答文を生成する手法を提案した。

[13:00-14:30] 翻訳(3件)
(13) ニューラル機械翻訳に対する注意言語モデル

黒澤 道希 (首都大学東京), 小町 守 (首都大学東京)

機械翻訳はニューラルネットワークの活用により,流暢性の高い出力を得られることが報告された.近年ではさらなる流暢性の向上が行われており,その一つに言語モデルを用いた研究がある.
言語モデルを用いる先行研究においては,翻訳機構と言語モデル機構の2つを用意し双方の情報を用いており,予測を同尺度もしくは動的に重み付けして出力単語を予測するものや言語モデルの予測に翻訳機構の情報を与えるものがある.しかしながら,機械翻訳においては流暢性の向上だけではなく,妥当性を担保することも求められる.つまり翻訳機構の情報を活用し言語モデル機構の情報を補助的に用いるべきであるが,先行研究においては双方の情報を両方用いて出力単語を予測している.
そこで本研究では翻訳機構(TM)と言語モデル機構(LM)の2つを用意するが,翻訳機構の予測の補助的要素として言語モデル機構の予測に対してアテンションを取ることにより,妥当性を保持した上で出力を流暢にするモデルを提案する.英日翻訳において言語モデル機構を用いた翻訳の先行研究と比較した結果,BLEUスコアとRIBESスコアが向上することを示した.この結果より,英日ニューラル機械翻訳に対しても言語モデル機構を追加することが有用であり,その中でもアテンションが効果的であることを示した.また,言語モデル機構の予測に対するアテンションと実際の出力を分析することにより,言語モデルが文法的性質を用いて予測を補助するために有用な情報である可能性が高いことを合わせて報告する.

(14) 逆翻訳によるデータ拡張に基づく文脈考慮型ニューラル機械翻訳

杉山 普 (東京大学), 吉永 直樹 (東京大学生産技術研究所)

会話や講演など省略表現の多いドメインや、日英のように言語的に距離の遠い言語対の翻訳では、代名詞のゼロ照応や多義語など原言語では曖昧な情報を目的言語においては詳細化する必要がある場合が多く、文を超えた文脈の考慮が必要となる場合が多い。そのため訳したい文の前後の文を追加情報として参照しながら翻訳する文脈考慮型の翻訳モデルが研究されている。しかし対訳データ作成時の翻訳コストの高さもあり、現状では高精度のモデルの学習に必要な大規模な対訳コーパスが利用できない状況にある。そこで本研究では大量の目的言語の単言語コーパスを逆翻訳することで疑似対訳データを作成し、これを利用して文脈考慮型ニューラル翻訳モデルの学習をする。実験ではIWSLT2017コーパスを対訳コーパス、BookCorpusを目的言語の単言語コーパスとして提案手法の学習と評価を行い、その有効性を検証した。

(15) 授業アーカイブの翻訳字幕自動作成システムの試作

須藤 克仁 (奈良先端科学技術大学院大学), 林 輝昭 (奈良先端科学技術大学院大学), 西村 優汰 (奈良先端科学技術大学院大学), 中村 哲 (奈良先端科学技術大学院大学)

大学・大学院の国際化に伴い英語での授業は増加しているが,依然として多くの授業は日本語でのみ開講されており,日本語を解さない学生が受講できない授業が多く存在するのが実情である.この問題に対応すべく,我々は日本語で行われる授業の音声認識と日英機械翻訳によって録画された授業映像に付与する英語の字幕を自動作成するシステムの開発を行っている.本稿では本開発プロジェクトで構築しているコーパス,システムの構成および要素技術,試作システムにおける予備実験の結果を報告し,今後の展望について述べる.

[14:45-15:45] 分散表現(2件)
(16) BERT による単語埋め込み表現列を用いた文書分類

田中 裕隆 (茨城大学工学部情報工学科), 曹 鋭 (茨城大学大学院理工学研究科情報工学専攻), 白 静 (茨城大学大学院理工学研究科情報工学専攻), 馬 ブン (茨城大学大学院理工学研究科情報工学専攻), 新納 浩幸 (茨城大学大学院理工学研究科情報科学領域)

BERT は双方向 Transformer の Encoder 部分を利用した事前学習モデルであり、入力文あるいは入力文対を、単語埋め込み表現列に変換する。現在、BERT を利用することで、各種の自然言語処理システムの性能が大きく向上しているが、実際のタスクに対して、BERT をどのように利用するかは個々のタスクに応じて考える必要がある。文書分類の場合、特殊 Token である [CLS] の埋め込み表現を文書の特徴ベクトルとして扱い、事前学習モデルを含めた分類器のモデル全体を Fine-Tuning する方法が標準的であるが、ここでは文書に対してBERT が出力する単語埋め込み表現列の平均ベクトルと bag of words モデルによる特徴ベクトルのそれぞれを正規化した後に、それらを連結したベクトルを作成し、それを文書の特徴ベクトルとする手法を試みる。

(17) BERT の下位階層の単語埋め込み表現列を用いた感情分析の教師なし領域適応

白 静 (茨城大学大学院理工学研究科情報工学専攻), 田中 裕隆 (茨城大学工学部情報工学科), 曹 鋭 (茨城大学大学院理工学研究科情報工学専攻), 馬 ブン (茨城大学大学院理工学研究科情報工学専攻), 新納 浩幸 (茨城大学大学院理工学研究科情報科学領域)

BERT は Transformer で利用される Multi-head attention を 12層(あるいは24層)積み重ねたモデルである。各層の Multi-head attention は、基本的に、入力単語列に対応する単語埋め込み表現列を出力しているが、BERT を feature-based で利用する場合、各タスクで利用されるのは最上位層の単語埋め込み表現列である。一方、領域適応ではソース領域とターゲット領域の共通部分空間に各領域のデータを写影する手法が有力である。BERT の出力する単語埋め込み表現列から共通部分空間上の特徴ベクトルを構成することを考えた場合、最上位の層は BERT の学習で利用したタスクに依存した形になるため、下位層の単語埋め込み表現列の方が領域適応に対しては適していると考えられる。ここでは、この点を確認するために行った感情分析の領域適応の実験を報告する。

=============================
●研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行いません.また,特許出願の公知日(研究報告の公開日)が従来より1週間早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開します.当日は資料をプリントアウトしてご持参いただくか,ご自身のPCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,本研究会の資料をバックナンバーも含めて電子図書館で購読できます.登録されていない方は,是非この機会に研究会に登録してください(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

●研究会幹事団
主査:
 関根聡  (理化学研究所)
幹事:
 木村泰知 (小樽商科大学)
 笹野遼平 (名古屋大学)
 進藤裕之 (奈良先端科学技術大学院大学)
 中澤敏明 (東京大学)
 西川仁  (東京工業大学)
 桝井文人 (北見工業大学)
 横野光  (株式会社富士通研究所)
運営委員:
 内海慶  (株式会社デンソーアイティーラボラトリ)
 内田ゆず (北海学園大学)
 江原遥  (静岡理工科大学)
 大内啓樹 (理化学研究所/東北大学)
 亀甲博貴 (京都大学)
 小林暁雄 (理化学研究所)
 斉藤いつみ(日本電信電話株式会社)
 佐々木稔 (茨城大学)
 貞光九月 (フューチャー株式会社)
 佐藤敏紀 (LINE株式会社)
 須藤克仁 (奈良先端科学技術大学院大学)
 土田正明 (株式会社コトバデザイン)
 成松宏美 (日本電信電話株式会社)
 西田京介 (日本電信電話株式会社)
 羽鳥潤  (株式会社 Preferred Networks)
 牧野拓哉 (株式会社富士通研究所)
 増村亮  (日本電信電話株式会社)
 馬緤美穂 (ヤフー株式会社)
 松林優一郎(東北大学)
 三輪誠  (豊田工業大学)
 森田一  (株式会社富士通研究所)
 谷中瞳  (理化学研究所)
 吉川克正 (株式会社コトバデザイン)