情報処理学会 第250回自然言語処理研究会 参加募集

●日程: 2021年9月28日(火) 9:55-16:00 (1日のみの開催に変更しました)
●会場: オンライン(Zoom)

●参加申し込み(9/20頃の開始予定です):
参加を希望される方は情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いいたします(当日でも申込可能).
非会員の方もマイページを開設してお申し込みください.

参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.
参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページより参加申込をしてくださいますようお願いいたします.

学会サイトの「イベントに参加申込される方へ」もご参照ください.
https://www.ipsj.or.jp/member/event_moshikomi.html

●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:1,500円
情報処理学会学生会員:500円
情報処理学会非会員(一般):2,500円
情報処理学会非会員(学生):2,500円

●問い合わせ先:
横野光(明星大学) hikaru.yokono -at- meisei-u.ac.jp

===================================
プログラム
(◎は若手奨励賞対象,○は発表者)

9月28日(火)
[9:55-10:00] オープニング
[10:00-11:30] 言語分析・評価
[11:30-13:00] 昼休み
[13:00-14:30] 言語モデル
[14:45-15:45] 生成
[15:45-16:00] クロージング

9月28日(火)
[10:00-11:30] 言語分析・評価
(1) 日本語、英語、韓国語の歌に見られる比喩表現の特徴
戸部 夏乃, ○西口 純代(小樽商科大学)

Apple Musicでトレンドになっている曲を中心に聴いて、比喩表現を見つけられた曲の中から日本語、韓国語、英語各50曲を抜粋し、歌詞の中の比喩表現をいくつかまとめた。比喩表現の分け方として、直喩、隠喩、擬人法、また知識を要するものの4つに分けた。日本語においては、(~みたい、~のようだ)韓国語は(마치~같아, 처럼)英語では、(~like)といった表現がついているものを直喩として判断した。また知識においては、“life is a journey”のようなformula(方式)を含んでいる。3言語を通じて隠喩が一番多いが、韓国語と日本語のそれぞれの割合は大体同じになっている。英語においては2言語より、隠喩の割合が高く、擬人法と直喩の割合が少ない。日本語では英語韓国語と異なり、君、僕といった(人)を比喩する言葉が少ない。韓国語では春夏秋冬、天気、朝、夜、身体、過去、現在、未来、時間といった多くの人が理解できるであろう共通の単語が比喩表現として多く出てきているように思われる。

(2) 精神疾患の診断補助のための自伝的記憶の詳細度による分類
◎○大柳 慶悟, 武田 浩一, 笹野 遼平(名古屋大学), ハルフォード デイビッド(ディーキン大学), 高野 慶輔(ルートヴィヒ・マクシミリアン大学ミュンヘン)

自伝的記憶 (Autobiographical Memory) とは,過去に自身が体験したことについての記述である.自伝的記憶の分析は,アイデンティティ形成支援,コミュニケーションの補助からブランド構築などさまざまな分野で利用されている.特に抑うつ等の精神疾患がある人はこれを詳細に記述することが難しいことが知られており,このような特徴から Autobiographical Memory Test (AMT) を行うことで自伝的記憶を記述させ,詳細度によって分類することで精神疾患の診断の補助とすることができる.本研究は診断の補助・自伝的記憶の分析に利用することを目的とし,この自伝的記憶を詳細度によって自動的に分類する.10000件の自伝的記憶の記述を用いた実験を通して,BERT等の言語モデルを用いることで先行研究を大きく上回る分類精度を達成できることを示す.また,モデルの出力から判断が難しい記述の特徴を調査し,自伝的記憶の詳細度の望ましい分類基準について考察する.%詳細度のより明確な定義について考察する.

(3) 抽出型複数文書要約における文順序を考慮した評価
◎○藤田 正悟, 上垣外 英剛, 船越 孝太郎, 奥村 学(東京工業大学)

抽出型要約は元の文書において重要度が高い文を抽出し要約として再構成する手法であり広く使われている.その一方,この方法では複数文書を横断して重要文を抽出し要約を構成する際に,抽出された文の順序が適切ではない場合がある.解決策として既存の文並び替えモデルを使って文並び替えを行うことが考えられるが,抽出型要約に適した文並び替えの教師データが存在せず,尚且つ抽出型要約において並び替えを考慮した評価尺度が存在しないという問題がある.そこで我々は抽出型要約に適した文並び替えの教師データの作成手法と抽出型要約を並び替える場合の評価指標を提案する.いくつかのベースラインと比較した結果,我々の評価指標は特に一貫性において人手評価と高い相関を示した.

[11:30-13:00] 昼休み

[13:00-14:30] 言語モデル
(4) 複数のBERTモデルを利用したData Augmentation
◎○高萩 恭介, 新納 浩幸(茨城大学)

自然言語処理の分野における簡易なData Augmentationの手法として,文中の単語をその類義語に置き換えるというものがある.しかし,BERTのような事前学習済みモデルを利用する場合にこの手法を用いても,効果が期待できない.なぜなら,類義語の知識がBERTに既に組み込まれていると考えられるからである.ここでは,タスク処理に利用するBERTとは異なるBERTのMasked Language Modelを利用して類義語を得ることを提案する.この場合,タスク処理用のBERTに組み込まれていない類義語の知識を利用できるために,Data Augmentationの効果が期待できる.実験では,livedoorニュースコーパスを利用した文書分類タスクに対して,提案手法によるData Augmentationを試み,その有効性を示した.

(5) ハンドメイド作品を扱うECサイトに特化したBERTを用いた言語モデル構築に向けた取り組み
◎○酒井 敏彦(GMO ペパボ株式会社/九州大学), 三宅 悠介, 栗林 健太郎(GMO ペパボ株式会社)

自然言語処理の技術は,ECサイトで扱うテキストデータを対象とする,質問応答や商品の分類などのタスクに活用されている.ハンドメイド作品を扱うECサイトにおける自然言語処理の課題は(1) 人手でタスクを解くのは困難,(2) ハンドメイド作品を扱うECサイトの作品が多様, (3) ハンドメイド作品を扱うECサイトの構造的な変化への追従が困難,の3つが挙げられる.本研究では,各課題に対して(1)機械的にタスクを解くことができる,(2)扱う作品が多様であっても作品の特徴を捉えられる,(3)汎用的なモデルからfine-tuningすることで構造的な変化へ追従可能,という理由からBERT+fine-tuningのモデルに着眼した.本報告では,ハンドメイド作品を扱うECサイトの課題を含むタスクのうち,商品分類のタスクにおいて,比較評価を行った.ベースライン手法は従来から一般的に用いられるTF-IDFと分類器を用いた.結果として,上記の課題を解決し,BERT+fine-tuningのモデルがF1-scoreで良い分類性能であることを示した.今後は他のタスクへの応用を検討していく.

(6) Masked Language Modelを用いたReplaced Token Detection型事前学習の汎化性の改善検討
○麻岡 正洋, 坂井 靖文, 笠置 明彦, 田原 司睦(富士通株式会社)

小規模 Masked Language Model (MLM) のGeneratorによる入力の類似文生成と、Generatorが書き換えた場所を推定(Replaced Token Detection, RTD)するDiscriminatorを組み合わせたELECTRAが提案されており、BERTなどの既存手法に比べて同程度の精度を高速に学習できることが報告されている。しかし、我々は日本語ベンチマークにおいてELECTRAの精度が頭打ちになるという事象を観測した。この原因として、RTDが入力を書き換えたか書き換えていないかの2択問題という簡単な問題を解いており、汎化性が低くなるからではないかという仮説を立てた。そこで、我々は回答候補の多いMLMをRTD学習に混ぜることで汎化性を高くすることを試みた。具体的にはGeneratorが書き換えた文に再度マスクをして、Discriminatorにマスクをした箇所はMLMとして、マスクをしていない箇所はRTDとして学習する方法を提案する。この方法によって、RTDの事前学習モデルの精度を向上できるかどうかを検証した。

[14:45-15:45] 生成
(7) 主題性にもとづく雑談対話システムの構築
◎○吉越 卓見, 児玉 貴志(京都大学), 坂田 亘(LINE株式会社), 田中 リベカ(お茶の水女子大学), 黒橋 禎夫, 新 隼人(京都大学)

人間の対話は、文脈中に出現した語句のうち、その場において最も意識の向いた話題に沿って展開される。本研究では、各語句に向けられる意識の度合いを主題性と呼ぶ。既存の雑談対話システムは、文脈は考慮するが、話題は意識することなく応答を生成する。そのため、話題に沿わない応答をしてしまうことが少なくない。本研究では、主題性の最も高い語句にもとづいて応答を生成することで雑談対話システムが話題に沿った自然な応答をすることを目的とする。この対話システムは、文脈中の主題性の最も大きい語句を推定する主題性推定モジュールと、与えられた語句にもとづいて応答を生成する応答生成モジュールからなる。主題性推定モジュールは、対話データにもとづいた自己教師あり学習により各語句の主題性を定量化し、主題性の最も高い語句を選択する。応答生成モジュールは、与えられた語句が応答に含まれるように生成モデルを学習することで実現する。人手評価により、主題性を考慮した対話システムは、主題性を考慮しないときより自然な応答をすることが確認された。

(8) レーシングゲーム実況生成
○石垣 達也, トピチ ゴラン(産業技術総合研究所),濵園 侑美(産業技術総合研究所/お茶の水女子大学), 能地 宏(産業技術総合研究所/LeapMind), 小林 一郎(産業技術総合研究所/お茶の水女子大学), 宮尾 祐介(産業技術総合研究所/東京大学), 高村 大也(産業技術総合研究所)

本稿では、新たな言語生成タスクとして、レーシングゲーム実況テキスト生成を提案する。このタスクでは、視覚情報としてレーシングゲームの録画映像、言語データとして実況発話、構造化データとして速度、ハンドル角度といった数値データを入力として扱い、視聴者が映像を視聴しながら、レースをより理解し、楽しむための実況テキストを生成する。既存の言語生成研究においては、データセットの欠如が一因となり映像、言語、構造化データといった複数モダリティを同時に考慮する研究が存在しない。実況生成では特に「どのタイミングで発話するか」「何を発話するか」を最低限決定する必要があるが、例えば野球を対象とした既存研究においてはイニングの間に実況を行うなど、発話タイミングがあらかじめ与えられる設定を扱っている。このような背景から、本研究ではまず、映像、構造化データとそれらに対応する実況テキストが対になった大規模データセットを作成し、レース実況の特徴について分析する。分析より、実況テキストの時間および実況者の観る映像の視点の影響を受け、その言語的な特徴が変化することが分かった。次に、実況生成タスクをタイミング同定と発話生成の2つの部分問題に分割しいくつかのモデルを性能評価した。実験より、構造化データの活用は有益である一方、既存の画像分類タスク等で性能が良いとされる画像エンコーダを用いたとしても、本タスクにおいては視覚情報の効果が限定的であり、実況生成タスクが挑戦的な課題であることが分かった。マルチモーダルな言語生成タスクのためのデータセットとして、本研究で作成したデータセットは公開する。

===================================

★研究会幹事団
主査:
 関根 聡    理化学研究所
幹事:
 内海 慶    株式会社デンソーアイティーラボラトリ
 内田 ゆず   北海学園大学
 木村 泰知   小樽商科大学
 古宮 嘉那子  東京農工大学
 笹野 遼平   名古屋大学
 須藤 克仁   奈良先端科学技術大学院大学
 横野 光    明星大学
 吉野 幸一郎  理化学研究所

運営委員:
 石垣 達也   産業技術総合研究所
 江原 遥    東京学芸大学
 大内 啓樹   奈良先端科学技術大学院大学
 亀甲 博貴   京都大学
 小林 暁雄   農業・食品産業技術総合研究機構
 斉藤 いつみ  日本電信電話株式会社
 佐々木 稔   茨城大学
 渋木 英潔   株式会社BESNA研究所
 田中 リベカ  お茶の水女子大学
 田村 晃裕   同志社大学
 成松 宏美   日本電信電話株式会社
 西田 京介   日本電信電話株式会社
 羽鳥 潤    株式会社 Preferred Networks
 増村 亮    日本電信電話株式会社
 松林 優一郎  東北大学
 馬緤 美穂   ヤフー株式会社
 水本 智也   フューチャー株式会社
 三輪 誠    豊田工業大学
 森田 一    富士通株式会社
 谷中 瞳    東京大学
 吉川 克正   東京海上ホールディングス株式会社
 吉永 直樹   東京大学 生産技術研究所
 鷲尾 光樹   東京大学

情報処理学会 第250回自然言語処理研究会 発表募集

情報処理学会 第250回自然言語処理研究会 発表募集
https://nl-ipsj.or.jp

●日程: 2021年9月27日(月),9月28日(火)

●会場: オンライン (ビデオ会議システムとしてZoomを利用予定)
※オンライン発表でも大勢の聴講者から有益なコメントが得られます.
皆様の投稿をおまちしています.

●発表申込締切: 2021年8月27日(金)
●原稿締切: 2021年9月3日(金) ※厳守

●原稿ページ数:2ページ以上
電子化にともないページ数に上限はありません.
※ ただし20ページを越える場合は事前にご連絡ください.

●発表時間予定: 一般講演形式 1件30分 (発表20分、質疑10分)

※ 発表時間の調整について
従来の一般講演形式(発表20分,質疑10分)に加えてショート形式(発表10分,
質疑10分),討議形式(発表10分,質疑討論20分)など,発表者からの要望に
応じて発表の合計時間を調整します.
アイデアレベルの研究の紹介や,研究の詳細まで話したいので時間がほしい,
などの要求を発表申込の備考欄にご記入いただければ,それらを考慮して
プログラムを作成します.ぜひご活用ください.

●優秀研究賞
研究会に投稿された予稿の中から特に優れたものを優秀研究賞として表彰
する予定です.

●若手奨励賞
年度開始時点(4月1日)で30歳未満,あるいは学生(社会人博士含む)の方を
対象として,研究会参加者の投票によって選考します.

●発表申込先: 下記専用サイトよりお申込みください.
https://ipsj1.i-product.biz/ipsjsig/NL/
(研究会ホームページからもアクセスできます)

●問い合わせ先:
内海慶(デンソーアイティーラボラトリ)
E-mail: uchiumi.kei (at) core.d-itlab.co.jp

●今後の予定
第251回研究会 2021年12月頃予定

★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行い
ません.また,特許出願の公知日(研究報告の公開日)が従来より1週間
早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日閲覧用サイトにアクセスできるようにいたします.
なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合,次回の研究会にまわって頂くよう
お願いする場合があります.なるべく早めにお申し込み下さい.

★締め切り後の発表キャンセルは原則としてできません
発表申し込み後にキャンセルの必要が生じた場合は,至急ご連絡ください.
発表申込後,原稿提出締め切りまでに原稿が到着しない場合には,幹事団の
判断により発表を取り消しさせていただくこともあります.

★論文提出締切後の原稿差し替えはできません
論文提出締切後は,訂正版のアップロードやウェブ上での配布などの原稿
差し替えは一切できませんので,予めご留意ください.
※正誤表の掲載が可能な場合がありますのでご相談ください.

★研究会幹事団
主査:
 関根 聡    理化学研究所
幹事:
 内海 慶    株式会社デンソーアイティーラボラトリ
 内田 ゆず   北海学園大学
 木村 泰知   小樽商科大学
 古宮 嘉那子  東京農工大学
 笹野 遼平   名古屋大学
 須藤 克仁   奈良先端科学技術大学院大学
 横野 光    富士通株式会社
 吉野 幸一郎  理化学研究所

運営委員:
 石垣 達也   産業技術総合研究所
 江原 遥    東京学芸大学
 大内 啓樹   奈良先端科学技術大学院大学
 亀甲 博貴   京都大学
 小林 暁雄   農業・食品産業技術総合研究機構
 斉藤 いつみ  日本電信電話株式会社
 佐々木 稔   茨城大学
 渋木 英潔   株式会社BESNA研究所
 田中 リベカ  お茶の水女子大学
 田村 晃裕   同志社大学
 成松 宏美   日本電信電話株式会社
 西田 京介   日本電信電話株式会社
 羽鳥 潤    株式会社 Preferred Networks
 増村 亮    日本電信電話株式会社
 松林 優一郎  東北大学
 馬緤 美穂   ヤフー株式会社
 水本 智也   フューチャー株式会社
 三輪 誠    豊田工業大学
 森田 一    富士通株式会社
 谷中 瞳    東京大学
 吉川 克正   東京海上ホールディングス株式会社
 吉永 直樹   東京大学 生産技術研究所
 鷲尾 光樹   東京大学

情報処理学会 第249回自然言語処理研究会 参加募集

情報処理学会 第249回自然言語処理研究会 参加募集

●日時: 2021年7月27日(火),28日(水)
●会場: オンライン (Zoom, 12:50頃~) 
  *質疑応答にDoryというツールを利用します。

●参加申込:

参加を希望される方は情報処理学会マイページから参加申込をお願いいたします(当日でも申込可能).非会員の方もマイページを開設してお申し込みください.参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページより参加申込をしてくださいますようお願いいたします.

※ 参加申込を7/14から開始いたしました。

情報処理学会個人会員 / 準登録(個人)の方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg3  (マイページの、会員メニューの「イベント一覧・申し込み」に第249回のNL研がございますので、それを選べば参加申し込みができるようになっているはずです。)  
情報処理学会へ入会し,会員価格で参加したい方   
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg1
非会員のまま参加したい方※賛助会員としてお申込みの方もこちらからご登録お願いします。
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg2

●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:1,500円
情報処理学会学生会員:500円
情報処理学会非会員(一般):2,500円
情報処理学会非会員(学生):2,500円

●懇親会:
 7/27(火曜)18:00より、オンラインで行う予定です。Gatherを利用する予定です。
 研究会登録の返信メールに記載されている、一日目の質疑応答用サイトに、当日、懇親会会場のURLを記載します。
 研究会ともども、ふるってご参加ください。

●問い合わせ先:
古宮嘉那子(東京農工大, kkomiya(at)go.tuat.ac.jp)

===============================
プログラム

1日目 7月27日(火)
[13:00 – 13:05] オープニング
[13:05 – 14:35] 深層学習の根拠・性能調査 (3件)
[14:35 – 14:55] 休憩
[14:55 – 17:05] 深層学習1 (4件)
[17:05 – 17:10] 中締めのあいさつ
[18:00 – ] 懇親会

2日目 7月28日(水)
[10:30 – 12:30] 機械学習・データ構築 (4件)
[12:30 – 13:30] 昼食休憩
[13:30 – 14:30] 招待講演 
[14:30 – 14:50] 休憩
[14:50 – 15:50] 深層学習2 (2件)
[15:50 – 16:05] 表彰式・クロージング

1日目 7月27日(火)

[13:05 – 14:35] 深層学習の根拠・性能調査 (3件)
(1) 深層学習による文書の話題分類の判断根拠に提示に関する一考察

〇 為栗 敦生, 中村 鴻介, 高橋 良颯, 山口 実靖 (工学院大学)

深層学習は文書分類等の自然言語処理にて活用され,Self-Attentionなどが大きな成果をあげている.一方で深層学習による分類は,分類精度は高いがその判断根拠を人間が理解することが困難であるとの指摘がされている.本稿では,テーマが定められたニュース記事群のテーマによる分類のタスクに着目し,深層学習による分類の判断根拠の提示手法について考察する.具体的には,LSTM Attentionにより記事分類を行い,高い精度で分類をできることを示す.そして,Attention値や既存の判断根拠提示手法Smooth-gradに着目し,自然言語記事分類の判断根拠提示手法について考察する.そして,これらに着目することにより判断根拠を提示できることを示す.

(2) 大規模言語モデルの語彙的関係知識推定における日英間の比較調査
   
〇 阿部 香央莉, 北山 晃太郎 (東北大学), 松田 耕史 (理化学研究所), 吉川 将司 (東北大学), 乾 健太郎 (東北大学/理化学研究所)

近年各種タスクで最高性能を発揮している大規模言語モデル(LM)に対して、その内部にどのような語彙知識(上位下位・反義など)が蓄えられているかを調査する研究が盛んに行われている。しかし、これらの研究では基本的に英語を対象にした結果が報告されていることが多い。そこで、本研究では英語・日本語LM双方における語彙間知識推定の結果を比較し、既存研究で報告されている現象が英語と類型的特徴の大きく異なる日本語において観察されるのか検証する。

(3) 事前学習済み言語モデルにおける否定の理解能力の調査

〇 田代 真生, 上垣外 英剛, 船越 孝太郎 (東京工業大学), 高村 大也 (産業技術総合研究所), 奥村 学 (東京工業大学)

近年,事前学習済み言語モデルは自然言語処理の様々なタスクにおいて性能の大きな向上に貢献している.その一例として,事前学習済み言語モデル内の事実知識が1.大量のラベルなしコーパスから獲得可能である, 2.柔軟な取り出しが可能である という利点をファクトチェックに利用したものや常識推論タスクに利用したものが挙げられる.一方で事前学習済み言語モデルからの事実知識の取り出しにおける課題を指摘する研究も存在しており,その一つに否定の理解能力のなさを指摘したものが挙げられる.事前学習済み言語モデルにおける否定の理解能力に関しては疑問が残っており,KassnerらやEttingerの研究で事前学習済み言語モデルが否定を考慮せずにマスクド言語モデルを解いている可能性が示唆されているのに対し,Talmorらの研究では否定語の予測が可能であり事前学習済み言語モデルが否定を理解している可能性が示された.そこで本研究では,これらの実験条件の違いを考慮し否定が事前学習済み言語モデルの出力に変化を与える条件を探ることで,事前学習済み言語モデルにおける否定の理解において 1.知識の想起が絡むか,2.モデルのパラメータ量や学習データ量 の条件が影響を与えることを確認した.本研究は事前学習済み言語モデルにおける否定の理解に影響を与える条件を調べることで,既存の相反する研究結果に対して一貫した説明を提供しており,否定を理解可能なモデルの将来的な作成を支援すると考えられる.

[14:55 – 17:05] 深層学習1 (4件)
(4) 複数の補助教師データセットを用いた固有表現抽出の学習手法

〇 市川 智也 (同志社大学), 渡邊 大貴 (富士通株式会社), 田村 晃裕 (同志社大学), 岩倉 友哉 , 馬 春鵬 (富士通株式会社), 加藤 恒夫 (同志社大学)

化学分野の固有表現抽出(NER)は,化学分野のデータ解析を行う上で重要であり,近年は,ニューラルネットワークに基づくモデルが盛んに研究されている.その中で,NER対象の教師データに加えて,別の教師データを補助データとして学習時に用いるマルチタスク学習により,NERモデルの性能が改善することが報告されている.しかし,従来研究では補助データとして1種類の教師データしか用いていない.そこで本研究では,7種類の化学/科学技術分野のNERデータセットを補助データとして活用する固有表現抽出の学習手法を検討する.具体的には,補助データ毎にメインモデルの再学習を順次行う方法と,エポック毎に補助データとして使用する教師データの種類を変える方法の2種類の学習手法を提案する.実験の結果,提案手法は従来手法に比べて,F値が向上することを確認した.

(5) 文位置を考慮した国会会議録の要約

〇 有田 智也, 松井 くにお (金沢工業大学)

政党のマニフェストと政治家の発言に齟齬がないかを確かめるためには,議会での発言を確認する必要がある.議会での発言は会議録として一般に公開されているが,文章量が多く読みづらいという問題がある.そこで本研究では, 1文から12文でなりたっている議員の質問への回答文を文ベクトルに変換し,文ベクトルに文位置の情報を加算することで得られた,文位置情報が考慮された文ベクトルをニューラルネットワークで学習し,抽出型要約を作成するモデルを提案する.提案手法を評価するために,議員の発言を1から3文の場合は1文に,4から5文の場合は2文に,6文上の場合は3文で要約したデータを自作し,ROUGEスコアによる評価を行った.実験の結果文位置情報を付与することで,ROUGE-1において0.39から0.42に,ROUGE-2において0.26から0.29に,ROUGE-lにおいて0.28から0.30に改善された.

(6) BERTを用いたweb文書からの用語検索

〇 池内 省吾 (龍谷大学), 南條 浩輝 (京都大学), 馬 青 (龍谷大学)

具体的な事物や概念などについての説明テキストから,それを表す語(用語)を見つけだす用語検索について述べる.説明テキストに関連するWebページを取得し,質問応答などで用いられるBERTに基づいてwebページ中からの用語検索を行う方法について述べる.

(7) 日本語 SentenceBERT の構築とその評価

〇 芝山 直希 (茨城大学), 新納 浩幸 (茨城大学)

我々は日本語 SentenceBERT の構築を行っている。京都大学で公開されている含意関係認識のデータセット JSNLI と 6種類の日本語 BERT(京大版 BERT、Stockmark 社版 BERT、SentencePiece 版 BERT、東北大版 BERT、NICT 版 BERT、Laboro 社版 BERT)を用いて、6つの SentenceBERT を構築した。またそれらを独自の評価法(クラス内分散とクラス間分散の比を用いた評価と k-NN による文の感情分析による評価)により評価した。結果、東北大版 BERT から構築した SentenceBERT とNICT 版 BERT から構築した SentenceBERT が同程度に性能が高かった。

2日目 7月28日(水)
[10:30 – 12:30] 機械学習・データ構築 (4件)
(8) 事例ベース推論を行うニューラルモデルの説明性とハブ現象の関係

〇佐藤 俊 (東北大), 大内 啓樹 (奈良先端大), 塙 一晃, 佐々木 翔大 (理化学研究所/東北大), 乾 健太郎 (東北大/理化学研究所)

ニューラルネットワークを用いたモデルによって,画像処理や自然言語処理の各タスクにおける予測性能は飛躍的に向上した.一方で,「モデルがなぜそのような予測をしたのか」を理解することは,人間にとって極めて困難であることが指摘されている. そのような状況で,k 近傍法のような,学習事例との類似度にもとづいて予測を行うモデルは,貢献度の高い学習事例を提示することが容易であり,機械学習の専門知識を持たないユーザにとってもモデルの挙動を直感的に理解可能な場合が少なくない. しかし,k近傍法においては,同じ訓練事例が複数の評価事例の近傍事例として過度に重複して出現する「ハブ」と呼ばれる現象が観測されており,この現象が「事例に基づくモデルの予測の説明」に与える影響は明らかになっていない.本研究では,画像や言語データを用いた分類問題において,ニューラルネットワーク上でのk近傍法における「ハブ」現象が,「事例に基づくモデルの予測の説明」に悪影響を与えることを定量的に示した.

(9) 確率的潜在意味スケーリング

持橋 大地 (統計数理研究所)

テキストをある極性(たとえば右派-左派、肯定-否定など)に従った尺度で連続的に測り、その時間変化を観察したい、という場面は様々な分野で存在する。従来このために、政治学方法論の分野で開発されたLSS(潜在意味スケーリング、Watanabe 2020)という方法がRパッケージと共に世界的に使われてきたが、LSSは古典的なベクトル空間モデルに基づいており、様々なヒューリスティックを含むことや、結果にノイズが非常に大きいという問題があった。これに対し、本研究ではLSSを項目反応理論(IRT)に基づく確率モデルとして捉える、PLSS(確率的潜在意味スケーリング)を提案する。PLSSでは現代的な単語埋め込みを使用することができ、テキストの潜在的な極性はIRTのθとしてモデル化され、適応的なGauss-Hermite積分によって積分消去することでパラメータが計算される。さらに、事前にキーワードから分析の対象となるテキストだけを統計的に抽出するために、背景付きトピックモデルおよび文書ベクトルを用いた確率的な方法を提案する。公開されている Young and Soroka (2012)の尺度データで実験を行い、PLSSがLSSより非常によくテキストの潜在的な尺度を計算できること、およびより分析に適した尺度で単語の極性を計算できることを示す。

(10) 予算項目に関連する議論を対応づけるBudget Argument Mining のデータセット構築

木村 泰知, 永渕 景祐 (小樽商科大学), 乙武 北斗 (福岡大学), 佐々木 稔 (茨城大学)

本稿では,NTCIR16 QA Lab-PoliInfo-3のサブタスクである Budget Argument Mining のデータセット構築について述べる. Budget Argument Miningは,国,あるいは,自治体の予算審議の事項と議会における議論を対応づけることを目的としている.従来のArgument Mining との違いは,単一文書内の議論構造ではなく,複数文書にまたがる議論構造を予算という観点から分析する点にある.特に,構造化されている予算審議の情報と構造化されていない議会会議録の発言文を対象として,予算項目を軸に議論を対応づけることは,新たな取り組みといえる.本タスクでは,予算審議の情報(予算項目,金額,管轄省庁・部局名など)が与えられたときに,議会会議録に含まれる政治家の発言(金額表現を含む発言)と対応づけ,3つの議論ラベル「Claim(主張)」「Premise(根拠)」「その他」を付与する.本稿では,データセット構築に向けた,データ形式の設計,アノテーションの方法,および,結果について述べる.

(11) 間接的な応答と直接的な応答の対からなる対話コーパスの構築

〇 高山 隼矢 (大阪大学), 梶原 智之 (愛媛大学), 荒瀬 由紀 (大阪大学)

人間は対話においてしばしば相手の質問や発話に対して間接的な応答をする.例えば,予約サービスにおいてユーザがオペレータに対して「あまり予算がないのですが」と応答した場合,オペレータはその応答には間接的に「もっと安い店を提示してください」という意図が含まれていると解釈することができる.大規模な対話コーパスを学習したニューラル対話モデルは流暢な応答を生成する能力を持つが,間接的な応答に焦点を当てたコーパスは存在せず,モデルが人間と同様に間接的な応答を扱うことができるかどうかは明らかではない.本研究では既存の対話コーパスである MultiWoZ を拡張し,間接的な応答と直接的な応答のペアからなる7万件規模の対話履歴付きパラレルコーパスを構築した.また,ユーザーからの入力発話を事前により直接的な発話に変換することで対話応答生成の性能が向上することを確認した.

[13:30 – 14:30] 招待講演 (1件)
(12) 実世界における対話システム
吉野 幸一郎 (理化学研究所)
近年の深層学習技術などの進展から、ヒューマンインタフェースとして言語を用いる対話システムへの期待が高まっている。こうした対話システムを実世界で用いようとする場合、実世界の事物を認識して対話の共通基盤として用いることができるかが大きな問題となる。具体的には、ユーザと同じ空間で動作をすることが期待される対話ロボットなどの場合、実世界における事物の認識と、ロボットが持つ知識、対話中の言語で表現された概念のそれぞれを対応づけて用いる必要がある。本講演ではこうした実世界で動作する対話ロボットの取り組みについて紹介し、今後必要な研究の取り組みについて議論する。

[14:50 – 15:50] 深層学習2 (2件)
(13)特許ドメイン特化型BERTによるSDGs関連特許技術の「見える化」

前原 義明, 久々宇 篤志, 長部 喜幸 (日本特許情報機構)

特許文献で事前学習を行ったBERTと、独自収集したSDGs関連特許のコーパスで、特許文献の技術が該当するSDGsを判定する分類器を訓練した。また、訓練したBERTモデルで、2020年に公開された日本国公開特許公報のマクロ解析を行い、我が国におけるSDGs関連特許技術の「見える化」を行った。

(14)令和2年度特許出願技術動向調査 -機械翻訳-

齊藤 貴孝 (特許庁)

「もう英語学習は要らなくなるかもしれない」そうした記事を見かけるようになった。その背景としては、ニューラルネットワーク技術を活用した、ニューラル機械翻訳と呼ばれる方式が2014年に登場し、その後、性能が格段に向上したことが挙げられる。本調査では、この2014年を挟む期間における機械翻訳に関する特許出願技術動向を調査し、国内外の技術動向、日本及び外国の技術競争力の状況と今後の展望を明らかにすることを目的として、本技術に関する特許や研究開発論文などの解析を行い、今後、取り組むべき課題や方向性について提言を行った。

===============================

●研究会幹事団

主査:
 関根 聡     理化学研究所
幹事:
 内海 慶     株式会社デンソーアイティーラボラトリ
 内田 ゆず    北海学園大学
 木村 泰知    小樽商科大学
 古宮 嘉那子   東京農工大学
 笹野 遼平    名古屋大学
 須藤 克仁    奈良先端科学技術大学院大学
 横野 光     富士通株式会社
 吉野 幸一郎    理化学研究所

運営委員:
 石垣 達也     産業技術総合研究所
 江原 遥      東京学芸大学
 大内 啓樹     奈良先端科学技術大学院大学
 亀甲 博貴     京都大学
 小林 暁雄     農業・食品産業技術総合研究機構
 斉藤 いつみ    日本電信電話株式会社
 佐々木 稔     茨城大学
 渋木 英潔     株式会社BESNA研究所
 田中 リベカ    お茶の水女子大学
 田村 晃裕     同志社大学
 成松 宏美     日本電信電話株式会社
 西田 京介     日本電信電話株式会社
 羽鳥 潤      株式会社 Preferred Networks
 増村 亮      日本電信電話株式会社
 松林 優一郎    東北大学
 馬緤 美穂     ヤフー株式会社
 水本 智也     フューチャー株式会社
 三輪 誠      豊田工業大学
 森田 一      富士通株式会社
 谷中 瞳      東京大学
 吉川 克正     東京海上ホールディングス株式会社
 吉永 直樹     東京大学 生産技術研究所
 鷲尾 光樹    東京大学