●日程: 2022年6月29日(水) 9:55-18:00 (1日のみの開催に変更しました)
●会場: オンライン(Zoom)
●参加申し込み:
参加を希望される方は情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いいたします(当日でも申込可能).
非会員の方もマイページを開設してお申し込みください.
参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.
参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページより参加申込をしてくださいますようお願いいたします.
学会サイトの「イベントに参加申込される方へ」もご参照ください.
https://www.ipsj.or.jp/member/event_moshikomi.html
情報処理学会個人会員 / 準登録(個人)の方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg3 (マイページの、会員メニューの「イベント一覧・申し込み」に第252回のNL研がございますので、それを選べば参加申し込みができるようになっているはずです。)
情報処理学会へ入会し,会員価格で参加したい方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg1
非会員のまま参加したい方※賛助会員としてお申込みの方もこちらからご登録お願いします。
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg2
●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:1,500円
情報処理学会学生会員:500円
情報処理学会非会員(一般):2,500円
情報処理学会非会員(学生):2,500円
●問い合わせ先:
内田ゆず(北海学園大学)
E-mail: yuzu[AT]hgu.jp
===================================
プログラム
6月29日(水)
[09:55-10:00] オープニング
[10:00-12:00] 深層学習の根拠・性能調査(4件)
[12:00-13:00] 昼休み
[13:00-15:00] 言語分析・評価(4件)
[15:15-17:45] 対話(5件)
[17:45-18:00] 表彰式・クロージング
————————————————————-
※若手奨励賞の対象者には著者名の前に「○」を付けています.
[10:00-12:00] 深層学習の根拠・性能調査(4件)
(1) BERTによる日本文学作品の著者分類とその分類根拠の分析
○中村 梓甫, 染谷 大河, 原田 宥都(東京大学), 持橋 大地(統計数理研究所), 大関 洋平(東京大学)
本研究では文書分類タスクを解いたBERTのAttentionを可視化することで、BERTが何を著者分類の根拠としているか考察を行う。分類には明治から昭和期の日本文学作品を使用し、BERTで著者15人の分類を行った結果、著者予測精度は80%を超えた。BERTが何を根拠としてその著者と判断したのか調べるためAttentionの可視化を行い、強くAttentionが当たっている箇所の傾向を分析した。結果として、読点や機能語が特徴的な群、代名詞が特徴的な群、専門用語や造語などその作品特有の名詞が特徴的な群、など5つの群に分類することができた。
(2) BERTにおける文書分類の判断根拠の提示に関する一考察
○為栗 敦生, 高橋 良颯, 山口 実靖(工学院大学)
深層学習は自然言語処理などの発展に大きな貢献をしているが,深層学習は正しい結論を導き出せるがその判断根拠が分からないブラックボックスであるとの指摘がある.この指摘に対して,判断根拠を提示する研究が取り組まれている.我々は過去に,Self-Attentionに基づく深層学習による文書の話題分類タスクに対して判断根拠を提示する手法を提案し,性能評価によりその有効性を示した.本稿では,当該手法をBERTに適用することにつていて考察する.具体的には,マスク機能を用いた判断根拠の提示に関する考察や,BERTに適用する上での課題について考察を行う.
(3) 対照学習を利用した日本語PromptBERTの構築
○芝山 直希(茨城大学), 古宮 嘉那子(東京農工大学), 新納 浩幸(茨城大学)
文の埋め込み表現は自然言語処理の多くのタスクで必要とされ、従来より様々な構築手法が提案されている。その中で、近年、 PromptBERT という BERT を用いた文の埋め込み表現の構築手法が提案された。これは簡易な手法であるにも関わらず、高い性能を示すが、言語に応じた適切なテンプレートの設計を必要とする。本論文では日本語 PromptBERT のためのテンプレートをいくつか考案し、それらを組み合わせた対照学習から日本語 PromptBERT を構築した。リクルート社が公開している含意関係推論データセット JRTE を用いた実験では、構築した PromptBERT が SentenceBERT や ConSERT よりも良い性能を示した。
(4) BERTを用いた観光地の「雰囲気」を味わえるお菓子の試作
○村上 和隆(山形大学), 本橋 洋介(NEC)
山形の観光地に対するレビューを分析し、その観光地の雰囲気を表現した和菓子を開発した。具体的にはBERTを用いて観光地のレビューの味を予測することで、その観光地の雰囲気を表現した。本稿では、レビューの文章から人間の感じる感覚を味に変換する方法と、それを用いた商品開発の方法、出来上がった商品の評価方法について説明する。
[13:00-15:00] 言語分析・評価(4件)
(5) 自然言語処理においての代名詞特定
○ジョ ジョンウォン, 萩原 威志(新潟大学)
色んな分野でのAI発展において、AIが専門家たちだけではなく一般大衆の生活にまで影響を及ぼすためには使いやすいオペレーションシステムが必要になる。そのOSは最終的には自然言語で人とコミュニケーションをとり、使用者個人に適応したAIになるはずである。そのためには使用者が使う多義的表現も記憶として学習し、認識しなければならない。本研究では多義的意味を持つ代名詞を特定させることで使用者個人に適応した自然言語処理AIの技術向上を目的とする。
(6) 日本語文の文節シャッフルによるData Augmentation
○高萩 恭介, 新納 浩幸(茨城大学)
教師あり学習に用いるData Augmentation(DA)とは,ラベル付きデータに対して,ラベルを変えずにデータに何らかの変換を施し,変換後のデータを拡張データとして訓練データに追加する手法である.DAを適用するデータが文である場合,データ変換時に文の意味が変化してしまうと,拡張データがノイズとなる可能性がある.そのため,変換時に文の意味が変わらないようにする必要がある.本研究では,日本語の場合,係り受け関係が崩れていない限り,文節の順序を変更しても文の意味が変化しないことに着目し,文のデータ変換として文節の係り受け関係を考慮した文節のシャッフルを行うDA手法を提案する.実験ではlivedoorニュースコーパスを用いた文書分類タスクを設定し,提案手法の有効性を示した.また文節の係り受け関係を考慮せずに文節のシャッフルを行う場合との比較、訓練データのサイズと提案手法の効果との関係,及び対照学習への利用に関して考察した.
(7) 文法誤り訂正における訂正難易度の判別可能性
○五藤 巧(奈良先端科学技術大学院大学), 永田 亮(甲南大学/理化学研究所), 三田 雅人(理化学研究所)
文法誤り訂正では幅広い種類の誤りが訂正できるが,その性能評価には課題が残る.具体的には,訂正難易度が異なる誤りを一律に評価しているという課題である.訂正難易度の定量化に関する研究は非常に少ない.そもそも人間の専門家はどの程度訂正難易度を判別できるかも明らかでない.そこで,本研究では,人間の専門家同士で訂正難易度の判別がどの程度一致するかを調査した.加えて,その結果が,機械で判別した訂正難易度とどの程度一致するかも調査した.その結果,人間同士では一致率66.4%,人間と機械では一致率64.5%であることを確認した.更に,両条件において,不一致となる原因を分析した.
(8) 表記ゆれ推定方法の影響を考慮した正解ラベル付けと食材名辞書の作成
但馬 康宏(岡山県立大学)
投稿型のレシピサイトでは数多くのレシピデータが構築される一方,表記の多様性により計算処理による分析の難しさがある.本研究では,栄養価計算のための食材の分類辞書を作成する.作成において手作業で正解ラベルを付与する必要があるが,未分類レシピを効率的に抽出する手法を提案する.さらに,その結果をレシピの出現分布に沿ったランダムな抽出と比較検討する.
[15:15-17:45] 対話(5件)
(9) 大規模言語モデルを用いたリフレーミング表現の自動生成とその評価
○河野 誠也, 湯口 彰重, 吉野 幸一郎(理化学研究所)
リフレーミングとは、ある枠組みで捉えられている物事を枠組みをはずして、違う枠組みで見ることを指す。ネガティブな発言は話し手と聞き手の双方にストレスを与える可能性がある一方で、ネガティブな発言をポジティブにリフレーミングすることで、話し手と聞き手の良好な関係の維持や自己肯定感の向上を期待することができる。このような、ネガティブな発言をポジティブにリフレーミングするような言語的配慮能力は、社会性を備えた対話システムを実現する上で重要である。本研究では、ネガティブな表現をポジティブに言い換えるリフレーミングの事例を、ウェブや書籍など複数の情報源から人手で収集し、大規模言語モデルを用いてネガティブな表現をポジティブに言い換えるリフレーミングの生成モデルの学習とその評価を行った。
(10) フレーズアライメントと文構造に基づくデータ拡張を用いた頑健な自然言語生成
○山本 賢太(京都大学), 河野 誠也(理化学研究所), 河原 達也(京都大学), 吉野 幸一郎(理化学研究所)
自然言語生成タスクは意味表現を入力として対応するテキスト(発話)を生成するタスクで,対話システムにおける重要なタスクのひとつである.近年は,ニューラルネットワークを用いた手法により,自然な言語生成が実現されている.ニューラルネットワークを用いた言語生成は学習データへの依存性が大きく,しばしば与えた意味表現にない情報を生成文に含めてしまう過生成の問題が生じる.そこで,本研究では,言語生成タスクのデータセットから意味表現を削除した学習データのバリエーションを作成するデータ拡張手法により,より頑健な自然言語生成を実現する.具体的には,学習データに含まれる意味表現に対して一部のスロットの削除を行い,この意味表現に対応して学習データ中の文を編集することで,既存の学習データに含まれない意味表現の組み合わせに対応したデータの拡張を行う.この対応取得のため,フレーズアライメントや注意機構の重みを用いる.また,文の編集を行う際にもとの文の構造を考慮する.実験では,提案法により過生成の問題を抑制しつつ,自然性も高い言語生成を行うことができることが確認された.
(11) キャプション及び物体認識ラベルを用いた画像に関連する駄洒落文の選択手法
○浅野 歴, 谷津 元樹, 森田 武史(青山学院大学)
ソーシャルロボットが画像入力より得られる周辺状況に基づいた発話を行う際,駄洒落等のユーモアを付加できれば,ユーザはロボットに対しより高い親近感を持ちうると考えられる.関連研究として,駄洒落を含む画像キャプション生成手法が提案されている.この画像キャプション生成モデルの構築には,画像とその描画内容に即した駄洒落文のペアを集めたデータセットが必要となるが,現在,日本語を対象とした本データセットは公開されておらず,本データセット作成コストが高いという課題がある.そこで,本研究では既存のキャプション生成モデルやオブジェクト検出を用いて画像から重要語を抽出し,駄洒落文を収集したコーパスから画像に合った駄洒落文を選択するためのランキング手法を提案する.MSCOCOデータセットからランダムに選択した10枚の画像に対して提案手法を用いて各画像に合った駄洒落文を選択し,10名の被験者に「駄洒落文が画像に対して適切であるか」を質問し,5段階評価を行った.その結果,評価値の平均は 3.11となり「どちらともいえない」を若干上回る結果が得られた.
(12) 複数人対話の文字起こしデータを用いた話者名推定手法に関する検討
松尾 和哉, 能登 肇, 深山 篤(日本電信電話株式会社)
複数の深層学習モデル(顔認識や音声合成など)から成るヒトデジタルツイン(ヒトDT)を元の人間(フィジカルツイン:PT)らしく振舞わせるためには,PT からしか取得できないデータを収集・意味づけし,そのデータをDT に学習させる必要がある.しかし,一つのモデルを作るためには学習データが大量に必要であり,かつその大量のデータがPT ごとに必要になるため,手動で学習データを作成することは非現実的である.そこで本研究では,この学習データの自動生成を目指す.本稿ではまず,顔画像に名前が付与されたデータを映像データから自動的に作成することを目的とし,複数人の対話を文字起こししたデータから,各話者名を推定する手法を提案する.提案手法では,人名が含まれる発言の内容の解析結果と,当該発言の直前直後のターン・テイキングを応用して,話者名を推定する.提案手法の性能を,2 種類の会話コーパスを用いて定量評価を行った.
(13) Pro/Conスコア評価器に対する推移関係を使用したメタモルフィックテスト
アーノ 有里紗, 岩間 太, 吉田 一星, 吉濱 佐知子(日本アイ・ビー・エム)
情報システムのテストは,通常,システムへの入力値とその入力値に対して期待されるシステムからの出力値(期待値)を事前に準備し,入力値に対してシステムが期待値を出力することを確認することで実施される.しかしながら,ある種のシステムでは入力に対する期待値をあらかじめ定めることが実践的に困難であることが知られており,そのようなシステムの性質をテストするための方法としてメタモルフィックテストが提案されている.機械学習により得られたモデルに依存しているモジュールや,利用コンテキストに強く依存した結果を返すシステムなどがこのようなシステムに該当するが,近年の自然言語処理を利用した一部の処理もその様なシステムであると考えられている.本論文では,自然言語処理タスクとしてstance detectionを取り上げ,文章間の賛成/反対を評価するpro/con評価器が,推移的な一貫性を持つことをテストするためのメタモルフィックテストを考案する.またテスト入力データをニュース記事ストアから機械的に取り出し比較させることで,このテストを自動化するためのテスティングシステムを構築する.構築したシステムを用いてIBM Debaterのpro/con評価器をテストすることで,推移的な一貫性を満たない入出力ペアを発見し,pro/con評価器の精度向上に役立つ訓練データを生成することができた.
===================================
主査:
須藤 克仁 奈良先端科学技術大学院大学
幹事:
内海 慶 株式会社デンソーアイティーラボラトリ
内田 ゆず 北海学園大学
古宮 嘉那子 東京農工大学
萩行 正嗣 株式会社ウェザーニューズ
吉永 直樹 東京大学
吉野 幸一郎 理化学研究所
運営委員:
石垣 達也 産業技術総合研究所
江原 遥 東京学芸大学
大内 啓樹 奈良先端科学技術大学院大学
梶原 智之 愛媛大学
上垣外 英剛 奈良先端科学技術大学院大学
亀甲 博貴 京都大学
栗田 修平 理化学研究所
小林 暁雄 農業・食品産業技術総合研究機構
斉藤 いつみ 日本電信電話株式会社
渋木 英潔 株式会社BESNA研究所
田中 リベカ お茶の水女子大学
田村 晃裕 同志社大学
成松 宏美 日本電信電話株式会社
西田 京介 日本電信電話株式会社
増村 亮 日本電信電話株式会社
馬緤 美穂 ヤフー株式会社
水本 智也 LINE株式会社
三田 雅人 株式会社サイバーエージェント
三輪 誠 豊田工業大学
森田 一 富士通株式会社
谷中 瞳 東京大学
吉川 克正 LINE株式会社
吉川 将司 東北大学
鷲尾 光樹 株式会社リクルート