情報処理学会 第253回自然言語処理研究会 参加募集

情報処理学会 第253回自然言語処理研究会 参加募集

●日程: 2022年9月29日(木) 10:00-17:30, 30日(金) 10:00-17:00
●会場: 現地+オンライン(Zoom)のハイブリッド
現地会場: 〒606-8501 京都府京都市左京区吉田本町
京都大学 総合研究8号館 第1講義室
(キャンパスマップ [59]の建物の1階)
https://www.kyoto-u.ac.jp/ja/access/campus/yoshida/map6r-y

●参加申し込み(全員):
参加を希望される方は情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いいたします(当日でも申込可能).
非会員の方もマイページを開設してお申し込みください.

参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.
参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページからの参加申込が必ず必要です.

学会サイトの「イベントに参加申込される方へ」もご参照ください.
https://www.ipsj.or.jp/member/event_moshikomi.html

情報処理学会個人会員 / 準登録(個人)の方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg3  (マイページの、会員メニューの「イベント一覧・申し込み」に第253回のNL研がございますので、それを選べば参加申し込みができるようになっているはずです。)  
情報処理学会へ入会し,会員価格で参加したい方   
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg1
非会員のまま参加したい方※賛助会員としてお申込みの方もこちらからご登録お願いします。
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg2

●現地参加申込(現地参加希望者のみ):
現地参加を希望される方は,上記の通り情報処理学会ページで参加申込を行った上で、以下の申込フォームから現地参加申込を追加で行って下さい。
https://forms.gle/JcPELCqAt3XYJpha6

9/22追記: 現地参加申し込みは先着順です。上限に達し次第フォームを締め切ります。

●現地での感染防止対策について
現地では感染防止対策として,参加者の皆様にマスクの着用および当日参加前の検温をお願いします.また現地参加に関しては会場のキャパシティから上限を70名に制限し,発表者を優先の上,聴講者に関しては申込順に受け付けをさせて頂きます.上限に到達次第,それ以降のお申込についてはオンラインでの聴講をお願いすることになりますので,現地参加を希望される方は早めのお申込をお願いいたします.またこの問題から,現地参加は事前登録者のみとし,当日参加は受付を行いません.あらかじめご了承下さい.

現地会場では受付時の簡易体温測定や消毒液による手指の消毒等へのご協力をお願いするとともに,建物内でのマスクの着用を徹底していただきます.現地会場参加申込みにあたってはこれらを含む事項に同意いただく必要があります.

●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:2,000円
情報処理学会学生会員:500円
情報処理学会非会員(一般):3,000円
情報処理学会非会員(学生):3,000円

●問い合わせ先:
吉野 幸一郎(理化学研究所)
E-mail: koichiro.yoshino[AT]riken.jp

===================================
プログラム
9月29日(木)
9:50-10:00 オープニング
10:00-11:30 [3件] 解析
13:00-15:00 [4件] 生成・実世界応用
15:15-16:15 [招待講演]
16:30-17:30 [2件] 深層学習の性能調査
9月30日(金)
10:00-12:00 [4件] 言い換え、スタイル
13:00-15:00 [4件] 談話構造、誤り訂正
15:15-16:45 [3件] 知識、メタデータ
16:45-17:00 クロージング
————————————————————-

※若手奨励賞の対象者には著者名の前に「○」を付けています.

一日目
[10:00-11:30] 解析
[1] 平仮名BERTによる平仮名文の分割
〇井筒 順(茨城大学),古宮 嘉那子(東京農工大学),新納 浩幸(茨城大学)
日本語を形態素に解析するためにMeCabやChasen等の形態素解析システムが存在している。現在存在している日本語の形態素解析システムの精度は非常に高いが、これらのシステムは漢字仮名混じりの文章を対象にしているため全て平仮名で書かれた文章を形態素に分割することは難しい。 本稿ではunigram BERTとbigram BERTの2種類の平仮名文分割モデルを作成した。BERTモデルの作成に際し事前学習データとしてWikipedaのデータをMeCabを用いて形態素解析し読みの部分を平仮名に変換したものを利用した。また、ファインチューニングのデータとしてBCCWJのコアデータを利用した。ファインチューニング用のデータも事前学習データと同様にBCCWJのコアデータにおける読みの部分を平仮名に変換したものを利用している。さらに、作成した2種類のBERTの平仮名文分割における精度を比較するためにKyteaを用いた平仮名文の分割モデルを作成した。 BCCWJのコアデータを用い5分割交差検証を行いunigram BERTでは97.67%の精度を、bigram BERTでは96.44%の精度を得た。

[2] KWJA:汎用言語モデルに基づく日本語解析器
〇植田 暢大(京都大学),大村 和正(京都大学),児玉 貴志(京都大学),清丸 寛一(京都大学),村脇 有吾(京都大学),河原 大輔(早稲田大学),黒橋 禎夫(京都大学)
テキストマイニングなどend-to-end学習になじまない言語処理アプリケーションを構築するためには,形態素解析や述語項構造解析などの言語解析をテキストに適用する必要がある.これまで,解析器はそれぞれのタスクごとに開発されており,それらを繋いで利用するにはコストが高いという問題があった.本研究では,汎用言語モデルに基づく高精度な統合的日本語解析器を設計し,構築する.本解析器は,タイポ修正,分かち書き,形態素解析,言語素性付与,構文解析,述語項構造解析,橋渡し照応解析,共参照解析,談話関係解析という多くの解析を統一的なインターフェイスで実現する.構築した解析器はhttps://github.com/ku-nlp/kwjaで公開している.

[3] 疑似訓練データを用いたBERTによる同形異音語の読み推定
〇小林 汰一郎(茨城大学),古宮 嘉那子(東京農工大学),新納 浩幸(茨城大学)
日本語には読みに曖昧性を持つ単語が多数存在する。例えば「辛い」は「カライ」のほかに「ツライ」と読むこともできる。このような単語を同形異音語と呼ぶ。本論文では、BERTを用いて同形異音語の読み推定を行う。訓練・テストデータには現代日本語書き言葉均衡コーパス(BCCWJ)と日本語話し言葉コーパス(CSJ)を利用した。BCCWJの大半を占める非コアデータの読みは、形態素解析システムMeCabにより機械的に割り振られたものである。また、BCCWJは書き言葉であり、CSJは話し言葉なので、ドメインのずれが想定される。CSJをターゲット領域としたとき、通常はこの領域の訓練事例を用いて読み推定のモデルを学習・構築すればよいが、訓練事例の構築コストが高いという問題がある。本研究では自動的に付与されたドメイン外の大量の疑似データ(BCCWJのデータ)を利用することで、本来必要としたターゲットの領域の訓練事例の量を大幅に削減することができた。

[13:00-15:00] 生成・実世界応用
[4] レーシングゲーム実況テキストモデリングのための運動力学的素性
石垣 達也(産業技術総合研究所),上田 佳祐(産業技術総合研究所),トピチ ゴラン(産業技術総合研究所),小林 一郎(お茶の水女子大学),宮尾 祐介(東京大学),高村 大也(産業技術総合研究所)
本稿では,レーシングゲーム実況テキストモデリングのための運動力学に基づく素性を提案する. また、モデリングタスクとして従来の実況発話生成に加え、実況発話プランニング、実況発話分類を新たに提案する。 実況ではサーキット上で起こるイベントを実況者が正しく認識し発話される。 従来、モデリングタスクの一つである実況発話生成ではレーシングカーのスピードやハンドル角度といった生データを入力とし、ニューラルネットワークを用いた手法により言語生成している。 実際の実況には「ターン2、曲がっていけるか?」といった発話が多く、コーナーであるか否かや、レーシングカーサーキット場での位置といったより深い状況認識が行われている。 本研究では従来から用いられていた生データに加え、新たに3つの素性を用いてモデリングタスクの性能向上を目指す。 特に提案素性のうち2つは運動力学的な計算によりレーシングカー加速や回転を捉える。 既存データセットを用いた実験より、生成タスクおよびプランニングタスクにおいて提案素性の効果を確認した。 力学的な計算により物体の動きを捉え素性とする手法は、物体の動きを捉える天気予報生成などの言語処理タスクにも汎用的に応用できる可能性がある。

[5] 気の利いた家庭内ロボット開発のための曖昧なユーザ要求と周囲の状況の収集
〇田中 翔平(奈良先端科学技術大学院大学/理化学研究所),湯口 彰重(理化学研究所/奈良先端科学技術大学院大学),河野 誠也(理化学研究所),中村 哲(奈良先端科学技術大学院大学),吉野 幸一郎(理化学研究所/奈良先端科学技術大学院大学)
人と協働する対話ロボットは,ユーザの要求に応じて適切なタスク行動を行うことが一般的である.しかしユーザの要求はしばしば顕在化されず,対話ロボットはそうした状況でも,周囲の状況を適切に読み取りユーザが必要とする行動を取ることが期待される.こうした気の利いた行動をとることができるロボットを実現するため,リビングやキッチンにおいてユーザの家事を補助するタスクを対象に,ユーザの発話と周囲の状況に対応する気の利いたロボットの行動からなるデータを構築した.データ構築の方法として,本研究では大きく分けて三段階の手順を踏んだ.まず “ペットボトルを持ってくる” など,ロボットがとることのできる気の利いた行動をあらかじめ定義し,それらの行動をとっているロボットの映像を収録した.次に収集した行動の映像をクラウドワーカーに視聴してもらい,どのような状況でロボットがその行動をとってくれたら気が利いていると思うかをテキストで入力してもらった.最後に収集した状況のテキストに基づき,ロボットが気の利いた行動をとる直前のユーザの発話が行われる状況に紐付けられた画像を収集した.一般にロボットの学習で用いることができるデータは収集コストが大きいため,本研究ではごく少数のデータを収集し,収集した画像から得られる説明的な特徴量についてのアノテーションを行った.構築した少数データセットを用いて気の利いた行動を選択するロボットを実現するため,ユーザの発話内容や画像の畳み込みのみを特徴量として用いる分類器や,説明的な特徴量も用いるマルチモーダルな分類器など,複数のベースラインモデルを構築した.構築したベースラインモデルの性能を比較したところ,単純に画像の畳み込みや事前学習モデルによる特徴量抽出を用いるよりも,人手で付与した画像特徴に関する説明的なアノテーション結果がより分類精度の向上に寄与し,画像から抽出する情報の種類が重要であることが示された.

[6] 説明文生成を用いた動作行動予測
〇中村 泰貴(東京大学),河野 誠也(理化学研究所),湯口 彰重(理化学研究所),川西 康友(理化学研究所),吉野 幸一郎(理化学研究所)
ロボットをはじめとする人間を支援するシステムは、その観測から状況を正しく理解し、人間が必要とする支援行動を出力する必要がある。 特に人間を対象とした支援において、システムがどのような状況理解を行い、どのような動作行動の生成しようとしているかは、言語で表現することが重要である。 そこで本研究では、現在の状況からシステムが行うべき行動を予測しその内容を言語で説明する、動作行動予測とその言語化 (captioning operative action) に取り組む。 具体的には、ある状況とそこに対して何らかの支援行動が行われた状況の画像を入力とし、どのような支援行動が行われたかを説明する言語化タスクを行う言語化システムを構築した。 この際、単純に画像を入力として用いるのではなく、その間に行われた支援行動に相当する動作のシーングラフ予測を補助タスクに用いた。 補助タスクを用いることで、シーングラフのアノテーションが存在しないテストセットに対しても精度高く動作行動の予測と言語化を行うことができることが確認された。

[7] テキストマイニングツールのログからの実験設定の説明文生成
〇森田 康介(京都大学),西村 太一(京都大学),亀甲 博貴(京都大学),森 信介(京都大学)
実験設定を適切に記述することは、科学技術論文において重要である。 本研究では、テキストマイニングツールのログから実験設定の説明文を生成することを目的とする。 人文科学分野において広く使用されているKH coderを用いている論文を対象に収集し、論文中の実験設定の記述と実際のツールの実行ログを再現したもののペアからなるデータセットを構築した。また、このデータセットを用いて論文中の記述から実行ログを推定するモデルを構築し、アノテーションしていない論文に適用することにより自動的にデータセットを拡充した。これらを用いて、実験ログから説明文を生成するモデルを構築した。

[15:15-16:15] 招待講演
[8] 論理に基づく推論システムの再訪
谷中 瞳(東京大学/理化学研究所)
自然言語の意味を計算処理可能な形式で表し、文と文との意味的な関係を自動判定する自然言語推論システムは、計算機による自然言語理解の根幹をなす技術である。現在、自然言語処理分野では、深層学習によって自然言語の意味を大量のテキストデータから学習する統計的なアプローチが活発に研究されているが、否定や数量表現、比較表現、時間関係など、様々な意味の扱いに課題がある。一方で、形式意味論では記号論理を用いてこれらの意味を分析する理論が成熟しつつあり、自然言語処理と形式意味論の利点、深層学習と記号論理の利点を組み合わせることで、高性能な推論システムの構築が期待できる。本講演では、我々の推論システムに関する最近の取り組みを紹介し、現状の到達点と課題を述べる。

[16:30-17:30] 深層学習の性能調査
[9] スキップレイヤー法を用いた BERT の分析
〇喜友名 朝視顕(東京都立大学),岡 照晃(東京都立大学),小町 守(東京都立大学)
本研究において,連続する一部の層を恒等関数に置き換えることをスキップレイヤー法と呼ぶことにする.BERT に対してスキップレイヤー法を適用したときの性能には,正解ラベルごとに異なるパターンがみられることがわかった.これは,BERT 上で重要な層が正解ラベルごとに異なることを示唆している.そこで,BERT への理解をさらに深めるために,正解ラベルとパターンの関係を分析する.

[10] 事前学習済み言語モデルの主観的知識の調査
〇小林 篤弥(工学院大学),高橋 良颯(工学院大学),山口 実靖(工学院大学)
自然言語処理において,BERTやGPTなどの事前学習済みの活用が普及し,それら言語モデルの内包する知識の調査などが行われている.本稿では,著名な言語モデルの一つであるGPT-3に着目し,そのモデルが内包する主観的な知識について調査し,その偏りについて考察する.

二日目
[10:00-12:00] 言い換え、スタイル
[11] 変数置き換えモデルを用いた医薬品情報の可読性分析と検索件数を用いた複合名詞の文章平易化の検討
赤木 信也(NTTデータ先端技術株式会社)
英文と日本語文の両文に適用可能な可読性指標として, 変数置き換えモデルによる可読性指標を提案した.言語モデルである帯2との比較により, 日本語文を大まかに分類できること, 形態素分割より字種分割を用いる方法が最適であることが示された.また, 英文と日本語翻訳文の比較により, 日英両文に適用可能であること, 対応付けとして字種分割(ひらがな・片仮名の再分割なし)を用いる方法が最適であることが示された.更には, 医薬品添付文書とくすりのしおりの比較により, 古典的な手法よりも正確に判定できること, および英語圏の質保証基準を援用できることが示された.そして, 検索件数を用いた助詞『の』の自動補完による複合名詞の文章平易化を検討した結果, jFREの値が45未満の文章をjFREの値が45以上になるように平易化できることが示された.ただし, 形態素解析時や複合名詞抽出時において, 自動補完の調整が必要な用語が存在しており, 自動補完手法の改善が求められる.

[12] スタイル分離に基づくスタイル変換と異常検知の同時学習に基づく文書のスタイル一貫性改善
〇京野 長彦(東京大学),吉永 直樹(東京大学),佐藤 翔悦(東京大学)
文書のスタイルは文書全体で一貫していることが望ましいが,意図せず不適切なスタイルの文が混入することも多い.そのため,我々は一部に異なるスタイル文の混入した文書のスタイル一貫性を改善するタスクに取り組んでいる.本研究では,スタイルの分離に基づくスタイル変換器と自己教師ありに基づく異常検知器の同時学習を用いてこれを解く手法を提案する.具体的には,既存のスタイル変換データセットを用い,無作為に文を組み合わせて擬似的な文書の学習データを自動構築する.このようにして自動構築した学習データを用いて,その入力文書に含まれる各文のスタイルをベクトル表現として分離し,教師ありTransformer異常検知器と教師なしスタイル変換器にそれぞれ入力して各モデルを同時学習させる.推論時には前者の異常検知器を用いて異質なスタイルで書かれた文を検出し,そこで検出された文を,後者のスタイル変換器を用いて,入力中の他の文のスタイルを考慮して変換する.予備実験として,4種類のスタイル変換データセットを用いて,上記の方法で人工的な学習・評価データを構築して性能を評価する.また,実際の文章に提案手法を適用し,実際的な評価を行う.

[13] T5 による特定キャラクター風発話への変換とその言語モデルの構築
〇岸野 望叶(茨城大学),古宮 嘉那子(東京農工大学),新納 浩幸(茨城大学)
現在、Siriなどの対話エージェントが盛んに利用されていたり、RPGなどのゲームで大量のセリフが必要になったりする。それらの発話はキャラクターらしさを含んでいることが求められる。しかし、特定のキャラクターに特化した言語モデルの構築を行うには学習データが限られており精度の向上は困難である。そのため本論文では対象の発話者と同作品に出てくる別人物の発話をT5を用いて、対象発話者の発話風に変換し、学習データを増補する。その学習データを「ドメイン」の学習データ、対象の発話者の発話を「タスク」の学習データとし、TAPT-DAPTの手法でベースの言語モデルとなるGPT2にファインチューニングを行った。その結果、GPT2に対象の発話者の発話のみで学習を行った場合のパープレキシティが46.23 であったのに対し、この手法で行った場合のパープレキシティは43.93 となり、精度を向上させることができた。

[14] 口調ベクトルを用いた小説発話の話者推定(オンライン)
〇石川 和樹,宮田 玲,小川 浩平,佐藤 理史
話し方には,その人らしさが反映される.小説の発話ではこの事実を利用し,話者の個性や人物像を発話に反映させ,話者が誰であるかを間接的に示すことがしばしば行われる.本論文では,この点に着目し,口調の違いに基づく小説発話の話者推定法を提案する.本方法の中核は,発話を口調ベクトルに変換する機構(口調ベクトル変換器)とその構成法にある.小説の話者は,それぞれの小説で異なるため,推定対象話者に対して大量の発話データを用意することは非現実的である.そこで,あらかじめ他の小説の発話データを用いて,発話の口調を推定する口調弁別器をニューラルネットを用いて構成し,このニューラルネットを口調ベクトル変換器として利用する.実際の話者推定では,推定対象話者の少量の発話データより,その話者の代表口調ベクトルを作成し,ベクトルの類似度を用いて,話者を決定する.

[13:00-15:00] 談話構造、誤り訂正
[15] オンライン会議における議論の要点と対話の雰囲気の認識技術の開発
後藤 啓介(京セラ株式会社),新美 翔太朗(京セラ株式会社),荒川 智哉(京セラ株式会社),西田 典起(理化学研究所),松本 裕治(理化学研究所),廣島 雅人(京セラ株式会社)
オンラインで行われる会議では視聴覚情報の制限や遅延により議論の流れや雰囲気を把握しづらいという課題がある.この課題解決のために,著者らはオンライン会議における議論の要点および対話の雰囲気の認識技術の開発に取り組んでいる.本稿では,オンライン会議の対話データセットの構築および対話の雰囲気のアノテーション,ならびに,非言語情報を考慮した議論の要点抽出および発話の感情分析をベースとした対話の雰囲気認識の各技術についての検討内容を報告する.

[16] オンライン会議での自動要約のためのマルチモーダル情報を考慮した重要発話抽出に関する検討
〇新美 翔太朗(京セラ株式会社),後藤 啓介(京セラ株式会社),西田 典起(理化学研究所),松本 裕治(理化学研究所),荒川 智哉(京セラ株式会社),廣島 雅人(京セラ株式会社)
近年,ビデオ通話アプリの台頭により,会議を従来のようにオフラインで行うのではなくオンラインで行う機会が増加している.オンライン会議はオフライン会議と比較し,通信システムを介することで生じる視聴覚情報の制限や遅延により議論の流れを把握しづらいという課題がある.以前より画像や音声といったマルチモーダル情報を考慮した自動要約技術も研究が行われてきたが,それらは主にオフラインでの会議を考慮した研究であり,オフライン会議においても同様の結果が得られるとは言えない.そこで,本研究ではオンライン会議において得られるマルチモーダル情報を考慮した重要発話抽出手法を提案し,自動要約の精度向上によるオンライン会議の理解促進を目指す.

[17] 日本語文法誤り訂正評価コーパスへの誤用タグ付け
〇小山 碧海(東京都立大学),喜友名 朝視顕(東京都立大学),三田 雅人(株式会社サイバーエージェント/東京都立大学),岡 照晃(東京都立大学),小町 守(東京都立大学)
本稿では日本語文法誤り訂正評価コーパスへの誤用タグ付けを行う.日本語学習者が犯す誤りには助詞誤りや時制誤りなど様々な誤りが存在する.しかし日本語文法誤り訂正評価コーパスの一つである TMU Evaluation Corpus for Japanese Learners (TEC-JL) には誤りを分類するための誤用タグが付与されていない.そこで本研究では誤用タグを設計し TEC-JL 中の各誤りに付与する.また付与した誤用タグを利用し,日本語文法誤り訂正モデルを誤りタイプ別に評価した結果を報告する.

[18] 後続文脈の考慮が文法誤り訂正性能にもたらす影響の調査
〇井手 佑翼(奈良先端科学技術大学院大学),出口 祥之(奈良先端科学技術大学院大学),五藤 巧(奈良先端科学技術大学院大学),Sarhangzadeh Armin(奈良先端科学技術大学院大学),渡辺 太郎(奈良先端科学技術大学院大学)
既存の典型的な文法誤り訂正モデルは各入力文を独立に扱うため,文脈を考慮した訂正を行えない.この問題に対して先行研究では,訂正対象の文だけでなく,先行する文脈をモデルに入力する手法が提案されてきた.本研究は,これに加えて後続の文脈または前後両方の文脈を入力した場合に訂正性能がどのように変化するか,定性分析を交えて調査する.

[15:15-16:45] 知識、メタデータ
[19] 言及に対する地理的特定性指標の提案と文書ジオロケーションへの適用
〇陰山 宗一(筑波大学),乾 孝司(筑波大学)
本稿では,文書内に出現する地名やランドマーク等に関する言及に対し,その地理的位置の特定のしやすさを表す指標として地理的特定性を提案・検討する.この指標は,文書ジオロケーション課題のような言語情報を用いた地理的課題を解く上での特徴量として用いることを想定している.また,SNSユーザとして居住地域の特定を防ぐ投稿をする際の指標としても将来的に使用できると考える.本稿ではまず,地理的特定性の定義を説明した後,Wikipedia データを用いた具体的な指標値の算出方法について述べる.その後,地理的特定性を文書ジオロケーション課題に適用した検証実験について述べ,地理的特定性の有効性を示す.

[20] 日本語 CommonGen の試作と入力単語間の関連性からの考察
〇鈴木 雅人(茨城大学),新納 浩幸(茨城大学)
常識推論は人工知能の難問の1つであり、その研究開発のためのタスクがいくつか提案されている。その一つとして CommonGen がある。CommonGen は、概略、数個の入力単語からそれら単語を用いた妥当な文を生成するタスクである。文法上正しい文であっても常識的にはおかしな文を生成することを避けるには常識推論が必要と考えられる。ただし T5 や BART などの文生成用の事前学習済みモデルを利用すれば、ある程度の質の文が生成できることも知られており、このアプローチが現実的である。そのようなアプローチを取った場合、所望の文が生成できるかどうかは入力単語間の関連性に依存していると予想している。本論文ではこの予想を確認するために、日本語 CommonGen のデータセットを試作し、このタスク用の T5 を用いたモデルを構築した。またこの予想から、モデルの性能を向上するために、入力単語群のハブとなる単語を追加する手法を提案する。

[21] CrossWeigh の日本語 NER データセットへの適用
〇西村 柾人(茨城大学),新納 浩幸(茨城大学)
通常、教師あり学習は訓練データには誤りがないという前提で学習が行われるが、実際には誤りを含む場合も多い。特に NER のデータセットはラベルの定義に曖昧なものがあり、複数の作業者でのタグ付けには誤りが生じやすい。このような背景から Wang らは誤ったラベルの付いたデータセットから NER のモデルを学習する CrossWeigh を提案した。本論文では CrossWeigh をストックマーク株式会社が提供している、Wikipediaの日本語NERデータセットに適用し、CrossWeigh の効果を確認する。同時に、このデータセット内の誤りの検出を試みる。

===================================

主査:
 須藤 克仁    奈良先端科学技術大学院大学
幹事:
 内海 慶     株式会社デンソーアイティーラボラトリ
 内田 ゆず    北海学園大学
 古宮 嘉那子   東京農工大学
 萩行 正嗣    株式会社ウェザーニューズ
 吉永 直樹    東京大学
 吉野 幸一郎   理化学研究所

運営委員:
 石垣 達也    産業技術総合研究所
 江原 遥     東京学芸大学
 大内 啓樹    奈良先端科学技術大学院大学
 梶原 智之    愛媛大学
 上垣外 英剛   奈良先端科学技術大学院大学
 亀甲 博貴    京都大学
 栗田 修平    理化学研究所
 小林 暁雄    農業・食品産業技術総合研究機構
 斉藤 いつみ   日本電信電話株式会社
 渋木 英潔    株式会社BESNA研究所
 田中 リベカ   お茶の水女子大学
 田村 晃裕    同志社大学
 成松 宏美    日本電信電話株式会社
 西田 京介    日本電信電話株式会社
 増村 亮     日本電信電話株式会社
 馬緤 美穂    ヤフー株式会社
 水本 智也    LINE株式会社
 三田 雅人    株式会社サイバーエージェント
 三輪 誠     豊田工業大学
 森田 一     富士通株式会社
 谷中 瞳     東京大学
 吉川 克正    LINE株式会社
 吉川 将司    Apple Japan合同会社
 鷲尾 光樹    株式会社リクルート

情報処理学会 第253回自然言語処理研究会 発表募集

第253回自然言語処理研究会を2022年9月29日(木),30日(金)に開催いたします.
今回は2年ぶりに現地開催を含むハイブリッド形式となります.
皆さまの投稿をお待ちしています.

(2022/7/8追記)
★現在新型コロナウイルス感染症に関して感染拡大の局面に入っており,当
日の状況によっては現地の規模を縮小する可能性があります.また,緊急事
態宣言等,政府の要請がある状況下では,ハイブリッド開催を断念しオンラ
インのみの開催とする可能性もあります.

●日時: 2022年9月29日(木),30日(金)

●会場: 京都大学吉田キャンパス総合研究8号館
(ハイブリッド形式で、ビデオ会議システムZoomでも参加可能)

●発表申込締切: 2022年8月17日(水)

●原稿締切: 2022年9月6日(火)※厳守

●原稿ページ数:2ページ以上
電子化にともないページ数に上限はありません.
※ ただし20ページを越える場合は事前にご連絡ください.

●発表時間予定: 一般講演形式 1件30分 (発表20分、質疑10分)

※ 発表時間の調整について
従来の一般講演形式(発表20分,質疑10分)に加えてショート形式(発表10分,
質疑10分),討議形式(発表10分,質疑討論20分)など,発表者からの要望
に応じて発表の合計時間を調整します.アイデアレベルの研究
の紹介や,研究の詳細まで話したいので時間がほしい,などの要求を発表
申込の備考欄にご記入いただければ,それらを考慮してプログラムを作成
します.ぜひご活用ください.

●優秀研究賞
研究会に投稿された予稿の中から特に優れたものを優秀研究賞として表彰
する予定です.

●若手奨励賞
年度開始時点(4月1日)で30歳未満,あるいは学生(社会人博士含む)である
発表者を対象として,研究会参加者の投票によって選考します.

●発表申込先: 下記専用サイトよりお申込みください.
https://ipsj1.i-product.biz/ipsjsig/NL/
(研究会ホームページからもアクセスできます)

・若手奨励賞の要件を満たす場合,以下を連絡事項に記載ください.
「若手奨励賞の対象である」

●問い合わせ先:
吉野幸一郎(理化学研究所)
E-mail: koichiro.yoshino[AT]riken.jp

●今後の予定
第254回研究会 2022年12月頃予定

★現地での感染防止対策について
現地では感染防止対策として,参加者の皆様にマスクの着用および当日参
加前の検温をお願いします.また現地参加に関しては会場のキャパシティ
から上限を70名に制限し,発表者を優先の上,聴講者に関しては申込順に
受け付けをさせて頂きます.上限に到達次第,それ以降のお申込について
はオンラインでの聴講をお願いすることになりますので,現地参加を希望
される方は早めのお申込をお願いいたします.またこの問題から,現地参
加は事前登録者のみとし,当日参加は受付を行いません.あらかじめご了
承下さい.

★研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行い
ません.また,特許出願の公知日(研究報告の公開日)が従来より1週間
早まりますので,ご留意ください.

※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.

情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/
(ユーザ登録が必要です)

当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/

※自然言語処理研究会に登録されていない方
当日閲覧用サイトにアクセスできるようにいたします.
なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).

★研究会への登録をお勧めします
年に2回以上の参加を見込まれる方は,研究会に登録される方が(ほぼ)
お得になります.研究会登録は以下のウェブサイトから行えます.
http://www.ipsj.or.jp/kenkyukai/toroku.html

★受け付けは先着順で行なっております
多数のお申し込みを頂いた場合,次回の研究会にまわって頂くよう
お願いする場合があります.なるべく早めにお申し込み下さい.

★締め切り後の発表キャンセルは原則としてできません
発表申し込み後にキャンセルの必要が生じた場合は,至急ご連絡ください.
発表申込後,原稿提出締め切りまでに原稿が到着しない場合には,幹事団の
判断により発表を取り消しさせていただくこともあります.

★論文提出締切後の原稿差し替えはできません
論文提出締切後は,訂正版のアップロードやウェブ上での配布などの原稿
差し替えは一切できませんので,予めご留意ください.
※正誤表の掲載が可能な場合がありますのでご相談ください.

★研究会幹事団
主査:
 須藤 克仁    奈良先端科学技術大学院大学
幹事:
 内海 慶     株式会社デンソーアイティーラボラトリ
 内田 ゆず    北海学園大学
 古宮 嘉那子   東京農工大学
 萩行 正嗣    株式会社ウェザーニューズ
 吉永 直樹    東京大学
 吉野 幸一郎   理化学研究所

運営委員:
 石垣 達也    産業技術総合研究所
 江原 遥     東京学芸大学
 大内 啓樹    奈良先端科学技術大学院大学
 梶原 智之    愛媛大学
 上垣外 英剛   奈良先端科学技術大学院大学
 亀甲 博貴    京都大学
 栗田 修平    理化学研究所
 小林 暁雄    農業・食品産業技術総合研究機構
 斉藤 いつみ   日本電信電話株式会社
 渋木 英潔    株式会社BESNA研究所
 田中 リベカ   お茶の水女子大学
 田村 晃裕    同志社大学
 成松 宏美    日本電信電話株式会社
 西田 京介    日本電信電話株式会社
 増村 亮     日本電信電話株式会社
 馬緤 美穂    ヤフー株式会社
 水本 智也    LINE株式会社
 三田 雅人    株式会社サイバーエージェント
 三輪 誠     豊田工業大学
 森田 一     株式会社Gunosy
 谷中 瞳     東京大学
 吉川 克正    LINE株式会社
 吉川 将司    Apple Japan合同会社
 鷲尾 光樹    リクルート株式会社

情報処理学会 第252回自然言語処理研究会 参加募集

●日程: 2022年6月29日(水) 9:55-18:00 (1日のみの開催に変更しました)
●会場: オンライン(Zoom)

●参加申し込み:
参加を希望される方は情報処理学会マイページの「会員メニュー」->「イベント一覧・申込」より参加申込をお願いいたします(当日でも申込可能).
非会員の方もマイページを開設してお申し込みください.

参加申込をしていただくと,会場のURL情報や研究報告のダウンロード方法を記載したメールをお送りします.
参加費無料の研究会登録会員/ジュニア会員も,URLの取得と参加者数の把握のため,マイページより参加申込をしてくださいますようお願いいたします.

学会サイトの「イベントに参加申込される方へ」もご参照ください.
https://www.ipsj.or.jp/member/event_moshikomi.html

情報処理学会個人会員 / 準登録(個人)の方
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg3  (マイページの、会員メニューの「イベント一覧・申し込み」に第252回のNL研がございますので、それを選べば参加申し込みができるようになっているはずです。)  
情報処理学会へ入会し,会員価格で参加したい方   
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg1
非会員のまま参加したい方※賛助会員としてお申込みの方もこちらからご登録お願いします。
https://www.ipsj.or.jp/member/event_moshikomi.html#hdg2

●参加費:
NL研究会登録者:無料
情報処理学会ジュニア会員:無料
情報処理学会正会員、賛助会員、名誉会員:1,500円
情報処理学会学生会員:500円
情報処理学会非会員(一般):2,500円
情報処理学会非会員(学生):2,500円

●問い合わせ先:
内田ゆず(北海学園大学)
E-mail: yuzu[AT]hgu.jp

===================================
プログラム
6月29日(水)
[09:55-10:00] オープニング
[10:00-12:00] 深層学習の根拠・性能調査(4件)
[12:00-13:00] 昼休み
[13:00-15:00] 言語分析・評価(4件)
[15:15-17:45] 対話(5件)
[17:45-18:00] 表彰式・クロージング

————————————————————-

※若手奨励賞の対象者には著者名の前に「○」を付けています.

[10:00-12:00] 深層学習の根拠・性能調査(4件)

(1) BERTによる日本文学作品の著者分類とその分類根拠の分析
○中村 梓甫, 染谷 大河, 原田 宥都(東京大学), 持橋 大地(統計数理研究所), 大関 洋平(東京大学)

本研究では文書分類タスクを解いたBERTのAttentionを可視化することで、BERTが何を著者分類の根拠としているか考察を行う。分類には明治から昭和期の日本文学作品を使用し、BERTで著者15人の分類を行った結果、著者予測精度は80%を超えた。BERTが何を根拠としてその著者と判断したのか調べるためAttentionの可視化を行い、強くAttentionが当たっている箇所の傾向を分析した。結果として、読点や機能語が特徴的な群、代名詞が特徴的な群、専門用語や造語などその作品特有の名詞が特徴的な群、など5つの群に分類することができた。

(2) BERTにおける文書分類の判断根拠の提示に関する一考察
○為栗 敦生, 高橋 良颯, 山口 実靖(工学院大学)

深層学習は自然言語処理などの発展に大きな貢献をしているが,深層学習は正しい結論を導き出せるがその判断根拠が分からないブラックボックスであるとの指摘がある.この指摘に対して,判断根拠を提示する研究が取り組まれている.我々は過去に,Self-Attentionに基づく深層学習による文書の話題分類タスクに対して判断根拠を提示する手法を提案し,性能評価によりその有効性を示した.本稿では,当該手法をBERTに適用することにつていて考察する.具体的には,マスク機能を用いた判断根拠の提示に関する考察や,BERTに適用する上での課題について考察を行う.

(3) 対照学習を利用した日本語PromptBERTの構築
○芝山 直希(茨城大学), 古宮 嘉那子(東京農工大学), 新納 浩幸(茨城大学)

文の埋め込み表現は自然言語処理の多くのタスクで必要とされ、従来より様々な構築手法が提案されている。その中で、近年、 PromptBERT という BERT を用いた文の埋め込み表現の構築手法が提案された。これは簡易な手法であるにも関わらず、高い性能を示すが、言語に応じた適切なテンプレートの設計を必要とする。本論文では日本語 PromptBERT のためのテンプレートをいくつか考案し、それらを組み合わせた対照学習から日本語 PromptBERT を構築した。リクルート社が公開している含意関係推論データセット JRTE を用いた実験では、構築した PromptBERT が SentenceBERT や ConSERT よりも良い性能を示した。

(4) BERTを用いた観光地の「雰囲気」を味わえるお菓子の試作
○村上 和隆(山形大学), 本橋 洋介(NEC)

山形の観光地に対するレビューを分析し、その観光地の雰囲気を表現した和菓子を開発した。具体的にはBERTを用いて観光地のレビューの味を予測することで、その観光地の雰囲気を表現した。本稿では、レビューの文章から人間の感じる感覚を味に変換する方法と、それを用いた商品開発の方法、出来上がった商品の評価方法について説明する。

[13:00-15:00] 言語分析・評価(4件)

(5) 自然言語処理においての代名詞特定
○ジョ ジョンウォン, 萩原 威志(新潟大学)

色んな分野でのAI発展において、AIが専門家たちだけではなく一般大衆の生活にまで影響を及ぼすためには使いやすいオペレーションシステムが必要になる。そのOSは最終的には自然言語で人とコミュニケーションをとり、使用者個人に適応したAIになるはずである。そのためには使用者が使う多義的表現も記憶として学習し、認識しなければならない。本研究では多義的意味を持つ代名詞を特定させることで使用者個人に適応した自然言語処理AIの技術向上を目的とする。

(6) 日本語文の文節シャッフルによるData Augmentation
○高萩 恭介, 新納 浩幸(茨城大学)

教師あり学習に用いるData Augmentation(DA)とは,ラベル付きデータに対して,ラベルを変えずにデータに何らかの変換を施し,変換後のデータを拡張データとして訓練データに追加する手法である.DAを適用するデータが文である場合,データ変換時に文の意味が変化してしまうと,拡張データがノイズとなる可能性がある.そのため,変換時に文の意味が変わらないようにする必要がある.本研究では,日本語の場合,係り受け関係が崩れていない限り,文節の順序を変更しても文の意味が変化しないことに着目し,文のデータ変換として文節の係り受け関係を考慮した文節のシャッフルを行うDA手法を提案する.実験ではlivedoorニュースコーパスを用いた文書分類タスクを設定し,提案手法の有効性を示した.また文節の係り受け関係を考慮せずに文節のシャッフルを行う場合との比較、訓練データのサイズと提案手法の効果との関係,及び対照学習への利用に関して考察した.

(7) 文法誤り訂正における訂正難易度の判別可能性
○五藤 巧(奈良先端科学技術大学院大学), 永田 亮(甲南大学/理化学研究所), 三田 雅人(理化学研究所)

文法誤り訂正では幅広い種類の誤りが訂正できるが,その性能評価には課題が残る.具体的には,訂正難易度が異なる誤りを一律に評価しているという課題である.訂正難易度の定量化に関する研究は非常に少ない.そもそも人間の専門家はどの程度訂正難易度を判別できるかも明らかでない.そこで,本研究では,人間の専門家同士で訂正難易度の判別がどの程度一致するかを調査した.加えて,その結果が,機械で判別した訂正難易度とどの程度一致するかも調査した.その結果,人間同士では一致率66.4%,人間と機械では一致率64.5%であることを確認した.更に,両条件において,不一致となる原因を分析した.

(8) 表記ゆれ推定方法の影響を考慮した正解ラベル付けと食材名辞書の作成
但馬 康宏(岡山県立大学)

投稿型のレシピサイトでは数多くのレシピデータが構築される一方,表記の多様性により計算処理による分析の難しさがある.本研究では,栄養価計算のための食材の分類辞書を作成する.作成において手作業で正解ラベルを付与する必要があるが,未分類レシピを効率的に抽出する手法を提案する.さらに,その結果をレシピの出現分布に沿ったランダムな抽出と比較検討する.

[15:15-17:45] 対話(5件)

(9) 大規模言語モデルを用いたリフレーミング表現の自動生成とその評価
○河野 誠也, 湯口 彰重, 吉野 幸一郎(理化学研究所)

リフレーミングとは、ある枠組みで捉えられている物事を枠組みをはずして、違う枠組みで見ることを指す。ネガティブな発言は話し手と聞き手の双方にストレスを与える可能性がある一方で、ネガティブな発言をポジティブにリフレーミングすることで、話し手と聞き手の良好な関係の維持や自己肯定感の向上を期待することができる。このような、ネガティブな発言をポジティブにリフレーミングするような言語的配慮能力は、社会性を備えた対話システムを実現する上で重要である。本研究では、ネガティブな表現をポジティブに言い換えるリフレーミングの事例を、ウェブや書籍など複数の情報源から人手で収集し、大規模言語モデルを用いてネガティブな表現をポジティブに言い換えるリフレーミングの生成モデルの学習とその評価を行った。

(10) フレーズアライメントと文構造に基づくデータ拡張を用いた頑健な自然言語生成
○山本 賢太(京都大学), 河野 誠也(理化学研究所), 河原 達也(京都大学), 吉野 幸一郎(理化学研究所)

自然言語生成タスクは意味表現を入力として対応するテキスト(発話)を生成するタスクで,対話システムにおける重要なタスクのひとつである.近年は,ニューラルネットワークを用いた手法により,自然な言語生成が実現されている.ニューラルネットワークを用いた言語生成は学習データへの依存性が大きく,しばしば与えた意味表現にない情報を生成文に含めてしまう過生成の問題が生じる.そこで,本研究では,言語生成タスクのデータセットから意味表現を削除した学習データのバリエーションを作成するデータ拡張手法により,より頑健な自然言語生成を実現する.具体的には,学習データに含まれる意味表現に対して一部のスロットの削除を行い,この意味表現に対応して学習データ中の文を編集することで,既存の学習データに含まれない意味表現の組み合わせに対応したデータの拡張を行う.この対応取得のため,フレーズアライメントや注意機構の重みを用いる.また,文の編集を行う際にもとの文の構造を考慮する.実験では,提案法により過生成の問題を抑制しつつ,自然性も高い言語生成を行うことができることが確認された.

(11) キャプション及び物体認識ラベルを用いた画像に関連する駄洒落文の選択手法
○浅野 歴, 谷津 元樹, 森田 武史(青山学院大学)

ソーシャルロボットが画像入力より得られる周辺状況に基づいた発話を行う際,駄洒落等のユーモアを付加できれば,ユーザはロボットに対しより高い親近感を持ちうると考えられる.関連研究として,駄洒落を含む画像キャプション生成手法が提案されている.この画像キャプション生成モデルの構築には,画像とその描画内容に即した駄洒落文のペアを集めたデータセットが必要となるが,現在,日本語を対象とした本データセットは公開されておらず,本データセット作成コストが高いという課題がある.そこで,本研究では既存のキャプション生成モデルやオブジェクト検出を用いて画像から重要語を抽出し,駄洒落文を収集したコーパスから画像に合った駄洒落文を選択するためのランキング手法を提案する.MSCOCOデータセットからランダムに選択した10枚の画像に対して提案手法を用いて各画像に合った駄洒落文を選択し,10名の被験者に「駄洒落文が画像に対して適切であるか」を質問し,5段階評価を行った.その結果,評価値の平均は 3.11となり「どちらともいえない」を若干上回る結果が得られた.

(12) 複数人対話の文字起こしデータを用いた話者名推定手法に関する検討
松尾 和哉, 能登 肇, 深山 篤(日本電信電話株式会社)

複数の深層学習モデル(顔認識や音声合成など)から成るヒトデジタルツイン(ヒトDT)を元の人間(フィジカルツイン:PT)らしく振舞わせるためには,PT からしか取得できないデータを収集・意味づけし,そのデータをDT に学習させる必要がある.しかし,一つのモデルを作るためには学習データが大量に必要であり,かつその大量のデータがPT ごとに必要になるため,手動で学習データを作成することは非現実的である.そこで本研究では,この学習データの自動生成を目指す.本稿ではまず,顔画像に名前が付与されたデータを映像データから自動的に作成することを目的とし,複数人の対話を文字起こししたデータから,各話者名を推定する手法を提案する.提案手法では,人名が含まれる発言の内容の解析結果と,当該発言の直前直後のターン・テイキングを応用して,話者名を推定する.提案手法の性能を,2 種類の会話コーパスを用いて定量評価を行った.

(13) Pro/Conスコア評価器に対する推移関係を使用したメタモルフィックテスト
アーノ 有里紗, 岩間 太, 吉田 一星, 吉濱 佐知子(日本アイ・ビー・エム)

情報システムのテストは,通常,システムへの入力値とその入力値に対して期待されるシステムからの出力値(期待値)を事前に準備し,入力値に対してシステムが期待値を出力することを確認することで実施される.しかしながら,ある種のシステムでは入力に対する期待値をあらかじめ定めることが実践的に困難であることが知られており,そのようなシステムの性質をテストするための方法としてメタモルフィックテストが提案されている.機械学習により得られたモデルに依存しているモジュールや,利用コンテキストに強く依存した結果を返すシステムなどがこのようなシステムに該当するが,近年の自然言語処理を利用した一部の処理もその様なシステムであると考えられている.本論文では,自然言語処理タスクとしてstance detectionを取り上げ,文章間の賛成/反対を評価するpro/con評価器が,推移的な一貫性を持つことをテストするためのメタモルフィックテストを考案する.またテスト入力データをニュース記事ストアから機械的に取り出し比較させることで,このテストを自動化するためのテスティングシステムを構築する.構築したシステムを用いてIBM Debaterのpro/con評価器をテストすることで,推移的な一貫性を満たない入出力ペアを発見し,pro/con評価器の精度向上に役立つ訓練データを生成することができた.

===================================

主査:
 須藤 克仁    奈良先端科学技術大学院大学
幹事:
 内海 慶     株式会社デンソーアイティーラボラトリ
 内田 ゆず    北海学園大学
 古宮 嘉那子   東京農工大学
 萩行 正嗣    株式会社ウェザーニューズ
 吉永 直樹    東京大学
 吉野 幸一郎   理化学研究所

運営委員:
 石垣 達也    産業技術総合研究所
 江原 遥     東京学芸大学
 大内 啓樹    奈良先端科学技術大学院大学
 梶原 智之    愛媛大学
 上垣外 英剛   奈良先端科学技術大学院大学
 亀甲 博貴    京都大学
 栗田 修平    理化学研究所
 小林 暁雄    農業・食品産業技術総合研究機構
 斉藤 いつみ   日本電信電話株式会社
 渋木 英潔    株式会社BESNA研究所
 田中 リベカ   お茶の水女子大学
 田村 晃裕    同志社大学
 成松 宏美    日本電信電話株式会社
 西田 京介    日本電信電話株式会社
 増村 亮     日本電信電話株式会社
 馬緤 美穂    ヤフー株式会社
 水本 智也    LINE株式会社
 三田 雅人    株式会社サイバーエージェント
 三輪 誠     豊田工業大学
 森田 一     富士通株式会社
 谷中 瞳     東京大学
 吉川 克正    LINE株式会社
 吉川 将司    東北大学
 鷲尾 光樹    株式会社リクルート