◎ 日程: 2015年1月19日(月)・20日(火)
◎ 会場: 九州大学医学部百年講堂 会議室1
◎ 交通アクセス: 地下鉄箱崎線「馬出九大病院前」下車 徒歩8分
◎ ホームページhttp://www.med.kyushu-u.ac.jp/100ko-do/
◎ 参加者交流会:
初日終了後に交流会を開催します.参加希望の方は下記よりお申し込みください.
申し込み(締切: 1月9日)
◎ 照会先:
* 研究会・会場に関する問い合わせ先:
岡崎 直観 (東北大学)
E-mail: okazaki (at) ecei.tohoku.ac.jp
■ 「自然言語処理研究会優秀研究賞」の新設 ■
自然言語処理研究会では、自然言語処理に関する研究開発を幅広くタイムリー
に奨励することを目的として、下記案内の第220回研究会から新しい表彰制度
「自然言語処理研究会優秀研究賞」を設置します。これは、各回の研究会にお
いて投稿される予稿の中から新規性、有用性、斬新性、将来性等の点で特に優
れたものを表彰するものです。表彰件数は全体の10%程度とし、研究会の幹事
と運営委員からなる選考委員会が選考します。選考は事前に行い、研究会開催
時の最後に発表・表彰する予定です。また、表彰論文は原則として情報処理学
会論文誌ジャーナルに「推薦論文」※として推薦されます。選考基準・選考方
法について暫くは試行錯誤の必要があると思いますが、制度の不備を恐れて設
置を躊躇するよりは、たとえ不完全なものであっても、優れた研究を賞賛する
機会を少しでも増やし、研究コミュニティ全体を盛り上げていく方が良いと考
えました。自然言語処理を愛するすべての人にとって有益な賞に育てていきた
いと考えていますので、ご意見、アイデアなどお寄せいただければ幸いです。
※推薦論文制度については下記をご参照ください。
http://www.ipsj.or.jp/journal/proposal/recommend.html
======================================================================
プログラム(発表件数15件)
1月19日(月) 13:00〜17:30
[13:00〜14:30] 形態素解析・構文解析 [3件]
[14:45〜16:15] 用語抽出・語義曖昧性解消 [3件]
[16:30〜17:30] 招待講演 [1件]
1月20日(火) 10:00〜16:00
[10:00〜11:30] 意味解析 [3件]
[13:10〜14:00] ソーシャルメディア [2件(ショート1件)]
[14:15〜15:45] 生成・アノテーション [3件]
[15:45〜16:00] クロージング
======================================================================
1月19日(月) 13:00〜17:30
■ 13:00〜14:30 形態素解析・構文解析 (3件) ■
座長: 浅原 正幸 (国立国語研究所)
( 1) 係り受け情報を利用した日本語形態素解析
俵 雄貴,東 藍,松本 裕治 (奈良先端科学技術大学院大学)
現在までに様々な形態素解析手法が提案されており,形態素解析の精度は高い
水準に達している.その一方で既存の手法では上手く解析できない事例が報告
されている.本研究では,そういった事例に対して係り受けの情報を用いるこ
とにより解決を試みる.しかし,係り受けの情報を使うためには少なくとも文
が単語に区切られている必要があり,形態素解析の段階で係り受けの情報を利
用することは困難である.そこで本研究では形態素解析と係り受け解析を同時
に行うことにより,係り受けの情報を形態素解析に利用する.同時解析では,
形態素ラティスに対してCYKアルゴリズムを適用し,形態素の並びのスコアと
係り受けのスコアの2つのスコアを考慮することにより解析を行う.
( 2) 複数の述語項関係を利用した文内ゼロ照応解析
大内 啓樹,進藤 裕之,Duh Kevin,松本 裕治 (奈良先端科学技術大学院大学)
述語項構造解析において,省略された項の検出と,それが指示する要素の同定
を,特にゼロ照応解析と呼ぶ.従来のゼロ照応解析では,各述語に対して,文
内の他の述語項との相互関係を考慮せず,独立に項を決定するというアプロー
チが主流であった.しかし,文内に出現する述語間には意味的な関連があり,
ある述語の項の決定が他の述語の項決定に影響を及ぼすように思われる.した
がって,複数の述語項の相互関係に関する情報は,ゼロ照応解析に役立つこと
が期待される.本稿では,複数の述語項関係を同時に考慮し,決定するモデル
を提案し,ゼロ照応解析の精度向上に取り組む.NAISTテキストコーパスを用
いた評価実験により,提案モデルの有効性を示す.
( 3) 隠れセミマルコフモデルに基づく品詞と単語の同時ベイズ学習
内海 慶,塚原 裕史 (デンソーアイティーラボラトリ),
持橋 大地 (統計数理研究所)
本論文では,教師なし学習による品詞を含めた形態素解析手法を提案する.従
来の教師なし形態素解析手法は分かち書きのみを対象にしており,品詞の推定
は扱われていなかった.これに対し,本研究では品詞の遷移確率と単語の生起
確率の事前分布にPitman-Yor過程を用いた隠れセミマルコフモデルに基づく形
態素解析手法を提案し,品詞推定と単語分割を同時に学習することで,単語分
割の精度についても向上することを示す.
■ 14:45〜16:15 用語抽出・語義曖昧性解消 (3件) ■
座長: Duh Kevin (奈良先端科学技術大学院大学)
( 4) テキストストリームからの新エンティティの即時的検出
槇 佑馬 (東京大学),吉永 直樹,鍜治 伸裕 (東京大学/情報通信研究機構),
喜連川 優 (国立情報学研究所/東京大学)
Twitterなどのテキストストリームには次々と新しいエンティティが出現する。
それらを正しく認識するためには、未知のエンティティをできるだけ早期に検
出して辞書に自動登録することが重要になる。本論文では、機械学習を用いて
テキストストリームから未知のエンティティ文字列を早期に検出する手法を検
討する。
( 5) 文脈・語義対応の階層ベイズ推定による教師なし語義曖昧性解消
谷垣 宏一 (三菱電機(株)/早稲田大学),徳本 修一,
撫中 達司 (三菱電機(株)),匂坂 芳典 (早稲田大学)
語彙を限定しない語義曖昧性解消(all-words WSD)のための新しい教師なし学
習モデルを提案する.all-words WSDは,辞書知識を言語処理に活用する基礎
技術として実用化が期待されるが,識別対象である語義は種類が膨大でかつ分
布がドメインに強く依存する性質があり,ラベル付きコーパスの構築を前提と
する教師あり学習では実用化を見込むことが難しい.提案法は,ラベルなしコー
パスの語と膨大な語義の間に自然な対応を推定するため,2つの制約をモデル
化する: 1)類似した文脈に出現する語群の語義は,互いの語義からの外挿に
従う.2)同じ語の各出現における語義は,単語タイプ毎の事前分布に従う.こ
れらの相補的制約を単一の階層ベイズモデルに統合し,教師なしall-words WSD
を実現する.SemEvalデータセットを用いた実験結果より提案法の有効性を示す.
( 6) 形態素解析の系統的誤りと用語抽出
小山 照夫 (国立情報学研究所),竹内 孔一 (岡山大学大学院自然科学研究科)
日本語用語抽出にあたって、一般文書に最適化された形態素解析器および形態
素辞書を使用した専門文書解析では、解析に系統的誤りを生じることがある。
これらについて誤りの傾向と本来の正解パタンが推定できる場合、解析結果を
修正することによって、用語抽出の性能を向上させることが期待できる。本研
究では情報処理分野の抄録文書について、どのような系統的誤りが存在するか
を検討し、修正を行うことによって用語抽出性能が向上する事を報告する。
■ 16:30〜17:30 招待講演 (1件) ■
座長: 乾 健太郎 (東北大学)
( 7) 諸言語の歴史的変化に対する数理的取り組み
村脇 有吾 (九州大学)
この世界にあまたある言語がどのように生まれ、どのように変化してきたかに
は未解明な点が多い。この問題には従来言語学者が取り組んできたが、近年、
もともと生物学の系統研究のために開発された数理モデルが言語に適用される
事例が増えている。本講演では、諸言語の歴史的変化とそれに対する数理的取
り組みを紹介するとともに、従来研究が必ずしも言語の特性を捉えていないの
ではないかという問題意識のもと、今後の方向性を議論する。
======================================================================
1月20日(火) 10:00〜16:00
■ 10:00〜11:30 意味解析 (3件) ■
座長: 持橋 大地 (統計数理研究所)
( 8) 節境界検出を用いたセンター試験『国語』評論傍線部問題ソルバー
加納 隼人,佐藤 理史,松崎 拓也 (名古屋大学大学院工学研究科)
本年度新たに実装した,大学入試センター試験『国語』評論傍線部問題を解く
ソルバーについて報告する.実装したソルバーでは,傍線部問題の本文と選択
肢に対して節境界検出による節分割を行い,節単位で類似度計算を行うことで
解答を選択する.本ソルバーをセンター試験の過去問に適用したところ,昨年
度のソルバーを上回る最大70%の正解率を示した.
( 9) 観点情報を用いた行列分解によるマルチラベル文書の分類
丸田 要,永井 秀利,中村 貞吾 (九州工業大学)
現在,文書集合を効率良く整理・検索する手法の一つとしてクラスタリング
検索手法がある.この手法は検索結果をクラスタリングし分類することで目的
のカテゴリに絞って目的の文書を探すことができる.しかし,テキスト分類に
は分類を行うユーザの目的・観点により結果が異なるという性質が存在してい
る.つまり,ある単一の文書データは観点が異なると分類されるクラスが異な
る場合がある.その場合ユーザが考える分類とシステムによる分類に差異がで
き,その差異部分に含まれる文書データはユーザの情報検索の阻害や見落とし
を発生させると考えられる.そこで,ユーザによる文書分類例から観点を抽出
し,その観点情報をテキスト分類に反映させることでユーザの望む分類を行う.
それにより,ユーザが目的の文書を効率よく検索することができることを目指
す. 本論文では,テキスト分類手法としてNMFや次元圧縮を利用するが,そ
の際にテキスト分類に反映させる観点情報の適用方法を複数提案する.そして,
実験による比較により各適用方法を評価する.
(10) 意味と構造の構成演算と類似度学習における非線形性
椿 真史,Duh Kevin,新保 仁,松本 裕治 (奈良先端科学技術大学院大学)
本論文で我々は、単語ベクトル空間におけるデータ間の演算を含めた類似度学
習手法を新たに提案する。我々は特に、自然言語処理における単語の意味ベク
トル空間から、文の意味構成に伴って生じる新たな空間の類似度学習に焦点を
当てる。この際、カーネルを用いた非線形類似度学習が効果的であることを示
す。実験結果は、ベクトル空間において単語からより複雑な文の意味を適切に
構成する際、単語が表現される空間とは異なる高次元の空間が必要となり、非
線形手法が重要な役割を果たすことを示唆している。
■ 13:10〜14:00 ソーシャルメディア (2件) ■
座長: 村脇 有吾 (九州大学)
(11) SNSにおける感情表現とその相互作用関係の抽出
足立 悠 (奈良女子大学大学院 人間文化研究科),
戸田 幹人 (奈良女子大学 自然科学系)
ネットにおける炎上の例に典型的なように、或る表現に反応が集中するという
現象は数多い。あるいは、或る情報や意見が他の人に引用され、有意義なコメ
ントや共感を呼ぶ。このように、複数の言語表現の間に行き交う共感や反感を
どのように特徴付け、さらにはそれをインターネットの設計にどう利用するか、
自然言語処理の問題として基礎的にも応用面でも重要である。このような観点
から我々は、ブログなどを通じた双方向のやりとりを通じて、人々の間にどの
ように情報や感情が伝搬するかという問題を研究している。ここではコメント
間の参照関係が明確に分かるSNSのデータを用い、特に感情語の相関を解析す
ることで、コメント間の関係性を明かにする試みを行っているので、その結果
を報告する。
(12) 場所参照表現タグ付きコーパスの構築と評価
松田 耕史,佐々木 彬,岡崎 直観,乾 健太郎 (東北大学)
ソーシャルメディア上からサンプリングした日本語テキストに中に現れる場所
参照表現に対して座標情報を含む具体的なエンティティ情報を付与したコーパ
スを試作した.その際,エンティティ辞書をどのように構築するか,アノテー
ション付与の対象をどの範囲にするかなど,様々な設計上の選択を行うことが
必要であったため,この過程で行われた議論について述べる.また,ガイドラ
インの妥当性を検証するために複数人でアノテーションを行い,その結果浮か
び上がった課題を整理し,実際に場所参照表現のグラウンディングを行うため
にはどのような技術的課題を解決しなければならないかを考察する.
■ 14:15〜15:45 生成・アノテーション (3件) ■
座長: 吉永 直樹 (東京大学/情報通信研究機構)
(13) 係り受け解析との統合に基づく日本語文の語順整序
吉田 和史 (名古屋大学大学院情報科学研究科),
大野 誠寛 (名古屋大学情報基盤センター),
加藤 芳秀 (名古屋大学情報連携統括本部),
松原 茂樹 (名古屋大学大学院情報科学研究科)
本発表では,読みにくい語順をもった日本語文に対して,より読みやすくなる
ように文節を並べ替える手法を提案する.本手法は,係り受け構造が付与され
ていない文を入力とし,係り受け解析と語順整序を同時に行う. 係り受けと
語順の適切さを同時に考慮することにより, 読みやすい語順を精度よく同定
することが期待できる.新聞記事を用いた評価実験により,本手法の有効性を
確認した.
(14) 比較記述テキスト中の比較表現のアノテーションと分析
飯田 諒 (東京工業大学 大学院情報理工学研究科),飯田 龍 (情報通信研究機構),
徳永 健伸 (東京工業大学 大学院情報理工学研究科)
従来の参照表現生成では,ある対象を,他の対象と区別し,曖昧性なく簡潔に
指示する表現を生成することを目的に研究が進められてきた.これに対し,本
研究では,複数の対象を横並びで比較し,言及する対象ごとに適切な比較対象
を選び,すべての対象についてその特徴を記述するテキストの生成を目指して
いる.このようなテキストを本研究では比較記述テキストと呼ぶ.比較記述テ
キストでは,対象を比較して述べる際に様々な比較の方略が採用されるが,本
研究ではこの比較の種類を分類し,その分類カテゴリの情報を既に収集済みの
比較記述テキスト集合へアノテーションした結果について報告する.さらに,
アノテーションした内容を分析し,比較対象との関係を考慮して比較記述テキ
ストを自動生成する際にどのような点に留意する必要があるかを調査した結果
についても報告する.
(15) 単一文書自動要約のための言語資源構築に向けて
浅原 正幸,加藤 祥 (人間文化研究機構 国立国語研究所),
今田 水穂 (文部科学省)
本研究では単一文書自動要約の新たな展開について言語資源と評価指標の観
点から検討する。 まず、最初に語順に対する順序尺度を含めた距離空間・類
似度・相関係数・カーネルにより既存の自動評価指標の整理を行い、現在ある
言語資源を用いてその指標空間の性質を明らかにする。次に自動要約の評価と
して必要な軸として、提供すべき情報の過不足と読みやすさの2つを考える。
情報の過不足については、元文書の情報構造を言語生産者・言語受容者の双方
の観点から分析し、システム要約・参照要約双方の情報の質を検討する。読み
やすさについては、生成されたテキストの読み時間に基づいた定量的な評価方
法について検討する。最後に語順・情報構造・読み時間の関係性について解説
し、読み時間を用いた言語受容者毎の要約作成の可能性について議論する。
■ 15:45〜16:00 クロージング ■
======================================================================
★ 研究報告のペーパーレス化
本研究会はペーパーレスでの開催となり,印刷した研究報告の配布を行い
ません.また,特許出願の公知日(研究報告の公開日)が従来より1週間
早まりますので,ご留意ください.
※自然言語処理研究会に登録されている方
研究報告は研究発表会の1週間前に電子図書館と当日閲覧用サイトで公開
します.当日は資料をプリントアウトしてご持参いただくか,ご自身の
PCにダウンロードのうえ,ご持参ください.
情報処理学会電子図書館(情報学広場)
https://ipsj.ixsq.nii.ac.jp/ej/ (ユーザ登録が必要です)
当日閲覧用サイト
http://www.ipsj.or.jp/sig-reports/
※自然言語処理研究会に登録されていない方
当日受付で本研究発表会の資料閲覧用にUSBメモリを貸し出します.
当日はノートPC等をご持参ください.なお,当研究会にご登録頂くことで,
本研究会の資料をバックナンバーも含めて電子図書館で購読できます.
登録されていない方は,是非この機会に研究会に登録してください
(登録まで最大3日かかりますのでご留意ください).