動画配信 http://live.nicovideo.jp/watch/lv249665493
◎ 日程: 2016年 1月22日(金)
◎ 会場: 株式会社ミクシィ 住友不動産渋谷ファーストタワー 7F (東京)
〒150-0011 東京都渋谷区東1-2-20
https://goo.gl/maps/foJrYiEZdfp
・ビル7Fにて株式会社ミクシィのエントランスにご入場ください
・エントランスでは受付等はせずに立て看板の誘導にしたがって進んで会場会議室までご入場ください
◎ 交通アクセス:
・JR「渋谷駅」東口より 徒歩8分
・各線 「表参道駅」B1出口より 徒歩10分
◎ ネットワーク: 無線LANでのインターネットが利用可能です
◎ 照会先:
研究会に関する照会先: 木村 俊也 (株式会社ミクシィ)
E-mail: shunya.kimura (at) mixi.co.jp
会場に関する照会先: 木村 俊也(株式会社ミクシィ)
E-mail: shunya.kimura (at) mixi.co.jp
======================================================================
プログラム(発表件数6件)
1月22日(金)10:30〜16:30
[10:30〜12:00] 意味解析・形態素解析 [3件]
[13:30〜15:00] 用語抽出・誤り訂正 [3件]
[15:15〜16:15] 招待講演 [1件]
[16:15〜16:30] クロージング
======================================================================
1月22日(金)10:30〜12:00
■ 10:30〜12:00 意味解析・形態素解析 (3件) ■
(01) 分散表現に基づく選択選好モデルの文脈化
大野 雅之, 井之上 直也, 松林 優一郎, 岡崎 直観, 乾 健太郎 (東北大学)
述語の選択選好性のモデル化は,述語項構造解析・省略解析を始めとした意味解析に
おいて重要な基盤技術の一つである.これまでの研究では,「述語の選択選好性は計
算対象となる名詞の意味的な性質にのみ依拠する」という仮定のもと選好性を学習し
てきたが(e.g., manはarrestの目的語になりうる),省略解析などの談話解析への
応用を考えると,談話内での名詞の言及のされ方まで含めて選好性を計算できること
が望ましい(e.g., 悪事を犯したmanはarrestの目的語になりうるが,善良なmanはな
りにくい).そこで本研究では,ニューラルネットワークに基づく選択選好モデル[V
an de Cruys,2014] を拡張し,名詞の意味的な性質に加え,談話内での言及のされ
方を分散表現で表現することにより,名詞の出現文脈を考慮した述語の選択選好モデ
ルを提案する.評価実験では,代名詞照応解析への応用を見据え,代名詞に対する先
行詞候補のランキング問題に基づく評価を行い,名詞の出現文脈を用いることの有効
性を確認した.
(02) 大学入試化学の自動解答システムにおける格フレーム辞書を用いた係り受け解析誤りの訂正と省略の検出
吉田 達平, 松崎 拓也, 佐藤 理史 (名古屋大学)
高校化学の計算問題の自動解答システムの開発を行った.システムはまず問題文を言
語処理し問題の意味を表した中間表現を生成したのち,計算処理を行い解答を導出す
る. 本稿では特に前半の言語処理に関して,解析誤りの修正とゼロ代名詞のような
省略された要素の検出について報告する. これらは文法に適合した / 不適合なパタ
ーンを表したヒューリスティクスと,化学的な意味に基づいて設計した格フレーム辞
書を用いて行う.
(03) 形態素解析における関西弁の自動認識
深澤 拓海, 廣川 純也, 松村 冬子, 原田 実(青山学院大学)
言語処理システムの基盤技術である形態素解析では既に高い精度が実現されている。
しかし、方言やネットスラングなどの崩れた日本語文を解析する際、それらの表現が
形態素解析で用いる辞書に登録されていないため、正しく解析ができない場合がある
。本研究では方言の中でも特に関西弁を含む日本語文の形態素解析の精度向上を目指
し,形態素解析機JUMANに関西弁独特の活用規則や新語を追加することで、従来は未
知語として処理されていた語の正しい解析を実現する。
■ 13:30〜15:00 用語抽出・誤り訂正 (3件) ■
(04) トピック変動の分析による俗語の特徴抽出
松岡 雅也, 松本 和幸, 吉田 稔, 北 研二 (徳島大学)
近年,若者言葉や造語,ネットスラングといった,辞書に載っていない単語を,SNS
上で頻繁に目にするようになった. SNSに投稿される文章には新鮮な情報が多く含ま
れており,情報収集において有益であるが,それらの単語(本研究では以後,俗語と
呼ぶ)を分析し,特徴をとらえることは,機械的な情報収集の精度向上において重要
となる. 本研究の目的は,俗語にどのような特徴が見られるかを,話題性に着目し
て分析・検討することである. 本稿では,Twitterにおいて分析対象となる俗語が含
まれる文章群に対し,潜在的ディリクレ配分法(LDA)により,時系列ごとにトピック
モデルを構築する.そのモデルを用いて一定期間におけるトピックの時間的変化を分
析することで,各俗語や一般的な単語における特徴の違いを見つけ出し,考察する.
(05) 複数コーパスを対象とした複合語の字種変化特性の解析 -非出現パターンの分析-
熊井 直人 (神奈川大学), 熊澤 侑美 (株式会社アクアリーフ), 後藤 智範 (神奈川大学)
4種類のコーパス、具体的には複数辞書、学術論文標題、学術論文抄録、特許抄録に
出現した多字種複合語に対して、字種変化パターン毎の用語出現頻度、字種変化数毎
の用語数、字種変化数毎のパターン数を対比した。さらにコーパス間で重複して出現
した字種変化パターン、コーパス単独に出現したパターンそれぞれの字種変化特性に
分析した。
(06) 統計的機械翻訳を用いた中国語文法誤り訂正
趙 寅琛, 小町 守, 石川 博 (首都大学東京)
近年、外国語学習者のための文法誤り自動訂正についての研究が盛んになってきてい
る。統計的機械翻訳に基づく手法で英語や日本語などの文法誤り自動訂正の研究はす
でに存在するが、中国語についての関連研究はまだ少ない。そこで、本研究では統計
的機械翻訳に基づく中国語文法誤り自動訂正手法を提案する。本論文では、文法誤り
訂正のためのパラレルコーパスの構築、言語モデルの使用、文法誤り訂正の最適化と
評価手法について詳しく論じていく。
■ 15:15〜16:15 招待講演 (1件) ■
(07) 分布のカーネル埋め込みに基づくBag-of-Wordsデータのための潜在変数モデル
吉川友也 (千葉工業大学)
特徴の多重集合で表現されるデータはBag-of-Words(BoW)データと呼ばれ、NLPや
画像処理等のデータ表現として用いられる。我々はBoWデータに対して、(1) 各特徴
を潜在ベクトルで表現し、(2) 各BoWデータを潜在ベクトルの分布とみなし、(3) 潜
在ベクトルの分布を「分布のカーネル埋め込み」によってノンパラメトリックに表現
する、新しいデータ表現法を考案した。本講演では、このアイディアの詳細を説明す
るとともに、このデータ表現法に基づく分類・回帰・異種データ間マッチングの問題
を扱う潜在変数モデルを紹介する。
■ 16:15〜16:30 クロージング ■