ライブ配信
http://www.ustream.tv/channel/ipsj-signl
開催概要
◎日程:2016年7月29日(金)30日(土)
◎会場:岡山県立大学
〒719-1197 岡山県総社市窪木111
アクセスマップ: http://www.oka-pu.ac.jp/index.php?page_id=1150
教室(予定)
29日(金) 学部共通棟(東)8904
30日(土) 学部共通棟(東)8901
キャンパスマップ http://www.oka-pu.ac.jp/index.php?page_id=1230
◎交通アクセス:
・JR桃太郎線・服部駅から徒歩5分
・JR倉敷駅からJR総社駅経由で約40分
※桃太郎線は便が少ないのでアクセスの際はお気をつけ下さい
※備中高松は服部駅2つ前までなのでお気をつけ下さい
◎注意事項
・学校の周りに飲食店がほとんどないため昼食は学食でとっていただくか、
持参していただくようにおねがいします.
・特に30日(土)は学食がやっていないので、昼食はご持参していただくように
お願いします.
・1kmぐらい離れたところにセブン-イレブンやラーメン屋等があります.
・開催中の27日〜29日まで中国インターハイが開催され、皇族の方も出席されるそうなので、
ホテルや鉄道がの混雑が予想されます. 早めのご予約をお願いします.
============================
懇親会
当日は懇親会を予定しておりますので、ぜひご参加ください。
※下記「事前申込」から申し込みをお願いします。
・日時:2016年7月29日(月)18時30分〜
・会場:岡山駅付近で実施予定
・事前申込:http://goo.gl/forms/sb2zOpuZqe42Zxan2
・申込締切:2016年7月18日(月)
・会費:4,000円前後(予定)
============================
照会先
●研究会に関する問い合わせ先:
NL研に関する照会先: 木村 俊也(株式会社ミクシィ)
E-mail: shunya.kimura (at) mixi.co.jp
会場に関する照会先: 菊井 玄一郎, 磯崎 秀樹 (岡山県立大学)
E-mail: {kikui, isozaki} (at) cse.oka-pu.ac.jp
============================
プログラム(発表件数16件)
7月29日(金)
[13:30-15:30] 構文解析・意味解析・評判分析 [4件]
[15:30-15:45] 休憩
[15:45-17:15] 言語処理応用 [3件]
[18:30-] 懇親会
7月30日(土)
[09:30-11:00] 機械翻訳 [3件]
[11:00-12:00] 招待講演 [1件]
[12:00-13:30] 昼休み
[13:30-14:50] 言語分析・言い換え [3件]
[14:50-15:05] 休憩
[15:05-16:35] Twitter分析 [3件]
[16:35-16:50] クロージング
—————————-
7月29日(金)
[13:30-15:30] 構文解析・意味解析・評判分析 [4件]
座長:ニュービッグ グラム (奈良先端科学技術大学院大学)
(01) K-best反復ビタビパージング
林 克彦, 永田 昌明 (NTTコミュニケーション科学基礎研究所)
本稿では確率文脈自由文法に対する効率的,かつ,解の最適性を保証するパージングアルゴリズムを提案する.
また,提案手法を拡張して,K-best解を効率的に求めるための手法についても提案する.英語ペンツリーバン
クを使った実験から,提案手法が従来手法も高速に動作することを示す.
(02) 点推定による日本語 all-words WSD システム KyWSD
新納 浩幸, 古宮 嘉那子, 佐々木 稔 (茨城大学), 森 信介 (京都大学)
ここでは我々が公開している日本語の all-words WSD システム KyWSD を紹介する。KyWSD は点推定を基
本にした単語分割学習システム KyTea を利用したものであり、その拡張性に特徴がある。all-words WSD は
現実の意味解析にとって必須の技術である。また様々な NLP タスクの学習システムに対して、 KyWSD は語義
の素性を追加することができる。更に KyWSD は日本語 WSD システムのベースラインとして手軽に利用でき
る。これらの点から KyWSD は役に立つと考えている。またここでは KyWSD の精度や拡張性を調べた。その
実験から KyWSD 及び日本語の all-words WSD の持つ問題点も示す。
(03) 極性辞書を利用した句構造による注意型ニューラル評価極性分類
宮崎 亮輔, 小町 守 (首都大学東京)
評価文の中では,評価極性(ポジティブ・ネガティブ)を反転させるような表現を含むことがあるが,このよう
な現象を単語のみから捉えることは難しく,この問題を解決するためには統語的構造を考慮する必要がある.構
文木を利用した方法はこれまでにも考えられているが,ノードやエッジを用いたスパースな素性を設計する必要
がある.素性のスパース性を解消するために再帰的ニューラルネットによる手法も提案されているが,文単位の
評価極性分類で既存の手法と同程度以上の性能を得るためには部分フレーズ毎に極性アノテーションされたコー
パスが必要である.各部分フレーズに人手でアノテーションを行うことはコストが高く,現在は英語などでの限
られた言語でしか利用可能なコーパスが存在しない.また極性分類に影響するフレーズや単語は文内でも一部分
だけであり,再帰的ニューラルネットワークにおいて木構造上で遠い位置にある重要なフレーズや単語の情報を
ロスなくルートまで伝達するのは難しい.そこで,極性辞書と注意機構を利用した再帰的ニューラルネットワー
クによるモデルを提案する.提案手法では,極性辞書による部分アノテーションと各部分フレーズを重み付きで
考慮する注意機構を再帰的ニューラルネットワークの一種である木構造LSTMへ適用した.実験の結果,提案手法
が日本語の評価極性分類において最高精度を示した.
(04) Characterを用いたSNS文章分類
清水 隆範, 劉 牧 (株式会社ソニー・インタラクティブエンタテイメント)
近年,SNS は顧客の声を直接的に理解する上で重要なツールとなっている.SNS分析の中に,Sentiment,
Emotionなど分類する言語処理技術が必要である.普通的に,日本語の分類はまず形態素分析を行い単語分割
し,後はLexiconそれども学習した分類モデルを利用して分類する.本稿では,形態素分析を行わず文章から単
語を分離せずに,文章から文字を分離しベクトル化して,文字ベースの文章特徴化である.評価実験では,日本
語,英語ツイートのSentiment分類,中国語Weiboデータのsubjectiveとobjective分類,日本語文章歪み耐性
実験を行い,文字ベースの有効性を示し,その適用が期待できる
[15:30-15:45] 休憩
[15:45-17:15] 言語処理応用 [3件]
座長:磯崎 秀樹 (岡山県立大学)
(05) Encoder-Decoderモデルにおける出力長制御
菊池 悠太, ニュービッグ グラム, 笹野 遼平, 高村 大也, 奥村 学 (東京工業大学)
機械翻訳に初めて適用されて以降,Encoder-Decoderモデルの枠組みは様々なタスクに転用され多くの注目を
集めている.このとき出力系列の長さを直接制御する試みは行われておらず,言語モデルであるDecoderに依
存していたが,要約のように出力長を外部から制御できることが重要であるタスクも存在する.そこで本研究で
は文要約タスクを対象に,指定した長さに応じた要約を出力させるための手法を提案する.
(06) 業績変動を考慮した決算短信からの重要文抽出
磯沼 大, 藤野 暢, 浮田 純平, 村上 遥, 森 純一郎, 坂田 一郎 (東京大学)
近年,記事生成などへの自動要約技術の適用が注目されている.本研究で対象とする決算記事は,どの事業や事
象が企業全体の業績変動に大きな影響を及ぼすかといった記者の知見をもとに作成される.したがって自動要約
においてはこうした記者の知見を抽出し,情報抽出・要約に適用する技術が必要である.本研究では過去の決算
短信と決算記事から業績変動と短信文の掲載パターンを学習し,記事に掲載されるべき文を決算短信から抽出す
る手法を提案する.提案手法は2パートに分かれ,第1パートでは各事業セグメントの業績変動と,記事掲載パ
ターンを学習することにより,掲載されるべき事業セグメントを判定する.第2パートでは判定された事業セグ
メントの業績要因文について,極性判定により各文の重要度を評価し,抽出を行う.極性判定では,決算記事中
の各表現に関する極性を自動で獲得し,NMFによる極性値推定を行うことで,決算記事に未出現の表現も含め
た多様な表現に関する極性の獲得を可能にした.提案手法を適用して決算短信から抽出された文と実際の決算記
事を比較した実験において,重要文抽出精度の評価を行い提案手法の有効性を確認した.
(07) 誤りの傾向と文の容認性に着目した英作文のレベル判定
林 正頼, 笹野 遼平, 高村 大也, 奥村 学 (東京工業大学)
英語教育において,学習者が書いた英作文が,どの程度のレベルなのかを把握することは,教育者,学習者双方
にとって重要である.本研究では,学習者が書いた英作文を対象に,語彙情報といった基本的な素性に加え,文
中に含まれる誤りの傾向や,文の容認性などに着目し,英作文のレベルを自動的に判定するシステムの構築を目
指す.
[18:30-] 懇親会
—————————-
7月30日(土)
[09:30-11:00] 機械翻訳 [3件]
座長:岡崎 直観 (東北大学)
(08) 和訳の自動評価のための係り受け木の比較
門田 悠一郎, 磯崎 秀樹 (岡山県立大学)
翻訳の質の良し悪しを自動的に評価する翻訳自動評価手法は、機械翻訳の発展に不可欠である。語順の近い欧米
言語間ではIBMのBLEUが採用されているが、英語と日本語のように語順が大きく入れ替わる言語対では、
BLEUと人手評価の相関が低い。そこで磯崎らは、語順の類似度を利用するRIBESを考案した。RIBESは人手評
価との相関が高いが、語順を利用しているので、日本語のスクランブリング現象と相性が悪い。本稿では、高地
と磯崎によって考案された「係り受け比較法」を紹介し、RIBESとWERで文レベル相関がどう改善されるかを
示す。
(09) 木構造を中間表現とするピボット翻訳手法
三浦 明波, ニュービッグ グラム, 中村 哲 (奈良先端科学技術大学院大学)
統計的機械翻訳において,特定の言語対で十分な文量の対訳コーパスが得られない場合,中間言語を用いたピボ
ット翻訳が有効な手法の一つである.ピボット翻訳手法の中でも,特に中間言語を介する2つの翻訳モデルを合
成するテーブル合成手法で,高い翻訳精度を得られることが知られている.しかし,従来のテーブル合成手法で
は,フレーズペアの中間言語側の単語列一致をもとに新しい翻訳規則を推定するが,多品詞語などの影響で曖昧
性が高く,誤った規則に高い翻訳確率が推定されてしまう問題がある.そこで,本研究ではフレーズの構文構造
が一致する場合のみフレーズペアを結び付けるという条件を導入し,曖昧性解消に取り組む.このようにして得
られる翻訳モデルは高信頼度だがカバレッジを損なうことが考えられるため,従来モデルも併用することで信頼
度とカバレッジを両立する手法も提案する.本手法の有効性を評価するため,国連文書コーパスを用いた多言語
翻訳の実験で精度の比較を行った.
(10) 動画像情報と音声情報のシーケンス変換学習に基づく言語獲得
高渕 健太, 岩橋 直人, 國島 丈生 (岡山県立大学)
本研究では,動画像情報と音声情報のシーケンス変換学習に基づくロボットの言語獲得手法を提案する.提案手
法では,概念構造を表す記号列と音節列の相互変換を学習する.シーケンス変換学習として統計的機械翻訳手法
であるIBM Model4とニューラルネットワークに基づく機械翻訳手法であるEncoder-decoderモデルの2通り
を試す.本提案手法の特徴は以下の2点である.1)動画像情報と音声情報の変換の学習を機械翻訳問題としてモ
デル化する.2) 形態素解析を必要とせず,音節列と概念構造を変換することができる.実験により,高い精度
で動画像情報と音声情報が相互変換できることを確認した.
[11:00-12:00] 招待講演 [1件]
(11) 自然言語処理における深層学習の省メモリ化と高速化
進藤 裕之 (奈良先端科学技術大学院大学)
座長:乾 健太郎 (東北大学)
[12:00-13:30] 昼休み
[13:30-14:50] 言語分析・言い換え [3件]
座長:林 克彦 (NTTコミュニケーション科学基礎研究所)
(12) 単語分散表現のアライメントに基づく文間類似度を用いたテキスト平易化のための単言語パラレルコーパスの構築
梶原 智之, 小町 守 (首都大学東京)
統計的機械翻訳の枠組みを用いたテキスト平易化が近年活発に研究されているが、その学習に必要な単言語パラ
レルコーパスを人手で構築することはコストが高い。そのため、テキスト平易化のための単言語パラレルコーパ
スは、英語や独語など限られた言語でしか整備されていない。本稿では、単語の分散表現に基づいて計算される
文間類似度を用いて、テキスト平易化のための単言語パラレルコーパスを自動構築する手法を提案する。我々は
難解な文と平易な文からなる任意の文対に対して、一方の文中の各単語に対して最も類似度の高い他方の文中の
単語を割り当てる多対一の単語アライメントを考え、それらの単語間類似度の平均値によって文間類似度を定義
する。我々の提案手法は、ラベル付きデータや辞書などの外部知識を必要としないため、任意の言語に適用でき
る。実験の結果、我々の提案手法は英語のテキスト平易化のための単言語パラレルコーパスの自動構築タスクに
おいてstate-of-the-artを更新した。また、統計的機械翻訳の枠組みを用いたテキスト平易化の実験結果も、
我々の提案手法によって構築されたコーパスが既存のテキスト平易化のためのコーパスよりも優れていることを
示した。本研究ではテキスト平易化を対象にしたが、単言語パラレルコーパスは言い換えや文圧縮などの分野で
も有用な言語資源である。
(13) NTCIR-12 QA Lab-2におけるQAシステムの課題—センター試験の結果を中心として
渋木 英潔 (横浜国大大学), 石下 円香 (国立情報学研究所), 阪本 浩太郎 (横浜国立大学), 藤田 彬 (国立情報学研究所), 狩野 芳伸 (静岡大学), 三田村 照子 (カーネギーメロン大学), 森 辰則 (横浜国立大学), 神門 典子 (国立情報学研究所)
現実世界を対象とした質問応答の実現に向けて,大学入試問題を解くことを目的としたQA Labタスクを
NTCIR-11および-12で行った.本論文では、過去2回のQA Labにおいて多肢選択型のタスクに参加したシステ
ムの結果を用いて、多くの参加システムが解けなかった問題を対象とした誤り分析を行い、今後の質問応答シス
テムに要求される知識や処理を考察する.
(14) (ショート発表) 再帰的評価を利用した講義アンケートの単語・コメント評価
塩飽 朝美, 椎名 広光 (岡山理科大学), 小林 伸行 (山陽学園大学)
現在、各大学ではFD活動の一環として講義アンケートを実施し、教員や講義に対する学生の満足度等を調査す
ることで教育や講義改善を図っている。本研究では、講義アンケートの自由回答欄のコメントを対象にコメント
とそれに含まれる単語の評価推定を行う。コメントの評価方法として、一部コメントの複数人による評価に対し
てコメントと単語のそれぞれの評価推定を相互に再帰的に繰り返し、全コメントの評価推定を行う。また、個々
人によるコメントと単語の推定評価の相違を評価する。
[14:50-15:05] 休憩
[15:05-16:35] Twitter分析 [3件]
座長:木村 俊也 (株式会社ミクシィ)
(15) 重み付き木構造カーネルと共起重みによるTwitterの自動分類手法
武田 昌大, 椎名 広光 (岡山理科大学), 小林 伸行 (山陽学園大学)
Twitter等のWebサービスの充実により,コメントデータを様々なカテゴリや粒度に自動分類する技術の要求が
高まっている.そこで本研究では、Wikipediaのカテゴリ構造を応用することで、文に対して多様なカテゴリの
意味を抱負した木構造による素性を生成し、文と文の距離を計算する手法を提案する.また木構造におけるカテ
ゴリ間ノードや共起語に対する重み付けによる改良により、分類精度の向上を図った.
(16) Twitterの利用状況とツイートの印象に関する分析
熊本 忠彦 (千葉工業大学)
本稿では,アンケート調査に基づいてTwitterの利用状況やメリット・デメリット,Twitterを利用している理由
などを調べるとともに,Twitterの閲覧頻度が一定以上のヘビーユーザに対し,ツイートからどのような印象を
受けたことがあるか,どのような印象のツイートを見たいか,あるいは見たくないかを尋ね,その結果をタイプ
分類した.さらに,ツイートの印象を「感情属性」というタイプに分類された24個の印象語を用いて評価して
もらうというアンケート調査を行い,その結果得られた印象評価データに対し因子分析やクラスタ分析を行うこ
とで,印象語どうしの関係を調べ,ツイートの印象を表すのに適したツイート印象軸を設計した.
(17) 複数時点の単語出現頻度を扱う時系列データモデリング
磯 颯, 若宮 翔子, 荒牧 英治 (奈良先端科学技術大学院大学)
インフルエンザをはじめとする感染症に関する迅速な情報収集は公共衛生上重要な課題である. 本研究では,
Twitterにより得られたデータを用いてインフルエンザ流行の現状把握,および,患者数の予測を行う. 従来法
では,対象時点の少数の単語頻度データのみを扱うものが多かったのに対し,本研究では,対象時点のツイート
に制限しない,多時点の単語頻度データからインフルエンザの患者数の現状把握モデルを構築し,予測モデルへ
の拡張を行う. この拡張は,感染症の早期検出に制限されるものではなく,より広範な時系列データに応用可
能である. 実験の結果,1週間先の患者数を予測した場合,実際の患者数との相関の平均は0.928となった.ま
た,2週間先の患者数を予測した場合,相関の平均は0.872となり,実用的にも有用なモデルを構築できたので
報告する.
[16:35-16:50] クロージング
============================
研究会幹事団
主査:
乾健太郎 (東北大学)
幹事:
荒瀬由紀 (大阪大学)
岡崎直観 (東北大学)
木村俊也 (株式会社ミクシィ)
小町守 (首都大学東京)
西川仁 (東京工業大学)
運営委員:
浅原正幸 (国立国語研究所)
荒牧英治 (奈良先端科学技術大学院大学)
石野亜耶 (広島経済大学)
金丸敏幸 (京都大学)
小林隼人 (Yahoo! JAPAN 研究所)
古宮嘉那子(茨城大学)
貞光九月 (日本電信電話株式会社)
佐藤敏紀 (LINE株式会社)
新里圭司 (株式会社楽天)
鈴木祥子 (日本アイ・ビー・エム株式会社)
数原良彦 (リクルートホールディングス)
高村大也 (東京工業大学)
土田正明 (日本電気株式会社)
堂坂浩二 (秋田県立大学)
徳永拓之 (スマートニュース株式会社)
二宮崇 (愛媛大学)
橋本力 (独立行政法人 情報通信機構)
藤田早苗 (日本電信電話株式会社)
牧野貴樹 (グーグル株式会社)
牧野拓哉 (株式会社富士通研究所)
松崎拓也 (名古屋大学)
ミハウ・プタシンスキ(北見工業大学)
村脇有吾 (京都大学)
若木裕美 (株式会社東芝)
Kevin Duh (Johns Hopkins University)