※ 情報処理学会音声言語情報処理研究会(SLP)との共催です.
◎ 日程: 2011年5月16日(月), 17日(火)
◎ 会場: 東京大学本郷キャンパス 工学部6号館3階セミナー室AD
◎ 両研究会合同企画 学生セッション
音声言語情報処理研究会(SLP)と自然言語処理研究会(NL)の合同企画として
学生セッションを開催いたします.卒業論文,修士論文でまとめられた研
究成果など,音声・言語処理に関する,学生のみなさんによる発表を広く
募集し,学生セッションを構成いたしました.優秀な論文発表には,学生
奨励賞を進呈し表彰します.
学生奨励賞は以下の2件の発表に進呈いたしました.
岡照晃(奈良先端大)
機械学習による近代文語文への濁点の自動付与
林部祐太(奈良先端大)
文脈情報と格構造の類似度を用いた日本語文間述語項構造解析
◎ 特別講演
Microsoft Research Asia の辻井潤一先生による特別講演「言語と知識:
粒度の細かな情報アクセスと言語処理の役割」を行います.
◎ ホームページ http://www.nl-ipsj.or.jp/
◎ 照会先:
* 研究会に関する問い合わせ先:
宮尾 祐介 (国立情報学研究所)
E-mail: yusuke (at) nii.ac.jp
* 会場に関する問い合わせ先:
中川裕志,吉田稔(東京大学)
E-mail: nakagawa (at) dl.itc.u-tokyo.ac.jp
mino (at) r.dl.itc.u-tokyo.ac.jp
======================================================================
プログラム(発表件数16件)
5月16日(月) 13:30~18:00
[13:30~14:30] テキストマイニング・機械学習 [2件]
[14:45~16:45] 学生セッション(1) [4件]
[17:00~18:00] 特別講演
5月17日(火) 10:30~17:30
[10:30~12:00] 学生セッション(2) [3件]
[13:30~15:00] 学生セッション(3) [3件]
[15:15~17:15] 構文解析・検索・文法 [4件]
[17:15~17:30] 学生奨励賞発表,表彰
======================================================================
5月16日(月) 13:30-18:00
■ 13:30-14:30 テキストマイニング・機械学習 (2件) ■
座長:中川裕志(東京大学)
(1) Twitter Catches the Flu: 事実性判定を用いたインフルエンザ流行予測
○荒牧英治,増川佐知子(東京大学),森田瑞樹(医薬基盤研究所)
本研究ではTwitter発言者がインフルエンザにかかっているかどうかを識
別し,集計することにより,高精度でインフルエンザ流行を予測できるこ
とを示す.
Q: なぜナイーブベイズを使わなかったのか?
A: SVM より良いことは後から分かった.
Q: 分類できなかった25%の原因は?失敗事例を教えてほしい.
A: 人間でも難しいケースが多い.例えば,主語がアニメの主人公であるような
場合は世界知識が必要.
Q: モダリティなどの判定はどうやっているか?
A: SVM のなかで一緒にやっている.
Q: 2つの分類条件があったが,2段階でやらないのか?
A: やってみたがあまり貢献していない.
Q: タイトルに予測とあったが,この研究は予測になっているのか?
A: 予測というのは間違いで,現状把握しているというのが正しい.ただ,一
週間後の発表を予測しているという意味で予測.
Q: 学習データはどこからサンプリングしているのか.時系列的にはいつ?
A: インフルまたはインフルエンザで検索して取ってきて,人手でチェックし
ている.テスト期間の最初の方からとっている.
Q: 平常時じゃないデータがもう少しあれば,もっと精度が出たか?
A: その可能性はある.
Q: F値で評価しているが,precision と recall のどちらが高い?どちらが
重要?
A: 調べていない.実際には調整できるが,検討中.
Q: 時期を限らずにランダムにとれば?
A: すぐにやれるのでやってみたい.
Q: 「だれが」の部分に注目すれば,Iの人だけでなくSの人もわかるのでは?
A: 検討したい.
C: 予測は基本的にできないように思えるが,実はそうではなく,発症数が増え
始めているかどうかをとらえれば,医学的モデルを使うなど予測の方法が見え
るのでは.
Q: インフルエンザの発生は地域性が高いので,地理的な情報も考慮したらどう
か.隣接地域との関連などをモデル化するのがいいのでは.
A: 検討したい.
(2) 多クラスSVMにおけるクラス所属確率を用いたアンサンブル学習の提案
○高橋和子(敬愛大学)
複数の分類器の中で予測クラスの所属確率が最大の分類器を選択し, この
分類器の予測を最終決定とする方法を提案し有効性を示す.
C: 提案手法の特徴として所属確率を計算するときに他のクラスの情報も含めて
回帰している点があると思うが,クラス構造を利用する手法は他にもあるので
は.階層の上の方から決めていくとか.
Q: スコアは分離平面からの距離なのか?非線形だと分離平面からの距離を測
るのが難しいのでは?
A: そのとおり.今回は線形でやっているので問題ない.
Q: 分類平面からの距離を logistic regression にかけて確率化するのはいい
のか?
A: 先行研究はあるが,理論的根拠はあまりなさそう.
Q: bagging とか SVM 以外に,データをクラスタリングして二値分類しやすい
ようにするとか,階層構造を作るとか,いろいろな方法があるが,検討したか?
A: やっていないので,検討したい.
C: 多クラス分類の場合,one vs rest が多いみたいだが,一度に多クラスの学
習をする手法もあるので,参考にするとよい.
■ 14:45-16:45 学生セッション(1) (4件) ■
座長:岩野公司(東京都市大学)
(3) 文書上の潜在トピックを捉える事象の検討とその応用
○北島理沙,小林一郎(お茶の水女子大学)
事象を対象にした潜在トピック推定手法を提案し,その応用として,潜在
的な意味に基づいた要約生成を行う.
Q: 共起の範囲を文全体にするのではなく適宜短くするということだが,
McDonald が学習と同時にウィンドウを決めるという研究をやっている.それは
係り受け関係を使っていないので,この研究を参考にして必要な係り受け関係
の範囲を学習するという方向が面白いのでは.
A: 今回は経験的に決めているが,将来はそういう方向性もありうる.
Q: イベントごとに phi の次元がことなると思えばいいか?
A: そう.
Q: beta はどう決めている?
A: 今は beta は 0.1 で固定している.本当は変える必要がある.
C: 次元があまりにも違うので,その時 beta が固定というのはよくない.
100/次元数がいいという話があるので,試しては.
Q: クエリをトピックの潜在空間にどうやってマップしているのか?
A: クエリを文書だと思って,イベントを抽出している.
Q: 係り受け関係をイベントにする場合,構文解析の失敗の影響は分析したか?
A: レビューを対象にすると特に誤りがあるが,誤りの傾向が一貫しているの
で,それほど問題ない.
C: Hovy が basic element を提案していて,それが今回の話の係り受け関係と
関連がありそう.違いなどを議論したらよい.
Q: Bigram の LDA を作っているようなものだが,単語ペアだとスパースになる
と思われる.beta にあたるところで階層構造を入れるなど,いかにスムージン
グやるかが重要.
A: イベントは今は全部独立だが,階層構造など考えるとよいと思っている.
Q: 後半の実験で,新しい手法がうまくいっていないというところで,適用の範
囲がうまくマッチしていないという議論があったが,どういうことなのか説明
してほしい.
A: 文書のトピック分布と文のトピック分布を同じように扱う手法は単語を使
うものではあったが,イベントを使うものではなかったので,そのあたり改良
すべき.
(4) 多言語トピックモデルによる言語横断リンク検出
○福増康佑,松浦愛美,江口浩二(神戸大学)
複数のテキストデータ集合から言語を横断して同一イベントに関するもの
を自動的に対応付ける言語横断リンク検出問題を解決するため、種々の多
言語トピックモデルを比較評価する。
Q: ヒストグラムが広がっているほどいいというのは直感的にわかりにくい.ど
ういうことか?
A: 普通のLDAなどはトピック数が500あっても実質使われているのは400 くらい
しかない.それでもトピック数を1000にすると尤度は上がる.つまり,モデル
がトピック数をフルに使えていない.提案手法では500トピック全部が使えて
いる.それがいいことなのかどうかは評価が必要.
Q: corrLDA の性能が良かったという結果だが,corrLDA は非対称で,その方が
いいというのは直感に反する.
A: 日本語の文書についてはトピックを推定できるので,その精度の上昇が英語
の方にも影響したと考えている.
Q: トピックの推定を2言語でやるのは難しいのかもしれないということか?
A: そういえるかもしれない.
Q: 完全に対訳であっても日本語と英語ではトピックが変わった方がいいという
ことか?
A: そう思われる.
A: CI-LDA は自由度がありすぎるが,corrLDA は片方の言語で得られたトピッ
クしか別言語で使えないという強い制約になっているので,この問題設定では
良い結果になったのではと考えられる.
Q: 言語横断のタスクに多言語トピックモデルを使うのは一般的なことなのか?
A: 対訳発見だけなら他にも有効な手法がある.トピックモデルではWikipedia
で学習したものを利用して新聞から抽出するなどの応用ができる.
(5) 音声入力型大学情報検索システムに対するベイズリスク最小化音声認識の
適用
○松尾宏規,西田昌史(同志社大学),古谷遼,南條浩輝(龍谷大学),山
本誠一(同志社大学)
本研究では,ベイズリスク最小化音声認識を導入し,音声入力により大学
のホームページを検索するシステムの構築について検討を行った.
Q: ベイズリスク最小デコーディングは新しくないが,この研究の新しい点は?
検索に使ったところが新しいのか?
A: 音声入力型のウェブ検索に適用し,評価を行った点を主張したい.
Q: 機能語に1,内容語に100という重みをつけているのはなぜか?ベクトル空間
モデルで検索するときにストップワードで消えてしまうのでは?
A: そのとおりで,便宜上,内容語と機能語の重みの比率があるというのを分か
りやすくするためにそのような説明にした.
Q: 提案手法と何かを組み合わせてWERを0にすることは可能か?
A: 内容語の中でも重要な単語,重要でない単語があるので,重みを変えて検
索精度を上げたい.
Q: ベイズリスク最小化でやると,機能語が多く含まれるような,挿入誤りが多
いような文書が有利になっているのでは?正しく認識してほしい単語に置き換
わっているということは起きているか?
A: 挿入誤りは小さくなっている.
Q: 外国人の発話の認識について特に考慮しているか?
A: 特に想定していない.
Q: 挿入が消えて正解率が上がっているなら,予め確率的に間違え易いものを考
慮する検索モデルを構築してはどうか?内容語の重みづけを変えるだけで全部
解消できるとは思えない.そういう知識を重みに反映すればこのモデルででき
ることもあるのでは?
A: 重み付き音声認識に対してまだ適当に重みを付けているので,検討できる部
分はまだいろいろある.
C: 対話の音声認識では,分からなかった時に聞き返すことがある.聞き返しが
あった時にそれを利用して誤りやすいものを学習できるのでは.
Q: 実験では内容語に全て同じスコアを付けていたが,重要な単語に大きい重
みを付けたい場合,具体的な重みづけの方針はあるか?
A: ホームページでの単語の出現頻度は重要度を示していると思っている.あ
とはtf-idfとか.
(6) 機械学習による近代文語文への濁点の自動付与
○岡照晃,小町守(奈良先端大),小木曽智信(国立国語研究所),松本
裕治(奈良先端大)
明治期文書に現れる濁点の脱落を、かな文字の2値分類問題として定式化
し、識別学習によって自動で補う。
Q: 濁点のつけかたに個人差はあるか?
A: あると思われる.
Q: 全体を見た時につけている例が一つでもあれば他の出現にもつけるという手
法は?
A: 検討する.
Q: 辞書は整備されているか?
A: Unidic がある.
Q: 太陽コーパスは分かち書きされているか?
A: 分かち書きはされていない.
Q: 今使っている素性で効くのは辞書的知識なので,辞書をうまくつかえば学
習データにない単語についてもうまくいくのでは?
A: 今後検討したい.
Q: なぜ文語文に濁点をつけないといけないのか?
A: 日本語学などの研究を行っているユーザのニーズがある.現代語との対応
を付けたい.
C: 太陽コーパスの一部を残しておいて評価する実験をやるべき.
C: ベースラインが低すぎ.文字 n-gram を使って翻訳モデルを作るとかできる
はず.
■ 17:00-18:00 特別講演 ■
座長:徳永健伸(東京工業大学)
言語と知識:粒度の細かな情報アクセスと言語処理の役割
辻井潤一 氏 (Microsoft Research Asia)
Q: 科学者でも人によって背景が違うはず.解釈はその人の背景知識に対して相
対的と思われる.それが考慮されていなかったが.
A: ある人が作ったパスウェイは他のグループは信用しないこともあり,それは
背景が違うから.その原因の一つに,パスウェイから元の論文にたどって行け
ないことがある.解釈が人によって変わってしまうという部分を,少しでも解
消するのが目的で,知識表現をオリジナルのデータやテキストにつなぐという
こと.
Q: 粒度を小さくしていくと,揺れがどうしても生じる.例えば,症状が同じと
か事象が同じというのは生命科学の世界でも揺れるのでは.それに対してどの
ように取り組んでいるか.
A: 今回の話ではやっていないが,個々では正確性が検証できないので,テキス
ト集合全体を見てメタ的な分析をやる必要がある.細かい粒度の情報を,全体
で統計的に見て,鳥瞰図を作る必要がある.
Q: 生命科学者の役に立つものを作ろうと思うとなかなか主役になれないが,ど
うやったら言語処理が主役として活躍できるか.
A: 生命科学者は割合対等に付き合えるが,医者は上下関係があるように思える.
付き合う人を変えた方がいいのでは.あまり抽象的に意味とか知識とか言って
も仕方なくて,膨大な知識を持っているグループと付き合うことで本当の言語
処理ができるようになる.
======================================================================
5月17日(火) 10:30-17:30
■ 10:30-12:00 学生セッション(2) (3件) ■
座長:荒牧英治(東京大学)
(7) インターネット上の英日統計的機械翻訳サービスの誤り分析
○星野翔,建石由佳(工学院大学)
Google翻訳とBing Translatorの出力を英日対訳データを用いて人手で分
析し,編集プログラムによる誤りの改善を試みた.
Q: 誤り率を足していくと収束していくというスライドがあったが,どういう
意味か.
A: 200文の評価で最終的に十分かどうかを確かめるための実験.収束すれば指
標として安定していると考えた.
Q: つまり,200文のうち何文間違ったかということか.Bing の方が誤りが多い
ということか.
A: そういうこと.
C: テスト例の順番に依存するのでは?
C: グラフに信頼区間などを表示したらよい.
Q: Google や Bing は統計翻訳で実装されているのは分かっているが,詳細な
実装は分からない.どういう違いがあるという前提でで分析しているのか.
A: 今回はブラックボックスと思って分析した.
Q: Google と Bing を比較している表で,WER は低い方がいいのでは?
A: WER と書いているが,実際には1から引いた値になっている.
Q: サービスの実装が変わったら分析結果も変わり,後処理プログラムが使え
なくなる.後処理プログラムの修正はどれだけ大変になるのか?
A: 確かに変更されると使えなくなってしまうが,単位換算のような定性的な
誤りを発見できたことは意義がある.これらは頻度に加え,修正しやすいとい
う観点から得られた.後処理についてはルールベースがよいとは考えていない.
Q: 後処理で挙げた3つはどれくらい実際に現れるのか.
A: 10文~20文に1つくらい誤りが見られた.
Q: 取り上げたものは,分量が多い中で修正しやすいものを選んだということ
か.
A: はい.
Q: 簡単な後編集で修正できるならなぜ Bing とかで後編集をしていないのか.
統計的翻訳がある程度うまくいっているからそういうことをやっておらず,
BLEU スコアもよいのでは?
A: なぜ Google などでこういうエラーが起きるのかは分からない.全体的な最
適化の結果,こういう人間の目につきやすいものが残ってしまったのでは.翻
訳候補の中には正解があることもあるので,ミクロな誤りは今後修正されてい
くと思う.
A: 3番目に関しては,そもそも人間の参照訳で省略されていたというのが主な
原因.2番目は,BLEUのエラーとしては小さいが,人間が見ると意味が全く変
わるので,目立ったのではないか.
(8) 質問・回答事例を利用したnon-factoid型質問応答に対する確率的言語モ
デルの導入
○吉田恭輔,上田太郎,石下円香,森辰則(横浜国立大学)
質問・回答事例から確率的言語モデルを推定・利用して、non-factoid型
質問応答の精度向上を図る方法について報告する。
Q: 質問を受け取ってからクラスタリングなどを行うのか?クラスタリングにか
かる時間はどれくらいか?
A: オンザフライでクラスタリングするので,処理に時間がかかり,クエリか
ら早くても10分かかる.
Q: 従来手法は表層だけ使って bigram モデルを使っていたので不十分という話
だが,品詞情報を加えるとどれくらい改善できるのか?直感的にはなぜ品詞が
効くのか分からない.
A: データとしては持っていない.推定結果のパラメータを見ると,前後の品詞
とその組み合わせなど,品詞が効いている傾向がみられる.
Q: Factoid 型の質問についても効果が期待できるのか?
A: やってないのでわからない.あまり効果がないのではないかと予想される.
(9) マイクロブログを用いた感染症サーベイランス
○岡村直人,関和広,上原邦昭(神戸大学)
Twitterを用いた感染症サーベイランスについて,特にインフルエンザを対
象にその有効性を検討する.
Q: インフルエンザの早期検出を目指すなら11月くらいの流行を予測すべき.
A: 今回は実験を始めたのが遅く2月になってしまった.流行が過ぎた時期に取っ
ている.もっと早くからやっていれば有効性がより言えたと思う.
Q: 発熱や頭痛はインフルエンザでなくても観察されるが,どうやってインフル
エンザと仮定したのか.
A: 今回は風邪などの分類はしていない.人手で分類を行い,そこで風邪なのか
インフルエンザなのかを判断した.
Q: 1日前と相関があり,それ以外は相関が低いというのは,発症してからすぐ
に医者に行くということなのか.1日というのは直感的には短い気がする.
A: 症状が出てから医者に行くまでにある程度時間があるという仮定で実験を
行った.今回は取得したツイート数が少なかったので期待した結果が得られな
かったものと考えられる.
Q: このデータの信ぴょう性を見る医療機関のデータはないか.もしそういうデー
タがあり,本当に短いのであれば,そもそも予測するのが難しいということに
なり,そこがこの手法の可否のポイントになると思われる.
A: 検討したい.
Q: 風邪とインフルエンザの症状はかぶっているので,風邪とインフルエンザ
を区別するようなクエリを出して区別してはどうか.例えば風邪薬の販売数な
どからただの風邪の数はある程度分かると思う.
A: 検討したい.
C: 重要な問題なので,狭いところで競争してても仕方ないから協力しましょう.
■ 13:30-15:00 学生セッション(3) (3件) ■
座長:森信介(京都大学)
(10) 文脈情報と格構造の類似度を用いた日本語文間述語項構造解析
○林部祐太,小町守,松本裕治(奈良先端大)
統計的格構造類似度を用いて,着目する述語以前直前の項構造解析結果
を次の解析に活かす方法を提案する.
Q: 前の文脈が全部解けたとして解いているが,前の文脈も解いた場合の精度
の変化は?
A: 実験では提案手法がうまくいく.
Q: グループとして最大値や平均値をとらずにシステムを使った場合はどうか.
A: 実験していない.
Q: 誤り分析は述語対について見ていたが,格も含めて見ているか?
A: 今後調べたい.
Q: エラーの例は類似度計算では捉えられないというより,対応付けの問題で
はないか?格構造の類似度という考え方では扱えない例というのはなかったか?
A: 人手で判断しても揺れる事例が多く,根本的に難しい.語義曖昧性解消を
してから類似度を測るなどのやり方があるが,曖昧性解消をするためには項の
情報が必要であり,にわとりと卵の関係にある.語義曖昧性解消と項の解消を
同時にやる手法を考える必要がある.機能動詞結合に関するものも同様.
Q: INTERの精度は20%あたりで低いが,人間にとっても難しいタスクなのか.
A: 人が見てもどちらでもありうる,もしくは深い知識がないと判定できない
場合が多い.
Q: 比較的機械でもできそうなところを切り出すことはできそうか.
A: 現在のコーパスでは人が判断にゆれた場合も含まれているが,信頼性を付
与してそれも含めて学習するなどを考えている.
Q: 今回の手法はどのくらいのカバレッジがあるのか?たとえばAのBが項の場
合などは?
A: 直接述語にかかっていない例も使っている.AのBがXした,の時はBしか使っ
ていないので,AとBが項として適切かどうかという段階で判断しないといけな
い.
Q: SRLに格助詞以外も追加して,名詞を全部入れるようにすればいいのでは.
A: そのとおり.ただ,例えば「の」がどの優先度に属するかは難しい.副作
用が大きくなりそう.
Q: 機能動詞結合と似たようなことは名詞でも起こるのでは.例えば「動物等」.
そういう事例はあまりなかったのか?
A: そのとおりで,Aの方を履歴に用いることを考えなければならない.
(11) 固有表現抽出のための大規模訓練データの自動獲得
○宇佐美佑,Han-Cheol Cho,岡崎直観,辻井潤一(東京大学)
低コストで準備できる語彙辞書と、大量の生テキスト群を用いて標題の
タスクを達成し、その評価を行う。
Q: 参考文献情報はIDだけでなくアブストラクトとかが使えると思う.
A: 今回はIDしか見ていない.参照先の類似度を測って補完したり,という手
法は考えられる.
Q: 人手によるアノテーションデータと生データを組み合わせることはできな
いのか?
A: アノテーションデータをスタートとしてセフルトレーニングをやるとか,学
習データが少量ある時により大きなデータを使うという設定にすることもでき
る.
Q: 人手でつけたデータと自動で取ってきたものの違いは何か?提案手法が人
手に及ばなかった主な原因は何か?
A: エラー分析で挙げたような4つの例をうまく解決するのが一つの方向.
Q: 固有表現の種類は何種類?
A: 遺伝子名とタンパク質名を一種類と考えているので,一種類.
Q: 確信度の値はどうやって計算している?トークンの確信度なのか,NEの確
信度なのか?
A: トークンの確信度.平均を取っているので,複数トークンが予測されにく
かったということが考えられる.
Q: この手法の一般性はどれくらいあるか?
A: 一般ドメインで人名とか組織名の場合は,例えば Wikipedia が使える.参
考文献情報が無くても,語彙データベースの中の文章と対象文章の類似度を使
うという方法もある.
(12) ドメイン外発話が扱え拡張性が高い対話ドメイン選択フレームワーク
○佐藤隼(東京電機大学),中野幹生(HRI-JP),駒谷和範(名古屋大
学),船越孝太郎(HRI-JP),奥乃博(京都大学)
拡張性の高いマルチドメイン対話システムのための,ロバストな2段階ド
メイン選択フレームワークを提案する.
Q: 音声帯域に対してどれくらいのチャンネルを用意しているのか?
A: Julias を使っているが,詳しいことは分からない.
Q: 1Hz毎にチャネルを用意をするなどして改善できないのか?
A: 人ごとにいろいろな違いがあるので,今の技術では難しいと思う.
Q: 言語モデルのスペックや,コーパスの大きさなどを教えてほしい.
A: QA では A と B を合わせたものを学習データとして使っている.3530発話
くらい.
Q: エラーは音素誤り率を出しているが,単語誤り率だとどれくらいが.
A: MeCab を試したが,うまく切れなかったので音素誤り率を提示した.
Q: ドメイン外の発話を扱うエキスパートからどこに戻るのか?
A: ドメイン外エキスパートというのは無くて,直前のエキスパートを使う.
Q: 確認はやっていないのか?確認していけば原理的に間違いは起きないので
は?
A: エキスパートによるが,RU エキスパートの場合は確認するが,QA エキス
パートの場合はそのまま.
Q: 認識誤りしたら無理やり進むのではなく,確認したらいいのでは?
A: それはある.
Q: ドメイン外に遷移する典型的な例は?
■ 15:15-17:15 構文解析・検索・文法 (4件) ■
座長:三木清一(日本電気)
(13) 部分的アノテーションから学習可能な係り受け解析器
○森信介,FLANNERY Daniel(京都大学),宮尾祐介(国立情報学研究
所),NEUBIG Graham(京都大学)
限られた言語資源を効率よく使うために、係り受けが部分的にアノテー
ションされたコーパスを学習に使える係り受け解析器を提案する。
Q: 確率文脈自由文法の部分アノテーションコーパスからの学習はEMでもでき
る.発表のポイントは何か?
A: 主に効率の問題.EMは計算速度が遅い.アクティブラーニングに使えない.
C: 工藤さんの研究で,難しいところからアノテーションするということをやっ
ているので参照してほしい.どこからアノテーションすればいいのかというこ
とは既に関連研究がある.
Q: 難しいところだけ付けるのと、全体を付けるのと実際どれくらい手間が減
るのか?
A: 係り受けについてはまだデータがない.グラフの横軸としてアノテーショ
ン数よりも,アノテーション時間を考えるのが適切と考えている.
(14) 子音に注目した早口言葉の検索
鶴巻有香,○安川美智子,横尾英俊(群馬大学)
滑舌訓練用の類似音の検索を行うことを目的として、日本語の子音の特
徴に注目した早口言葉の検索方法を提案する。
Q: n-gram 検索をしているということか?先頭と終端のところに工夫をすると
だいぶ変わるのでは.
A: そのとおり.
C: n-gramで検索した後編集距離を使ってソートするなどの検索に工夫を入れる
だけでかなりよくなると思う.
C: 検索以外の応用として音声検索もあるのでは.子供の音声は滑舌が悪いので,
子供の音声認識に使える.
Q: 実験では1個をクエリとして他のものをとりたいということだが,具体的に
どういうものがとれるとうれしいのか.
A: データにどういうタイプの早口言葉かというラベルがついているので,同じ
ラベルのものが検索できればいいとしている.
Q: 検索意図は何なのか?同じタイプの早口言葉をとりたいのか?
A: そう.苦手なタイプの事例を沢山取りたい.
Q: 新しいものを分類するという問題は無いのか?
A: 考えていなかったがあると思う.
Q: ラベルの数はどれくらい?
A: 30くらい
(15) 同位語を利用した不在インデックス
○新里圭司,鎌田浩司,黒橋禎夫(京都大学)
「文書に書かれていないこと」を同位語を利用して生成し、インデック
スに登録することで、不適合文書を高速に検出する手法を提案する。
Q: 係り先の同位語は考えなくていいのか?
A: 考えている.
Q: query expansion で negative term を入れているという解釈でよいか.
A: それだと効率が悪くなる.
Q: 構造を持ってくるとヒットしにくくなるので,否定のタームを入れてもあ
まりヒットしないのでは.書かれていないことを入れるのは難しいのでは?
A: 現状では見えていない.普通の検索では間違った文書が出てきてしまうの
で,何とかしたい.
Q: 同位語が入っていたら適合しないという立場だが,実際には有用なものがあ
るのでは.例えば,カラスの被害とハトの被害は似ているとか.そういう情報
を積極的に使う方向は考えないのか?
A: 今回は考えていない.今後考慮していきたい.
Q: 鳥の被害は良くてハトの被害はだめというのが良く分からない.
A: 鳥の被害の場合は鳥がカラスの場合がありうるので,残している.
(16) チョムスキーに「生成文法」という幻想をいだかせた神経細胞のデジタ
ル・ネットワーク・オートマタにもとづく「二重符号化文法」
○得丸公明(衛星システムエンジニア)
文法は、遺伝子にコードされているのか、いないのか。筆者は、文法は遺
伝子にコード化されておらず、生物体の神経細胞の感覚・記憶・論理判断
が、音韻パターンのわずかな変化を意味の変化へと結びつける「パターン
認識」であると考える。文法はデジタル通信に固有の二つの符号化メカニ
ズム、通信路符号化と情報源符号化の相乗効果が生みだした「二重符号化
文法」と呼ぶのがふさわしい。
Q: 言語がデジタルであるというのは自明では.チョムスキーの話と今日の話
は関係ないと思う.要点が分からない.
A: このテーマで2度査読で落ちているので,もう一回概念を組み立てようと
している.
Q: 文字のアナログ性などと混同しているのでは.
A: ここで考えているデジタルは100元のデジタル.
Q: わざわざ言うほどのことでもないのでは?
A: 論文誌の査読ではそれはデジタルではないと言われたので.
■ 17:15-17:30 学生奨励賞発表,表彰 ■