※ 情報処理学会音声言語情報処理研究会(SLP)との共催です.
◎ 日程: 2010年5月27日(木), 28日(金)
◎ 会場: 東京工業大学 大岡山キャンパス 西8号館10階大会議室
交通アクセス http://www.titech.ac.jp/about/campus/index.html
◎ 両研究会合同企画 学生セッション
音声言語情報処理研究会(SLP)と自然言語処理研究会(NL)の合同企画として
学生のみなさんによる発表を広く募集し,学生セッションを構成いたしまし
た.
以下の3件の発表に学生奨励賞を進呈いたしました.
Webフィルタリング処理時における表記揺れの動的解決
○井手厚,東藍,松本裕治(奈良先端大)
用法の違いを考慮した類似単語の置換による学習データ生成とそれを用い
た主題の違いに頑健な言語モデルの構築
○清水信哉,鈴木雅之,齋藤大輔,峯松信明,広瀬啓吉(東京大)
半教師あり語義曖昧性解消のためのグラフスパース化
○小嵜耕平,小町守,新保仁,松本裕治(奈良先端大)
◎ 質疑応答メモ
当日参加できなかった方に研究会の雰囲気を少しでもお伝えするために,有
志による当日の質疑応答のメモを載せています.ただし,必ずしも完全なも
のではありません.お問い合わせいただいても答えかねる場合もありますの
で,その点ご了承ください.
◎ ホームページ
http://www.nl-ipsj.or.jp/
◎ 照会先:
* 研究会に関する問い合わせ先:
宮尾 祐介 (国立情報学研究所)
E-mail: yusuke (at) nii.ac.jp
* 会場に関する問い合わせ先:
徳永 健伸 (東京工業大学)
E-mail: take (at) cl.cs.titech.ac.jp
◎ プログラム (発表件数21件)
5月27日(木) 10:30~17:15
[10:30~12:00] ●翻訳,言語モデル,類似度計算 [3件]
[13:30~15:30] ●学生セッション1 [4件]
[15:45~17:15] ●学生セッション2 [3件]
5月28日(金) 10:15~17:30
[10:15-11:45] ●音声言語処理 [3件]
[13:00-14:30] ●学生セッション3 [3件]
[14:45-16:15] ●学生セッション4 [3件]
[16:30-17:30] ●言語分析 [2件]
======================================================================
5月27日(木) 10:30~17:15
■ 10:30~12:00 翻訳,言語モデル,類似度計算 (3件) ■
座長:高村大也 (東工大)
(1) 単語並び換えモデルを考慮した統計的階層句機械翻訳システム
○林克彦(同志社大),塚田元,須藤克仁,Kevin Duh (NTT),山本誠一
(同志社大)
統計的階層句機械翻訳方式では生成された翻訳結果の単語並びの正しさは
主にN-gram言語モデルによって推定される.本研究ではさらに単語並び換
えモデルを階層句機械翻訳システムに導入する手法を提案することでより
適切な単語並びの翻訳結果を得ることができるシステムの開発を行った.
(2) 確率的タグ付与コーパスからの言語モデル構築
○森信介,笹田鉄郎,NEUBIG Graham (京都大)
本論文では、コーパスに単語境界や読みなどのタグを確率的に付与するこ
とを提案し、それによる言語モデルの改善を報告する。
Q: 単語分割の単位によって読みが変化する現象を提案モデルでとらえられる
のか?一日(ついたち,いち|にち)など.
A: 周囲の入力文字列の情報からとらえられる範囲では可能である.
Q: 単語よりも掘り下げて、発音をモデルに入れるとどのような影響があるの
か?
A: 仮名漢字変換には効果がないのではないだろうか。音声認識には良さそう
である。
Q: 人間はそもそもどのくらい間違えるのか?
A: 変換のタイミングなどにも依るが、99%くらいの精度が出るのではないだろ
うか?
(3) 木の編集距離を用いた文の類似度計算方式
○三上崇志,平野敬,川又武典(三菱電機)
自然文を木構造グラフに変換し,同型構文や意味が類似する文の距離を木
の編集距離によって計算する方式を提案する.
Q: なぜこのように編集コストを決定したのか?
A: 品詞が似ているという情報をうまく利用したかった。コストの決め方は確
かにアドホックであり、改善が必要。
Q: コスト設計において、品詞が似ているということは意味が似ていることに
つながらないのでは?たとえば,助詞の違いは意味が変ってくるのでは?
A: 確かに意味が似ているとは限らない。機能語の区別は必要。目的は5W1Hを
とらえることであるので、それには効果があるかもしれないと考え、この
ようにした。
C: 格助詞を語彙化するなどの工夫をしてはどうか。
Q: 子ノードをソートしたけど、なぜそうしたのか。順序無しで考えた方がい
いのでは?
A: 編集距離の計算方法が、順序ありのためのものだったのでこうしたが,た
しかにそのほうがよい.
C: 順序なし木についての比較アルゴリズムがあるのでそれを使うのが直接的.
C: 普通の文書分類だとbag-of-wordsで結構うまくいってしまう。評判分類な
どのようなタスクに応用してみてはどうか。
■ 13:30~15:30 学生セッション1 (4件) ■
座長:藤田篤 (はこだて未来大)
(4) Webレビューの表形式化システムSECRETの開発
○今井和雄,吉村友希,原田実(青山学院大)
レビューサイトからレビューを収集し、意味解析システムを用いてレビュー
中の属性を自動で決定、表形式化して出力するシステムの開発
Q: タグの簡単化を前提にしているが,中黒,強制改行などのタグ以外の
方法でレイアウトを設定している場合は通用するのか?
A: できない.レビューサイトではあまりそういう例はない.
Q: 余計な繰り返しを検出してしまうことはないか?
A: 検出したパターンを,対応箇所を見ながら人間が選択するのである程度OK.
Q: レビューが1つしかないページからは抽出できないのでは?
A: 現状ではパターンは取得できない.同じサイトでも多少違う場合もある.
Q: ユーザの関与は排除できない?
A: サイトの多様性があるのでユーザの関与は必須.
Q: パターン選択の精度は? 仮に1位のパターンを自動選択したらどうか?
A: ほぼOK.
Q: どんな場面でニーズがあるの? レビュー以外の用途は何?
A: これから考えます.
(5) テキストマイニングシステムSTMの感情・意思分析を中心とした機
能拡充
石田涼,○山西和広,早川紘代,酒匂佳織,後藤良太,原田実
(青山学院大)
テキストマイニングシステムSTMの感情・意思分析機能の組み込みを中心と
した機能の拡充
Q: 分析対象はレビューに限定?
A: はい.
Q: 辞書利用して10種類の感情判定をしていることによる利点は何?
A: 対象に関するユーザの行動予測がよりきめこまかくできる.
C: いくつかの階層を考える方が良いかもしれない.
Q: 感情辞書を作る時に困難はなかったか?
A: 3名で作業したがかならずしも一致しない.事前に定義を明確化した.
Q: 複合的な感情は扱うのか?
A: 頻度分析が難しくなるので1つにまとめた.
Q: 今後の展開は?
A: プレゼンテーションに改善の余地あり,さらには評判分析.また,否定辞
の扱い.
Q: 依存関係のクラスタリングの手法とそれのアドバンテージは何?
A: 語彙IDの同一性をベースにクラスタリングしている.利点については今後
調査します.
(6) モノの用途表現を手がかりとしたWebからのノウハウの獲得
○小澤俊介(名古屋大),内元清貴(NICT),松原茂樹(名古屋大)
モノとその使われ方に着目することにより効率良くノウハウを獲得する手
法を提案する.
C: 入力する名詞と実際のノウハウの対象がずれている.
Q: 収集した中で実際にhow型QAに使えそうなものはどれくらいあったか?
A: 定量的には不明.
Q: Know how表現が対象物によって違うことはないのか?対象物によってクロス
バリデーションして問題ないのか?
Q: 個々のモノについて集めているが,横断的なノウハウもあるのではないか?
A: 10-CVよりも5-CVの方が性能が良くなるので,共通性はあると考えられる.
Q: パターンがうまくいっていない例は?
A: 未分析.
Q: 用途表現を必ずしも必要ないのでは?
A: 今後の課題.
Q: 利用している用途表現の数は?
A: 各対象物について約20程度.
C: 少ないのでは?
Q: SVM以外の手法は?
A: 試していない.
Q: 用途表現のトップ100のうち平均25個しか使えないというのは,式がイマイ
チなのでは?
A: これでうまくいっていると考えている.
Q: 再現率が低いのは用途表現のスコアリングがうまくいってないのでは?
(7) Webフィルタリング処理時における表記揺れの動的解決
○井手厚,東藍,松本裕治(奈良先端大)
KAKASIのかな変換機能とMeCabの分かち書き機能を利用した表記ゆれ対策を
提案する.
Q: 同音異義語についてはどうするの?
A: 考えていない.余分に拾っておいて,後で処理すれば良い.
C: 周辺語の分布を見たらどうか?
Q: Precision/Recallの制御は可能か?
A: N-bestのNを調節すると可能では?
Q: 個別の表現について処理すべきか? Webページ全体としてフィルタリングし
たいのだから,大域的素性を見たら?
C: ひらがな->漢字生成->Webでフィルタリング->訓練データ生成->確率モデル
学習のようなシナリオはどうか?
Q: 漢字生成する段階で組み合わせが爆発するのではないか?
C: たぶんできる.
Q: ページをフィルタリングするのなら語を変換する必要はないのではないか?
Q: うまくいかない例がいい文章だったみたいだけど,テストセットがよくな
いのでは?
■ 15:45~17:15 学生セッション2 (3件) ■
座長:河原達也 (京都大)
(8) 読点の用法的分類に基づく自動読点挿入
○村田匡輝,大野誠寛,松原茂樹(名古屋大)
読点の用法を分類し、その分類に基づく分析から決定した素性を用いた統
計的手法による読点の自動挿入手法を提案する。
Q: 学習とテストのコーパスが同じ種類のテキストだが,違う性質のテキスト
だと結果が変わるのでは?新聞以外のテキストでの実験が必要と思われる.
A: 新聞でうまくいかないようでは他の分野は難しいと思われるので,まず新
聞で試した.他の分野も今後検討する.
Q: 人間が行う挿入で不自然なものはあるか?
A: 使用した例ではなかった.
Q: 人間と機械で同じくらいの精度と言っても,エラーの中身が違うのでは.
エラーのずれを見た方がよい.
A: まだデータの中身を分析していない.今後やってみたい.
Q: 句点の自動挿入(文を切ったり,くっつけたり)について何かアイディア
はあるか?
A: いくつか先行研究があるが,具体的なアイディアは今のところない.
C: CSJでやった研究でも同じくらいの性能がでていた.やはり正解の作成が難
しい.
Q: 絶対に読点を挿入しないといけない場所についても分析するべきでは?
A: 名詞が並ぶ場合など挿入しないといけない場所はあるが,詳しい分析はやっ
ていない.
C: 音声関連ではこの手の研究が多い.ポーズや long-distance dependency
を手掛かりとすることがあるので,検討してはどうか.
C: 読点挿入と構文解析を同時にやるという方法も考えられる.
C: 非母語話者が書いた読点を修正するようなタスクも考えられる.
(9) 用法の違いを考慮した類似単語の置換による学習データ生成とそれを用い
た主題の違いに頑健な言語モデルの構築
○清水信哉,鈴木雅之,齋藤大輔,峯松信明,広瀬啓吉(東京大)
言語モデル作成のための学習データの不足を補うため,単語を置換するこ
とで新たにデータを生成するという手法を提案する.
Q: この手法はタスク依存度が低いと思われるので,タスクが異なる場合でな
くても効果があるのでは?
A: スタイルを変えずに語彙を拡張するというのが目的の一つなので,その可
能性がある.
C: 同じタスクのデータを使って実験を行って,結果を比べるとよい.
Q: 擬似頻度の与え方が分からなかった.Unigram のカウントを合わせるよう
にすればよいのでは?
A: やってみたが,うまくいかなかった.また,適応先のデータを使わない設
定にしている.
Q: クラス言語モデルに近いと思われる.違いは何か?
A: 確かに似ているが,係り受け解析をしているので,長距離の関係が入る.
Q: 音声認識実験はやったのか?実際のタスクで評価するのが自然では?
A: まだやっていない.
Q: 名詞と動詞の効果の違いは,追加するエントリの数が異なるからでは?追
加した数を合わせて実験すべき.
A: たしかにその可能性はあるが,データを見たときには動詞の置換では非文
となることが多かった.
Q: 非文を生成しないようにするために,河原らの格フレーム辞書を使ってフィ
ルタリングすればよいのでは?
A: 検討している.
(10) 日本人英語学習者の音声文理解にプロソディ情報が果たす役割
○中村智栄(慶応大),原田康成(早稲田大),石崎俊(慶応大)
日本人英語学習者が英語音声文理解においてプロソディ情報をどの程度利
用しているのかを実験により検証した。
Q: プロソディ,構文情報という用語の使い方に問題があるように思われる.
A: 先行研究で syntactic/prosodic information と言っていたのを訳したも
のだが,確かにもっと適切な用語にした方がよい.
Q: 文の主語を聞くという質問は不適切では?ポーズ後から新しい文が始まる
解釈もあるのでは?実験結果とその解釈の関係が必ずしも意図したものと
なっていない可能性がある.よりよい実験デザインのアイディアはあるか?
A: 問題文の前にコンテキストを作るという方法はどうか.
Q: 母語話者の反応は取っていないのか?
A: 本研究ではやっていない.先行研究では,構文情報を優先すると言われて
いる.
Q: 音からの学習とテキストからの学習をした人で反応が変わると考えられな
いか?
A: 別の国の実験では,音からの学習をすると,初級者でも上級者でもプロソ
ディ情報を優先すると言われている.
Q: ローパスフィルタがどれだけうまく情報を消せているかが疑問.研究の目
的に合った変換がされているか調べた方がよいのでは?
A: 先行研究にならったが,ヘルツの設定など検討の余地がある.パイロット
実験などにより,プロソディがうまく強調されているか確かめるなどが考
えられる.
C: プロソディという表現は違和感がある.プロソディは言語,パラ言語,非
言語情報と直交する概念なのでは.
======================================================================
5月28日(金) 10:15~17:30
■ 10:15~11:45 音声言語処理 (3件) ■
座長:岩野公司 (東京都市大)
(11) ヒトの音声はphonitでデジタル変調されている - ヒトの話し言葉はデ
ジタル通信である(その1)
○得丸公明(システム・エンジニア)
ヒトの話し言葉はデジタル通信である。地上波デジタル放送がアナログ電
波をデジタル変調して送信しているように、ヒトの話し言葉は肺気流を声
帯で有声化したアナログな音を、声道によって母音と子音によってデジタ
ル変調している。
Q: 単語は記号だから,アナログではなくむしろデジタルなのでは.
A: ここでデジタルの定義は,離散・有限ということである.人間の発音時は
母音,子音を離散的に発音していると考えられるが,聴覚はそれを弁別す
る能力がない.つまり,離散的要素を弁別して単語を認識しているのでは
ない.
Q: どうやって検証するのか?
A: まずは概念を共有することを目指している.
(12) 広域文書類似度と局所文書類似度を用いた講演音声ドキュメント検索
○南條浩輝,弥永裕介,吉見毅彦(龍谷大)
講演音声集合から探したい内容を表す1~3分程度の箇所(局所文書)を検
索する方法,具体的には局所文書の検索時に,それを包含する大きな単位
(広域文書;例えば講演単位)でも検索を行い,類似度を統合的に用いる
方法を提案する.
Q: 再現率が上がるのはわかるが,精度があがるのはなぜか?
Q: 60発話が30発話を包含しているなら,30発話分がダブルカウントされてい
るのでは?
A: そうなっている.
Q: この手法の領域依存性は?構造をどのように考慮しているのか?講演のど
の部分を取ったらいいか,検討の余地があるのでは?
A: 今のところ工夫していないので,今後検討したい.
Q: 提案手法はどの程度音声認識誤りに対する補償になっているのか?テキス
ト検索一般で有効なのか?
A: テキスト検索の結果を示していないので分からないが,おそらく同様の結
果が得られると思われる.
Q: テストコレクションの品質は?正解といってるものがどれくらい有用なも
のなのか?ほんとに「正解」だけでユーザの目的が果されるのか?
Q: クエリの種類によって効果に違いがあるか?
A: クエリごとの分析はやっていないが,全体的に精度が上がっている.
(13) Spoken Term Detection のためのテストコレクション構築とベースライ
ン評価
○西崎博光(山梨大),胡新輝(NICT),南條浩輝(龍谷大),伊藤慶明(岩手
県立大),秋葉友良(豊橋技科大),河原達也(京都大),中川聖一(豊橋技
科大),松井知子(統数研),山下洋一(立命館大),相川清明(東京工科大)
CSJを対象としたSTD(音声中の検索語検出)のテストコレクションを構築
している.昨年10月に中間報告を行い,頂いた意見などを元にテストコレ
クションを改訂したので,報告する.
C: 検索結果が1件しかない未知語クエリを排除しているが,企業では出てこな
いことを確認するためにSTDを使いたいというニーズがあるので,クエリも
入れてほしい.
C: そのようなクエリはチャレンジングで面白いが,あまり困難なタスクで数
字が出ないと,発表しにくいという事情もある.
Q: コンペティションをやる場合,公開するモデルを使うことが前提なのか?
各グループが共通のモデルを使うと同じような結果になってしまうのでは.
A: 音声認識を改良することで検索精度を改善するという方向もありうるが,
ここではその後段階で改良点がたくさんありそこを目的としている.ただ
し,NISTではモデルを配布していない.
Q: 対象はテキスト化されていて,そのインデックスなどを工夫するという問
題設定なのか?テキストは書き起こしか?
A: テキストは自動認識したものを使う設定.クエリはテキスト入力.
Q: 未知語の定義は?
A: 音声認識器の辞書に入っていないということ.
Q: 自前の音声認識器を使うと未知語でなくなってしまうのでは?
A: 辞書は共通のものを使うなど,検討する必要がある.
Q: 辞書を拡張していくことを考えれば,未知語にこだわる必要はないのでは?
A: 過去のテキストでもどんな単語が入っているか分からないので,やはり未
知語の処理は必要である.
Q: キーストロークや読みなどは与えるのか?それは現実的な設定になってい
るのか?
A: クエリは読みも与えている.
■ 13:00~14:30 学生セッション3 (3件) ■
座長:庄境誠 (旭化成)
(14) フィルタリングのための隠語の有害語意検出機能の意味解析システム
SAGEへの組み込み
○橋本広美,木下嵩基,原田実(青山学院大)
隠語の有害語意検出のためにEDRコーパスから前出する語との共起性を数
値化した周辺語辞書を構築し、これを基に意味解析システムSAGEの語意決
定方法の改良した。
C: WSDタスクと同じような問題設定なので,WSDの既存手法が参考になるはず.
Q: 都内とか指定駅というのが効いているという話だったが,それらが隠語に
なった場合はどうするのか?
A: さらに前の語を使うということになるが,最終的にはやはり人手が必要に
なるかもしれない.
Q: 一般テキストに適用したときに精度が悪くなってしまうのではないか?
A: 上位概念が同じ場合は間違いが多くなってしまうが,それ以外の場合は
まり影響がない.
(15) 照応解析システムANASYSの精度向上-外界照応分離、素性の洗練、ナイー
ブベイズ法の導入-
○山田和正,松田源立,原田実(青山学院大)
照応解析システムANASYSの精度向上のため、外界照応分離、素性の洗練、
ナイーブベイズ法の導入を行った。
Q: ゼロ代名詞の精度は普通だいたいどれくらいなのか?
A: 一番精度がいいNAISTの研究と比較すると,文内照応ではやや負けるが,文
間照応では同じくらい.
Q: 学習に使っているコーパスはどれくらいの大きさか?
A: 769記事に対し5分割交差検定を行っている.
Q: 誤りを見た場合,どれくらいのパターンがあるのか?個別的な問題を一つ
一つつぶしていくのか?
A: 基本的にはそうであるが,正解率の求め方を工夫することである程度の精
度向上を期待している.
(16) 文間関係認識のための局所構造アライメント
○水野淳太(奈良先端大/東北大),後藤隼人(奈良先端大),渡邉陽太郎
(東北大),村上浩司(奈良先端大),乾健太郎(東北大/奈良先端大),松本
裕治(奈良先端大)
文間関係認識において,単語アライメント後に,文構造に対しても対応付
けを行 うことで意味的な対応をとる手法を提案し,その実装および評価
を行った.
Q: 直接構造どうしのアライメントを取る方法は検討したか?
A: 機械翻訳の先行研究でそのような方法があるが,単語の省略や挿入などが
あると難しいため,今回の方法を取った.
Q: 構造アライメントに使っている意味的関係をそもそもとらえられるのか?
単語アライメントと構造アライメントでは,単語アライメントの方が効い
ているのでは?
A: やはり単語アライメントの方が重要であるが,一方がもう一方を改善する
ということもある.
Q: 評価に使ったデータはどのように選んだのか.
A: 自然文のクエリを用意し,TSUBAKIで検索を行い,出てきたものをフィルタ
リングしたもの.
Q: 「環元水をやめて」の場合はどうなるのか?
A: 述語の positive/negative を素性に入れている.また,ここでの問題設定
ではアライメントとしては正解としている.
Q: グラフ構造を直接使わないのはなぜか?
A: 係り受け構造を使っている.
■ 14:45~16:15 学生セッション4 (3件) ■
座長:中川哲治 (NICT)
(17) NonFactoid 型質問文と回答文との意味的関係に基づく質問応答システム
Metis
○高山真行,久保田裕章,今村泰香,原田実(青山学院大)
理由・方法・定義を問う質問文と内容的に近い照応文と回答を含む回答文
との意味的関係に基づく質問応答システム Metis
Q: 提案システムが失敗する事例について,その誤りの原因と分布はどうなっ
ているのか.
A: まだ分析していない.
Q: 2つの質問タイプ条件を満たす疑問詞があった場合はどのように対処してい
るのか.
A: 後ろに出てくるタイプを優先するなど決めて処理している.
(18) ユーザが知らない語を予測する読解支援システムSocialDictと,そのリー
ダビリティ測定への拡張
○江原遥,二宮崇,清水伸幸,中川裕志(東京大)
英文Webページ中のユーザが知らない語を単語クリックログから予測する
読解支援システムSocialDictを拡張し,リーダビリティも測定可能にする
手法を提案する.
Q: 評価結果の見方が分からない.正解だったというのはどういうことか?
Q: NTTの単語親密度辞書を使って語彙数を推定する研究とはどういう関係か.
A: 知っている単語の数を求めるという点で異なる.
Q: リーダビリティと精度に相関はあったのか.
A: 実験に使用したBrownコーパスは難しくないので,すべての文書をreadable
と判定して正解率が高かった可能性もある.
Q: 既知語率が98%以上の場合をreadableとしているが,それを97%などとした
場合はどうなるか.
A: 試してみていない.
Q: 単語を知っているとはどういう定義か?単語が複数の語義を持つ場合,文
脈によってはユーザーが単語を知らない場合もあるがどのように扱ってい
るか?
A: 複数の語義は考慮していない.
C: 被験者に12,000語もの質問に回答してもらっているが,負荷が大きいと回
答内容の信頼性が低くなることがあるのでコントロールが必要な場合があ
る.
Q: 任意のWebページに対して既知語かどうかの判定ができるとよい.
A: 現在はJavascriptを含むページに対応できないなどの問題があるので
Wikipediaだけを対象としている.
C: 分からない単語はクリックしてもらえても,分かっている単語にはフィー
ドバックは得られない可能性がある.カメラ付きノートPCでユーザーの目
の動きを追うなどして,ユーザーが読んでいる動きを停止するような定量
的な指標を使えないか.
(19) 半教師あり語義曖昧性解消のためのグラフスパース化
○小嵜耕平,小町守,新保仁,松本裕治(奈良先端大)
b-マッチングに基くグラフスパース化の有効性を語義曖昧性解消タスクに
おいて検証した
Q: 実験に使用したデータでは語義の分布が偏っているが,拮抗した分布の単
語の場合はどのような結果になるか.
A: あまり精度は変わらないか,もしかしたら下がるかもしれない.
C: 現在のデータで出現数が突出した語義を取り除くことで,そのような条件
で実験することができる.
Q: k-近傍グラフを用いた場合のグラフの次数はkより大きいと思うがどうなる
のか.
A: k=20ぐらいが一番良い結果が得られたが,その場合次数は大体30ぐらいで,
場合によっては1,000ぐらいのことがあったがそれが悪影響を与えた可能性
はある.
C: 直感的には次数が高いものが悪い影響を与えているのではないかと思った.
Q: k-近傍グラフとb-マッチンググラフの比較で,パラメータのkとbを同じ軸
にして比較するのはフェアではないのではないか.
A: フェアではないのは確か.横軸をエッジの数として比較を行ってみたが,
その場合もベストな精度はb-マッチンググラフの方がよかった.
Q: スパース化により頑健性を増していると考えて良いのか.
A: スパース化の影響を分析するのは難しいが,ノイズの影響は軽減できる.
Q: 今はノードの数は変えていないが,ノードを併合するアプローチも可能だ
と思う.行列を圧縮するアプローチと関係があるのでは.評価に大域的な
指標を使っているので,大域的に最適化した方がよくなる可能性がある.
A: 多クラスの分類を行う場合,大域的に最適化すると小さなクラスに悪影響
を及ぼす可能性があるかもしれない.
Q: 完全グラフからスパース化を行っているがそれではコストが大きいので,
他の方法はないのか.
A: 特徴量選択を行いを特徴量を減らしておけば,類似度が初めから0のエッジ
ができてある程度スパースにできるかもしれない.
■ 16:30~17:30 言語分析 (2件) ■
座長:村上浩司 (奈良先端大)
(20) Rongorongo 符号列とイースター島古謡音韻列の対応
○山口文彦(東京理科大)
イースター島に伝わる古謡の音韻と未解読文字列である Rongorongo に付
けられた符号との出現順序の関係性を調べた結果を報告する.
Q: Latin文字の読み方は?
A: 良く分からない.
Q: 対応付けは行単位か?単語単位で歌詞単語の系列が絵文字にあるかを見る
べきでは?
A: 読みの単位は、表音/表意文字か分からないので今はこうしている.絵文
字と1:1で対応しているかも分からない。
Q: シラブルで考えるのはどうか?アジア言語だとそれほど多くない。それに
近いとすると対応付けができるかも?
A: 調べてみる価値があると思われる。
(21) 要求概念の定義,および要求の態度
○大森晃(東京理科大)
最終的には日本語ウェブページからの要求抽出を目指している.本研究で
は,それに向けて,文から要求を抽出するための言語学的基礎論を整えて
いく一環として,(1)文レベルでの要求概念の定義,(2)所与の文が要求
を表現しているか否かを判別するために必要な言語学的知識を与える.
Q: 当為の過去は要求ではないのか?
A: 発話時の欲求と言う定義に当てはまらないので要求としない.
Q: 定義と実際の言語表現とのマッピングは上手くいくのか?
A: 現在、分類器の出力はF値で0.8程度。