◇ 第148回 自然言語処理研究会

◎ 日 時 平成14年3月4日(月) 13:00~16:45
5日(火)  9:00~12:45

◎ 会 場 長崎大学 工学部 12番講義室
〒852-8521 長崎市文教町1-14

〔交通手段〕 ・JR長崎本線浦上駅下車 路面電車「赤迫(あかさこ)」行または
バス1番系統(住吉方面行)10分「長崎大学前」下車.
・JR長崎駅からは路面電車またはバス20分.
・長崎空港からはバス長崎市内方面行(1,100円)50分
「昭和町」下車徒歩10分(裏門)、または次の「大橋」で
路面電車またはバスに乗換え約5分.
(詳細はこちらをごらんください)

〔連絡先〕 鶴丸 弘昭(長崎大学工学部情報システム工学科)
Tel: 095-847-1111(ext.2685), Fax: 095-843-7027(学科事務室)


【プログラム】(発表件数14件)

  • 3月4日(月) ― 13:00 ~ 16:45 ―
    • [13:00 ~ 15:00] ● 文書分類          〔4件〕
    • [15:15 ~ 16:45] ● 生成・要約         〔3件〕
  • 3月5日(火) ―  9:00 ~ 12:45 ―

3月4日(月) ― 13:00 ~ 16:45 ―

[13:00 ~ 15:00] ● 文書分類          〔4件〕

1. 文書集合間の差異検出法と文書分類への応用
川谷 隆彦(日本ヒューレット・パッカード)

各クラスで出現する特徴、しない特徴を求め、既存分類系(kNN)に対する
相補的分類系で用いる。Reuter21578に対しF値はkNN単独の83.69%から87.14%に
向上した。

2. 題名:国際会議の論文募集ファイルからのトピックの抽出とクラスタリング
○盧 世ミョウ、峯 恒憲、雨宮 真人(九州大)

Webや電子メールから得た論文募集ファイルからトピックを抽出し,
クラスタリングすることで,トピック間,及び,国際会議間の関連性を示す.

3. Authorship Identification for Heterogeneous Documents
「異なるタイプのドキュメントに対する著者推定」
○坪井 祐太、松本 裕治(奈良先端大)

機械学習を用いたメーリングリストの著者識別について述べる。
さらに、学習した識別器によって、Webの文書の著者識別を行い、
手法の汎用性を確認した。

4. 統計的潜在的意味空間の抽出
○川前徳章、青木輝勝、安田浩

LSIは通常のベクトル空間を次元圧縮する手法で,その圧縮された空間の軸は
潜在的意味を持つとされている。しかし,これはSVDに基づいた方法で,顕在
変数の合成に過ぎない。そこで本研究は因子分析を導入することで潜在変数を
抽出して潜在的意味空間を抽出する方法を提案する。研究の新規性は因子分析の
導入において因子得点の推定と次数決定に有効な評価式を導出したことにある。

[15:15 ~ 16:45] ● 生成・要約         〔3件〕

5. コーパスから自動抽出した表現パターンを用いる日本語文生成
○西村 仁志、坂本 仁
(国際電気通信基礎技術研究所 音声言語コミュニケーション研究所)

自動抽出した表現パターンにより補完や不要語削除をして機械翻訳の出力文を
自然な日本語文に変換する

6. 音声対訳コーパスからの日本語待遇表現生成規則の自動獲得
○木村 直樹、松原 茂樹、小川 泰弘、稲垣 康善(名古屋大)

英日音声対話翻訳における日本語待遇表現の生成規則を、
決定木として対訳コーパスから学習する方法を提案する。

7. ニュース記事の定型性を利用した話題要約の検討
○山田 一郎、柴田 正啓(NHK放送技術研究所)

ニュース記事では、話題特有の単語や統語構造を用いて重要な要素を表現する。
この特徴を利用した要約手法を提案する。

3月5日(火) ―  9:00 ~ 12:45 ―

[ 9:00 ~ 10:30] ● 解析とその応用       〔3件〕

8. 語義文の表記的特徴に着目した形態素解析に関する考察
鶴丸 弘昭、○牧恵 一郎(長崎大)、竹内 重博(NECテレコム)、
吉田 将(九州芸工大)

漢字が平仮名表記されることによる形態素解析誤りを調査し、
語義文に現われる単語の表記的な特徴について考察している。

9. パターンを使った構文解析
○乾 伸雄、小谷 善行(東京農工大)

EDRコーパスから抽出された句構成要素列を用いた日本語・英語に対する
構文解析について述べる.

10. 言語情報を利用したテキストマイニング
○工藤 拓、山本 薫、坪井 祐太、松本 裕治

シーケンシャルパターンのマイニング手法である PrefixSpan
アルゴリズムを拡張し, 表層情報だけではなく, 種々の言語情報
(チャンク, 係り受け情報)を利用したテキストマイニング手法を提案する.

[10:45 ~ 12:45] ● 概念ベース・キーワード抽出 〔4件〕

11. 概念間規則を用いた概念ベースの自己参照精錬
○浦 政博、小島 一秀、渡部 広一、河岡 司(同志社大)

概念ベース内における単語間の関係や規則,外部知識を用いて,雑音属性を
除去し概念属性としての精度向上手法の提案を行った.

12. 辞書を用いない関連語リストの構築方法
○山本 英子、梅村 恭司(豊橋技科大)

未知語を含む整備されていないテキストを理解し検索するのに役立つ
関連語リストを構築する方法を提案する.

13. 新聞等の文書を用いた概念自動学習による概念ベース構築方式
○橋本 隆志、渡部 広一、河岡 司(同志社大)

国語辞書から作成した概念ベースに対し,新聞記事から自動学習した
概念属性を新規追加することにより精度向上を計る方式.

14. キーワードの境界推定におけるポテンシャル関数
○田中 路子、梅村 恭司(豊橋技科大)

ポテンシャル関数の最大合計を与える方法で単語を切り出す方法があるが,
論文のキーワードを切り出す問題のためのポテンシャル関数を報告する

プログラムの先頭へ戻る。


照会先:松本 裕治 (奈良先端大)
宮田 高志 (サイバーアシスト研究センター)
作成日:平成14年1月11日