entry-header-eye-catch.html
entry-title-container.html

entry-header-author-info.html
Article by

【NLP2021】言語処理学会年次大会の参加レポート2021

pixivの小説のレコメンドを改善している Webエンジニアの pawa です。普段は以下のような記事を書いています。

弊社では、自然言語処理エンジニアというポジションで働いているエンジニアはまだいませんが、自然言語処理技術は、「pixivコミック作品のタグが自動生成されるまでの軌跡」等のように、pixivあるいはその周辺プロダクトの一部で活用されています。

去年に引き続き、今年の3月も「言語処理学会 第27回年次大会(以下NLP2021)」に参加してきました(3/17-3/19の3日間だけの参加)。弊社では「勉強会・カンファレンスの参加支援制度」があるため、この制度による支援を受けて参加しました。例年通り「創作活動支援にどう生かせるか」という観点で色んな発表を聴いてきました。その内容を要旨抜粋しつつ分かりづらい部分は適宜補足する形式で紹介したいと思います。

日本人名にみられる音象徴: 子音タイプと母音タイプに着目した音声提示による実験 [1]

pixivには小説も非常にたくさん投稿されています。一定の文量がある小説を書くときに考えなければならないのが、登場人物の名前です。小説執筆者が登場人物の名前を考えるのを手助けするヒントを得られると考えて、この発表を興味深く拝聴しました。

モチベーション

人の名前の子音(阻害音・共鳴音)や母音(前舌母音・後舌母音)によって、どのような印象を形成するか明らかにしたい、というのが論文著者らの研究のモチベーションです。

用語整理

  • 阻害音:「か・が、さ・ざ、た・だ、は・ば・ぱ」行 [1, p.734]
  • 共鳴音:「な、ま、や、ら、わ」行 [1, p.734]
  • 前舌母音:「い、え」[1, p.743]
  • 後舌母音:「あ、お、う」[1, p.734]
  • 音象徴(おんしょうちょう):「音によってイメージするものに影響がでる現象のこと」[2]

論文著者の事前予測

論文著者らは先行研究に基づいて以下の結果になると予測しました。

  • 共鳴音や後舌母音の名前:
    (例)♂:のりお・まさる・りょうま,♀:ななよ・うらら・まお
    • 男女名ともに「親しみやすい」「気長な」の印象が強い
  • 阻害音や前舌母音の名前:
    (例)♂:しんぺい・だいすけ・ひでき,♀:きみえ・ちせ・はづき
    • 男女名ともに「責任感の強い」「積極的な」の印象が強い

日本人名の印象評定実験

論文著者らは、3モーラの日本人名160個(男女各80個)を用意し、1モーラ目を以下の組み合わせに統制しました。(モーラ:音の長さで数える単位。 https://www.nihongo-appliedlinguistics.net/wp/archives/4521 が理解しやすいです。)

  • 阻害音✕前舌母音(きみお・きみこ等)
  • 阻害音✕後舌母音(かける・かえで等)
  • 共鳴音✕前舌母音(みきお・みおり等)
  • 共鳴音✕後舌母音(なおき・なおみ等)

上述の名前群を用いて、音声刺激と顔描画刺激を組み合わせて被験者(日本語を母語とする満20歳〜39歳の男女102名)に提示しました。

  • 音声刺激:合成音声ソフトで「(名前)です」と発声させる
  • 顔描画:視覚刺激による印象の差が出ない範囲で髪型と服の色の変化をつけて20種類を用意

対人認知の主要因子である「個人的親しみやすさ」「社会的望ましさ」「活動性」の6因子に高く寄与する形容詞対13個を用いて被験者にそれぞれ6段階評価させることによって印象評定しました。

実験の分析結果 [1, pp.735-737]

全体的に男性名よりも女性名のほうが音象徴による印象の差が大きい結果となっていました。

  • 阻害音の名前が共鳴音の名前よりも「積極的」で「社交的な」印象を与える
    • 例)「みおり」さんよりも「かえで」さんのほうが「積極的」で「社交的」な印象を与える
  • 共鳴音より阻害音の名前が、前舌母音より後舌母音の名前のほうが「責任感の強い」「恥しらずの」(本記事の著者補足:「恥しらずの」というより「大胆な」のほうが適切かもしれない)印象を与える
    • 例)「みおり」さんよりも「かえで」さんのほうが「責任感の強い」「恥しらずの」印象を与える
  • 女性名において後舌母音の名前が前舌母音の名前よりも「意欲的な」印象を与える
    • 例)「みおり」さんよりも「かえで」さんのほうが「意欲的な」印象を与える
  • 共鳴音よりも阻害音が第1モーラにある名前の方が、また前舌母音よりも後舌母音が第1モーラにある名前の方が、全体として高く評価された
    • 例)「みおり」さんよりも「かえで」さんのほうが「個人的親しみやすさ」「社会的望ましさ」「活動性」が全体として高く評価された
  • 共鳴音の名前は「個人的親しみやすさ」が高く「活動性」が低い印象を与える傾向にある
    • 例)「かえで」さんよりも「みおり」さんのほうが「個人的親しみやすさ」が高く「活動性」が低い印象を与える傾向にある
  • 男性名について、「活動性・社会的望ましさ高程度群」は1モーラ目に [sh] や [t] を、3モーラ目に共鳴音、特に [r] を使用する名前(しげる、たける、とおる等)の割合が高い
  • 男性名について、「親しみやすさ高程度群」は、2モーラ目に [t] を(もとき、もとし、ゆたか)、3モーラ目に [g] を(けんご、しんご、せいご)使用する名前の割合が高い
  • 女性名について、阻害音を多く含む名前が全体的に高く評価された
    • 例)阻害音を多く含む「きみえ」「ちせ」「はづき」は「個人的親しみやすさ」「社会的望ましさ」「活動性」で高く評価された
  • 女性名について、「親しみやすさ・社会的望ましさ高程度群」は、1モーラ目に共鳴音と前舌母音 [i] を、2・3モーラ目に阻害音を使用する名前の割合が高く(みかこ、みさこ等)、特に2モーラ目に [z] を使用する割合が高い(みずほ等)
  • 女性名について、「活動性高程度群」は1モーラ目に阻害音、特に [ch] を(ちあき、ちひろ等)、2モーラ目に [ts] を(せつこ、なつみ等)、3モーラ目に [r] (ひかり、みおり等)を使用する名前の割合が高い
  • 男性名においては、阻害音や前舌母音の名前が、女性名においては共鳴音や後舌母音の名前がより肯定的に評価されるのではないかと予測したが、そうした予測とは異なる傾向が認められた
  • 男女名ともに、1 モーラ目が阻害音の名前は共鳴音の名前よりも、また 1 モーラ目が後舌母音の名前は前舌母音の名前よりも「活動性」が高い印象を与えることが分かった

論文著者による考察 [1, p.737 を引用]

  • 「各クラスタは母音よりも子音の違いで弁別されていたため、日本人名において前述の印象の違い*を生み出すのは、母音よりも子音の影響が大きいと言えるのではないだろうか。子音は母音よりも先に現れるため、印象により大きな影響力を持つと考えられる。1 モーラ目の阻害音 [sh] や [ch]、3モーラ目の共鳴音 [r] が「活動性」を高め、2・3 モーラ目の濁音が「個人的親しみやすさ」を高めるなど、阻害音や共鳴音をどのモーラで使用するのかによって印象が変化し、阻害音や共鳴音という分類の中でも、特定の音が特定の印象を高める可能性もあると考えられる。」

  • 「先行研究では、女性名はやわらかい印象を与える共鳴音が好まれるとされていたが、本研究では、阻害音を多く含む名前のほうが共鳴音を多く含む名前よりも、「個人的親しみやすさ」「活動性」「社会的望ましさ」の観点から高く評価された。この背景には、社会で活躍する女性が多くなってきている現在において、以前よりも阻害音の持つ動的な印象が好まれるという時代の変化が関係しているかもしれない。」

質疑応答(一部要約)

一部に聞き間違いや過剰要約等あるかもしれませんがご容赦ください。

Q: 形容詞対の「恥ずかしがりの」対が「恥しらずの」なのは 違和感。「大胆な」のほうが良かったのでは?
A: 先行研究に基づいてそう(「恥しらずの」に)した。

Q: 知り合いの名前とかぶるとその知り合いの印象に回答が引きづられるのでは?
A: それを考慮して多くの名前を評定させた。

Q: 過去何十年かでの名付けの音象徴の変化があるかないかの変化の調査があれば興味深いと思った。(感想)
A: 2011年での女子の阻害音が含まれる割合が32.7%、2016年は44.4%、2020年は47.2%と阻害音が少しずつ増えてきている。

創作活動支援にどう生かせそうか

小説やマンガで、活発なキャラの名前を付けるときは例えば1モーラ目が阻害音で [ch] の「ちづる」、「個人的親しみやすさ」が高く「活動性」が低い「まったり系」のキャラの名前を付けるときは例えば共鳴音・前舌母音の「にいな」にする――などの名付けを行えば違和感が薄い名付けに近づくはずなので、そのような名付け支援での生かし方ができそうです。ただし、表記がどのような印象を与えるかまでは分かっていないので、音に漢字を割り当てるとまた違った印象に変化するのかもしれません。(それ以外でも、2モーラの名前や4モーラ以上の名前の場合や、印象評定者が20歳未満あるいは40歳以上の場合、今回の結果とは異なる印象評定を行う可能性があります。そのため、実際に活用する際は注意が必要です。)

物語におけるイベントの顕現性推定と物語類似性計算への応用 [3]

NLP2020の参加レポートでも簡単に取り上げました。

【童話『シンデレラ』を例に挙げると,「シンデレラが王子に見初められる」というイベントは物語の進行に大きく関わる顕現性の高いイベントだが,「シンデレラが井戸で水を汲む」はそうではない.このようなイベントの顕現性推定は物語の自動生成などのタスクに役立ち,また物語分析のためのツールとしても有用である】[3, p.1324]

「物語におけるイベントの顕現性推定の有望な応用先として,物語の類似性計算が挙げられる.」[3, p.1324]

物語の類似度によるレコメンドにも応用可能であると考えてこの発表を取り上げました。

顕現性推定手法 [3, p.1324]

「Ouyang らに従い,イベントそのものではなく文の顕現性を推定するタスクに取り組む.すなわち,物語を構成する各文に対して,その文が顕現性の高いイベントを含む度合いを推定する.」

「バルトの枢軸機能体(論文内の参考文献 [10,11] を参照)の定義に基づき,顕現性スコア 𝜎(𝑆𝑘, 𝑆{1:𝑛}) を “文 𝑆𝑘 に含まれる全てのイベントを 𝑆{1:𝑛} から削除した際に,物語全体としての首尾一貫性が損なわれる度合い” として計算する.」

実験結果

イベントを削除する方法の比較

  • 文削除:概ね良い性能を示している。
  • 動詞置換や動詞・項置換によるイベント削除:「文からイベントの情報のみをより精緻に削除することが期待されたが,実験結果はこれらのイベント削除方法は効果的でないことを示している.動詞置換や動詞・項置換では,文に含まれる単語を置換する操作によって不自然な文が生成され,こうした文が言語モデルの推論に悪影響を及ぼしている可能性が考えられる.」[3, p.1326]

言語モデルの fine-tuning の効果 [3, p.1326]

首尾一貫性の計算に使用する言語モデルを物語ドメインに適応させる(fine-tuningする)ことが有効であることがわかった.

提案法と TF-IDF ベースラインの組み合わせ手法

提案法と TF-IDF ベースラインの組み合わせが全手法の中で最も高い性能を達成した。

物語類似性計算への応用

「イベント顕現性を考慮しない場合と比較して,提案法によってイベントの顕現性を考慮することで物語の類似性計算が改善していることがわかる.」[3, p.1328]

創作活動支援にどう生かせそうか

実装が簡単で計算資源もあまり必要とせずに済むようになれば、本論文の物語の類似性計算に基づくレコメンドによって、より小説が読まれやすくする生かし方ができそうだと思いました。(質疑応答によると、提案手法が現代の物語においても適用可能かの検証はまだ行われていないとのことでしたが。)

小説あらすじを用いて学習した系列ラベリングモデルによる小説本文からの人物情報抽出の性能検証 [4]

「電子書籍や小説投稿サイトの発展により,小説を読む際の場所や時間の制限が緩和されると共に,小説の数も増加し続けている.小説の数が増えることで個人の嗜好にあった小説も増える可能性があるが,膨大な数の小説の中から個人の嗜好にあった作品を発見する労力は増大していると考えられる.書籍を取り扱う EC サイトや小説投稿サイトには,作者やジャンルなど,特定の情報に基づく検索機能が実装されてはいるが,小説の内容に踏み込んだ検索機能は実装されていない.」[4, p.1634]

『個人の嗜好は,「ハッピーエンド」や「敵が仲間になる」などの展開に関する嗜好と,「銀髪赤目の少年」や「長身のメイド」などの登場人物に関する嗜好に分けることができる.本研究では,小説内の登場人物情報を体系的に抽出することで,登場人物情報による小説検索,登場人物情報を豊富に取り入れた小説のあらすじ生成,人物関係図の自動生成などを目指している』[4, p.1634]

商業小説のあらすじテキストを教師(訓練)データ、Web小説の本文テキストをテストデータとして、あらすじテキストから人名,性別,容姿性格,職業などの登場人物情報を自動抽出する提案手法の性能を評価する。

小説の内容に踏み込んだ検索機能があれば便利だと考えられるので取り上げました。(ただ、この手の検索は常にネタバレの危険もはらんでいます。)

訓練データ

「訓練データと開発データは,先行研究で構築した,3,679 文で構成される商業小説のあらすじデータセットを 9:1 に分割して利用した.」[4, p.1636]

テストデータ

「なろう小説API を用いて,ジャンルがハイファンタジー,またはローファンタジーであり,ランキング上位 2,500件に入るという条件で収集した長編小説の中からランダムに 8 作品を選出した.そして,各小説の三話までのテキストを MeCab で単語分割し,人手でタグ付けすることにより,3,127 文で構成されるテストデータを構築した.」[4, p.1636] (「なろう小説API」というのは、「小説家になろう」という有名な小説投稿サイトのAPIのことです。)

人手でタグ付け [4, pp.1634-1635]

  • 名前に名前(NAME)を付与(例:西尾,信長,シャルル・マーニュ)
  • 性別表現に性別タグ(MF)を付与(例:男,美男子,美女,乙女,女の子)
  • 年齢表現に年齢タグ(AGE)を付与(例:16歳,少年,お婆さん,幼い,高校生)
  • 容姿や特性表現に状態タグ(STATE)を付与(例:白い髪,元気,高飛車,天才,職人気質)
  • 職業や立場表現に能力タグ(PRO)を付与(例:竜飼い,仙女,最高権限者,メンバー,国王) 組織・種族名に所属タグ(AFF)を付与(例:鳳凰学園杖術部,日本政府,討伐軍,エルフ)
  • 以上に当てはまらない人物情報にその他タグ(OTHER)を付与(例:異星人,神,元凶,気鋭,ペンギン)
  • 地名や建物名に場所タグ(PLACE)を付与(例:ムー大陸,日本,パリ,礼拝堂,魔法学校)
  • 人物関係表現に関係タグ(REL)を付与(例:兄,親,敵,相棒,結婚)
  • それ以外のものにOタグを付与

性能検証に用いるモデル

  • BiLSTM-CRF
  • BiLSTM-CNN-CRF
  • BiLSTM-CRF-L
  • Char-BiLSTM-CRF

各モデルの詳細は論文に書いてありますが、本記事は詳細までは知らなくても概要を掴めるように書いてあります。

実験結果 [4, p.1636]

  • 「MF(性別表現)とAGE(年齢表現)については、どのモデルでも 9 割近い F 値となった.しかし,他のラベルでは,7 割以下の F 値となっており,特に STATE(容姿・特性表現),AFF(組織・種族名)と PLACE(地名・建物名)は,最良 F 値であっても 5 割以下と非常に低い.」
  • 「性能評価の結果,BiLSTM-CRF に品詞・品詞細分類ベクトルを 10 次元ずつ付与したモデル(BiLSTM-CRF-pos10)が最良性能を得ることを確認した.」
  • 「あらすじを対象とした人物情報抽出の最良性能と比較した結果,MF(性別表現)とOTHER(その他の人物情報)については,本文を対象とした場合の抽出性能の方が高くなることを確認した.」
  • 「ビクリやゴロリ,ガッなどの擬音が NAME(人名)として抽出されるミスが散見された.あらすじでは,短く端的に小説の内容を紹介する必要があるため,副詞的用法が少なく,結果として,本文にしか現れない用法にうまく対応できなかったと考えられる.」

MF(性別表現)の抽出が辛うじて実応用に使えるかどうかという具合で他はまだ厳しいようです。

論文著者による考察

「あらすじと本文において抽出性能差が生じる要因について考察する.抽出性能が高い MF(性別表現)と AGE(年齢表現)は,他の人物情報と比べて,表現自体に多様性が少ないことから,高い抽出性能が維持されていると考えられる.OTHER(その他の人物情報)に関しては,あらすじに出現する表現が多様であったため,本文に出現する表現を包含でき,結果として,あらすじに対する性能より高くなったと考えられる.STATE(容姿・特性表現)に関しては,容姿に関する記述法が複数あったり,色が異なるだけで別の形態素として認識されることもあるため,抽出性能が低下したと考えられる.NAME(人名),AFF(組織・種族名),PLACE(地名・建物名)に関しては,固有の表現が多く,基本的に同作品や同じ世界を共有しない限り,同じ名前が使われることがないため,抽出性能が低下したと考えられる.また人名に限定すれば「姫」や「友」など他のラベルに付与される可能性の高い形態素も出現することもあるため,性能が低下していると考えられる.」[4, p.1636]

「あらすじデータを訓練データに利用する点については,あらすじには登場しない表現や構文が本文に出現する可能性があるため,すべてに対応できるとはいえない.しかし,一作品あたりの文数が本文よりも圧倒的に少なく,様々な作品を包含することで未知単語を減らすことができる可能性がある.本文データを訓練データに用いたモデルの性能が確認できていない現状,有用性を結論づけることは難しいため,今後検証を継続する必要がある.」[4, p.1637]

質疑応答(一部要約)

一部に聞き間違いや過剰要約等あるかもしれませんがご容赦ください。

Q: あらすじのデータと本文のデータは違うところから取ってきている? (本文は「小説家になろう」から取ってきている)
A: Yes. WebAPIで小説投稿サイトに載っているあらすじを使っても良かったが、ユーザーが使ったものという点で品質を担保できないと考え、品質が担保されているであろう商業小説のあらすじを使った。

その他

  • あらすじデータの収集は Webcat Plus [5] を利用 (「小説家になろう」原作のデータを使っているわけではない。Wikipediaに載っている小説家一覧の著者名で Webcat Plus であらすじ検索したとのこと)
  • 本文は人物表現が出るとは限らない。あらすじに人物情報が出やすい(と言っていた)

創作活動支援にどう生かせそうか

もっと精度が上がればよりよい検索機能が提供できて、より小説が読まれやすくなる生かし方ができそうだと思いました。ただ、現状だと、「pixivコミック作品のタグが自動生成されるまでの軌跡」のように、本文から特徴語を抽出してやるほうが実用的な印象を受けました。今後の研究に期待したいです。

Encoder-Decoderモデルを用いた文章表現を豊かにする執筆支援システム [6]

モチベーション

以下の画像のような執筆支援システムを作りたいというのが論文著者らのモチベーションです。

図3
[6, p.1865, 図3] より引用

実在する文学作品(新字体および現代仮名遣いで書かれた青空文庫の作品約 469 万文のテキストデータ)から文章表現の欠如した文を(機械的に)作成し,「元の文と対にしたデータセットを構築する.次に,そのデータセットを教師データとして学習を行った生成モデルを構築する.システムは,ユーザの作成した文を入力としてモデルが生成した豊かで趣のある文章表現を付加した複数の候補文をユーザに提案することによって,執筆活動の支援を行う.」[4, pp.1862-1863]

教師データ作成のための機械的な文章表現の除去

論文著者らは以下の変換処理(詳細は [6, p.1863])を経て、合計約 333 万対のデータセットを構築しました。

  • 形容語の除去
  • 直喩法の除去
  • 反復法の除去
  • 技巧的な言葉の平易化

実験と評価

モデルの自動評価

「未知語処理を行っていないモデル(Transformer)と,未知語処理(Jean らのコピーベースの手法 [6, の参考文献4を参照])を行った提案モデル(Transformer+copy)に対して自動評価を行った.評価指標には ROUGE-1,2,L(R-1,2,L)を用いた.」[6, p.1864 要約]

  • 未知語:生成モデルの語彙数を50000語としてそれ以外のトークンは未知語トークンとされている。
  • ROUGE:今回の場合では、おおまかには人間が作成した入力文とシステムが作成した出力文との一致度を測る指標 [7]

「全ての評価指標において未知語処理を行った提案モデルの方が行わなかったモデルよりもスコアが参照文に近づいた.」[6, p.1864]

ただし、論文著者らは「推論において参照文と異なる部分に文章表現の付加が行われた場合,基本的に参照文の部分集合である入力文の方が出力文よりもスコアが高くなる」「本システムのタスクが答えの 1 つでない問題を扱っていることを考えると,これらの指標は適切ではない可能性がある.」[6, p.1864] とも述べています。

出力の例

常にこのレベルで出力されるなら小説執筆に役立ちそうです。

出力の例
それぞれの表は [6, p.1864] より引用

システムの人手評価

「15個の文を入力とし,それぞれに対するスコア上位 6つの出力を候補文として用意した.」[6, p.1864]

  • 豊かさ(付加された文章表現が豊かであるか,乏しいか)
  • 流暢さ(文として自然か,不自然か)
  • 意味の保持(意味内容が保たれているか,ずれているか)
  • 総合評価(小説や随筆の執筆支援システムとして,入力文からその文へ変更したいと思うか)

以上4つの評価尺度に対して被験者が入力文と各候補文を比較して5段階評価しました。

「第1候補文の総合評価の平均は 3.39 だった一方,これを含めた 6つの候補文のうち,総合評価が最も高かったものの平均は 4.51 であった.これは,1つの候補を提案するより複数の候補を提案する方がより良い支援になることを示している.」[6, p.1865]

「提案された 6 つの候補文のうち,総合評価が 3(どちらともいえない)より高かった候補文の数は平均で 3.6 個,4(やや選びたい)以上だった候補文の数は平均で 2.4 個で,いずれにおいても総合的に見て選びたい候補文が複数あったことを示しており,執筆支援としてユーザに選択の自由を与えることができたと考えられる.」[6, p.1865]

回帰分析の結果、「豊かさ,流暢さ,意味の保持それぞれの評価尺度は総合評価に強く関係し,ある候補を選ぶ基準としては流暢さ,豊かさ,意味の保持の順で影響があることが確認できる.意味内容の保持の程度より文章表現の豊かさの方が最終的な評価に影響していることは,文章表現の執筆支援である本システムの特徴といえる.」[6, p.1865]

「また,提案された 6 つの候補文のうち,総合評価が 3(どちらともいえない)より高かった候補文の数は平均で 3.6 個,4(やや選びたい)以上だった候補文の数は平均で 2.4 個で,いずれにおいても総合的に見て選びたい候補文が複数あったことを示しており,執筆支援としてユーザに選択の自由を与えることができたと考えられる.」[6, p.1865]

インターフェースの提案

「候補文の数とユーザへの負担はトレードオフの関係にあると考えられるため,実用性を考慮すると入力文から変化した部分のみを提案する必要がある.そこで,Attention スコアを利用したインタフェースを提案する.(中略) 入力から変化のあった出力のトークンは特定の入力のトークンとのAttention スコアが高くなる傾向があった.」[6, p.1865]

Attention:文中のある単語の意味を理解する時に、文中の単語のどれに注目すれば良いかを表すスコアのこと [8]

「Attention スコアを用いてそれがどの単語に対して付加された文章表現であるかを解析したのち,図3のように特定の単語にフォーカスした文章表現の提案を行う.」[6, p.1865]

図3
[6, p.1865, 図3] より引用

質疑応答(一部要約)

一部に聞き間違いや過剰要約等あるかもしれませんがご容赦ください。

Q: うまくいかなかった例を教えていただけませんか。(私の質問)
A: エラー分析のスライドを見せていただけました。(入力文:「気が付くと山の向こうの闇は赤く染まっていた。」に対して出力文「気が付くと山の向こうの闇は黄色く染まっていた。」となっていました。「染まって…」を見て同じ色名になってしまったとか。)

Q: どれくらいの割合でエラーが含まれていましたか。(私の質問)
A: まだ計量的に測れていない。(いっぱい出力してみた例を見せていただけました。常に良い感じの候補文が出るわけでもないことが分かりました。)

その他

「候補文の数とユーザへの負担はトレードオフの関係にあると考えられる」[6, p.1865] が「第1候補文の総合評価の平均は 3.39 だった一方,これを含めた 6つの候補文のうち,総合評価が最も高かったものの平均は 4.51 であった.これは,1つの候補を提案するより複数の候補を提案する方がより良い支援になることを示している.」[6, p.1865] とありますが、これは同日発表の [9] でも同様の書き換え候補や補完機能において利用者の印象は良いと報告されています。執筆支援の分野では、利用者の負荷を過度に懸念することなく、複数の候補を出すほうが満足度を高める可能性がかなり高そうです。

創作活動支援にどう生かせそうか

小説投稿フォームの入力欄でこういう執筆支援システムが使えれば創作活動に大いに役立ちそうだと感じました。エラー率を落としつつ、ユーザー環境に元から入ってる入力支援ソフトと競合しないようにしつつ、インフラへの負荷もクリアすれば導入も現実的かと思いました。

おわりに

[1] は小説を書くとなると登場人物の名付けからは逃れられないので大変興味深く感じられました。 [3, 4] はまだ実応用は難しいものの、小説サービスを良くするためのヒントが散りばめられていました。今後の研究に期待したいです。 [6, 9] ではAIによる執筆支援・AIとの協働執筆が身近にあるということを改めて思い知りました。来年のNLP2022の発表も今から楽しみです。

参考文献

  1. 市野満梨奈, 木山幸子. 日本人名にみられる音象徴: 子音タイプと母音タイプに着目した音声提示による実験. 言語処理学会 第27回年次大会, pp.734-738, 2021.
  2. 宮田龍. 「声に出したくなる⁉音象徴の世界 | 科学コミュニケーターブログ」, https://blog.miraikan.jst.go.jp/articles/20191224post-104.html. 2019. (2021年6月1日に閲覧)
  3. 大竹孝樹他. 物語におけるイベントの顕現性推定と物語類似性計算への応用. 言語処理学会 第27回年次大会, pp.1324-1329, 2021.
  4. 岡裕二, 安藤一秋. 小説あらすじを用いて学習した系列ラベリングモデルによる小説本文からの人物情報抽出の性能検証. 言語処理学会 第27回年次大会, pp.1634-1638, 2021.
  5. 「Webcat Plus」, http://webcatplus.nii.ac.jp/. (2021年6月2日に閲覧)
  6. 鈴木勘太, 杉本徹. Encoder-Decoderモデルを用いた文章表現を豊かにする執筆支援システム. 言語処理学会 第27回年次大会, pp.1862-1866, 2021.
  7. https://qiita.com/icoxfog417/items/65faecbbe27d3c53d212. 2019(updated). (2021年6月3日に閲覧, 孫引きなので余裕があれば原著を読むのが望ましいです。)
  8. https://qiita.com/omiita/items/07e69aef6c156d23c538. 2020(updated). (2021年6月3日に閲覧, 孫引きなので余裕があれば原著を読むのが望ましいです。)
  9. 伊藤拓海他. Langsmith: 人とシステムの協働による論文執筆. 言語処理学会 第27回年次大会, pp.1834-1839, 2021.
20191219021115
pawa
2015年10月に新卒入社。言葉を扱うWebアプリケーションを作るのが好き。好きなCGIスクリプトはWeB DoRaMa。