#001_Voicevoxで朗読作品作成

Voicevoxを使ってささやき朗読ASMR作品を作ってみた話です

データ https://github.com/Melnus/VOICEVOX_project001 

にすべてを載せました

VOICEVOX https://voicevox.hiroshiba.jp/

江戸川乱歩の人間椅子という作品を青空文庫から使用させていただき、音声を出力した。

はじめに

 合成音声に興味があって、少し前からVOICEVOXというソフトを触っていたが、ささやき機能ができたということを聞いてじゃあASMRの作品でもつくるか...ということでこうなってしまった。

 一瞬R18系のことも考えたが台本をつくるのもあれだし効果音もあれなので、順当にささやきで別の何かをつくることにした。というか、ASMRときいてR18を思い浮かべるのはこころがよごれているとおもう

 ささやきといっても単語いくつかやるのはもう誰かやってるだろうし、自分は長めでいこうかと思って、小説か文学作品をつかってつくるということにした。

 小説を一式瞬時にかけるほどの能力はないので、文学から選ぶことにし、文学といえば青空文庫ということでお借りした。

 前準備ではないが、どのくらいの尺をどこまでにするか決める必要がある。10~20分から長ければ1時間を軽く超えるものもある。朗読なので、ある程度長めではあるが、とりあえず30分以上あればいいなと思って調べていた。

文章について

 これを何も言わずにVOICEVOXにコピペしてみてほしいのだが、これをやると間違いなく彼女は意味不明な単語をずらずらとしゃべり始める。当たり前である。まだ編集してないし辞書をつくっていない。

 ということでしゃべりはじめるために文章を編集する必要がある。txtファイルをダウンロードして、VSCodeにいれてある程度の長さになるように句読点をみて段落を句切っていく。  また、気を付ける部分として、この作品は大正時代の文学ということで、言葉が古いということもあって、句点で区切っただけでは意図したようにはならない。  正直なところ古めの漢字の読み方がさっぱりなので、あとから気づいたものの直せていないor間違った読みを指定している部分があるが、次は絶対現代の文章を使おうと思いながらとりあえず進めた。

夫君(フクン)なんて言葉今日日使うか? 

VOICEVOXは句点で勝手に区切ってくれる機能があるのだが、何も考えずに置き続けるとアクセントが変なまましゃべり続けるというものがあって、どうしても自分でコントロールできる長さにしたかった。

 国語の宿題をする年下の子に読み方を教えている気分になりながら、黙々とVOICEVOXにいれて確認、文章をひらがなにしたり、句点をいじったりすることn時間を消費した。

 テキストファイルとVOICEVOXを交互に見ながらどういう風に喋ってくれるかみる作業が一番大変だったように思う。文章から音声の合成部分に関してはかなりスムーズで、アクセントなどをいじらなくても基本的には流暢にしゃべる。若しをワカシと読んだりするが、そういったこともひらがななどにしていく。最終的には1万5千字ぐらいになった。表現を変えているというよりかは、くずしているのがほとんどだ。

できたものhttps://github.com/Melnus/VOICEVOX_project001/blob/main/ningen_isu_kaihenroudokuyou.txt

元々のものを段落分けしたものhttps://github.com/Melnus/VOICEVOX_project001/blob/main/ningen_isu.txt

出力・合成について

 ささやき音声は人の吐息が聞こえるほどすごいなと思いつつも、やはり音回りの知識がないと、「魂が入っている」レベルにはならないなとおもった。特に、ささやきではないノーマルのものは既存のものに近く、ああ、機械音だなという聞こえ方である。  また、ささやき音声では一本調子になってしまったため、うまいこといじらないと(または話の構成としてノーマルなどと混ぜないと)飽きそうという問題がある。  ささやき音声で出している吐息の細かいデータがノーマルの状態でも混ざれるような機能になれば、人間のような感じになるだろう。もっとも九州そらというキャラクターはアンドロイドなので、ノーマルの状態が機械音で正しいわけだが。このあたり、音響のプロの人のVOICEVOXの解説がみてみたい。あるだろうか......。

 出力に関して、ある程度のスペックはいるのか、自分のPCがポンコツなのか、一括出力ができなかったので、ひと段落ずつの出力をつなげるという形をとった。総量は1時間半ぐらいの長さで計400いくつのファイルが出力できた。

編集について

私はShotcutという編集ソフトを使っているが、慣れている人ならばこのあたりはすいすいとスキップできるかもしれない。

作業としては、50ファイルずつ一つにつなげ、さらにそれを一つにという作業をした。スペックの問題で一本丸ごとは時間がかかったので、このあたりで若干後悔を覚えた。

立ち絵を出そうか考えたが、とくに語り手に動きのない作品であるし、音声だけのものなのでいいかと思い画像のみにした。

まとめ&次回

・調子に乗って一時間半も作るのをやめよう

・数が少ないからみんなつくろう

・次は30分以下でつくる

参考にしたもの

今回はなし

最終更新