自分用備忘メモです。
先週は議事録の文字起こしをやった。たまに(何ヶ月かに一度)、そういうことをやらなければならなくなることがある。
ボイスレコーダーに録音した内容を、以前はA4一枚程度に要約していたのだが、関係者から「一問一答形式にしてくれ」と言われた。
「手間がどんだけ増えると思うてんねん!? (-"-メ」と、ひとしきり毒吐きしたいところではあるが、ブログでは、ぐっとこらえておく。大人でしょ?
安請け合いしたものの、耳で聴きとった内容をキーボード入力するのは、時間がかかって仕方がない。さてどうしたものか?
そんなさなか、ゆきにー(id:yuki_2021)さんの、このエントリーを読んだ。言及失礼します。
これがきっかけで「音声入力という手があるじゃないか!」と気づいた。
すみません、ゆきにーさんのブロブへの言及は「切り取り」というやつで、本文中で触れられている Google Keep というアプリを使ったわけではないですし、また ゆきにー さんは iPhone ユーザーですが私のは格安 Android スマホです。
そのスマホを使っていると、なんとなく折につけ「音声入力を使ってくれ!」と催促されるような気がしていた。このさいダメモトで乗ってやろうじゃないかと思った。
「メモ帳」を開いて、画面右下隅の「入力方法の選択」ボタンをタップし、Gboard というのを選択すると、音声入力が可能になった。
このスクリーンショットはタップ後なので、ボタンは非表示になっている。
なんで Gboard かというと、iWnn IME では次に出てくる音声入力ボタンが、私のスマホではなぜかアクティブにならなかったため。
あとは音声入力ボタン、すなわちキーボード右上の青いマイクのボタンをタップするだけだった!
これで電話をする要領で音声を入力すると、なんと、トレーニングぜんぜんなしで、いきなり文章に変換してくれた!
つまり、急場に間に合ったのだ!
こんな経験は、めったにない。やったことのない何か新しいことをやろうとすると、たいてい急場には間に合わないものだ。
現実にはボイスレコーダーを耳から聞いて、そのままスマホに向けて復唱したのだが、その文章をブログで公開するわけにはいかない。
手元に太宰治『走れメロス』(新潮文庫) というのがあるので、開巻劈頭に収録されている「ダス・ゲマイネ」という短編小説の冒頭を、サンプルの文章に使わせてもらおう。「ダス・ゲマイネ」を選んだのに特に意味はなく、著作権が切れていればよかったというだけだ。
『走れメロス』新潮文庫 昭和四十二年七月十日発行 昭和五十三年八月十日二十三刷 P8
この、最初の段落を朗読したところ。句読点の入力方法がわからなかったのでベタ打ちだが。
誤変換があるのは仕方がないが、この認識精度はすごくないですか!?
これをどうやってワープロ編集するパソコンに送信するか、方法はいくらでもありそうだが、私はクラウドストレージの老舗 Dropbox のユーザーなので、Dropbox に送ることにした。
画面右上のチェックボタンをタップすると、画面左下に共有ボタンが現れる。それをタップすると、画面下部が「共有ツール」というのに切り替わる。
なぜかデフォルトが「画像」になっていたので「テキスト」をタップし、「その他」ボタンをタップすると、私のスマホには Dropbox アプリがインストールしてあるので「Dropboxに追加」というボタンが表示された。
ファイル名を適当に入力した。
ファイルがアップロードされると、パソコンの通知領域に表示が出た。
あとはエクスプローラーからテキストファイルを開いて、ワープロソフトにコピペするだけだった。
タイムスタンプに見えるように、これだけの文章の入力と転送が22:01から22:07までの6分間でできてしまった!
参考までに、変換精度はこんな感じ。これは全く手を加えていない状態。
恋をしたのだそんなことは全く初めてだったそれより以前には私の左の横顔だけを見せつけ私の男を売ろうと焦り相手が1分かんでも躊躇ったが最後たちまち私はきりきり舞いを始めてハヤテのごとく逃げ失せるけれども私はその頃全てにだらしなくなっていてほとんど私の身にくっついてしまったかのようにも思われていたその懸命な怪我の少ない身構えの4歳持ちこたえることができずいわばてまだ市で節度のない恋をした好きなのだから仕方がないと言うしわがれたつぶやきが私の思想の全部であった25歳私が今生まれた生きている生ききる私は本当だ好きなのだから仕方がないしかしながら私は初めから歓迎されなかったようである無理心中という古臭い概念をそろそろと体で妖怪仕掛けてきた矢先私はてひどくはねつけられそうしてそれっきりであった相手はどこかへ消え失せたのである
手作業で校正した結果がこれ。直した部分を青字で示した。
恋をしたのだ。そんなことは、全くはじめてだった。それより以前には、私の左の横顔だけを見せつけ、私のおとこを売ろうとあせり、相手が一分間でもためらったが最後、たちまち私はきりきり舞いをはじめて疾風のごとく逃げ失せる。けれども私は、そのころすべてにだらしなくなっていて、ほとんど私の身にくっついてしまったかのようにも思われていたその賢明な、怪我の少い身構えの法をさえ持ち堪えることができず、謂わば手放しで、節度のない恋をした。好きなのだから仕様がないという嗄れた呟きが、私の思想の全部であった。二十五歳。私がいま生まれた。生きている。生き、切る。私はほんとうだ。好きなのだから仕様がない。しかしながら私は、はじめから歓迎されなかったようである。無理心中という古くさい概念を、そろそろとからだで了解しかけてきた矢先、私は手ひどくはねつけられ、そうしてそれっきりであった。相手はどこかへ消えうせたのである。
句読点を手打ちしたことを除けば、あとはどこを漢字にしてどこを仮名にするか、太宰とスマホの個性の違いが出たところがほとんどである。「仕様がない」→「仕方がない」は、私の読み違いである。派手な認識ミスは「了解しかけてきた」→「妖怪仕掛けてきた」くらいか。守って鬼太郎! いや今なら炭治郎か?
原作などない議事録の文字起こしなので、どこを漢字にしてどこを仮名にするかは、スマホの個性を全面的に受け入れてやった(←えらそう
おかげで、予想よりだいぶ楽をさせてもらった。ありがたい!
「トレーニングなし」と何度か繰り返したのは、もう20年ほども昔になるだろうか、Windows 用の音声認識ソフトを使って、当時参加していた読書サークルで、講演会の文字起こしなどをやっていたことがあったからだ。その頃のソフトは、セットアップに手間がかかった記憶があった。
使っていないパッケージソフトをしまった段ボール箱を開いたら、実物が出てきた。こんなの。
名前にミレニアムとつくだけあって、取扱説明書を調べると 1999年初版、2000年二版となっていた。ウィンドウズの対応バージョンは 95 と 98 だった。
取扱説明書を見ながら使用方法を思い出すと、インストール後にまずウィザードに従ってマイクなりヘッドセットなりの音量・音質チェックをする必要があったのだった。スマホは進化したとはいえ本業が電話のため、チェックは省略可能になっているのだろう。改めて考えてみれば、それもすごいよね。
それから短い文章を読み上げて、使用者の声の音質を登録する。認識精度を上げるためには、確か2分ほどの文章の朗読を4セットくらい入力しなければならなかったはず(文章の分量までは取説に書いてなかった)。
20年で、学習なしで誰の声でも認識できるまでに、音声認識ソフトは進化していたのだな。
ViaVoice ミレニアムは、もはや使う機会はどう考えてもないので、ひとしきり懐かしく眺めたあと血も涙もなく廃棄した。
スポンサーリンク