kindle OCRアプリ開発 Llama 2はまだ日本語には使えない

chatGPTに渡す際、以下のこともやろうと思う。

・目次の削除
・参考文献の削除
・巻末の記載の削除

地頭で文字のある部分だけ切り取りができないことを除けば、kindleテキスト抽出アプリの大枠はできた。

残す問題はAIにデータを渡して文章を修正させる箇所。

chatGPTを使えば早いが、有料であり、本一冊分読ませただけでコストが跳ね上がるはず。

調べてみると、1000トークン0.002ドル。
一冊で8.3万文字、1文字1.5トークンとして、0.249ドル。
1ドル147円として、約36円。
これは自分ひとりならいいが、サービスとして公開するなら後々負担になる。

・懸念 著作権侵害になるのか?
自分のAPIでAIと応答したら、自分が他人のパソコンで他人の書籍のデータを自分のAPI=アカウントのAIに送ることになる。
自分だけで使っているうちはいいだろうが、それだと書籍データを他人(この私)に渡したことになるのではないか?
だったら、一般公開するならユーザーごとにAPIを取得してもらい、設定してもらう必要がある。

・Llama 2が無料らしいので試す
試したが、どうも日本語には対応していない。
有志が作った日本語対応チャットを試すが、chatGPTには遠く及ばない。
そのため今のところ実装はchatGPTでやるしかない。

・gTTSを使ってテキストを音声にする
1000〜2000文字が限界らしい。
そのため書籍データを分割する必要がある。
データ分割は1000文字プラス句点までで良いか。

タイトルとURLをコピーしました