kindle OCRアプリ開発 選択範囲の問題

kindleのテキストを抽出するプログラムを書いていましたが、問題が発生しました。

プログラムそのものは動く見通しが立ちました。

kindleの書籍にはテキストとイラストが混在し、それらを選択することでグレーで囲います。

イラストは大きいのでグレーで囲われたところが大きいならそこを白く塗りつぶし除去します。
グレーを白に置き換えると残るのはテキストだけになります。

それを読み取れば完成だと思っていました。

それらは実施できたのですが、問題が置きました。

1つはkindleで選択をするとコピーなどのウィンドウが立ち上がること。

これは選択範囲を上下で分ければ、上を選択したときは下側に表示され、下ならその逆になり影響しないと思っていました。

しかし、イラストが大きいと選択範囲が大きくなり、そのときは上側にウィンドウが表示され、文字とかぶって抽出できなくなってしまいます。

もう1つはテキストの下側の選択です。

kindleでは選択するとき、一番下の行でカーソルが一定以上離れると選択が解除されてしまいます。

その一番下の行が何文字あるのかわかりません。

だから最終行の文字の量に応じてカーソルで選択する座標を変更しなければなりません。

2番目の座標変更はできそうだが、1番目の大きい画像の選択範囲過大は対応できそうにありませんでした。

そのため一旦このkindleからの読み取りアプリは停止、それよりもこのアプローチでは停止することにしました。

今考えている可能性としては以下です。

・イラスト画像ごとgoogleのAPIに読ませて、イラストを排除する?chatGPTで修正
・同じくイラスト画像ごとchatGPTに読ませて、イラストを排除する

タイトルとURLをコピーしました