弁護士 小倉秀夫
このページは、足立区北千住で法律事務所を開設する弁護士が、日頃どのようにITやAIを活用しているのか、備忘録的に書き記すことを目的としています。
文献のOCR化をGeminiやChatGPTでやっていたが、某修士論文のOCR化をしようとしたところ、出力の範囲を超えていると怒られてしまった。まあ、A4で60ページ超えていたから仕方ないか。
もちろん、Acrobat ProでもOCR化はできるし、その場合、ページ数が厚くてもなんとかなるのだけど、Acrobat ProのOCRは読み間違いや読み飛ばしが多い。OCRについては、GeminiやChatGPTのような汎用AIの方が精度が高い。
各頁の最下方に脚注を表示している文献をOCRしてテキスト化した場合、本文の途中に脚注が挿入されることになってしまう。とりあえず、選択範囲を文書の最後方にカット・アンド・ペーストするMS-WORD用のApple Scriptを組むことで手動で調整できるようにする。しかし、この作業は、自動化したい。
また、判例データベースだと①や②を[1][2]と標記することが多いので、[1][2]…を①、②…と置換するAppleScriptも組んでおいた(ついでに、(1)や(2)も⑴や⑵に置換するようにしておいた。)。
図書館でコピーした文献をScanして作成したPDFファイルについてGeminiに「EPub化しやすいように整形して」とお願いして作成したデータをWordに貼り付けて保存し、これをCalibreに読み込んでEPub化してKindle Scribeにメール送信してみた。これだと、もとの掲載誌のフォントが小さくても、問題にならない。まあ、基本的に知財に関する論文を書くための資料としてあるいは裁判のために使用する資料として文献を集めているわけだし、Geminiは公衆用自動複製機器にはあたらないので、著作権法第30条第1項で普通に合法化される利用である。
こうしておけば、Kindle Scribeじゃなくて、もっと画面の小さい電子書籍端末でも、雑誌論文を読む気になれる。
ただ、Fontの大きさはKindle側で調整できるのだけど、Fontの種類がゴシックで固定されてしまっている。ここを改善したい。
A3横置きのPDFページを中央で分割してA4縦置き2ページに分割する(B4横置きのPDFページなら中央で分割してB5縦置き2ページに分割する)Acrobat Pro用のAppleScriptをGeminiに命じて作成。図書館等でA4版の雑誌に掲載されている論文を見開きでコピーした後(この時点でA3横置きになっている)、スキャナでスキャンした後に、もとのA4ページとして表示できるようになった。
事務所にある複合機自体はA4までしか対応していないので、A3横置きのコピーを中央で切断して複合機でScanしているのだが、従前は、オートシートフィーダにかける前に、手動で順番を調整していた(切断してできた束のうち右側のものを左側の後ろに持って行くと、1,3,5,7,9,…2,4,6,8,10…という順番になってしまうので。)。この作業が結構面倒くさいので、切断してできた束のうち右側のものを左側の後ろに持ってそのままオートシートフィーダにかけてScanした後、1,2,3,4,5,6,…とページを並べ替えるAcrobatPro用のAppleScriptはすでにGeminiに作ってもらった。
厚手の書籍をコピー機でコピーすると、中央付近に黒い帯ができる。この黒い帯で左右ページをわけると、コピーを取る際に位置が多少ずれていても補正できるのだけど、それをやるのはAppleScriptだけでは無理、Pythonで処理するようにとGeminiに言われてしまった。