総務省が公開している収支報告書PDFはテキストデータではなくて画像データなのです
ということて、画像データである収支報告書をGoogle Visionを使って
画像→テキストにしています(OCRってやつですね)
なので、読み取り精度は100パーセントにはならないのです。人間が読んでもなんて書いてあるか分からないような手書き文字があったりするし。感覚的には80~90パーセントの精度で読み取れているはずです
OCRの精度としたはGoogleVISIONはバケモノじみています(有料だけどね…)
あとは3年分のテキストデータだけでもギガレベルで膨大なので
SQLiteというデータベースを使って検索効率を高めています。単語がどこで区切られているかによって(トークン化ってやつ)検索精度も微妙に左右されちゃってるので
そこでも期待している結果から少し下がってるところはあると思います。