大阪万博のパビリオンの情報が「PDFで提供」されていると聞いて、PowerQueryで読み取ってみた。
PowerQueryOnlineに実装できたので、PowerAutomateによりOneDrive上のPDFからデータフローを通じてDataverseに入れてしまえば、あとは煮るなり焼くなり。
しかし問題は、元のPDFが「データ」としてあまりよろしくなくて、対応のためのM言語が複雑になりすぎていること。PDFは毎日更新されるので、この処理がどこまで対応しきれるか。
また、PDFのファイル名(すなわちダウンロードURL)も毎日変化するので、ダウンロードする処理も一苦労。
今はその部分をPythonで書いていて、もしここをPowerAutomateでやれれば全部をクラウド上で自動化できるけど、PowerAutomateにPDFの内部の情報(本文の文字列)を覗く機能が提供されているのかな?
このPDFのダウンロードリンクのあるページには別のPDFへのリンクもあって、これと特定できる情報はサイト(のソース)にはなく、結局「中」を覗くしかない。
なお、自分には万博に行く予定がない