IT・AI・DX,基本的な方法論

キーボードと手書き

学生時代は手書きのノートを使うのが当たり前だったが、仕事を始めパソコンを利用するようになってからは、手書きはヒアリング時のメモ程度になってしまった。しかしいつまでたってもタイピングは、キーボードを見ながらのミスタッチだらけで疲れ果て、手書きメモは乱雑な字で読み返せない。しかもどちらもすぐに散乱して所在不明となるので、文書作成はもストレスの元になるだけだった。この作業環境を改善することは積年の課題だ。

活字画像をテキストデータにする

文字はもともと画像だが、これをパソコンで扱うことのできるテキストデータにすると、所在探し(検索)や、情報処理・加工が容易になる(以下、テキストデータはパソコン画面でコピペできる文字とする)。

そこで①パソコンの外部にあるa手書き画像やb活字画像、②パソコン画面に表示されたb活字画像(やコピペに制限のあるテキストデータ)を、③パソコンで処理・加工ができるテキストデータにしたいが、どうすればよいか。
一番難しいのが①外部にあるa手書き画像を③テキストデータにすることだが、これは最後で取り上げよう。まず、活字画像のルートを考えよう。

パソコン画面の活字画像をテキストデータにする

最初に取り組むべきは、②パソコン画面の活字画像(やコピペに制限のあるテキストデータ)を③テキストデータにすることである。例えば、Kindleの画像本等だ。この方法はいろいろある。ただそれぞれ大なり小なり修正をしなければならないので、修正を少なくする工夫も必要である。

「瞬間テキスト2」

一番手軽なのは、「瞬間テキスト2」というOCR(文字認識)ソフトを使うことだ。「読み取り」をクリックして画面上の任意の文字部分を囲むだけでソフトのj上にテキスト化でき、価格も1,980円と手頃だ。短い文書はこれに限る。日本語+英語だけでなく、中国語、韓国語も読み取れるようだ。精度も2になって上がったような気がする。問題は「画面上の文字を囲む」前にソフトの「読み取り」をクリックするのが全画面表示にしているとできないことや、連続してテキストデータ化できないことぐらいだろうか。

その他の方法

Windows画面はコピーできるモード(Snipping。(windowsロゴマーク+shift+S))にして全画面あるいは任意の文字部分の画像を囲んでコピーできる。それをWORDに貼り付けてPDF形式で保存し、PDFelementというソフトのOCR機能でテキストデータにするという方法もある(OCRソフトは他にもいろいろある。)。連続してやりたいときは、複数のコピーを保存できるソフト(例えば「神コピ!」)を使う。
他にも、無料がよければ、1回毎にPaintに貼り付け、googleドライブに入れてgoogleドキュメントで開く方法もある。面倒だが、精度は相当なものだ。googleレンズを使ってもテキストデータにできる。

外部にある活字画像をテキストデータにする

次に①外部にある活字画像を③テキストデータにするにはどうすればよいか。まず①外部にある活字画像をパソコンで扱えるようにするためにスキャナーを利用する。その上で上記と同じように②パソコン画面の活字画像(のデータ)にして③テキストデータにするということになる。

事務所では

スキャン機能付きコピー複合機で外部にある活字画像(Real本や書類)をPDFないし画像データとしてスキャンしてパソコンに送付し、これを上記したPDFelementというソフトのOCR機能で③テキストデータにする。

自宅では

自宅では、古いスキャン機能付きコピー複合機を再利用しようと思ったが、さすがに活字画像の精度が低いので、スタンド型スキャナー(APEX AXSA4L)を購入してみた。スキャンだけを想定していたのだが、専用ソフトを使ってOCRもできる。ただ最初は少し分かりにくい。私用の備忘メモを作成しておく。
[[スタンド型スキャナーを使う]]

スキャンの違い

事務所のコピー複合機では、連続してスキャンすると一つのPDF文書となり、PDFelementでテキストデータ化できる。自宅のタンド型スキャナーでは、スキャンしていくと別文書になるが、選択して「エクスポート」すると一つの文書になる。

手書きの文書をテキストデータにする

Google レンズを使う

手書きの文書をテキストデータにするOCRは、AIOCRと言われ、現時点では非常に高価である。
しかし、通常使用する場面では、手書きの文書はそれほどの量にはならないので私レベルではGoogle レンズを使えば十分である。スマホ、タブレットで撮影して、Google レンズを使う方法もあるが、おそらくスキャナーで画像化し、パソコンのGoogle レンズを使う方が、使いやすいだろう。

音声をテキストデータにする

ただ考えてみれば、手書きの文書をスキャンーOCRを利用してテキストデータしようとしても、丁寧に文字を書いても変換精度はきわめて不十分である。それを考えれば、手書きの文書に基づいて、口頭で表現し、その音声をテキストデータ化する方がはるかにいいのではないか。音声のテキストデータ化は、Googleでもいい、私は「オートメモ」を使っている。
手書きノートの必要性は別に論じよう。

IT・AI・DX,基本的な方法論,日々雑感

増えすぎたKindle本をどうしよう

多くの人は今でも本屋に出かけ、早足にその本屋が在庫する本の全体像をスキャンし、良さそうなReal本を見繕って買うだろう。しかし、それを頻繁にすると居住空間が物理的に圧迫されることに加え、Real本は整理が難しい。
そこで私はReal本にKindle本があるときは、できるだけKindle本を買う(あるいは買い足す。)。結果、私のKindle本は、5千数百冊となってしまった。こうなると過去にどんな本を購入したか、この本は既に購入したかが分からなくなってしまう。
だからKindle本の一覧を取得し、整理できると便利だ。いろいろな方法が紹介されているが、今の一押しはKindlistだ。
これをインストールして起動し「変換」をクリックするとすぐに(10秒くらい?)に書籍名、出版社、著者、出版日、購入日等のExcelの「Kindle書籍一覧」が作成できる。Excelなので、当然、検索、並べ替えは簡単だ。私は、購入日の新しい順で並び変えている。

Excelの一覧表で整理する

ただ最初に書籍一覧を出力して見て、戸惑う人もあるだろう。人によっては書籍一覧にある本の数が随分多いはずだ。あれ??でも疑問は少しして解消される。ダウンロードだけして購入していない「サンプル」も書籍一覧に含まれているのだ。さてどうしよう。これはしばらく考えあぐねていたのだが、AmazonのWebの「コンテンツと端末の管理」「コンテンツ」「本」のページで、「サンプル」を表示し、不必要な「サンプル」を削除すると、書籍一覧にも表示されなくなる。後に購入したい「サンプル」を残しておきたいときは適宜のデバイスでそれをダウンロードしておけばよい。

検索・抽出した本を利用する

ただ書籍一覧から検索した本の情報を、コピペして利用できるかは別問題だ。これはExcel固有の問題だ。単純に全部検索するのは普通の検索だ。だがこれでは一つずつの検索結果に飛んでしかコピペできない。ある題名が含まれる「書籍名」の一覧を行毎すべてコピペできる状態で抽出するのは次の手順だ。放っておくと忘れてしまう。参考になる記事

1 ファイル(Kindle書籍一覧)を開く。
2 開いたシート(Kindle書籍一覧)の何も含まれない余分な1行目、1列目を全部削除する。
3 新しいシートを作成し、1列目の1,2行(A1セルとA2セル)に項目名(例:書籍名)及び半角のアスタリスクを付けた検索語(例:*人類。この*は全角)を記入する。
4 新しいシート1で抽出したデータを貼り付けたいセル(例:A4セル)を選択する。
5 新しいシート1で、データ→並び替えとフィルター→詳細設定を開き、詳細設定ダイアログボックスが表示されたら・・
①「抽出先」で「指定した範囲」を選択
②「リスト範囲」でシート(Kindle書籍一覧)シート1の全体を選択(一番左上の三角)を含む部分をクリック)して「↑」マークをクリック
③「検索条件範囲」に検索したい条件を記入したセル(書籍名と*人類(A1セルと
A2セル))を選択して「↑」マークをクリック
④「抽出範囲」に抽出したデータを貼り付けたいセル(A4セル))を選択して
「↑」マークをクリック
⑤OKボタンを押す

以上でどうでしょうか。

次は、Real本だが、私は「私本管理」を利用しているが、全然フォローしていない。。追ってまとめよう。

IT・AI・DX,ブログ本の森と山ある日々,基本的な方法論,本の森

書誌

因果推論の科学 「なぜ?」の問いにどう答えるか:ジューディア・パール、ダナ・マッケンジー (文藝春秋)
The Book of Why: The New Science of Cause and Effect (English Edition):Judea Pearl、Dana Mackenzie 

今一押しの本を記事作成の「練習」として紹介しよう 

今私が一番読み込みたいと思っている本は「因果推論の科学」だ。著者のジューディア・パールは、「アメリカの計算機科学者で哲学者であるが、人工知能への確率的アプローチとベイジアンネットワークを発展させたことで知られている(確率伝搬法を)。また、構造モデルに基づいた因果的かつ反事実的推論の理論を発展させた」(ウィキペディア)と紹介されている。
本書を読んでいてわかるのは、著者が、解決すべき問題に、「科学界の常識」とされていてもおかしな「因襲」に真正面から向き合い、自分の頭で考えて、自足することなく、次々に解決策を切り拓いてきたことである。「統計学」「データ」が支配的な状況の中でこれらが避けてきたが人の脳が得意とする「因果関係」を、「因果モデル」と「記号言語」を導入して取扱い、人の思考、社会の問題解決や「強いAI」を視野に入れていることである。このような一生を送っていることに感動すら覚える。
ただし本書の詳細な紹介は追ってとし、ここでは、やっと目途のついた「Obsidian」での原稿作成と「WordPress」での記事作成の「練習」(導入)を試みてみたい。
今回は、目次、及び序章の「推論エンジン」と第一章の「因果のはしご」を紹介したい。ついでに第六章で紹介されているモンティ・ホールのパラドックスを、最初に紹介しておこう(これはベイズ推計の本で紹介されていたように思う。)。本当はリストの該当箇所に次の画像を入れたかったのだが、ブロックエディターがすぐには言うことを聞いてくれないので、とりあえずモンティ・ホールのパラドックスの次に入れておく。

モンティ・ホールのパラドックス

モンティ・ホールのパラドックスとは次のような問いである。

「あなたがテレビのクイズ番組に出たとします。プレーヤーであるあなたの前には三つのドアが用意され、そのうちの一つを選ぶよう言われます。一つのドアの後ろには景品の新車が置かれ、残り二つのドアの後ろには、外れを意味するヤギがいます。新車の置かれたドアを選べば、その車をもらうことができます。プレーヤーがいずれか一つのドアを選択すると、司会者は残り二つのドアのうち、ヤギのいる方を開いて見せてくれます。ここで司会者からは、選択するドアを変更してもよいと言われます。あなたはどうしますか。ドアの選択を変更せず、そのままにしますか。それともまだ開かれていないドアに変更しますか。ドアを変更すると、少しでも有利になるでしょうか」。

さて、変更するのが正解だと聞かされたあなたはどう思うであろうか(確率は3分の1で変わるはずがないというのは間違いである。)。

因果推論エンジン

i因果推論エンジン

因果のハシゴ

因果のはしご

目次

  • はじめに
  • 序 章  「因果推論」という新しい科学
    • 導入 因果関係、すなわち原因と結果の関係について語ることは、科学の長年のタブーとされてきた。しかし近年、政治からAIにいたる幅広い分野で、因果関係の新しい科学である「因果推論」が大きな注目を集めている。
    • 無視されてきた因果関係
    • なぜ誰もやらなかったのか?
    • 統計学という抑圧
    • データは何も教えてくれない
    • 因果ダイアグラムと記号言語
      • P(L | do(D))
      • P(L | D)
    • 反事実的推論の重要性
    • 強いAIと因果推論
    • 現実の青写真
      • 「推論エンジン」のⅠないし9の説明
    • 「なぜ?」の問いに答えるロボット
    • 本書の構成
      一章から一〇章の簡単な説明
  • 第一章   因果のはしご
    • 因果関係を理解する能力を手に入れるには、三段の「因果のはしご」をのぼらなければならない。学習機械は一段目、初期人類は二段目にいる。三段目に到達できたのは、現在のところ私たち人間だけである。
  • 第二章   シューアル・ライトが起こした革命──因果推論創世記
    • 科学や統計学において因果関係はなぜ拒絶されるようになったのか? フランシス・ゴルトンによる相関の発見から、シューアル・ライトによる因果関係の再評価まで、因果推論誕生前夜の歴史をたどる。
  • 第三章   結果から原因へ ──ベイジアンネットワークの真価と限界
    • 一八世紀に発表されたトーマス・ベイズの理論をルーツとする「ベイジアンネットワーク」によって、コンピュータは不確実なことがらをはじめて扱えるようになった。その様々な応用例と限界について考える。
  • 第四章   交絡を取り除く──ランダム化比較試験と新しいパラダイム
    • R・A・フィッシャーが提唱したランダム化比較試験は、交絡因子の解消に関して、長らくゴールドスタンダードとみなされてきた。しかし因果革命によって、私たちはそれ以外の手段を手に入れることになった。
  • 第五章   タバコは肺がんの原因か? ──喫煙論争の煙を吹き飛ばす
    • 一九五〇~六〇年代初頭にかけて、統計学者たちは「喫煙は肺がんの原因か」という問題をめぐる論争に明け暮れていた。この難問はいかに解決されたのか? 因果推論が投げかける新しい光とは何か?
  • 第六章   パラドックスの詰め合わせ──因果のレンズで世界を見る
    • モンティ・ホールのパラドックス、シンプソンのパラドックス、バークソンのパラドックスなど、楽しくも手強い謎の数々を紹介する。おなじみの問題も、因果のレンズを通して見ると違う姿が浮かび上がってくる。
  • 第七章   介入──険しい山を登るための強力な道具一式
    • 介入は因果のはしごの二段目に位置する。「介入の山」の道は険しく、無事に登りきるためには、パスブロッキング、バックドア調整、フロントドア調整、操作変数、do計算法といった強力な登山道具が必要になる。
  • 第八章   反事実 ──「こうであったかもしれない」世界を考える
    • デヴィッド・ヒュームが一七四八年に因果性の定義を与えて以来、「反事実」は、因果関係の根底をなすものと捉えられてきた。因果のはしごの最上段に位置する反事実。その発展の歴史と現代の応用例を概説する。
  • 第九章   媒介──因果関係の背後にはどんな仕組みがあるのか?
    • 原因と結果をつなぐ「媒介」は、反事実の要素を含む難解な概念だが、因果推論の発展によって、今では簡単な数式で表せるようになった。媒介研究のパイオニア、バーバラ・バークスの知られざる業績とともに振り返る。
  • 第一〇章   ビッグデータ、AI、ビッグクエスチョン
    • 人間と同等の知性を持った「強いAI」を実現するには、自由意志の問題をはじめ、解決すべき課題が数多く残っている。だが、そうして生まれたAIは、人類の味方なのか、脅威なのか?私たちとAIの未来予想図。まず目次と本書に掲載されている /