近年、国内外でデータの利活用が進み、自社の持つデータを新たなビジネス創出やコスト削減等に活用する取り組みが加速している。
一方で、プライバシー保護に違反した大手IT巨大企業に巨額の制裁金が課される事件など、プライバシー保護の取り組みも重要になってきている。
この背景からプライバシー保護とデータの利活用の両立がますます求められている。
このプライバシー保護とデータの利活用を両立する技術として、近年「差分プライバシー」という技術が注目されている。
差分プライバシーとは、あるデータをランダム化し、個人を特定するのを防ぐと同時に、統計的有意性を保証するという技術である。
今回は、差分プライバシーを利用して、文書の書き換えを行い、プライバシー保護を行い、その書き換えた文書を機械学習を用いてテキスト分類を行い、精度がどう変化するのかを調査した。
処理の手順を以下に示す。

まず、元の文書を使って、文書書き換えモデル(ADePT)を事前学習させる。ADePTとはLSTMベースのオートエンコーダーである。更に元の文書を使って、fine-tuningを行い、元の文書を「書き換えた文書」に変換する。この書き換えた文書をBERTを用いて、テキスト分類をして、テキスト分類の正確性(Accuracy)とF1スコアを求めた。
また、差分プライバシーの重要なパラメータであるεを変化させて、精度がどう変化するのかを調査した。εとは、プライバシー保護とデータの統計的有意性のトレードオフを表すパラメータとなっており、εが小さいとプライバシーは保護されるが、統計的有意性は失われ、逆にεが大きいと統計的有意性は保存されるが、プライバシーは保護されない。
実験結果を以下に示す。

εを1にすると極端に精度が下がることがわかる。逆にεが10,000だと差分プライバシーなしとあまり変わらない事がわかる。