原子力規制委員会がWebサイトで公開している資料の中で、「ストロンチウム」の「ト」と「ロ」が漢字の「卜」(ぼく)と「口」(くち)になっていたとネットユーザーに指摘され、サイトを公開している原子力規制庁が修正する騒ぎがあった。画像PDFをテキスト化する際、文字認識(OCR)ソフトが間違った文字を認識してしまったことが原因という。
誤字があったのは、今年1月に開かれた「第10回特定原子力施設監視・評価検討会汚染水対策検討ワーキンググループ」の会議資料一覧ページ。「福島第一原子力発電所におけるストロンチウム分析の状況について[東京電力]」という資料の「ト」と「ロ」がそれぞれ漢字になっており、「検索避けのためにあえて漢字にしたのでは」などと一部ネットユーザーの間で騒ぎになっていた。
同庁によると、Webサイトに掲載するテキストは通常、手打ちで確認しているが、この会議は資料が届いたタイミングがギリギリだったため、画像PDFをスキャンし、OCRソフトにかけてテキスト化したものをそのまま貼り付けたという。掲載時に目視で確認したが、「ト」と「ロ」が違うことに気づかずにアップしてしまったという。
ネットユーザーからの指摘を受け、6月9日に文字を修正。あわせて、同庁サイトのHTMLにほかに同様な間違い(「キ」と「千」のミス、「力」(ちから)と「カ」(カタカナのカ)のミスなど)がないかチェックしたところ、見つからなかったという。同庁の広報担当者は「こちらのミスで申し訳ない」と話している。
このほか、「東京電力」や「原子力」の「力」をカタカナの「カ」に変えてGoogle検索すると、関連のPDF資料が出てくることも話題になった。これらも画像PDFをOCRソフトにかけた際の変換ミスが原因とみられる。
関連記事
- Google DocsのOCR変換機能が日本語に対応
PDFファイルやスキャナで読み込んだ文書の画像ファイルをGoogle Docsにアップロードすると、編集可能なテキストファイルに変換できる機能が横書きの日本語に対応した。 - なぜ日本は福島原発で作業するロボットを創れないのか 大手が市場独占、技術力あるベンチャー参入できず
福島原発の事故を機に、原発施設で作業するロボット開発が加速している。日本では市場を大手企業や有名大学が独占し、ベンチャーは画期的な技術を開発しても参入は困難なのが実情だ。 - 「美味しんぼ騒動」背景に漫画とネットの親和性 「騒ぎすぎ」「国民の根本的な不安反映」
福島第1原発を取材した主人公が鼻血を出すなどの描写が物議をかもしている「美味しんぼ」。今回の問題の背景と漫画表現のあり方に関して、専門家の見解を聞いた。
関連リンク
Copyright© 2014 ITmedia, Inc. All Rights Reserved.