多くの研究者が誤解している類似率の話
1.はじめに ―「数字」に振り回されていませんか?
論文投稿の直前、iThenticate や Turnitin で類似率(Similarity Index)を確認した瞬間、心臓が止まりそうになった経験はないでしょうか。
「20%だった...これは多すぎるのでは?」 「30%を超えている...もう投稿できないのでは?」 「閾値って、何%までならセーフなの...?」
こうした不安は、世界中の研究者が共通して抱えているものです。とくに国際誌への投稿を控えた研究者にとって、類似率の数字は胃が痛くなるほどの重圧を伴います。
しかし、この「数字に対する不安」、その大部分は実は誤解に基づいているかもしれません。
本記事では、最新の研究データをもとに、
- 類似率の実態と平均値
- 数字が過大評価される構造的な理由
- 編集者や査読者が本当に見ているポイント
- 投稿前に取るべき正しい対応
を、丁寧に解きほぐしていきます。
2.データが示す「類似率の実態」、20%は、本当に異常値か?
4,000本の医学論文を調査した大規模研究
Park et al. (2017) は、約4,000本の医学論文を対象に類似率を調査するという大規模な研究を実施しました。その結果として明らかになったのは、次のような事実です。
Park, S., Yang, S. H., Jung, E., Kim, Y. M., Baek, H. S., & Koo, Y. M. (2017). Similarity Analysis of Korean Medical Literature and Its Association with Efforts to Improve Research and Publication Ethics. Journal of Korean Medical Science, 32(6), 887–892.
- 平均類似率:約5〜10%
- 類似率20%以上の論文:8.8%
- しかし、詳細確認を行うと"疑わしい論文"は3.5%まで減少
ここに、決定的に重要なポイントがあります。
「類似率20%以上」だった論文のうち、実際に問題のある論文はごく一部にすぎなかった―つまり、数字が高いこと自体が即"アウト"を意味するわけではないのです。
数字と"実態"のギャップは、なぜ生まれるのか
なぜ、機械が示す類似率と、実際の盗用リスクの間にこれほどのギャップが生じるのでしょうか。 それは、類似率検出ツールが**「文字列の一致」を機械的に拾い上げているだけ**であり、その一致が「学術的に問題なのか、それとも正当なのか」を判断しているわけではないからです。
3.なぜ類似率は「過大評価」されるのか ― 数式・表・専門用語の罠
Polyanin & Shingareva (2021) が指摘する構造的な問題
Polyanin & Shingareva (2021) は、iThenticate などの類似性検出システムを詳細に分析し、ある重要な指摘を行いました。
Polyanin, A., & Shingareva, I. (2021). The similarity index of scientific publications with equations and formulas, identification of self-plagiarism, and testing of the iThenticate system. 96–116.
それは、
数式・表・図・専門用語の多い論文では、類似率が過大評価されることがある
という事実です。
「似てしまうのが当たり前」な要素たち
考えてみれば当然のことですが、以下のような要素は、研究者がどれだけ独自に執筆しても、過去の論文と似通ってしまう運命にあります。
| 似通いやすい要素 | 理由 |
|---|---|
| 数式・公式 | そもそも書き方が国際的に標準化されている |
| 統計手法の記述 | "Student's t-test was performed using SPSS..." など定型表現 |
| 実験プロトコル | 確立された手順を書き換える方が逆に問題 |
| 専門用語・学名・化学式 | 言い換える余地がない |
| 参考文献リスト | 同じ論文を引用すれば当然一致する |
| タイトル・著者所属 | 形式上の重複は避けられない |
セクション別に見る「自然な類似率の傾向」
論文の構造ごとに、類似率には特徴的な傾向があります。
- Methods(方法)セクション:実験手法や統計解析の記述が、過去の論文と似通うのはむしろ自然
- レビュー論文:先行研究の紹介が多いため、一般的に類似率は高くなりやすい
- Introduction:分野の標準的な背景説明で、一定の重複が発生しやすい
- Results / Discussion:本来は著者独自の解釈が中心となるべき領域
つまり、「どのセクションで」「どんな性質の重複か」を切り分けて見ることが、類似率を読み解く本質なのです。
4.「5%だから安全」とも限らない ― 数字の落とし穴
ここまでは「数字が高くても問題ない場合がある」という話でしたが、逆もまた真です。
類似率が5%しかなくても、重要な文章を不適切に流用しているケースもあり得ます。
たとえば、
- Discussion の核心部分で、他人の論文の解釈をそのまま流用している
- 結論部分で、先行研究のキーセンテンスを引用なしでコピーしている
このような場合、全体の類似率は低くても、学術的には重大な問題となります。
5.編集者・査読者が本当に見ているもの
ここで、最も重要な視点に踏み込みましょう。
編集者や査読者が見ているのは「数字そのもの」ではなく、「どこが一致しているか」です。
これは類似率に関する最大の真実であり、多くの研究者が見落としている点でもあります。
「問題が少ない」一致パターン
以下のような箇所での一致は、比較的問題視されにくい傾向があります。
- タイトル(テーマが近ければ似て当然)
- 著者情報・所属(書式上の一致)
- 参考文献リスト(共通文献の引用)
- Methods(方法)(標準化されたプロトコル)
「問題視されやすい」一致パターン
一方、以下のセクションでの重複は、たとえ少量であっても深刻に受け止められます。
- Introduction の核心的な論述部分
- Results の独自データに関する記述
- Discussion の解釈・考察の核心
- 結論部分
同じ「類似率20%」でも、Methods での20%と Discussion での20%ではまったく意味が異なる―この感覚を持っているかどうかが、研究倫理リテラシーの分かれ目です。
6.見逃せない論点 ― 自己盗用(Self-Plagiarism)への注目
近年、特に注目が高まっているのが自己盗用(Self-plagiarism)の問題です。
「自分の過去論文の文章を、新しい論文で使い回すこと」―これも、無制限に許されているわけではありません。
自己盗用が問題視される理由
- 同じ研究を二重投稿(duplicate publication)しているように見える
- 出版社の著作権ポリシー違反になる可能性
- 研究成果の水増しにつながりかねない
- 読者を誤導する恐れ
注意したい場面
- 過去論文の Introduction を、ほぼそのまま新論文に流用
- 自分の博士論文の本文を、出典明示なく引用なく再利用
- シリーズ論文において、Methods をコピー&ペースト
たとえ自分の文章であっても、大量の文章をそのまま再利用すれば問題視される可能性がある―この認識は、これからの研究者に欠かせません。
7.危険な対応 ― 「数字を下げるためだけ」の言い換え
類似率に焦った研究者の中には、
「とにかく数字を下げよう」 「言葉を入れ替えてしまおう」 「類義語で置き換えれば大丈夫」
と、形式的な言い換えに走ってしまう方がいます。しかしこれは、極めて危険なアプローチです。
なぜ危険なのか
- 英語が不自然になる:類義語辞典に頼った機械的な置換で、ぎこちない英語に
- 本来の意味が損なわれる:専門用語を別の言葉に置き換えてしまい、意味がブレる
- 論理構造が崩れる:文の構成を無理に変えた結果、論述が破綻
- 新たな問題を生む:かえって AI 検知や査読で疑問視される
数字だけ下げて、内容が劣化してしまっては本末転倒です。
8.正しいアプローチ ― 「不必要な一致を適切に解消する」
ここで、改めて強調しておきたい原則があります。
重要なのは「数字を下げること」ではなく、「不必要な一致を適切に解消すること」です。
この発想の転換ができれば、類似率対応はぐっと建設的なものになります。
投稿前に取るべき4つのステップ
Copy① 一致箇所の確認
どこが、どんな性質の一致か、丁寧に把握する
↓
② 引用の適正化
引用すべき箇所は、適切な形式で明示的に引用する
↓
③ 文章構造の見直し
論述の組み立て自体を、自分の言葉で再構築する
↓
④ パラフレーズの実施
意味と論理を守りながら、自分の表現に置き換える
機械的な置換ではなく、「なぜこの一致が生じたのか」を理解したうえでの修正――これこそが王道です。
9.NAIの「類似性削減校閲Ⓡ」という選択肢
こうした対応は、研究者一人で抱え込むには負担が大きい作業です。 そこで活用できるのが、NAIの類似性削減校閲Ⓡです。
このサービスの最大の特徴は、
単に言い換えを行うのではなく、論文の意味や論理構造を維持しながら類似箇所を調整する
という、丁寧なアプローチにあります。
類似性削減校閲が大切にしていること
- 意味の保持:専門用語や論述の核を絶対に崩さない
- 論理構造の維持:論文全体の流れを尊重しながら調整
- 著者の声を残す:表面的な言い換えではなく、研究者本来の表現で再構築
- 適切な引用整備:引用すべき箇所は明示的に引用へと整える
- 長年の知見の蓄積:5年以上にわたる「類似性削減校閲Ⓡ」の経験
「数字を下げるための機械的修正」ではなく、「研究の価値を守るための知的作業」――これがNAIのスタンスです。
10.おわりに ― 類似率を「読み解く」研究者になろう
Turnitin や iThenticate が示す類似率の数字に、一喜一憂する必要はありません。 本当に大切なのは、
「どの部分が、なぜ一致しているのか」を理解すること
です。
数字に振り回されるのではなく、数字の背後にある構造を読み解く――この姿勢こそが、論文投稿成功への確かな第一歩です。
そして、もし類似率が高いことが投稿前に判明した場合は、無理な言い換えに走らず、専門家の手による丁寧な調整を検討してみてください。 NAIの「類似性削減校閲Ⓡ」は、研究の本質を守りながら、安心して投稿に臨むための心強いパートナーとして、これからも研究者の皆さまをサポートしてまいります。
参考文献
Park, S., Yang, S. H., Jung, E., Kim, Y. M., Baek, H. S., & Koo, Y. M. (2017). Similarity Analysis of Korean Medical Literature and Its Association with Efforts to Improve Research and Publication Ethics. Journal of Korean Medical Science, 32(6), 887–892. https://doi.org/10.3346/jkms.2017.32.6.887
Polyanin, A., & Shingareva, I. (2021). The similarity index of scientific publications with equations and formulas, identification of self-plagiarism, and testing of the iThenticate system. 96–116. https://doi.org/10.18698/2309-3684-2021-2-96116
