Updated on 2024/12/24

写真a

 
HARA Sunao
 
Organization
Faculty of Environmental, Life, Natural Science and Technology Associate Professor
Position
Associate Professor
Profile

He received the B.S., M.S., Ph.D degrees from Nagoya University in 2003, 2005 and 2011, respectively.
He is currently an assistant professor in the Graduate School of Information Science, Nara Institute of Science and Technology.
His research interests include development and evaluation of spoken dialog in real environments.
He is a member of the Acoustic Society in Japan, Human Interface Society in Japan, and Information Processing Society of Japan.

External link

Degree

  • Ph.D (Information science) ( Nagoya university )

Research Interests

  • Human Interface

  • Spoken dialogue

  • Speech recognition

  • lifelog

  • Acoustic scene analysis

  • Acoustic event detection

  • Deep Learning

  • Machine Learning

  • Speech processing

  • Spoken dialog system

Research Areas

  • Informatics / Intelligent informatics

  • Informatics / Web informatics and service informatics

  • Informatics / Perceptual information processing

Research History

  • Okayama University   Faculty of Environmental, Life, Natural Science and Technology   Associate Professor

    2024.4

      More details

  • Okayama University   Graduate School of Interdisciplinary Science and Engineering in Health Systems   Assistant Professor

    2019.4 - 2024.4

      More details

    Country:Japan

    Notes:工学部 情報系学科

    researchmap

  • Okayama University   The Graduate School of Natural Science and Technology   Assistant Professor

    2012.9 - 2019.3

      More details

    Country:Japan

    Notes:工学部 情報系学科

    researchmap

  • Nara Institute of Science and Technology   Assistant Professor

    2011.11 - 2012.9

      More details

Professional Memberships

  • IEEE

    2016.6

      More details

  • THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS.

    2012.2

      More details

  • INFORMATION PROCESSING SOCIETY OF JAPAN

    2007

      More details

  • ACOUSTICAL SOCIETY OF JAPAN

    2004

      More details

  • The Japanese Society for Artificial Intelligence

    2024.5

      More details

Committee Memberships

  • 日本音響学会   編集委員会 会誌部会 委員  

    2023.6   

      More details

    Committee type:Academic society

    researchmap

  • 日本音響学会 関西支部   第24回若手研究者交流研究発表会 実行委員長  

    2021.4 - 2022.3   

      More details

    Committee type:Academic society

    researchmap

  • 日本音響学会   広報・電子化委員会 委員  

    2013.10   

      More details

    Committee type:Academic society

    電子化・広報推進委員会

    researchmap

  • 日本音響学会   研究発表会準備委員会 委員  

    2023.6   

      More details

    Committee type:Academic society

    researchmap

  • 日本音響学会   2023年春季研究発表会 遠隔開催実行委員会 委員  

    2022.12 - 2023.3   

      More details

    Committee type:Academic society

    researchmap

▼display all

 

Papers

  • Continual learning on audio scene classification using representative data and memory replay GANs Reviewed International coauthorship International journal

    Ibnu Daqiqil ID, Masanobu Abe, Sunao Hara

    Bulletin of Electrical Engineering and Informatics   14 ( 1 )   568 - 580   2025.2

     More details

    Authorship:Last author   Language:English   Publishing type:Research paper (scientific journal)   Publisher:Institute of Advanced Engineering and Science  

    This paper proposes a methodology aimed at resolving catastropic forgetting problem by choosing a limited portion of the historical dataset to act as a representative memory. This method harness the capabilities of generative adversarial networks (GANs) to create samples that expand upon the representative memory. The main advantage of this method is that it not only prevents catastrophic forgetting but also improves backward transfer and has a relatively stable and small size. The experimental results show that combining real representative data with artificially generated data from GANs, yielded better outcomes and helped counteract the negative effects of catastrophic forgetting more effectively than solely relying on GAN-generated data. This mixed approach creates a richer training environment, aiding in the retention of previous knowledge. Additionally, when comparing different methods for selecting data as the proportion of GAN-generated data increases, the low probability and mean cluster methods performed the best. These methods exhibit resilience and consistency by selecting more informative samples, thus improving overall performance.

    DOI: 10.11591/eei.v14i1.8127

    researchmap

  • OtologMap: a case study on the construction of an environmental sound map recorded by smart devices at Okayama and Kurashiki Reviewed International journal

    Sunao Hara, Masanobu Abe

    Noise Control Engineering Journal   1 - 12   2025.2

     More details

    Authorship:Lead author   Language:English   Publishing type:Research paper (scientific journal)   Publisher:Institute of Noise Control Engineering of the USA  

    DOI: 10.3397/1/37731

    researchmap

  • Explicit Prosody Control to Realize Discourse Focus in End-to-End Text-to-Speech Reviewed International journal

    Takumi WADA, Sunao HARA, Masanobu ABE

    IEEE International Workshop on Machine Learning for Signal Processing   2024.9

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)  

    researchmap

  • Speech Synthesis Using Ambiguous Inputs From Wearable Keyboards Reviewed International journal

    Matsuri Iwasaki, Sunao Hara, Masanobu Abe

    2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2023)   1172 - 1178   2023.11

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)  

    This paper proposes a new application in speech communication using text-to-speech (TTS), and the goal is to enable dysarthria, articulation disorder, or persons who have difficulty in speaking to communicate anywhere and anytime using speech to express their thoughts and feelings. To achieve this goal, an input method is required. Thus, we propose a new text-entry method based on three concepts. First, from an easy-to-carry perspective, we used a wearable keyboard that inputs digits from 0 to 9 in decimal notation according to 10-finger movements. Second, from a no-training perspective, users input sentences in a way of touch typing using the wearable keyboard. Following this method, we obtained a sequence of numbers corresponding to the sentence. Third, a neural machine translation (NMT) method is applied to estimate texts from the sequence of numbers. The NMT was trained using two datasets; one is a Japanese-English parallel corpus containing 2.8 million pairs of sentences, which were extracted from TV and movie subtitles, while the other is a Japanese text dataset containing 32 million sentences, which were extracted from a question-and-answer platform. Using the model, phonemes and accent symbols were estimated from a sequence of numbers. Thus, the result accuracy in symbol levels was 91.48% and 43.45% of all the sentences were completely estimated with no errors. To subjectively evaluate feasibility of the NMT model, a two-person word association game was conducted; one gave hints using synthesized speech that is generated from symbols estimated by NMT, while the other guessed answers. As a result, 67.95% of all the quizzes were correctly answered, and experiment results show that the proposed method has the potential for dysarthria to communicate with TTS using a wearable keyboard.

    DOI: 10.1109/APSIPAASC58517.2023.10317228

    Scopus

    researchmap

  • Speech-Emotion Control for Text-to-Speech in Spoken Dialogue Systems Using Voice Conversion and x-vector Embedding Reviewed International journal

    Shunichi Kohara, Masanobu Abe, Sunao Hara

    2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2023)   2280 - 2286   2023.11

     More details

    Language:English   Publishing type:Research paper (international conference proceedings)  

    In this paper, we propose an algorithm to control both speaker individuality and emotional expressions in synthesized speech, where the most important feature is the controllability of intensity in emotional expressions. An aim of the proposed algorithm is to generate various responses including emotions in text-to-speech (TTS) for spoken dialogue systems (SDS), which results in making the system more human-like. An idea is to control emotion and its intensity in line with the user's utterances. For example, when a user happily talks to SDS, the agent of the SDS responses with happy voice. Generally, voice quality of a user and the agent are different. Therefore, the proposed algorithm consists of two steps: (1) voice conversion to change speaker individuality including emotional expressions and (2) TTS with x-vector acting as an embedding vector to mainly control speech quality related to the intensity of emotions. Evaluation experiments are carried out using a scenario of a spoken dialogue system, where a teacher system of TTS encourages or cheers up students according to students' utterances. The experiment results showed that TTS can successfully reproduce the emotion and its intensity that are extracted from students' utterances, while maintaining the teacher's speaker individuality.

    DOI: 10.1109/APSIPAASC58517.2023.10317413

    Scopus

    researchmap

▼display all

MISC

  • 機械学習による環境音からの主観的な騒音マップ生成 Invited

    原直, 阿部匡伸

    騒音制御   46 ( 3 )   126 - 130   2022.6

     More details

    Authorship:Lead author   Language:Japanese   Publishing type:Article, review, commentary, editorial, etc. (scientific journal)  

    researchmap

  • クラウドセンシングによる環境音の収集 Invited

    阿部匡伸, 原直

    騒音制御   42 ( 1 )   20 - 23   2018

     More details

    Language:Japanese   Publishing type:Article, review, commentary, editorial, etc. (scientific journal)  

    researchmap

  • Environmental sound sensing by smartdevices, and its applications Invited

    73 ( 8 )   483 - 490   2017.8

     More details

    Authorship:Lead author   Language:Japanese   Publishing type:Article, review, commentary, editorial, etc. (scientific journal)  

    DOI: 10.20697/jasj.73.8_483

    CiNii Article

    CiNii Books

    researchmap

  • イベントを比喩に用いた感情伝達法の検討 Reviewed

    濱野和人, 原直, 阿部匡伸

    電子情報通信学会論文誌   J97-D ( .12 )   1680 - 1683   2014.12

     More details

    Language:Japanese   Publishing type:Rapid communication, short report, research note, etc. (scientific journal)   Publisher:電子情報通信学会  

    researchmap

  • Potential Applications of Acoustic Signal Processing from Lifelog Research Perspectives Invited

    38 ( 1 )   15 - 21   2014

     More details

    Authorship:Lead author   Language:Japanese   Publishing type:Article, review, commentary, editorial, etc. (scientific journal)  

    CiNii Article

    CiNii Books

    researchmap

▼display all

Presentations

  • 人対人の会話で自然な話題展開を支援するための対話戦略の検討

    前薗そよぎ, 原直, 阿部匡伸

    音学シンポジウム2021(情報処理学会 音声言語処理研究会)  2021.6.18  情報処理学会

     More details

    Event date: 2021.6.18 - 2021.6.19

    Language:Japanese   Presentation type:Poster presentation  

    researchmap

  • 呼気流路の容易な制御を目的とした面接触型人工舌の構音改善に関する実験的研究

    長塚弘亮, 川上滋央, 古寺寛志, 佐藤匡晃, 田中祐貴, 兒玉直紀, 原直, 皆木省吾

    日本顎顔面補綴学会 第38回総会・学術大会  2021.6.4 

     More details

    Event date: 2021.6.3 - 2021.6.5

    Language:Japanese   Presentation type:Poster presentation  

    researchmap

  • ニューラル機械翻訳により推定された読み仮名・韻律記号を入力とする日本語 End-to-End 音声合成の評価

    懸川直人, 原直, 阿部匡伸, 井島勇祐

    日本音響学会2021年春季研究発表会  2021.3.11  日本音響学会

     More details

    Event date: 2021.3.10 - 2021.3.12

    Language:Japanese   Presentation type:Oral presentation (general)  

    researchmap

  • Evaluation of Concept Drift Adaptation for Acoustic Scene Classifier Based on Kernel Density Drift Detection and Combine Merge Gaussian Mixture Model

    Ibnu Daqiqil Id, Masanobu Abe, Sunao Hara

    2021.3.10 

     More details

    Event date: 2021.3.10 - 2021.3.12

    Language:Japanese   Presentation type:Oral presentation (general)  

    researchmap

  • 歌唱表現を付与できるBidirectional-LSTM を用いた歌声合成方式の検討

    金子隼人, 原直, 阿部匡伸

    日本音響学会2021年春季研究発表会  2021.3.10  日本音響学会

     More details

    Event date: 2021.3.10 - 2021.3.12

    Language:Japanese   Presentation type:Poster presentation  

    researchmap

▼display all

Works

  • ipyaudioworklet

    Sunao Hara

    2023.11

     More details

    Work type:Software   Location:GitHub  

    A Jupyter Widget for Web Audio Recording using Audio Worklet

    This extension will be enable us to record PCM audio using AudioWorkletNode of Web Audio API. For the security constraints of major web-browsers, you need to run JupyterLab with HTTPS context.

    researchmap

  • ChartEx

    Sunao Hara

    2017.5

     More details

    Work type:Software   Location:GitHub  

    Excel Addin for export chart as image file such as png, jpeg, and pdf.

    researchmap

  • オトログマッパー

    原 直

    2014
    -
    2016

     More details

    Work type:Software   Location:Google Play  

    研究用に作成した Android アプリケーション

    researchmap

  • TTX KanjiMenu Plugin

    Sunao Hara

    2007.3

     More details

    Work type:Software  

    researchmap

  • Pocket Julius

    原直

    2003.1

     More details

    Work type:Software  

    このパッケージは大語彙音声認識デコーダ Julius を Microsoft Pocket PC 2002 環境で動くようにした Pocket Julius のデモパッケージです.

    researchmap

Awards

  • 学会活動貢献賞

    2023.3   日本音響学会  

     More details

  • 教育貢献賞

    2022.3   岡山大学工学部   教育用計算機システムの充実に関する貢献

    乃村 能成, 上野 史, 原 直, 渡邊 誠也

     More details

  • 教育貢献賞

    2022.3   岡山大学工学部   実験・演習科目における音声配信環境の構築

    原 直, 右田 剛史

     More details

  • 社会貢献賞

    2021.3   岡山大学工学部  

     More details

  • ベストティーチャー賞

    2020.3   岡山大学工学部  

     More details

▼display all

Research Projects

  • Research on a machine learning method for estimating atmospheres of tourist attractions from environmental sounds considering concept drift

    Grant number:23K11335  2023.04 - 2027.03

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research  Grant-in-Aid for Scientific Research (C)

    原 直

      More details

    Grant amount:\4680000 ( Direct expense: \3600000 、 Indirect expense:\1080000 )

    researchmap

  • 協調的ライブ記録が支えるアクティブラーニング@オンラインの技術研究

    Grant number:21K12155  2021.04 - 2024.03

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (C)  Grant-in-Aid for Scientific Research (C)

    西村 竜一, 原 直

      More details

    Authorship:Coinvestigator(s) 

    Grant amount:\4030000 ( Direct expense: \3100000 、 Indirect expense:\930000 )

    本研究では、アクティブラーニングをオンライン展開するために必要となる要素技術開発を行う。特に、グループワークをオンラインで実施することを想定し、学生と学生、学生と指導者、指導者と指導者の間の意思疎通を支援する技術を開発する。
    利用者に適応可能なフレキシブルなインタフェースを実現するため、話者判別法の検討を行った。特に、若年話者判別タスクに深層学習を適用し、異なる分類モデルの検証を行った。データセットには、クラウドソーシングで収集したオンライン実環境発話を使用した。
    オンラインでの意思疎通の際に、度々問題となる話者の早口の可視化手法を検討した。自動音声認識を応用して、単位時間あたりの発話文字数(発話速度)の計測を試みたが、早口の検出部分と聴講者が早口と感じるタイミングが異なることがあることを確認した。複数の自動音声認識エンジンを併用した実験では、人手で書き起こした正確な場合よりも自動音声認識の出力文字数が少なくなる傾向があった。この減少を早口の可視化のファクタとして利用することを検討した。
    音声と映像の併用特徴量を用いて、議論の様子の評価手法を検討した。音と画像を併用することで識別率の改善傾向が得られた。音響信号が取得できない場合でも、画像中の人の動きから判定できることがあることを確認した。多様な情報源から、適切な特徴量を見出す方式について、さらに検討する。
    敵対的生成ネットワークを用いた話者匿名化手法の検証を行った。匿名化処理後の音声に対し、自然性と話者認識可能性、話者弁別可能性を調査した。自然性について、従来法と比較してスコアの改善を得た。処理後音声からの話者特定は困難であることを確認した。話者弁別正解率から、処理後音声間の話者弁別は可能であることが示された。

    researchmap

  • 感情や個人性を高品質に表現可能なDNNに基づく音声合成方式の研究

    Grant number:21K11963  2021.04 - 2024.03

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (C)  Grant-in-Aid for Scientific Research (C)

    阿部 匡伸, 原 直

      More details

    Authorship:Coinvestigator(s) 

    Grant amount:\4160000 ( Direct expense: \3200000 、 Indirect expense:\960000 )

    研究計画調書に記載した課題に関して,令和3年度(2021年度)に実施した内容は下記の通り。
    (課題1)非言語情報の表現モデル 「①-1感情表現モデルの検討」 については,話者性を制御できるように補助情報として話者IDを加えるとともに,感情の強さを感情IDのone-hotベクトルの重みによって合成時に制御できるようにモデル構造を改良した。「①-2感情強度表現方式の検討」についてはMOSテストによって感情の強さ制御性能を評価した。評価実験から感情IDの操作によって,“Happy”は感情の強さを制御可能であることが示された.一方,“Angry”は感情の強さが“Happy”ほど適切に制御できなかった。分析の結果, “Angry”は“Normal”に類似した音響パラメータ特徴となっており,今回の実験に使用した“Angry”データは細かな操作が難しい音声であることが明らかとなった。「①-3話者性の多様化への適用」については, ABX テストにより合成音声の話者性を評価した。Xとして自然音声か合成音声のどちらかを提示し,XがA話者とB話者のどちらに近いかを判定させた。自然音声では,“Happy” と“Normal” では正解率が約95%,“Angry” は正解率が約85%であり,他の感情に比べて話者性の差が小さいと考えられる.これに対して合成音声はどの感情においても70%程度となり,正解率は低下するものの話者性の識別はできていると考えられる。また,“Happy”は,話者性の識別率が高く,“Angry”は,話者によっては識別率の高い話者がいた。また,話者性の識別は声質の違いと感情の表出の違いとがあり,どちらが重要な要因であるかはさらなる実験が必要である。

    researchmap

  • 観光地の雰囲気可視化を可能とする簡易なアノテーションに基づく深層学習方式の研究

    Grant number:20K12079  2020.04 - 2023.03

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (C)  Grant-in-Aid for Scientific Research (C)

    原 直

      More details

    Authorship:Principal investigator 

    Grant amount:\4290000 ( Direct expense: \3300000 、 Indirect expense:\990000 )

    課題1に関連して,これまでに収録を行っていたデータ約800個に対して,1名による詳細なアノテーション付与を行った.課題3で検討した項目に準じて付与を行った.アノテーションのための環境音聴取時には,ストリートビューの映像も同時に提示することで,音だけに依存しない場の印象や雰囲気をアノテーションすることとした.
    課題2に関連して,課題1で得られたデータを利用し,単純なDNN方式による地域特性の分類を行った.分類器には,音源情報を入れることで,地域特性の推定精度が上がる.このとき,人手でつけた音源情報ではなく,音響信号と航空写真から推定した音源情報によっても,人手の情報と同程度の推定精度が得られることを示した.これにより,詳細アノテーションに比肩する情報を,簡易アノテーションに付加情報を与えることで得られる可能性が示唆された.さらに,Concept Driftに基づく適応方式の研究を進めた.
    課題3に関連して,昨年度に引き続き,ISO12913のサウンドスケープとしての考え方に基づいた研究を進めた.地域特性を表現するアノテーションとして,8種類の評価軸を用いることとした.ただし,人手の評価によるばらつきも考慮し,8つの評価軸から,より簡潔に表現することができる2種の評価軸で表す方式を採用し,課題2における推定方式の検討を進めた.
    課題2に挙げたConcept Driftの考え方を取り入れた研究として,国際会議1件,論文誌1件の発表をおこなった.また,各課題にて挙げた内容に基づき,国内会議2件の発表をおこなった.

    researchmap

  • Development of PBL instruction support system to measure learners' activities using acoustic signals

    Grant number:18K02862  2018.04 - 2022.03

    Japan Society for the Promotion of Science  Grants-in-Aid for Scientific Research Grant-in-Aid for Scientific Research (C)  Grant-in-Aid for Scientific Research (C)

    NISIMURA Ryuichi

      More details

    Authorship:Coinvestigator(s) 

    Grant amount:\4420000 ( Direct expense: \3400000 、 Indirect expense:\1020000 )

    In this study, we developed a technology to realize an instructor support system for group work by applying sound information processing technology. (1) Wearable devices worn by learners were improved by evaluating sound source separation features. (2) Deep learning identification algorithms were developed to visualize the participation attitudes of learners. (3) We developed a group work logging system and a support system for annotating group work participation information. (4) We developed a method for speaker anonymization of recorded group work speech by applying deep learning voice transformation. Due to the impact of the new coronavirus, we had to change our original plan and decided not to continue the face-to-face experiments, but we were able to obtain new knowledge that is useful for online education.

    researchmap

▼display all

 

Class subject in charge

  • Seminar in Pattern Information Processing (2024academic year) Year-round  - その他

  • Exercises on Programming 1 (2024academic year) 1st semester  - 水1~3

  • Exercises on Programming 2 (2024academic year) Second semester  - 水1~3

  • Exercises on Programming 1 (2024academic year) 1st semester  - 水1~3

  • Exercises on Programming 2 (2024academic year) Second semester  - 水1~3

▼display all

 

Academic Activities

  • 日本音響学会第24回関西支部若手研究者交流研究発表会

    Role(s):Planning, management, etc.

    日本音響学会関西支部  ( オンライン(Gather.Town) ) 2021.12.4

     More details

    Type:Academic society, research group, etc. 

    日本音響学会関西支部では,若手研究者間での研究交流及び相互啓発を目的として,1998年より「若手研究者交流研究発表会」を開催しています。これまでに数多くの若手研究者の方々に参加・発表していただきました。本年度は,新型コロナウイルス感染症に対する各種イベントへの社会的要請等を鑑み,オンラインで開催します。研究者間の交流だけでなく産学の交流も深めるために,賛助会員の企業展示も開催する予定です。

    researchmap