THIẾT KẾ BỘ ĐIỀU KHIỂN PID TỰ THÍCH NGHI TRỰC TUYẾN DỰA TRÊN THUẬT TOÁN HỌC SÂU TĂNG CƯỜNG TD3 CHO HỆ THỐNG LÁI TỰ ĐỘNG TÀU THỦY

Nguyễn Hữu Quyền1, , Nguyễn Hùng Cường1
1 Khoa Điện - Điện tử, Trường Đại học Hàng hải Việt Nam

Nội dung chính của bài viết

Tóm tắt

Bài báo đề xuất phương pháp điều khiển lái tự động thích nghi cho tàu thủy dựa trên sự kết hợp giữa bộ điều khiển PID truyền thống và thuật toán học sâu tăng cường (TD3: Twin Delayed Deep Deterministic Policy Gradient). Hệ thống được xây dựng trên mô hình động lực học phi tuyến 3 bậc tự do (surge–sway–yaw), mô hình phản ánh đầy đủ tính phi tuyến và sự tương tác giữa các thành phần chuyển động của tàu. Trong cấu trúc đề xuất, bộ PID thực hiện điều khiển thời gian thực, trong khi tác nhân TD3 tối ưu hóa trực tuyến các tham số với tốc độ cập nhật chậm, phù hợp với đặc tính quán tính lớn của tàu thủy, giúp duy trì tính ổn định của hệ thống trong suốt quá trình học.

Hàm thưởng (Reward function) được thiết kế đa mục tiêu, bao gồm sai lệch hướng đi, tốc độ  trở và năng lượng điều khiển (góc lái) nhằm cân bằng giữa độ chính xác bám hướng và tính kinh tế vận hành. Kết quả mô phỏng dưới tác động của nhiễu môi trường cho thấy phương pháp TD3 - PID cải thiện đáng kể so với bộ điều khiển PID truyền thống thông qua việc giảm thiểu hiện tượng quá điều chỉnh, sai số xác lập và biên độ dao động của góc lái. Nghiên cứu khẳng định khả năng ứng dụng cao của học sâu tăng cường trong điều khiển các hệ thống tàu thủy phi tuyến có quán tính lớn.

Abstract

This paper proposes an adaptive autopilot control method for ships based on the combination of a traditional PID controller and the Twin Delayed Deep Deterministic Policy Gradient (TD3) deep reinforcement learning algorithm. The system is built on a 3-degree-of-freedom (surge–sway–yaw) nonlinear dynamic model, which fully reflects the nonlinearity and interaction between the ship's motion components. In the proposed structure, the PID controller performs real-time control, while the TD3 agent optimizes the parameters online with a slow update rate, suitable for the high-inertia characteristics of ships, helping to maintain system stability throughout the learning process.

The reward function is designed with multiple objectives, including heading error, yaw rate, and control energy (rudder angle) to balance heading tracking accuracy and operational economy. Simulation results under the influence of environmental noise show that the TD3-PID method significantly improves compared to the traditional PID controller by minimizing overshoot, steady-state error, and the oscillation amplitude of the rudder angle. The study confirms the high applicability of deep reinforcement learning in controlling nonlinear ship systems with large inertia.

Keywords: Ship autopilot control, 3-DOF nonlinear model, Deep Reinforcement Learning, TD3, Adaptive PID.

Chi tiết bài viết

Tài liệu tham khảo

[1] T. I. Fossen, Marine Control Systems: Guidance, Navigation and Control of Ships, Rigs and Underwater Vehicles. Trondheim, Norway: Marine Cybernetics, 2002, ISBN: 978-8292356005.
[2] T. I. Fossen, Handbook of Marine Craft Hydrodynamics and Motion Control, 2nd ed. Chichester, U.K.: Wiley, 2021. doi: 10.1002/9781119575016.
[3] T. Perez, Ship Motion Control: Course Keeping and Roll Stabilisation Using Rudder and Fins. London, U.K.: Springer, 2005. doi: 10.1007/1-84628-157-1.
[4] Do K.D, Jie Pan (2009): Control of Ships and Underwater Vehicles Design for Underactuated and Nonlinear Marine Systems. Spring Science& Business Media, 2009. doi: 10.1007/978-1-84882-730-1
[5] D. Arend, A. T. S. Padda, A. Schwung, and D. Schwung, Online-adaptive PID control using reinforcement learning, in Proc. 2025 11th Int. Conf. Control, Decision and Information Technologies (CoDIT), 2025, doi: 10.1109/CoDIT66093.2025.11321229.
[6] D. Lee, S. J. Lee, and S. C. Yim, Reinforcement learning-based adaptive PID controller for DPS, Ocean Engineering, vol. 216, p. 108053, Nov. 2020, doi: 10.1016/j.oceaneng.2020.108053.
[7] J. Liu, K. Zhou, S. Li, and Y. Li, Trajectory tracking control of autonomous surface ships based on TD3 and curriculum learning, in Proc. IEEE International Conference on Mechatronics and Automation (ICMA), 2023, pp. 1–6, https://ieeexplore.ieee.org/abstract/document/11116221
[8] J. Wang, S. Yan, H. Bao, and C. Chen, Reinforcement-Learning-Based Adaptive PID Depth Control for Underwater Vehicles Against Buoyancy Variations, Journal of Marine Science and Engineering, vol. 14, no. 4, p. 323, Feb. 2026, doi: 10.3390/jmse14040323.
[9] S. Yu, Y. Li, and J. Gong, Research on hybrid policy optimization method based on deep reinforcement learning for ship heading control and path following, Ocean Engineering, vol. 305, p. 121597, 2025,
doi: 10.1016/j.oceaneng.2025.121597.
[10] S. Kumar, Predictive reinforcement learning based adaptive PID controller (PRL-PID) for unstable systems, arXiv preprint, arXiv:2506.08509, 2025.
[11] T. Shuprajhaa, S. Kanth, and K. Srinivasan, Reinforcement learning based adaptive PID controller design for control of linear/nonlinear unstable processes, Applied Soft Computing, vol. 128, 2022, doi: 10.1016/j.asoc.2022.109450
[12] Q. Shi, H. K. Lam, C. Xuan, and M. Chen Adaptive neuro-fuzzy PID controller based on twin delayed deep deterministic policy gradient algorithm, Neurocomputing, vol. 402, pp. 183–194, 2020. doi: 10.1016/j.neucom.2020.03.063
[13] X. Qu, Y. Jiang, R. Zhang, and F. Long, A Deep Reinforcement Learning-Based Path-Following Control Scheme for an Uncertain Under-Actuated Autonomous Marine Vehicle, Journal of Marine Science and Engineering, vol. 11, no. 9, 2023, Article 1762. doi: 10.3390/jmse11091762
[14] Z. Zhang, X. Li, and J. An, Model-free attitude control of spacecraft based on PID-guide TD3 algorithm, International Journal of Aerospace Engineering, vol. 2020, Art. no. 8874619, pp. 1–13, 2020, doi: 10.1155/2020/8874619.
[15] Y. Fan, H. Dong, X. Zhao, and P. Denissenko Path-Following Control of Unmanned Underwater Vehicle Based on an Improved TD3 Deep Reinforcement Learning, IEEE Transactions on Control Systems Technology, vol. 32, no. 5, pp. 1904–1919, 2024. doi: 10.1109/TCST.2024.3377876.
[16] S. Rajendran and S. Rajagopalan, Deep Reinforcement Learning Based Controller for Ship Navigation, preprint, 2023: https://www.researchgate.net/publication/368461775_Deep_Reinforcement_Learning_Based_Controller_for_Ship_Navigation
[17] S. Zhu, G. Zhang, Q. Wang, and Z. Li, Sliding Mode Control for Variable-Speed Trajectory Tracking of Underactuated Vessels with TD3 Algorithm Optimization, Journal of Marine Science and Engineering, vol. 13, no. 1, p. 99, 2025. doi: 10.3390/jmse13010099
[18] H. Lee and Y. Ahn, Comparative Study of RNN-Based Deep Learning Models for Practical 6-DOF Ship Motion Prediction, Journal of Marine Science and Engineering, vol. 13, no. 9, p. 1792, 2025, doi: 10.3390/jmse13091792.
[19] Y. Zheng, J. Tao, J. Hartikainen, F. Duan, H. Sun, M. Sun, Q. Sun, X. Zeng, Z. Chen, and G. Xie, DDPG based LADRC trajectory tracking control for underactuated unmanned ship under environmental disturbances, Ocean Engineering, vol. 275, p. 113667, 2023, doi: 10.1016/j.oceaneng.2023.113667.
[20] Q. Xie, C. Cao, Y. Zhao, and F. Li, Integrated guidance and control method based on deep reinforcement learning parameter tuning, Acta Aeronautica et Astronautica Sinica, 2025 (in Chinese), doi: 10.7527/S1000-6893.2025.32345.
[21] D.-A. Pham and S.-H. Han, Designing a ship autopilot system for operation in a disturbed environment using ANFIS, Journal of Marine Science and Engineering, 2023, doi: 10.3390/jmse11071262.
[22] S. Niu, Y. Lu, A. Savvaris, and A. Tsourdos, An energy-efficient path planning algorithm for unmanned surface vehicles, Ocean Engineering, vol. 161, pp. 308–321, 2018, doi: 10.1016/j.oceaneng.2018.01.025.
[23] S. Fujimoto, H. van Hoof, and D. Meger, Addressing function approximation error in actor-critic methods, arXiv preprint, arXiv:1802.09477, 2018, doi: 10.48550/arXiv.1802.09477.
[24] K. J. Astrom and T. Hagglund, PID Controllers: Theory, Design, and Tuning, 2nd ed. Research Triangle Park, NC, USA: ISA-The Instrumentation, Systems, and Automation Society, 1995. https://books.google.com/books?id=FsyhngEACAAJ
[25] R. S. Sutton and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. Cambridge, MA, USA: MIT Press, 2018. https://mitpress.mit.edu/9780262039246/reinforcement-learning/
[26] D. Zhang, T. Wang, W. Wang, and Z. Hao, Dynamic event-triggered heading control for autonomous surface vessels under unknown ocean disturbance, Ocean Engineering, vol. 325, p. 120776, 2025, doi: 10.1016/j.oceaneng.2025.120776.
[27] Y. Wang, Y. Hou, Z. Lai, L. Cao, W. Hong, and D. Wu, An adaptive PID controller for path following of autonomous underwater vehicle based on Soft Actor–Critic, Ocean Engineering, 2024, doi: 10.1016/j.oceaneng.2024.118171.
[28] L. Zhu and T. Li, Observer-based autopilot heading finite-time control design for intelligent ship with prescribed performance, Journal of Marine Science and Engineering, vol. 9, no. 8, p. 828, 2021, doi: 10.3390/jmse9080828.
[29] Z. Swider et al, Consistent design of PID controllers for an autopilot, Polish Maritime Research, 2023, doi: 10.2478/pomr-2023-0008
[30] S. Sivaraj and S. Rajendran, Heading control of a ship based on deep reinforcement learning,
in Proc. OCEANS 2022, Chennai, IEEE, 2022, pp. 1–6, doi: 10.1109/OCEANSChennai45887.2022.9775236.
[31] X. Wang, H. Yi, J. Xu, and C. Xu, PID controller based on improved DDPG for trajectory tracking control of USV, Journal of Marine Science and Engineering, vol. 12, no. 10, p. 1771, 2024, doi: 10.3390/jmse12101771.